목록AI/NLP (6)
Tomato Basil
[ Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks ]대형 언어 모델(LLM)을 평가 도구로 활용하여 인간 평가(human evaluation)와의 일치성을 분석하는 연구입니다. 이 논문은 LLM이 챗봇과 같은 AI 모델의 성능을 평가하는 데 있어 인간의 선호도를 얼마나 잘 반영할 수 있는지를 탐구합니다. 요약기존의 벤치마크는 인간 선호도를 제대로 반영하지 못했기 때문에 이러한 문제를 해결하기 위해 LLM을 심판으로 사용하는 방법(LLM-as-a-judge)을 제안했습니다. 연구 내용에서는 LLM을 심판으로 사용할 때 발생할 수 있는 편향(position, verbosity, self-enhancement bias 등)을 분석하고 이..
LangChain을 이용하여 RAG 기반의 챗봇 "chat with my data"를 만들어보는 미니 프로젝트이다. LangChain은 LLM 어플리케이션 제작을 위한 오픈소스 프레임워크이다. Python 과 TypeScript 패키지가 있으며, 모듈러 컴포넌트도 있지만 end to end 탬플릿도 있다.템플릿의 예시로는 다음과 같이 있다.PromptsModelsIndexesChainsAgents이번 프로젝트는 '랭체인을 이용해 데이터와 채팅하기' 이다.벡터 스토어(Vector Store)에 데이터를 로딩하는 과정, 벡터 스토어로부터 질문에 대한 답을 가져오는 과정으로 나뉜다. 1. 문서 로딩 (document loading)Loader데이터를 수집하는 로더는 웹사이트나 데이터베이스 등의 소스에서 P..
[ Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks ]Facebook AI Research, UCL, NYU 연구진이 NeurIPS 2020 학회에서 발표한 논문입니다.Retrieval-Augmented Generation(RAG)은 질의에 대한 답을 생성하기 전, 외부에서 관련 정보를 검색함으로써 답변의 정확도를 높이는 방법입니다. LLM이 학습된 이후 업데이트 되지 않는다면 최신 정보를 반영하기 어렵고, 특정 도메인에 대해 전문적인 답변을 하기 위해서는 그에 특화된 외부 DB를 가지는 것이 효율적이기 때문에 RAG의 활용도는 높아지고 있습니다. 1. 들어가며사전 훈련된 신경망 언어 모델들은 매개 변수에 저장된 상당한 양의 정보로 제..
[ Chain-of-Thought Prompting Elicits Reasoning in Large Language Models ]Jason Wei, Zuezhi Wang, Dale Schuurmans 외 6인의 연구진이 NeurIPS 2022 학회에서 발표한 논문입니다.Chain-of-Thought(CoT), 즉 중간 단계의 사고 과정이 LLM의 복잡한 추론 성능을 향상시킬 수 있다는 내용입니다. 1. 들어가며NLP 분야는 LLM의 등장으로 판도가 바뀌었습니다. LLM의 규모가 커지며 많은 이점을 얻었지만, 단순히 LLM의 크기를 키우는 것만으로는 세 가지 태스크(arithmetic, commonsense, symbolic reasoning)에 대한 성능 향상에 도움이 되지 못했습니다. 따라서 프롬..
[ Attention Is All You Need ]2017년 Google Brain 팀에서 발표한 혁신적인 논문입니다.기존의 RNN이나 CNN 구조를 완전히 배제하고, 오직 어텐션(Attention) 메커니즘만을 사용하여 새로운 신경망 구조인 Transformer를 제안했습니다. 이 논문은 BERT, GPT 등 현대 NLP의 기반이 되는 모델의 근간이 되는 등 자연어 처리 분야에 큰 영향을 미쳤습니다. https://tech.kakaoenterprise.com/45 신경망 번역 모델의 진화 과정이 글은 2017년 카카오 AI 브런치에 게재된 포스팅을 가져온 것으로, 본문에서 설명하고 있는 모델 성능, 번역 결과 등은 모두 2017년 당시 자료를 바탕으로 합니다. 2017년까지의 신경망 기반 기계t..
[ Neural Machine Translation by Jointly Learning to Align and Translate ]Dzmitry Bahdanau, Kyunghyun Cho 등의 연구진이 ICLR 2015 학회에서 발표한 논문이다.양방향 RNN을 인코더로 사용하며, 디코더는 번역과 동시에 입력 문장을 검색하는 RNNsearch 모델에 대한 논문으로, 기계 번역 분야에 혁신적인 접근 방식을 제시했다. 기존 encoder-decoder 모델처럼 고정 길이 벡터 사용 대신 입력 문장을 벡터 시퀀스로 인코딩하여 긴 문장에 대한 성능을 개선했다. 그리고 attention 매커니즘을 도입하여 입력 문장의 관련 부분에 집중할 수 있게 했다. Neural Machine Translation by Jo..