본문 바로가기

728x90

Chunking1

Chunking Strategies 오늘은 LLM을 위한 chunking 방법론에 대해서 간단하게 알아보겠습니다.요즘 RAG를 주제로 하는 프로젝트나 논문들이 굉장히 많은데 이 RAG 방식을 취할 때 document를 작은 단위로 나누어 처리하는 것을 chunking이라고 합니다.여기에 여러가지 알고리즘들이 있는데 몇가지 주요 사용되는 알고리즘들을 알아보겠습니다! 우선 chunking이 필요한 이유는 다음과 같습니다.token 길이 제한 문제의 해결 - LLM이 한 번에 처리할 수 있는 토큰의 수에는 제한이 있기 때문에 긴 텍스트를 나누어서 넣어야 모델이 모든 텍스트를 다 다룰 수 있게됩니다.context 유지 - 긴 문서를 chunking을 통해 나누어야 각 문맥에서 중요한 정보들을 잘 유지할 수 있고, 특정 정보에 더 집중할 수 있게 .. 2024. 11. 9.

이전 1 다음

728x90

티스토리툴바