Study/Langchain 2

[Langchain] Chunk 분리 오류

[문제]렝체인으로 여러 기사 내용을 담은 PDF 파일을 LLM( ChatGPT 모델)한테 학습시키기 위해PDF파일 내용을 chunk로 분리하는 과정에서 문제 발생했다.한 기사가 끝나고 다른 기사가 시작하는 부분에서 chunk로 분리하고 싶어서, 각 기사 제목 앞에 "####"라는 기호를pdf에서 추가했다. 그래서 textSplitter의 separator = "####" 라는 파라미터로 구현해서 pdf파일 내용을 "####"를 단위로 chunk로 분리해야한다.하지만 사진에서 'page'라는 속성을 확인하면, pdf파일 내용이 페이지단위로만 Chunk로 분리되고 있다는 것을 알 수 있다.[문제 원인]찾아보니까 CharacterTextSpliter가 원인이였다.CharacterTextSpliter가 오직 하..

Study/Langchain 2023.11.22

LangChain (기본 원리와 개념)

렝체인(LangChain): 대규모 언어 모델(LLM)을 기반으로 한 애플리케이션을 개발하기 위한 오픈 소스 프레임워크  얼마전에 어떤 기업ceo님의 강의를 통해 렝체인에 대해 알게 되었는데,LLM을 어떤 문서로든 쉽게 학습시킬 수 있다는 것에 인상 깊었고 관심이 생겼다. 그래서 렝쳉인을 통해 간단하게 PDF문서를 LLM(ChatGPT)한테 학습시키고 그 문서내용으로 웹사이트를 통해 대화 가능한 쳇봇을 구현하는 프로젝트를 시작했다. 우선 먼서 프로젝트 수행을 위해 필요한 렝체인 기본 지식을 공부 했습니다.

Study/Langchain 2023.11.13