-
tool search프로젝트/PAPAGOAT 2025. 9. 4. 14:43728x90
PAPAGOAT을 만들기 위해서는 vector DB, pdf parser, embedding 모델, slm이 필요
VectorDB
DB 라이센스 Milvus Apache 2.0 Chroma Apache 2.0 Elasticsearch Elastic License 2.0 Pinecone 상용 Qdrant Apache 2.0 Faiss MIT 라이센스 문제가 없는 Milvus, Chroma, Qdrant, Faiss 사용 가능한데 젤 유명한게 Chroma라서 사용해보기루
PDF Parser
Parser 라이센스 PyMuPDF AGPL 3.0 pdfplumber MIT pdfminer MIT pypdf2 BSD 난 논문만 파싱할거니까 다양한 문서유형을 지원하는 parser는 필요없음, 대신 2단인 것도 잘 파싱할 수 있어야 함
그리고 가볍고 빠르고 라이센스 문제가 없어야함
pdfplumber로 결정!
Embedding model
model 라이센스 params dim all-MiniLM-L6-v2 Apache 2.0 90M 384 BGE-small-en-v1.5 MIT 130M 384 E5-small-v2 MIT 130M 384 파라미터가 작은 것 중에서 골라야함
셋 다 라이센스는 풀려있으니 성능이 가장 좋은 BGE로 ㄱㄱ
SLM
SLM은 나중에 붙일거니까 그 때 또 좋은 모델이 나올수도 있기 때문에 나중에 서칭하는 걸루