프로젝트/PAPAGOAT
tool search
zzangyeah
2025. 9. 4. 14:43
728x90
PAPAGOAT을 만들기 위해서는 vector DB, pdf parser, embedding 모델, slm이 필요
VectorDB
| DB | 라이센스 |
| Milvus | Apache 2.0 |
| Chroma | Apache 2.0 |
| Elasticsearch | Elastic License 2.0 |
| Pinecone | 상용 |
| Qdrant | Apache 2.0 |
| Faiss | MIT |
라이센스 문제가 없는 Milvus, Chroma, Qdrant, Faiss 사용 가능한데 젤 유명한게 Chroma라서 사용해보기루
PDF Parser
| Parser | 라이센스 |
| PyMuPDF | AGPL 3.0 |
| pdfplumber | MIT |
| pdfminer | MIT |
| pypdf2 | BSD |
난 논문만 파싱할거니까 다양한 문서유형을 지원하는 parser는 필요없음, 대신 2단인 것도 잘 파싱할 수 있어야 함
그리고 가볍고 빠르고 라이센스 문제가 없어야함
pdfplumber로 결정!
Embedding model
| model | 라이센스 | params | dim |
| all-MiniLM-L6-v2 | Apache 2.0 | 90M | 384 |
| BGE-small-en-v1.5 | MIT | 130M | 384 |
| E5-small-v2 | MIT | 130M | 384 |
파라미터가 작은 것 중에서 골라야함
셋 다 라이센스는 풀려있으니 성능이 가장 좋은 BGE로 ㄱㄱ
SLM
SLM은 나중에 붙일거니까 그 때 또 좋은 모델이 나올수도 있기 때문에 나중에 서칭하는 걸루