ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • tool search
    프로젝트/PAPAGOAT 2025. 9. 4. 14:43
    728x90

    PAPAGOAT을 만들기 위해서는 vector DB, pdf parser, embedding 모델, slm이 필요

    VectorDB

    DB 라이센스
    Milvus Apache 2.0
    Chroma Apache 2.0
    Elasticsearch Elastic License 2.0
    Pinecone 상용
    Qdrant Apache 2.0
    Faiss MIT

    라이센스 문제가 없는 Milvus, Chroma, Qdrant, Faiss 사용 가능한데 젤 유명한게 Chroma라서 사용해보기루

    PDF Parser

    Parser 라이센스
    PyMuPDF AGPL 3.0
    pdfplumber MIT
    pdfminer MIT
    pypdf2 BSD

    난 논문만 파싱할거니까 다양한 문서유형을 지원하는 parser는 필요없음, 대신 2단인 것도 잘 파싱할 수 있어야 함

    그리고 가볍고 빠르고 라이센스 문제가 없어야함

    pdfplumber로 결정!

    Embedding model

    model 라이센스 params dim
    all-MiniLM-L6-v2 Apache 2.0 90M 384
    BGE-small-en-v1.5 MIT 130M 384
    E5-small-v2 MIT 130M 384

    파라미터가 작은 것 중에서 골라야함

    셋 다 라이센스는 풀려있으니 성능이 가장 좋은 BGE로 ㄱㄱ

    SLM

    SLM은 나중에 붙일거니까 그 때 또 좋은 모델이 나올수도 있기 때문에 나중에 서칭하는 걸루

     

    '프로젝트 > PAPAGOAT' 카테고리의 다른 글

    github  (0) 2025.09.04

    댓글

Designed by Tistory.