ai
-
An Image is worth 16*16 words: Transformers for image recognition at scale공부/논문 2024. 6. 6. 13:07
https://arxiv.org/pdf/2010.11929 ViT논문 드디어 리뷰한다! Abstracttransformer는 자연어 처리에서 많이 사용되는 중, 컴퓨터 비전에서는 제한적 사용주로 vision에선 attention은 conv net과 함께 적용되거나 전체 구조를 유지하면서 conv net의 특정 구성 요소를 대체하는 데 사용여기서는 CNN에 의존하지 않고 이피미 패치 시퀀스에 직접 transformer를 사용해서 이미지 분류 작업에 우수한 성능을 보인다는 것을 보임ImageNet, CIFAR-100, VTAB 등 여러 중형~소형 이미지 벤치마크로 ViT가 훨씬 적은 자원으로 CNN에 비해 우수한 결과를 내는 것을 확인했음1. Introductionself-attention 기반 아키텍처(특..
-
통계/수학공부/ML 모의 인터뷰 스터디 2024. 1. 22. 20:06
https://boostdevs.gitbook.io/ai-tech-interview/interview/1-statistics-math Statistics/Math - AI Tech Interview 리샘플링은 모집단의 분포 형태를 알 수 없을 때 주로 사용하는 방법이다. 즉, 모분포를 알 수 없으므로 일반적인 통계적 공식들을 사용하기 힘들 때, 현재 갖고 있는 데이터를 이용하여 모분포 boostdevs.gitbook.io 고유값(eigen value)와 고유벡터(eigen vector)이 무엇이고 왜 중요한지 설명해주세요. 고유값 : 행렬 A를 변환했을 때 변환된 벡터가 원래의 벡터 방향과 똑같고, 크기만 변하는 값=>그 행렬이 어떤 변환을 주는 지에 대한 특성을 나타냄 고유 행렬 : 해당 고유값에 대응..
-
모두팝-SAM과 친해지기공부/AI 2023. 10. 17. 21:15
SAM? Segment Anything Model 1. SAM의 이론적 배경 : SAM이 Segmentation 태스크에서 Foundation 모델로 학습되기 위해 사용된 기법 소개 Motivation 최근 Large Language Model(LLM)이 높은 Zero-shot/Few-shot Generalization 성능을 보이고 있다->학습을 하지 않거나 적게 해도 성능이 잘 나온다 LLM과 같이 대량의 데이터셋을 pre-train하고, downstream task에 대해 높은 zero-shot generalization성능을 보이는 모델을 Foundation Moel이라고 부름 컴퓨터 비전 분야에서도 CLIP, ALIGN같이 Visiong-Language Dataset으로 Foundation Mo..
-