전체 글
-
-
[13주차 - Day5] NLP: 단어 임베딩교육/프로그래머스 인공지능 데브코스 2021. 8. 10. 09:33
단어 임베딩 단어의 의미를 어떻게 나타낼 것인지에 대한 고민 동의어(synonyms)라고 해서 항상 그 단어로 대체할 수 있는 것은 아님 ex)water=H2O, big=large 동의어는 아니지만 유사성(similarity)을 가진 단어들도 많음 semantic field(특정한 주제, 영역을 공유하는 단어들)로 연관되어있을수도 있음 ex)restaurant-waiter, menu, plate, food등 semantic frame(특정 행위에 참여하는 주체들의 역할에 관한 단어들)공유로 연관되어 있을수도 있음 ex)buy, sell, pay등 단어를 벡터로 의미 표현 단어들은 주변의 환경(주변의 단어들의 분포)에 의해 의미가 결정됨 만약 두 단어 A와 B가 거의 동일한 주변 단어들의 분포를 가지고 있..
-
[13주차 - Day4] NLP: 문서분류교육/프로그래머스 인공지능 데브코스 2021. 8. 10. 09:33
문서분류(Text Classification) 텍스트를 입력으로 받아 텍스트가 어떤 종류의 범주에 속하는지를 구분하는 작업 ex)문서의 범주,주제 분류/이메일 스팸 분류/감성 분류/언어 분류 문서분류의 정의 input : d(document), C(fixed set of classes)={C1, C2, ..., Cj} output : predicted class(c∈C) 문서분류 방법들 1. 규칙 기반 모델 단어의 조합을 사용한 규칙들을 사용 ex)이메일 스팸분류 : 블랙리스트 이메일주소 or 이메일 내용의 단어(ex.dollars, you have been selected등) 사람이 규칙을 만들어서 precision은 높지만 예외가 많기 때문에 recall이 낮음 ->머신러닝이 학습해서 규칙을 만들어내..
-
[13주차 - Day3] NLP: 언어모델교육/프로그래머스 인공지능 데브코스 2021. 8. 10. 09:33
언어모델 연속적인 단어들(sequence of words)에 확률을 부여 P(W)=P(w1,w2,w3,...,wn)->결합확률 연속적인 단어들이 주어졌을 때 그 다음 단어의 확률을 구하는 것 P(wn|w1,w2,...,wn-1)->조건부확률 기계번역, 맞춤법 검사, 음성인식에 필요 결합확률(P(W), joint probability)구하기 chain rule이용 더보기 조건부확률 : P(B|A)=P(A,B)/P(A) P(A,B)=P(A)P(B|A) 두 개 이상의 확률변수들의 경우 : P(A,B,C,D)=P(A)P(B|A)P(C|A,B)P(D|A,B,C) 일반적인 경우로 확장하면 : P(X1,X2, X3,...,Xn)=P(X1)P(X2|X1)P(X3|X1,X2)...P(Xn|X1,...,Xn-1) ->W1..
-
[13주차 - Day2] NLP: 텍스트 전처리교육/프로그래머스 인공지능 데브코스 2021. 8. 10. 09:33
자연어 처리 자연어의 의미를 컴퓨터로 분석해서 특정 작업을 위해 사용할 수 있도록 하는 것 참고자료 https://web.stanford.edu/~jurafsky/slp3/ Speech and Language Processing Speech and Language Processing (3rd ed. draft) Dan Jurafsky and James H. Martin Here's our December 30, 2020 draft! Includes: new version of Chapter 8 (bringing together POS and NER in one chapter), new version of Chapter 9 (with Transformers) Chapter 11 ( web.stanford...
-