공부
-
chapter5. 텍스트 유사도공부/처음 배우는 딥러닝 챗봇 2023. 4. 13. 20:13
5.1 텍스트 유사도 개요 자연어 처리에서 문장 간 의미가 얼마나 유사한 지 계산하는 일은 매우 중요 사람은 의식하진 않지만 두 개의 문장에 동일한 단어나 의미상 비슷한 단어들이 얼마나 분포되어 있는지 직감적으로 파악 컴퓨터도 동일한 방법으로 두 문장 간의 유사도를 계산할 수 있음 임베딩으로 각 단어들의 벡터를 구한 다음 벡터 간의 거리를 계산하는 방법으로 단어 간의 의미가 얼마나 유사한지 계산 가능, 문장 역시 단어들의 묶음이기 때문에 하나의 벡터로 묶어서 문장간의 유사도 계산가능 이 책에서는 특정 분야에 적용되는 FAQ에 응대하는 Q&A 챗봇 개발을 다루고 있기 때문에 챗봇 엔진에 입력되는 문장과 시스템에서 해당 주제의 답변과 연관되어 있는 질문이 얼마나 유사한지 계산할 수 있어야 적절한 답변을 출력..
-
chatper4. 임베딩공부/처음 배우는 딥러닝 챗봇 2023. 4. 13. 14:52
4.1 임베딩이란? 컴퓨터는 자연어를 직접적으로 처리할 수 없음 컴퓨터는 수치연산만 가능하기 때문에 자연어를 숫자나 벡터 형태로 변환해야함 ->임베딩(embedding) : 단어나 문장을 수치화해 벡터 공간으로 표현하는 과정 임베딩은 말뭉치의 의미에 따라 벡터화하기 때문에 문법적인 정보가 포함 임베딩 기법에는 문장 임베딩과 단어 임베딩이 있음 문장 임베딩은 문장 전체를 벡터로 표현하는 방법 장점1 : 문장 임베딩의 경우 전체 문장의 흐름을 파악해 벡터로 변환하기 때문에 문맥적 의미를 지님 장점2 : 단어 임베딩에 비해 품질이 좋으며 상용 시스템에 많이 사용 단점 : 임베딩하기 위해 많은 문장 데이터가 필요, 학습하는 데 비용이 많이 듦 단어 임베딩은 개별 단어를 벡터로 표현하는 방법 장점 : 문장 임베딩..
-
chapter3.토크나이징공부/처음 배우는 딥러닝 챗봇 2023. 4. 13. 10:12
3.1 토크나이징 소개 우리가 일상에서 사용하는 언어 = 자연어 컴퓨터는 자연어를 직접적으로 이해할 수 없음 컴퓨터 분야에서는 자연어 의미를 분석해 컴퓨터가 처리할 수 있도록 하는 일을 자연어 처리(Natural Language Processing, NLP)라고 함 어떤 문장을 일정한 의미가 있는 가장 작은 단어들로 나눔 그 다음 나눠진 단어들을 이용해 의미를 분석 여기서 가장 기본이 되는 단어들을 토큰(token)이라고 함 토큰의 단위는방법에 따라 달라질 수 있지만 일반적으로 일정한 의미가 있는 가장 작은 정보 단위로 결정 주어진 문장에서 토큰 단위로 정보를 나누는 작업을 토크나이징이라고 함 문장 형태의 데이터를 처리하기 위해 제일 처음 수행해야하는 기본적인 작업 텍스트 전처리 과정에서 사용됨 한국어 ..
-
Numpy 정리공부/AI 2023. 3. 7. 19:55
numpy란 행렬이나 일반적으로 대규모 다차원 배열을 쉽게 처리할 수 있도록 지워하는 파이썬의 라이브러리 http://bigdata.dongguk.ac.kr/lectures/Python/_book/numpy.html 4 장 Numpy | 파이썬 프로그래밍 기초 Two-dimensional array slicing bigdata.dongguk.ac.kr https://compmath.korea.ac.kr/appmath/NumpyBasics.html 넘파이(NumPy) 기초: 배열 및 벡터 계산 — 자료분석을 위한 파이썬 1.0 documentation Docs » 넘파이(NumPy) 기초: 배열 및 벡터 계산 넘파이(NumPy) 기초: 배열 및 벡터 계산 넘파이 ndarray: 다차원 배열 객체 넘파이(n..
-
chapter4 모델 훈련공부/Hands-On Machine Learning 2023. 1. 18. 12:42
가장 간단한 선형 회귀부터 시작, 방법은 2가지 직접 계산할 수 있는 공식을 사용하여 훈련 세트에 가장 잘 맞는 모델 파라미터(즉, 훈련세트에 대해 비용함수를 최소화하는 모델 파라미터)를 해석적으로 구함 경사하강법(GS)이라 불리는 반복적인 최적화 방식을 사용하여 모델 파라미터를 조금씩 바꾸면서 비용 함수 훈련 세트에 대해 최소화, 결국에는 앞의 방법과 동일한 파라미터로 수렴함, 경사 하강법의 변종으로 2부에서 신경망 고부할 때 계속 사용하게 될 배치 경사하강법, 미니배치 경사하강법, 확률적 경사 하강법(SGD)도 살펴보겠음 다음은 다항 회귀를 살펴봄 이 모델은 선형 회귀보다 파라미터가 많아서 훈련 데이터에 과대적합되기 더 쉬움 따라서 학습 곡선을 사용해 모델이 과대적합되는 지 감지하는 방법도 살펴보겠음..
-
Chapter3 연습문제 스팸분류기공부/Hands-On Machine Learning 2023. 1. 16. 14:28
https://github.com/rickiepark/hand
-
chapter3 연습문제 - 타이타닉공부/Hands-On Machine Learning 2023. 1. 13. 14:27
https://www.kaggle.com/code/startupsci/titanic-data-science-solutions Titanic Data Science Solutions Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic - Machine Learning from Disaster www.kaggle.com 이 분 코드를 베끼면서 연습!
-
chatper3. 분류공부/Hands-On Machine Learning 2023. 1. 6. 13:03
3.1 MNIST 70,000의 작은 숫자 이미지를 모은 MNIST 데이터셋 어떤 숫자를 나타내는지 레이블되어있음 사이킷런에서 제공하는 여러 행의 함수를 사용해 잘 알려진 데이터셋을 내려받을 수 있음 from sklearn.datasets import fetch_openml mnist=fetch_openml('mnist_784',version=1,as_frame=False) #사이킷런 0.22버전에서 as_frame 매개변수 추가 #as_frame=True로 설정하면 판다스 데이터프레임을 반환 mnist.keys() #데이터셋을 설명하는 DESCR #샘플이 하나의 행,특성이 하나의 열로 구성된 배열을 가진 data #레이블 배열을 담은 target X,y=mnist['data'],mnist['target..