공부/처음 배우는 딥러닝 챗봇
-
chapter6. 챗봇 엔진에 필요한 딥러닝 모델공부/처음 배우는 딥러닝 챗봇 2023. 5. 8. 12:26
6.1 빠르게 케라스 정리하기 이 장에서는 챗봇 엔진 개발에 필요한 딥러닝 모델의 간단한 이론과 구현방법을 알아볼 것 케라스 : 직관적이고 사용하기 쉬움, 빠른 연구 개발에 목적, 모듈 구성이 간단->쉽게 사용가능 신경망 모델을 구축할 수 있는 고수준 API 라이브러리 텐서플로우의 기본 API로 채택되어 구글의 전격적인 지원받는중 이 책에서는 텐서플로우 2.1버전의 케라스 API를 이용해 챗봇 개발에 필요한 모델을 구현할 것 6.1.1 인공 신경망 인공 신경망 : 두뇌의 신경 세포인 뉴런을 수학적으로 모방한 모델 각 뉴런은 다른 뉴런에서 입력 신호를 받아 일정 크기 이상의 신호인지 확인 이 때 임계치를 넘어서면 다른 뉴런으로 신호를 보내는 형태로 구성 이렇게 연결되어 있는 뉴런에 의미있는 신호가 들어오면..
-
chapter5. 텍스트 유사도공부/처음 배우는 딥러닝 챗봇 2023. 4. 13. 20:13
5.1 텍스트 유사도 개요 자연어 처리에서 문장 간 의미가 얼마나 유사한 지 계산하는 일은 매우 중요 사람은 의식하진 않지만 두 개의 문장에 동일한 단어나 의미상 비슷한 단어들이 얼마나 분포되어 있는지 직감적으로 파악 컴퓨터도 동일한 방법으로 두 문장 간의 유사도를 계산할 수 있음 임베딩으로 각 단어들의 벡터를 구한 다음 벡터 간의 거리를 계산하는 방법으로 단어 간의 의미가 얼마나 유사한지 계산 가능, 문장 역시 단어들의 묶음이기 때문에 하나의 벡터로 묶어서 문장간의 유사도 계산가능 이 책에서는 특정 분야에 적용되는 FAQ에 응대하는 Q&A 챗봇 개발을 다루고 있기 때문에 챗봇 엔진에 입력되는 문장과 시스템에서 해당 주제의 답변과 연관되어 있는 질문이 얼마나 유사한지 계산할 수 있어야 적절한 답변을 출력..
-
chatper4. 임베딩공부/처음 배우는 딥러닝 챗봇 2023. 4. 13. 14:52
4.1 임베딩이란? 컴퓨터는 자연어를 직접적으로 처리할 수 없음 컴퓨터는 수치연산만 가능하기 때문에 자연어를 숫자나 벡터 형태로 변환해야함 ->임베딩(embedding) : 단어나 문장을 수치화해 벡터 공간으로 표현하는 과정 임베딩은 말뭉치의 의미에 따라 벡터화하기 때문에 문법적인 정보가 포함 임베딩 기법에는 문장 임베딩과 단어 임베딩이 있음 문장 임베딩은 문장 전체를 벡터로 표현하는 방법 장점1 : 문장 임베딩의 경우 전체 문장의 흐름을 파악해 벡터로 변환하기 때문에 문맥적 의미를 지님 장점2 : 단어 임베딩에 비해 품질이 좋으며 상용 시스템에 많이 사용 단점 : 임베딩하기 위해 많은 문장 데이터가 필요, 학습하는 데 비용이 많이 듦 단어 임베딩은 개별 단어를 벡터로 표현하는 방법 장점 : 문장 임베딩..
-
chapter3.토크나이징공부/처음 배우는 딥러닝 챗봇 2023. 4. 13. 10:12
3.1 토크나이징 소개 우리가 일상에서 사용하는 언어 = 자연어 컴퓨터는 자연어를 직접적으로 이해할 수 없음 컴퓨터 분야에서는 자연어 의미를 분석해 컴퓨터가 처리할 수 있도록 하는 일을 자연어 처리(Natural Language Processing, NLP)라고 함 어떤 문장을 일정한 의미가 있는 가장 작은 단어들로 나눔 그 다음 나눠진 단어들을 이용해 의미를 분석 여기서 가장 기본이 되는 단어들을 토큰(token)이라고 함 토큰의 단위는방법에 따라 달라질 수 있지만 일반적으로 일정한 의미가 있는 가장 작은 정보 단위로 결정 주어진 문장에서 토큰 단위로 정보를 나누는 작업을 토크나이징이라고 함 문장 형태의 데이터를 처리하기 위해 제일 처음 수행해야하는 기본적인 작업 텍스트 전처리 과정에서 사용됨 한국어 ..