Day15

zzangyeah 2022. 9. 4. 13:15

728x90

머신러닝의 주요작업은 학습 알고리즘을 선택해서 어떤 데이터에 훈련시키는 것

f(x)=ax+b

=θ·x

=θ0x0(x0=1)+θ1x

에러(머신러닝)=로스(신경망)=cost(경사하강법) *() : 주로 쓰이는 곳

넓은 범주의 분류
- 사람의 감독하에 훈련하는 것인지 그렇지 않은 것인지 : 비도, 비지도, 준지도, 강화 학습
- 실시간으로 점진적인 학습을 하는지 아닌지 : 온라인 학습과 배치 학습
- 단순하게 알고 있는 데이터 포인트와 새 데이터 포인트를 비교하는 것인지 아니면 과학자처럼 훈련 데이터셋에서 패턴을 발견하여 예측 모델을 만드는 지 : 사례 기반 학습과 모델 기반 학습

까다로운 그레디언트 소실 또는 그레디어트 폭주 문제

심층 신경망의 아래쪽으로 갈수록 그레디언트가 점점 더 작아지거나 커지는 두 현상 모두 하위 층을 훈련하기 매우 어려움

비용문제

대규모 신경망을 위한 훈련 데이터가 충분하지 않거나 레이블을 만드는 작업에 비용이 너무 많이 들 수 있음

훈련이 극단적으로 느려지리 수 있음

과대적합

수백만 개의 파라미터를 가진 모델은 훈련 세트에 과대적합될 위험이 매우 큼, 특히 훈련 샘플이 충분하지 않거나 잡음이 많을 때 그럼

초기화 전략	활성화 함수
글로럿	활성화 함수 없음, tanh, logistic, softmax
He	ReLU함수와 그 변종들
르쿤	SELU

초기화 전략과 활성화 함수가 일치하면 입력이 표준분포의 경향이라면 과정도 표준분포를 따라 학습

그래디언트 소실과 폭주 문제를 확실하게 해결해주는 방법 : 배치 정규화

foward, backpropagation 둘 다 학습을 잘 해줌