zzangyeah 2022. 9. 4. 13:15
728x90

머신러닝의 주요작업은 학습 알고리즘을 선택해서 어떤 데이터에 훈련시키는 것

  • 배치 학습에서의 머신러닝
    • 입력 x에 대해 y를 출력하는 시스템 f(x)=y를 가정
    • f는 실체를 알 수 없으므로 θ에 의해 정의되는 모델로 간주
    • f는 알 수 없지만 수 많은 사례(x,y)를 통해 θ를 추정
    • 만약 실제 시스템을 완벽히 복원했다면 f(x)-y=0
    • 즉, 모델링된 시스템의 출력값 f(x)=ŷ가 실제 y에 가장 가까워지도록 하는 θ를 찾음
    • 여기서 x,y는 상수(주어진 샘플)이고 θ는 우리가 찾고자 하는 값(모델에 대한 파라미터)
    • 주어진 y에 f(x)가 최대한 가까워지는 과정이 훈련, 학습, 피팅
    • 피팅이 잘 이루어진 정도를 에러를 통해 추정
    • MSE(θ)=∑(f(x)-y)^2/N  (에러 계산 방법은 다양함 ex)cross entropy, MAE...)
    • 머신러닝이란 다음 최적화 문제를 푸는 것 :
더보기

f(x)=ax+b

     =θ·x

     =θ0x0(x0=1)+θ1x

 

에러(머신러닝)=로스(신경망)=cost(경사하강법)   *() : 주로 쓰이는 곳

머신러닝 시스템의 종류

  • 넓은 범주의 분류
    • 사람의 감독하에 훈련하는 것인지 그렇지 않은 것인지 : 비도, 비지도, 준지도, 강화 학습
    • 실시간으로 점진적인 학습을 하는지 아닌지 : 온라인 학습과 배치 학습
    • 단순하게 알고 있는 데이터 포인트와 새 데이터 포인트를 비교하는 것인지 아니면 과학자처럼 훈련 데이터셋에서 패턴을 발견하여 예측 모델을 만드는 지 : 사례 기반 학습과 모델 기반 학습

심층 신경망을 훈련할 때 마주할 수 있는 문제

까다로운 그레디언트 소실 또는 그레디어트 폭주 문제

심층 신경망의 아래쪽으로 갈수록 그레디언트가 점점 더 작아지거나 커지는 두 현상 모두 하위 층을 훈련하기 매우 어려움

비용문제

대규모 신경망을 위한 훈련 데이터가 충분하지 않거나 레이블을 만드는 작업에 비용이 너무 많이 들 수 있음

훈련이 극단적으로 느려지리 수 있음

과대적합

수백만 개의 파라미터를 가진 모델은 훈련 세트에 과대적합될 위험이 매우 큼, 특히 훈련 샘플이 충분하지 않거나 잡음이 많을 때 그럼

 

활성화 함수

초기화 전략

초기화 전략 활성화 함수
글로럿 활성화 함수 없음, tanh, logistic, softmax
He ReLU함수와 그 변종들
르쿤 SELU

초기화 전략과 활성화 함수가 일치하면 입력이 표준분포의 경향이라면 과정도 표준분포를 따라 학습

 

그래디언트 소실과 폭주 문제를 확실하게 해결해주는 방법 : 배치 정규화

foward, backpropagation 둘 다 학습을 잘 해줌