ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Day15
    교육/서울 ICT 이노베이션 고오급 시각과정 2022. 9. 4. 13:15
    728x90

    머신러닝의 주요작업은 학습 알고리즘을 선택해서 어떤 데이터에 훈련시키는 것

    • 배치 학습에서의 머신러닝
      • 입력 x에 대해 y를 출력하는 시스템 f(x)=y를 가정
      • f는 실체를 알 수 없으므로 θ에 의해 정의되는 모델로 간주
      • f는 알 수 없지만 수 많은 사례(x,y)를 통해 θ를 추정
      • 만약 실제 시스템을 완벽히 복원했다면 f(x)-y=0
      • 즉, 모델링된 시스템의 출력값 f(x)=ŷ가 실제 y에 가장 가까워지도록 하는 θ를 찾음
      • 여기서 x,y는 상수(주어진 샘플)이고 θ는 우리가 찾고자 하는 값(모델에 대한 파라미터)
      • 주어진 y에 f(x)가 최대한 가까워지는 과정이 훈련, 학습, 피팅
      • 피팅이 잘 이루어진 정도를 에러를 통해 추정
      • MSE(θ)=∑(f(x)-y)^2/N  (에러 계산 방법은 다양함 ex)cross entropy, MAE...)
      • 머신러닝이란 다음 최적화 문제를 푸는 것 :
    더보기

    f(x)=ax+b

         =θ·x

         =θ0x0(x0=1)+θ1x

     

    에러(머신러닝)=로스(신경망)=cost(경사하강법)   *() : 주로 쓰이는 곳

    머신러닝 시스템의 종류

    • 넓은 범주의 분류
      • 사람의 감독하에 훈련하는 것인지 그렇지 않은 것인지 : 비도, 비지도, 준지도, 강화 학습
      • 실시간으로 점진적인 학습을 하는지 아닌지 : 온라인 학습과 배치 학습
      • 단순하게 알고 있는 데이터 포인트와 새 데이터 포인트를 비교하는 것인지 아니면 과학자처럼 훈련 데이터셋에서 패턴을 발견하여 예측 모델을 만드는 지 : 사례 기반 학습과 모델 기반 학습

    심층 신경망을 훈련할 때 마주할 수 있는 문제

    까다로운 그레디언트 소실 또는 그레디어트 폭주 문제

    심층 신경망의 아래쪽으로 갈수록 그레디언트가 점점 더 작아지거나 커지는 두 현상 모두 하위 층을 훈련하기 매우 어려움

    비용문제

    대규모 신경망을 위한 훈련 데이터가 충분하지 않거나 레이블을 만드는 작업에 비용이 너무 많이 들 수 있음

    훈련이 극단적으로 느려지리 수 있음

    과대적합

    수백만 개의 파라미터를 가진 모델은 훈련 세트에 과대적합될 위험이 매우 큼, 특히 훈련 샘플이 충분하지 않거나 잡음이 많을 때 그럼

     

    활성화 함수

    초기화 전략

    초기화 전략 활성화 함수
    글로럿 활성화 함수 없음, tanh, logistic, softmax
    He ReLU함수와 그 변종들
    르쿤 SELU

    초기화 전략과 활성화 함수가 일치하면 입력이 표준분포의 경향이라면 과정도 표준분포를 따라 학습

     

    그래디언트 소실과 폭주 문제를 확실하게 해결해주는 방법 : 배치 정규화

    foward, backpropagation 둘 다 학습을 잘 해줌

     

     

    '교육 > 서울 ICT 이노베이션 고오급 시각과정' 카테고리의 다른 글

    Day16  (0) 2022.09.05
    day14  (0) 2021.09.01
    Day13  (0) 2021.09.01
    Day12  (0) 2021.07.02
    Day11  (0) 2021.06.30

    댓글

Designed by Tistory.