ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [7주차 - Day1] ML_basics - Probability Distributions (Part 1)
    교육/프로그래머스 인공지능 데브코스 2021. 6. 8. 14:18
    728x90

    Machine Learning 기초 - 확률분포

    1. 밀도추정(Density Estimation)

    N개의 관찰데이터(observations)가 주어졌을 때 분포함수 p(x)를 찾는 것

    1. p(x)를 파라미터화된 분포로 가정
    2. 분포 파라미터를 찾는다
      • 빈도주의 방법(Frequentist's way) : 어떤 기준을 최적화시키는 과정을 통해 파라미터 값을 정함, 파라미터의 하나의 값을 구하게 됨
      • 베이지언 방법(Bayesian way) : 파라미터의 사전확률(prior distribution)을 가정하고 Bayes rule을 통해 파라미터의 사후확률(posterior distribution)을 구함
    3. 파라미터를 찾았다면 파라미터를 사용해 예측

    켤레사전분포(Conjugate Prior) : 사후확률이 사전확률과 동일한 함수형태를 가지도록 해줌

    2. 이항변수(Binary Variables) : 빈도주의 방법

    더보기

    베르누이 분포?

    매 시행마다 오직 두 가지의 가능한 결과만 일어난다고 할 때,

    이러한 실험을 1회 시행해 일어난 두 가지 결과에 의해 그 값이 0,1로 결정되는 확률변수 X

    를 만족하는 확률 변수 X가 따르는 확률

    우도함수(likelihood Function)

    더보기

    우도함수?

    변수의 모수가 어떤 확률 변수의 표집값과 일관되는 정도를 나타내는 값

    주어진 표집값에 대한 모수의 우도는 이 모수를 따르는 분포가 주어진 관측값에 대해 부여한 확률

    로그 가능도는 가능도 함수의 로그이며, 확률 변수가 독립 확률 변수로 나누어지는 경우와 같이 확률 분포 함수가 곱셈 꼴로 나올 때 미분 계산의 편의성을 위해 사용

    예시)

    어떤 동전을 던져서 나오는 결과를 확률 변수 X, X는 H(앞)/T(뒤)의 값을 가질 수 있음

    봐도 잘 모루겠다 이 말이야~
    • 모수 : 모집단의 특성(모평균,모분산 등..)을 나타내는 값으로, 이 값을 모집단을 전수조사해야만 알수있는 값
    • 표집값 : 모집단에서 표본을 추출한 값
    • 독립 : 어떤 사건 A가 일어났다는 사실이 사건 B가 일어나는 것에 영향을 미치지 않고, 반대의 상황도 영향을 미치지 않으면 두 사건 A,B는 서로 독립
    • 독립확률변수 : 두 확률변수 X와 Y는 임의의 실구간 A와 B에 대하여 P(X∈A,Y∈B)=P(X∈A)⋅P(Y∈B) 가 성립할 때 서로 독립, 필요충분조건 : fX,Y(x,y)=fX(x)⋅fY(y)

    3. 이항변수(Binary Variables) : 베이지언 방법

    이항분포(Binomial Distribution)

    베타분포(Beta Distribution)

    베이지언 방법으로 문제를 해결하기 위해 베타분포를 결레사전분포(conjugate prior)로 사용

    예측분포(predictive distribution)

    4. 다항변수(Multinomial Variables) : 빈도주의 방법

    K개의 상태를 가질 수 있는 확률변수를 K차원의 벡터 x(하나의 원소만 1, 나머지는 0)로 나타낼 수 있다

    x를 위해 베르누이 분포를 다음과 같이 일반화가능

    x값을 N번 관찰한 결과(D)가 주어졌을때, 우도함수는 아래와 같음

    5. 다항변수(Multinomial Variables) : 베이지언 방법

    다항분포(Multinomial distribution) : 파라미터 뮤와 전체 관찰개수 N이 주어졌을 때 m1, ..., mk의 분포

    디리클레분포(Dirichlet distribution) : 다항 분포를 위한 켤레사전분포

    진심 하나도 모르겠다 뇌빼고 들음 다른 강의 찾아볼것

     

    강의 1도 이해 안돼서 내가 따로 찾아보고 기록한 것

    확률분포

    1. 밀도추정

    알 수 없는 확률을 추정하는 방법

    히스토그램과 비슷

    커널밀도함수 수식

    참고 :  https://youtu.be/x5zLaWT5KPs

    2. 이항변수 : 빈도주의

    -베르누이

    -우도함수

    이거 두 개는 위에서 정리했으나 우도함수는 한번 더 찾아볼 것

    3. 이항변수 : 베이지안

    -이항분포

    베르누이 시행을 여러 번 시행했을 때 확률분포

    -베타분포

    2개의 변수를 갖는 특수 함수인 베타함수를 이용한 분포

    매개변수 a,b를 바꾸면 다양한 분포를 나타낼 수 있으므로 베이즈 통계학에서 사전분포 모델로 이용할 때가 많음

    -예측분포

     

    4. 다항변수 : 빈도주의

     

    5. 다항변수 : 베이지언

    -다항분포

    여러 개의 값을 가질 수 있는 독립확률변수들에 대한 확률분포

    여러 번의 독립적 시행에서 각각의 값이 특정 횟수가 나타날 확률

    다항 분포에서 차원이 2인 경우 이항분포가 됨

     

    -디리클레분포

    베타분포를 다변량으로 확장한 것->다변량 베타분포라고도 함

    연속함수지만 2차원 평면에서는 연속 함수로 나타낼 수 없음

    확률 자체를 확률 분포로 두는 분포로 자연어 처리등에 많이 사용

    댓글

Designed by Tistory.