ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 통계/수학
    공부/ML 모의 인터뷰 스터디 2024. 1. 22. 20:06
    728x90

    https://boostdevs.gitbook.io/ai-tech-interview/interview/1-statistics-math

     

    Statistics/Math - AI Tech Interview

    리샘플링은 모집단의 분포 형태를 알 수 없을 때 주로 사용하는 방법이다. 즉, 모분포를 알 수 없으므로 일반적인 통계적 공식들을 사용하기 힘들 때, 현재 갖고 있는 데이터를 이용하여 모분포

    boostdevs.gitbook.io

    • 고유값(eigen value)와 고유벡터(eigen vector)이 무엇이고 왜 중요한지 설명해주세요.
      고유값 : 행렬 A를 변환했을 때 변환된 벡터가 원래의 벡터 방향과 똑같고, 크기만 변하는 값=>그 행렬이 어떤 변환을 주는 지에 대한 특성을 나타냄
      고유 행렬 : 해당 고유값에 대응하는 벡터, 행렬을 곱했을 때 크기만 변하고 방향은 변하기 않는 벡터=>행렬의 특성방향을 나타내며, 해당 방향으로의 변환에 대한 불변성을 가짐
      =>Av = λ(고유값)v(고유벡터)
      중요성
      1. 선형 변환의 이해
      행렬이 어떻게 작용하는지를 이해하는 데 도움을 줌, 행렬을 특정한 벡터에 적용했을 때 고유벡터는 그 변환이 크게 일어나지 않는 방향을 보여줌
      2. 행렬 대각화
      대각화란 행렬을 대각 행렬과 그 역행렬의 곱으로 나타내는 것을 의미하며 이는 계산을 단순화하고 행렬의 거듭제곱을 효율적으로 계산할 수 있게 해줌
      3. 특이값 분해
      데이터 압축, 차원축소, 행렬의 의사 역행렬 계산 등에 활용
      4. 미분방정식과 동역학시스템
      미분방정식의 해석과 동역학 시스템의 안정성 분석에 사용
      5. 데이터 분석과 차원축소
      주성분 분석(PCA)와 같은 데이터 분석 기법에서 주요한 역할, 이를 통해 데이터의 주요한 변동성을 파악하고 차원을 축소할 수 있음
      *주성분분석(PCA)?
      다변량 데이터셋에서 주요한 정보를 추출하거나 차원을 축소하는 기술
      주로 데이터의 특징 간 상관관계를 파악하고 중요한 특징을 강조하여 데이터를 변환
      특히 고차원 데이터의 시각화, 특징 선택, 노이즈 제거 등 다양한 분야에서 활용됨
      평균 제거=>공분산 행렬 계산=>고유값 분해=>주성분 선택=>새로운 좌표계로 변환
      =>데이터의 차원을 축소하는 동시에 정보의 손실을 최소화, 데이터를 더 쉽게 시각화, 더 효율적으로 처리, 데이터의 특성을 파악하고 더 간결하고 해석하기 쉬운 형태로 변환하는 데 기여
    • 샘플링(Sampling)과 리샘플링(Resampling)이 무엇이고 리샘플링의 장점을 말씀해주세요.
      샘플링 : 모집단(조사하고자 하는 전체 데이터 집합)으로부터 일부 데이터를 선택 (샘플) 하는 과정, 모집단의 특성을 추정하거나 통계적 분석을 수행
      리샘플링 : 기존의 샘플 데이터에서 다시 샘플을 추출하는 과정, ex)부트스트랩, 크로스밸리데이션
      *부트스트랩?
      현재의 샘플데이터에서 복원 추출을 통해 새로운 샘플을 생성하는 방법, 이를 통해 샘플의 크기를 유지하면서 여러번의 리샘플링을 수행할 수 있음
      *크로스 밸리데이션?
      데이터를 여러 부분으로 나눈 뒤, 그 중 일부를 테스트 셋으로 나머지를 훈련 셋으로 사용하여 모델을 여러번 평가
      리샘플링의 장점
      1. 신뢰성향상
      부트스트랩을 통한 리샘플링은 데이터의 일부를 반복해서 사용하므로 해당 데이터의 변동성을 감안하여 통계적 추정치의 신뢰성을 높일 수 있음
      2. 모델의 일반화 성능 평가
      크로스 밸리데이션을 통해 모델의 일반화 성능을 평가할 수 있음=>모델이 새로운 데이터에 대해 얼마나 잘 수행될 지 예측가능
      3. 과적합 방지
      다양한 부분집합을 사용하면 모델이 특정 샘플에 과적합되는 것을 방지, 특히 크로스 밸리데이션은 모델의 성능을 더 신뢰할 수 있게 평가 할 수 있도록 도와줌
      4. 데이터의 활용
      한정된 데이터로부터 최대한의 정보를 추출하고 활용가능, 부트스트랩을 통해 데이터를 반복적으로 활용함으로써 데이터의 재사용성을 높일 수 있음
      =>통계 분석과 머신러닝에서 모델의 신뢰성을 높이고 일반화 성능을 정확하게 평가하기 위한 유용한 방법 중 하나
    • 확률 모형과 확률 변수는 무엇인가요?
      확률 모형 : 어떤 현상이나 실험에서 발생할 수 있는 여러 가능한 결과들에 대한 확률을 나타내는 모델, 확률 변수, 확률 분포 등을 사용하여 현상을 수학적으로 모델링하고 설명하는 데 사용
      확률 변수 : 특정 확률 모형에서 나타나는 각각의 결과를 수치적으로 나타낸 변수, 어떤 확률 실험에서 관찰 가능한 현상을 대표하는 것으로 특정값에 대해 확률이 할당 되어 있음 ex)이산확률변수/연속확률변수
      =>확률변수는 주어진 확률 모형에서 어떤 값이 나올 지에 대한 확률을 나타내므로 확률 모형과 함께 사용되어 특정 현상을 확률적으로 모델링하고 이해하는데 사용
    • 누적 분포 함수와 확률 밀도 함수는 무엇인가요?
      누적 분포 함수 : 확률 변수가 특정값보다 작거나 같은 확률을 나타내는 함수
      확률 밀도 함수 : 확률 변수의 값에 대한 확률을 나타내는 함수, 연속 확률 변수를 위한 함수, 구간에서의 확률밀도를 제공
      *확률 질량 함수?
      이산 확률 변수를 위한 함수
    • 조건부 확률은 무엇인가요?
      조건부 확률 : 어떤 사건이 다른 사건이 일어났을 때의 확률, 주어진 조건 하에서 사건 A의 확률을 P(B)로 나눈 것
      특정사건이 이미 발생했거나 특정 조건이 주어진 상황에서 다른 사건이 일어날 확률을 계산하는데 사용
      ex)주사위 두 개를 던졌을 때, 첫번째 주사위가 4보다 작은 값을 가질 조건에서 두 주사위의 합이 9가 되는 확률은?
    • 공분산과 상관계수는 무엇일까요?
      공분산 : 두 확률 변수 간의 관계를 나타내는 통계적 측도
      두 변수가 함께 어떻게 변하는 지를 측정하며 두 변수가 함께 증가하거나 감소하면 양수의 공분산이 나타나며, 하나는 증가하고 다른 하나는 감소하면 음수의 공분산이 나타남
      공분산의 크기는 두 변수 간의 상관 정도
      두 변수 간의 선형관계의 방향을 제공
      상관계수 : 공분산을 각 변수의 표준 편차로 나누어 정규화한 값
      두 변수 간의 선형관계의 강도와 방향을 나타냄
      상관계수는 -1~1사이의 값을 가지며 1에 가까울수록 양의 선형관계, -1에 가까울수록 음의 선형관계, 0에 가까울수록 선형관계가 약한 것으로 나타냄
      두 변수 간의 선형 관계의 강도와 방향을 정규화하여 제공
      *다중공산성?
      회귀분석과 같은 통계적 모델링에서 독립변수 간에 강한 상관관계가 나타나는 현상
      두 개 이상의 독립변수가 서로 선형적으로 의존하는 경우
      회귀분석과 같은 통계 모델링에서 필요함, 이를 고려하지 않았을 때의 문제?
      회귀계수의 불안정성, 변수 중요도 판단의 어려움, 통계적 가설 검정의 어려움, 모델 해석의 어려움 등의 문제
      필요한 경우=>회귀분석, 모델 신뢰성 향상을 원할 때, 변수 중요도 및 해석의 명황성을 원할 때
    • 신뢰 구간의 정의는 무엇인가요?
      신뢰구간 : 통계적 추정에서 모수(모집단의 특성을 나타내는 수치)에 대한 예측 구간을 제공하는 방법 중 하나
      통계적 추청의 불확실성을 나타내는 도구, 표본을 사용하여 얻은 통계량을 통해 모집단의 모수를 정확하게 알 수 없다는 사실을 반영하고 대신에 모수가 존재할 것으로 예상되는 구간을 제시
      ex)특정 표본에서 계산된 평균이 95%신뢰구간 [a,b]에 있다면, 이는 해당 모집단에서 평균이 a부터 b까지의 값 중 어느 곳에 있을 가능성이 95%라는 의미!
    • p-value를 모르는 사람에게 설명한다면 어떻게 설명하실 건가요?
      p-value(=유의수준, 유의확률) : 어떤 가설이 참일지에 대한 증거를 제시하는 확률을 나타냄
      가설 검정 결과가 우연에 의한 것인지를 판단하는데 도움
      귀무가설(두 그룹 간의 차이가 없음, 효과 없음)을 지지하는 정도를 나타내는 확률
      p-value<유의수준(보통 0.05)일 경우=>귀무가설을 기각할 근거가 충분하므로 표본 데이터로부터 얻은 통계량이 우연이 아님이라고 판단
      p-value>=유의수준(보통 0.05)일 경우=>귀무가설을 기각할 근거가 충분하지 않으므로 표본 데이터로부터 얻은 통계량이 우연에 의한 것일 수 있다고 판단
      ex)어떤 실험에서 p-value가 0.03이라면 이는 5%의 유의수준에서 귀무가설을 기각할 충분한 근거가 있다라는 의미!
      하지만 단순히 통계적 유의성 여부만을 나타내며, 실제적인 중요성이나 효과 크기에 대한 정보는 제공하지 않음
      *효과 크기란?
      두 집단 간의 차이나 관계의 크기를 나타내는 측정지표
      통계적 유의성만으로는 알 수 없는 현상의 중요성이나 실질적인 의미를 제공
      효과 크기의 측정은 주로 실험 또는 조사 결과를 해석하고 결과의 중요성을 이해하는데 사용
      ex)Cohen's d/상관계수/상대 리스크/오즈비/R-squared(결정계수)
    • R square의 의미는 무엇인가요?
      R-square(=R-제곱, 결정계수) : 회귀분석에서 모델이 주어진 데이터에 얼마나 잘 적합되어 있는지를 나타내는 지표
      종속 변수의 총 변동 중에서 모델로 설명가능한 변동이 차지하는 비율
      0에 가까울 때=>모델이 데이터를 설명하는 데 거의 기여하지 않음
      1에 가까울 때=>모델이 데이터를 완벽하게 설명함
      R^2=1-(잔차의 제곱합(모델이 설명하지 못한 부분))/(종속 변수의 총 제곱합(종속변수 값들의 변동 크기))
      1에 가까운 R-square면 모델이 데이터를 매우 잘 설명한다는 의미지만 모델이 과적합되었거나, 적절하지 않은 변수들이 모델에 포함되어 있을 경우에도 높아질 수 있음
    • 평균(mean)과 중앙값(median)중에 어떤 케이스에서 뭐를 써야할까요?
      평균을 사용하는 경우
      1. 대칭적인 분포 : 극단값(이상치)이 적을 때
      2. 절대적 크기가 중요한 경우 : 절대적 크기가 중요하고, 데이터가 정규분포에 가까울 때
      3. 등간격 척도의 데이터
      평균을 사용하는 경우 이상치에 민감하게 반응하므로 이상치가 있는 경우 평균이 왜곡될 수 있음
      중앙값을 사용하는 경우
      1. 비대칭적인 분포 : 극단값이 많을 때
      2. 순위나 서열이 중요한 경우
      3. 이상치가 존재하는 경우
      중앙값을 사용하는 경우 데이터의 상대적인 순서만을 고려하므로, 데이터의 실제 크기에 대한 정보를 제공하지 않을수도 있음
    • 중심극한정리는 왜 유용한걸까요?
      중심극한정리 : 여러 독립적이고 동일한 분포를 가진 확률 변수들을 더할 때 그 합은 정규분포에 가까워짐
      많은 독립적인 랜덤 변수들을 더하면 그 합은 정규분포에 근사하게 되는 현상
      중심극한정리의 유용성?
      1. 통계 추론의 기초 : 표본평균의 분포에 대한 정규근사를 가능하게 함
      2. 모집단 분포에 대한 가정 완화 : 모집단이 어떤 분포를 따르더라도 표본의 크기가 충분히 크다면 표본평균의 분포가 정규분포에 가까워진다는 이점
      3. 통계적 검정의 유효성 : 가설 검정 등에서 표본의 분포에 대한 가정이 필요한 경우, 정규분포에 근사함으로써 통계적 검정의 유효성을 강화함
    • 엔트로피(entropy)에 대해 설명해주세요. 가능하면 Information Gain도요.
      엔트로피 : 불확실성이나 정보의 불확실성 정도를 측정하는 지표, 어떤 확률 분포의 평균 정보 양
      사용 예시)불확실성의 정도, 확률 분포의 예측 가능성, 의사결정 트리와 결정 트리, 압축 알고리즘, 레이더 송신 신호
      정보의 불확실성을 고려하여 모델을 구축하거나 최적화하는 데 사용됨
      각각의 이벤트에 대해 해당이벤트의 확률과 이를 이용한 정보양의 곱을 모두 합산하고 그 값을 음수로 취하면 됨
      음수를 취하는 이유는 정보의 양이 증가할수록 엔트로피는 감소=>엔트로피가 낮을수록 분포를 더 정확하게 예측
      Information Gain(=정보 획득) : 어떤 속성으로 데이터를 분할했을 때 엔트로피의 감소량을 나타냄
      정보획득이 클수록 분할 후의 데이터가 보다 순수하게 정리되었음을 의미
      엔트로피와 Information Gain의 관계는?
      주로 의사결정 트리 알고리즘과 관련된 개념으로 사용
      의사결정트리는 데이터를 가장 순수하게 분할할 수 있는 속성을 찾아 결정을 내리기 위해 정보획득을 사용함
      =>정보 획득은 현재 상태의 엔트로피와 각 속성으로 분할된 상태의 엔트로피를 비교하여 얻을 수 있는 정보의 양을 측정, 정보획득이 클수록 엔트로피 감소가 크며, 이는 더 좋은 분할을 의미함
      =>의사결정트리는 정보 획득을 최대화하는 속성을 선택하여 데이터를 분할하고 이를 통해 더 순수한 서브 그룹을 만들어내는 방식으로 학습
    • 어떨 때 모수적 방법론을 쓸 수 있고, 어떨 때 비모수적 방법론을 쓸 수 있나요?
      모수적 방법론 : 데이터의 분포에 대한 가정을 하고 이 가정을 바탕으로 모집단의 모수를 추정하는 통계적 방법
      ex)t-검정, f-검정, 선형 회귀 분석 등
      모수적 방법론을 사용하는 경우?
      1. 데이터가 모수적 가정을 만족할 때
      2. 데이터의 분포에 대해 사전지식이 있을 때
      3. 적은 데이터로도 모수를 정확하게 추정할 수 있을 때
      비모수적 방법론 : 데이터의 분포에 대한 가정을 하지 않거나, 가정을 최소화하고자하는 통계적 방법
      데이터의 분포를 따로 가정하지 않고 순위나 순서에 기반하여 분석
      ex)부트스트랩, 순위 검정, 커널 밀도 추정
      비모수적 방법론을 사용하는 경우?
      1. 데이터가 모수적 가정을 만족하지 않을 때
      2. 데이터에 대한 사전지식이 제한적일 때
      3. 데이터가 비선형이거나 분포에 대한 가정이 어려울 때
    • “likelihood”와 “probability”의 차이는 무엇일까요?
      likelihood(=우도) : 이미 발생한 관측값을 바탕으로 모델의 파라미터에 대한 가능성을 나타냄
      주어진 데이터가 주어진 모델에 얼마나 "가능성이 높은가"를 나타냄
      일반적으로 주어진 데이터를 바탕으로 모델 파라미터를 추정하는 과정에서 사용
      ex)동전을 던져서 앞면이 나올 확률이 x라고 할 때, 앞면이 3번 나온 경우의 우도는 L(x|"앞면이 3번나옴")
      probability(=확률) : 어떤 사건이 일어날 가능성을 나타내는 숫자
      0~1의 값을 가지며, 0은 사건이 일어날 확률이 X,1은 사건이 확실히 일어날 확률 O
      ex)주사위를 던져서 1이 나올 확률은 1/6
      =>확률은 이미 발생한 사건에 대한 가능성을 측정하는 반면, 우도는 주어진 파라미터 값에서 주어진 데이터가 나올 가능성을 측정한다는 것
    • 통계에서 사용되는 bootstrap의 의미는 무엇인가요.
      bootstrap : 샘플링 기법 중 하나로, 표본 데이터로부터 복원 추출을 통해 재표본을 생성하는 방법
      작은 표본 데이터셋에서 추정치의 분포나 신뢰구간을 추정하는데 활용
      원 데이터로부터 복원 추출=>샘플로부터 통계량 계산=>통계량의 분포 분석
      작은 표본 데이터셋에서 나올 수 있는 불확실성을 효과적으로 측정하는 방법으로 모집단 분포에 대한 가정이 어려운 경우에 유용, 모집단 분포에 대한 가정을 최소화하면서 통계적 추론을 수행할 수 있게 해줌
    • 모수가 매우 적은 (수십개 이하) 케이스의 경우 어떤 방식으로 예측 모델을 수립할 수 있을까요?
      1. 간단한 모델 사용
      2. feature enginearing
      3. 교차 검증과 하이퍼파라미터 튜닝
      4. 앙상블 기법 활용
      5. 부트스트랩
      6. 전이학습(transfer learning)
      7. 정규화 기법(regularization(ex)라쏘, 릿지))
      8. 최적화 방법 선택
    • 베이지안과 프리퀀티스트 간의 입장차이를 설명해주실 수 있나요?
      베이지안 접근 방식
      - 확률 해석 : 사건이 발생할 신뢰성의 정도로 해석, 사전 정보와 데이터에 대한 믿음의 갱신을 통해 사건에 대한 불확실성을 나타냄
      - 파라미터 추론 : 파라미터를 확률 변수로 보고, 사전 분포를 통해 사전 지식을 표현하고, 데이터를 통해 사후 분포를 갱신, 주어진 데이터에 따라 모델의 불확실성을 갱신하여 파라미터의 분포를 추정
      - 목적 : 모든 종류의 불확실성을 효과적으로 다룰 수 있으며, 특히 데이터가 제한적인 경우 유용
      프리퀀티스트 접근 방식
      -확률 해석 : 반복적인 독립적인 실험의 극한, 장기적인 빈도로 사건이 발생하는 경향을 말함
      - 파라미터 추론 : 파라미터를 고정된 미지의 상수로 취급, 주어진 데이터에 대한 추정치를 계산, 추정치는 주어진 데이터에서 최대우도추정치(MLE) 등을 통해 얻음
      - 목적 : 주로 예측에 중점을 둠, 주어진 데이터에서 최적의 추정치를 찾는 것이 목적
    • 검정력(statistical power)은 무엇일까요?
      검정력 : 특정 효과가 테스트에서 감지될 확률, 즉 실험이 실제로 의미있는 효과를 찾아낼 수 있는 능력
      검정력이 높을수록 실험이 실제로 효과를 감지할 가능성이 높아짐
      결정 요소?
      효과의 크기/표본 크기/유의수준/통계적 분석 방법
      검정력을 높이기 위해서는 일반적으로 효과의 크기를 늘리거나 표본 크기를 증가시키는 것이 일반적
    • missing value가 있을 경우 채워야 할까요? 그 이유는 무엇인가요?
      결측값이 적절하게 처리되지 않으면 결과에 편향이 생길 수 있고, 모델의 성능이나 분석의 정확성이 저하될 수도 있음
      결측값을 다루는 이유
      통계적 편향 방지/효율적인 데이터 활용/모델 성능 향상/결측값의 패턴 파악
      결측값을 다루는 방법
      제거/대체/특별한 값으로 처리
    • 아웃라이어의 판단하는 기준은 무엇인가요?
      아웃라이어 : 주어진 데이터 집합에서 다른 데이터와 현저하게 다른 값을 갖는 관측치
      아웃라이어의 판단기준
      1. 표준편차 : 평균에서 2이상의 표준편차 떨어진 값
      2. 백분위수 : 95%백분위수에서 크게 벗어난 값
      3. box-and-whisker plot(상자수염그림) : 데이터의 중앙값, 사분위수, 특이값을 시각적으로 나타내는 플롯
      4. 거리기반방법 : 데이터간의 거리를 측정, Mahalanobis거리, 유클리드 거리 등을 사용하여 이상도를 계산
      5. Z점수(Z-Score) : 평균에서 표준편차의 몇배만큼 떨어져있는지를 나타내는 표준화된 점수
      6. 모델기반방법 : 특정 모델을 사용하여 예측된 값과 실제 값의 차이를 이용하여 아웃라이어 식별
      *Mahalanobis 거리?
      다변량 데이터에서 점들간의 거리를 측정하는 방법
      데이터의 공분산 구조를 고려하여 거리를 정량화, 변수간의 상관성 고려
      관측치와 표본 평균 간의 거리를 공분산 구조에 맞게 조정한 값=>이상치를 식별하는 데 사용
    • 필요한 표본의 크기를 어떻게 계산합니까?
      효과크기/통계적 유의수준/통계적 검정력/표본분산/통계분석방법
    • Bias를 통제하는 방법은 무엇입니까?
      bias(=편향) : 연구나 분석과정에서 발생하는 시스템적인 오차, 실제 값에서 벗어난 추정치를 생성할 수 있음
      bias를 통제하는 방법
      랜덤화/일치되지 않는 그룹 조절(Matching)/게획된 실험설계/다변량 분석/자료 조절/모형의 선택
    • 로그 함수는 어떤 경우 유용합니까? 사례를 들어 설명해주세요.
      지수 성장 및 감소/비율과 비교/확률 및 로그 오즈/정보이론과 엔트로피/시간상 로그변환/금융분야/데이터 변환/인터넷 검색 및 엔진 알고리즘
      유용한 이유?
      1. 지수 성장과 감소의 선형화
      2. 비율의 표현
      3. 정규분포로의 변환
      4. 상대적 크기의 안정성
      5. 효과 크기의 해석
      6.오차의 선형화
      7. 정보이론 및 엔트로피의 표현
    • 베르누이 분포 / 이항 분포 / 카테고리 분포 / 다항 분포 / 가우시안 정규 분포 / t 분포 / 카이제곱 분포 / F 분포 / 베타 분포 / 감마 분포에 대해 설명해주세요. 그리고 분포 간의 연관성도 설명해주세요.
      (드릅게 많네....)
      1. 베르누이 분포 : 이진 변수에 대한 확률 분포로서 두가지 가능한 결과 중 하나가 발생하는 경우 사용
      2. 이항분포 : 베르누이 시행을 여러번 반복한 후의 확률 분포, 각 시행은 독립적이며, 각 시행에서 성공확률이 p일 때, n번 시행 중 성공하는 횟수의 분포
      3. 카테고리 분포 : 세 개 이상의 범주를 가지는 이산 변수에 대한 분포, 각 범주에 대한 확률을 나타냄
      4. 다항분포 : 카테고리 분포의 확장, 여러 개의 범주에서 각 범주가 나타나는 횟수를 나타냄 
      5. 가우시안 정규 분포 : 대부분의 자연 현상에서 나타나는 연속형 확률 변수에 대한 분포, 종모양의 형태를 가지며 평균과 분산에 의해 특성화됨
      6. t분포 : 평균을 추정할 때, 모분산을 모르는 경우 등에 사용되는 분포, 정규분포와 유사하지만 꼬리 부분이 두터움
      7. 카이제곱 분포 : 독립적인 표준 정규분포를 따른느 확률 변수들을 제곱하여 합한 결과에 대한 분포, 주로 가설 검정에 사용
      8. F분포 : 두 모분산의 비율에 대한 분포, 분산 비교 및 분산 분석에 사용 
      9. 베타 분포 : 0~1의 값을 가지는 확률 변수에 대한 분포, 베이지안 통계에서 사전 분포로 사용
      10. 감마 분포 : 연속적인 양수 값을 가지는 확률 변수에 대한 분포, 베이지안 통계, 생존 분석 등에 사용
      이항 분포는 베르누이 분포의 확장
      정규분포는 중심극한정리에 따라 여러 독립적인 확률 변수의 합이 정규분포에 가까워지는 특성이 있음
      t분포는 정규 분포에서 유도
      F분포는 카이제곱 분포와 정규 분포를 활용하여 정의됨
    • 출장을 위해 비행기를 타려고 합니다. 당신은 우산을 가져가야 하는지 알고 싶어 출장지에 사는 친구 3명에게 무작위로 전화를 하고 비가 오는 경우를 독립적으로 질문해주세요. 각 친구는 2/3로 진실을 말하고 1/3으로 거짓을 말합니다. 3명의 친구가 모두 “그렇습니다. 비가 내리고 있습니다”라고 말했습니다. 실제로 비가 내릴 확률은 얼마입니까?
      뭐라누,,,,
       
      문제를 확률론적으로 해결하기 위해 베이즈 정리를 사용
       
      - A : 비가 내리는 사건
      - Bi : i번째 친구가 "그렇습니다. 비가 내리고 있습니다"라고 말함
       
      - 친구1 : P(A|B1)=2/3(진실을 말할 확률)
      - 친구2 : P(A|B2)=2/3
      - 친구3 : P(A|B3)=2/3
       
      친구들의 말이 독립적이라고 가정하면 모든 친구들이 "그렇습니다. 비가 내리고 있습니다"라고 말한 경우의 조건부 확률은 다음과 같음
      P(A|B1∩B2∩B3)=P(A|B1)* P(A|B2)* P(A|B3)
      =(2/3)**3=8/27
      =>세명의 친구가 모두 "그렇습니다. 비가 내리고 있습니다"라고 말할 때, 비가 실제로 내릴 조건부 확률은 8/27
       
      걍 말을 하지를 말어,,,,구라쟁이드랑,,

    '공부 > ML 모의 인터뷰 스터디' 카테고리의 다른 글

    네트워크  (0) 2024.01.27
    파이썬  (0) 2024.01.26
    딥러닝  (0) 2024.01.25
    머신러닝  (2) 2024.01.24

    댓글

Designed by Tistory.