Processing math: 0%
  가능도추정법 & 가능도함수 : 예제를 통해 쉽게 이해해보자 기본 콘텐츠로 건너뛰기

가능도추정법 & 가능도함수 : 예제를 통해 쉽게 이해해보자

통계 분석의 핵심은 무엇일까?


✅통계 분석의 목적은 여러 가지가 있지만 가장 중요한 것 중에 하나는 관측된 표본을 통해 모수를 추정하는 것이라 할 수 있다.


📋대선이 가까워지고 있는 요즘, 지지율 여론조사, 지지하는 정당 여론조사 뉴스가 굉장히 많이 올라온다. 뉴스들을 살펴보면 대략 표본은 1,000여 명 정도가 응답을 하고 여론조사 방식은 면접조사, ARS 등이 있다. 

그런데, 여기서 드는 의문..

❓1,000 명 정도 되는 표본의 대답이 전체 국민들을 대변하는 여론이라고 할 수 있을까?

(가끔 표본 수가 고작 1,000 명 밖에 안되기 때문에 자기 마음에 들지 않는 여론조사 결과가 나오면 여론 조사가 잘못되었다고 판단하는 사람들도 많다. 생각보다 매우 매우 많다.)

❓표본 수가 2,000 명인 여론조사와 표본 수가 20,000 명인 여론조사 중 어떤 조사가 더 정확할까?

 이는 여론 조사 설계에 따라 달라진다.

대략적으로 표본의 수가 1,000 ~ 2,000 정도면 대체적으로 여론조사 결과가 믿을만하다고 알려져 있다. 단, 표본이 전체 국민을 대변할 수 있을 정도로 표본 설계가 촘촘히 되어야 하며, 적절한 조사 방법을 이용해야 한다. 또한 편향이 생기지 않도록 설문지를 비롯해 여러 가지를 신경써야 한다.

만약 표본조사에서 33.5%가 야당 후보를 지지한다고 하면 모수 역시 대략 그 정도라고 추정할 수 있다.



✅모집단 전체를 조사하려면 비용과 시간이 너무 많이 소요되므로 비슷한 성능이라면 모집단을 대표하는 표본을 관측해 모수를 추정하는 방법이 널리 사용된다.

이렇게 미지의 모수값들은 표본을 이용해 추정하는데 그 추정법 중에 하나는 최대가능도추정법 Maximum Likelihood Estimation 이다.


"모수적 추정 방법은 반응변수에 대해 특정 확률분포를 가정한다."


가능도 검정을 할 때 많이 마주치는 문장인데, 참 이해하기 어려운 문장이다.


❗확률 분포는 여러 가지 종류가 있다. 

대표적인 확률 분포로는 정규분포, 카이제곱분포, 포아송분포, 이항분포 등이 있다.


📋예를 들어 A공장에서 생산된 마스크의 불량률을 구해보고자 한다. 

A공장 생산 마스크의 불량률을 구하기 위해서 전 제품을 전수조사를 할 수는 없다.

따라서 생산된 제품 중 "몇 개를 뽑아서"(=표본추출) "불량인지 아닌지"(=반응변수)를 살펴보아야 한다.

이 경우 반응변수는 ①불량 ②정상 이 두 가지의 카테고리이고 여러 번 반복하여 확인하므로 "이항분포"라는 확률분포를 가정한다.

여기에서 추정하고자 하는 모수"불량률(𝛑)"이다. 


❓우리는 불량률을 모른다.

10개의 마스크를 랜덤으로 골랐다고 하자.

시행횟수가 n이고, 불량품의 개수를 x라고 한다면.. 반응변수가 이항분포를 따르므로


모수인 불량률을 𝛑 라고 할 때,

확률분포는 다음과 같다. 

_{n}\textrm{C}_{x} \pi^{x}(1-\pi)^{n-x}


📉 만약 표본 10개의 마스크 중 불량품의 개수가 0이라면 그 확률은 다음이 된다.

 P(X=0)=(1-\pi)^{10}  


따라서 불량품의 개수가 0일 확률은 0부터 1의 값을 갖는 미지의 모수 𝛑값에 의해 달라진다.


이렇게 미지의 모수의 함수로 표현 된 표본자료의 확률가능도함수 Likelihood function이라고 한다. 


위 예제를 이와 같이 표현하면..

10번의 시행에서 X(불량품)=0 인 불량품에 대한 이항가능도함수는 0과 1 사이의 𝛑 에 대하여  l(\pi)=(1-\pi)^{10} 로 정의할 수 있다.


만약 

모수가 0이라면 (불량률이 0 이라면) l(0)=(1-0)^{10}=1

불량률이 0.2라면 l(0.2)=(1-0.2)^{10}=0.107 

불량률이 0.4라면  l(0.4)=(1-0.4)^{10}=0.006

④ 불량률이 0.6라면  l(0.6)=(1-0.6)^{10}=0.0001


이를 R을 이용하여 그림으로 나타내면 다음과 같다.

만약 생산된 마스크 중 10개를 랜덤 선택하였을 때 불량인 마스크의 개수가 4개라면.. 

(여전히 불량률은 몰라서 𝛑로 둠)

_{n}\textrm{C}_{x}(\pi)^{x}(1-\pi)^{n-x}=_{10}\textrm{C}_{4}(\pi)^{4}(1-\pi)^{6}

l(\pi)=210( \pi )^{4}(1-\pi)^{6}


만약 

① 모수가 0이라면 (불량률이 0 이라면) l (0)=210(0)^{4}(1)^{6}=0

② 불량률이 0.2라면 l(0.2)=210(0.2)^{4}(1-0.2)^{6}=0.088  

③ 불량률이 0.4라면 l(0.4)=210(0.4)^{4}(1-0.4)^{6}=0.25  

④ 불량률이 0.5라면 l(0.5)=210(0.5)^{4}(1-0.5)^{6}=0.205  

⑤ 불량률이 0.6라면 $$ l(0.6)=210(0.6)^{4}(1-0.6)^{6}=0.11 $$ 


이를 R을 이용하여 그림으로 나타내면 다음과 같다.

모수의 Maximum Likelihood Estimator 최대가능도추정량"가능도함수를 최대로 만드는 모수값"으로 정의한다.

즉, 그 모수값에서 가능도함수가 최댓값을 갖는다.

(역시 이해하기 어려운 문장이다..)


다시 앞의 예로 돌아가보면..

 l(\pi)=(1-\pi)^{10}

위 가능도 함수는 X=0, 생산된 마스크 중 10개를 랜덤 선택하였을 때 불량인 마스크의 개수가 0개였을 때의 가능도함수였다. 그리고 이를 그래프로 나타낸 것은 다음과 같다.

위 그래프에서 최댓값을 갖는 모수값은 0.0이고, 최대가능도추정량은 0.0이 되는 것이다.

따라서 10 개의 표본 마스크 중에서 0개의 불량품이 있었다면 불량률 P(or파이)가 0.0일 때에 관측될 가능성이 높다는 의미이다.



두 번째 예제를 다시 살펴보면..

l(\pi)=210( \pi )^{4}(1-\pi)^{6}

위 가능도 함수는 X=4, 생산된 마스크 중 10개를 랜덤 선택하였을 때 불량인 마스크의 개수가 4개였을 때의 가능도함수다. 그리고 이를 그래프로 나타낸 것은 다음과 같다.

위 그래프에서 가능도함수가 최댓값을 갖는 모수는 0.4이고, 따라서 10개의 마스크를 랜덤으로 뽑았을 때 불량품이 4개 발견되었다면 불량률이 0.4일 때 발견될 가능성이 높다는 의미이다.


n번 시행 중에서 x번 성공한 이항분포의 결과에서 파이의 최대가능도추정량은 

 \hat{\pi}=\frac{x}{n}

이는 n번 시행했을 때의 표본비율이다.


최대가능도(ML) 추정량은 실제 표본자료를 관측하기 전에는 그 값을 알 수 없다.


따라서 앞으로 이항모수에 대한 통계적 추론을 위해서 ML 추정량을 사용할 수 있다.

다음 글에서는 이항모수에 대한 유의성 검정에 대해 살펴보도록 하겠다.



댓글

이 블로그의 인기 게시물

통계 : Dummy Variable Trap

 Regression model을 만들다 보면, 독립변수로 명목형 변수를 사용할 때가 많다. 지역이나 성별, biomaker유/무 등이 대표적으로 많이 사용되는 명목형 변수로, 특히 medical 저널에서는 성별을 covariate으로 취급하여 성별에 따른 종속변수의 차이를 보고자 할 때가 많다. 명목형 변수들은 Dummy Variable로 바꾸어서 regression model을 만드는데, one hot 인코딩 방식으로 더미 변수들을 만든다. 예를 들면,  ❕ male=0, female=1 ❕ Biomarker유=1, Biomarker무=0 이런식으로 만든다. 이와 같은 binary 데이터들은 더미 변수로 만드는 것도 쉽고 큰 문제가 되지 않는다. one-hot encoding의 이유는, 0과 1 대신 빨간색, 녹색, 파란색을 1,2,3 으로 코딩해버리면, 적합한 모델은 숫자가 더 큰 3을 빨간색보다 더 중요한 인자로 생각하게 되기 때문이다. 학력처럼 순서형이면 각 숫자에 의미가 있지만 여러 컬러처럼 단순 명목형일 때에는 one-hot 인코딩을 해야한다.  (단, 컬러가 연함 - 진함과 같이 순서형이라면 굳이 one-hot 인코딩을 안해도 된다.) one-hot encoding 의 예시는 아래 세 가지 카테고리로 보면 더 명확하게 이해가 된다. (image출처: https://towardsdatascience.com/encoding-categorical-variables-one-hot-vs-dummy-encoding-6d5b9c46e2db) 그럼 binary 말고 여러 카테고리가 있는 변수의 경우는 어떤 식으로 더미 변수를 만들까? Regression 모델을 만들 때에는 k개의 카테고리가 있다면, k-1개의 더미변수를 생성하게 된다. 위 그림에서 Blue일 때, d1, d2, d3 모두 0으로 코딩해도 Red, Green과 차이가 있으므로, d1과 d2만 만들어도 무방하다는 의미이다. 즉, d1과 d2가 0일 때, Blue가...

통계 기초 : 확률 분포 - (1) 이항분포

Binomial distribution 이항분포에 앞서 베르누이분포가 있다. 모든 가능한 결과가 두 가지인 실험(표본공간이 {불량품, 양호품},{찬성, 반대} 등)을 베르누이 시행(Bernoulli trial)이라 한다. 성공확률을 p 라고 할 때, '성공'이면 1, '실패'면 0으로 대응시키는 확률변수를 베르누이 확률변수라 한다. 베르누이 확률변수 X의 확률분포는 다음과 같이 정의할 수 있다. P(X=x) = p^{x}(1-p)^{1-x}, x=0,1 따라서, X=0인 경우에는 P(X=0) = (1-p)이고, X=1인 경우에는 P(X=1) = p가 된다. 베르누이분포의 평균은 E(X)=p, Var(X)=p(1-p) 이다. 이처럼 동일한 성공확률을 가진 베르누이 시행 을 독립적 으로 반복 하여 시행할 때, 'X=성공횟수'의 분포를 이항분포(binomial distribution)이라 한다. 성공확률이 p인 베르누이 시행을 n번 독립적으로 반복 시행할 때, '성공횟수(=X)'가 x일 확률은 다음과 같이 표시할 수 있다. P(X=x) = (\frac{n}{x})p^{x}(1-p)^{n-x}, x=0,1,2, ..., n 이항분포의 평균은 E(X)=np, 분산은 Var(X)=np(1-p) 이다. 증명은  https://proofwiki.org/wiki/Variance_of_Binomial_Distribution  참고하면 된다. 여기에서 n , p 를 이항분포의 모수(parameter)라 한다. 만약 n=1이라면, 이항분포 B ( n , p )는 '1(성공)'의 확률이 p 인 베르누이분포이다. 참고로 모수는 모집단의 특성값으로, 평균, 분산, 성공확률 등을 예시로 들 수 있다.

Odds Ratio and Relative Risk ; 오즈비와 상대위험도

  Odds Ratio 는 임상에서 매우 많이 사용되는 개념이다. 그러나 'Odds' 라는 개념이 직관적으로 잘 와닿지 않기 때문에 흔히 오용되기도 하는 개념이라 가장 먼저 잡고가야 할 주제로 삼았다.   오즈비는 범주형 자료에서 사용되는데, 오즈비를 보면서 가장 많이 접하게 될  2X2 분할표는 다음과 같이 생겼다.   Event Normal Total Exposed A B A + B Non-exposed C D C + D 흔히 하는 실수가 오즈비(Odds Ratio)를 해석할 때, 상대위험도(Relative risk)를 해석하듯이 한다는 점이다. 따라서 오즈비와 상대위험도의 각 개념에 대해서 살펴보고 넘어가도록 하자.   ❗Odds Ratio와 Relative Risk의 공통점 : 상대적인 비율 을 나타낸다. Public health / Medical 에서 Odds Ratio or Relative Risk를 사용하는 이유 - 어떤 조건에서 더 위험한지를 수치적으로 나타내기 위해서 사용 한다. 예를 들면, "흡연(조건)"을 하는 사람은 비흡연자에 비해 "폐암(Event)" 발생에 있어서 몇 배가 더 위험한가? 와 같은 질문에 대한 해답으로 많이 사용된다.   ✅위와 같은 2X2 이차원 분할표에서 Odds Ratio (오즈비) 의 수식적 정의 는 다음과 같다. P1 = A/(A+B) ; P2 = C/(C+D) Odds1 = P1/(1-P1) ; Odds2 = P2/(1-P2) Odds Ratio = Odds1/Odds2 = A*D/B*C ✅ 한편 2X2 분할표에서 Relative Risk (상대위험도) 의 수식적 정의 는 ...