선형모형: 정규랜덤성분을 가정한 GLM 기본 콘텐츠로 건너뛰기

선형모형: 정규랜덤성분을 가정한 GLM

 Linear Regression 과 GLM은 어떤 관계일까?


우리가 흔히 생각하는 선형회귀모형(Linear regression model)은 GLM의 특별한 경우다.


앞선 글에서 GLM의 세 가지 성분을 살펴보았다.

①랜덤성분 ②선형예측식 ③연결함수


간단히 복습하면..

랜덤성분 - 반응변수 Y를 명시

선형예측식 - 설명변수 X를 명시

연결함수 - 반응변수 Y에 대한 확률분포의 기댓값 μ=E(Y)와 선형예측식을 연결하는 함수 g를 명시


Linear regression model에서는 Y 랜덤성분에 대해서 정규분포를 가정하고, 항등연결함수 g(μ)=μ를 이용하여 평균을 직접적으로 모형화할 수 있다.


"GLM은 보통 선형모형을 두 가지로 일반화 시킨 모형이다."


참 이해하기 어려운 문장들이 가득한 GLM..


(1) 첫 번째 일반화는 랜덤성분이 정규분포가 아닌 다른 분포를 갖게 하는 것

(2) 두 번째 일반화는 평균의 함수를 모형화하는 것

 ⇨ 이 두 가지는 categorical analysis에서 중요함


❓"Yes or No" 라던지 포아송분포와 같은 이산형 반응변수를 가진 자료를 분석하는 전형적인 방법은 반응변수를 적당히 변환해 일정한 분산을 갖는 정규분포에 가깝도록 근사시킨 후에 최소제곱법을 이용해 선형회귀모델을 만드는 것이다.

그러나.. 이 방법은 한계를 가지는데, 예를 들면 확률값이 1이 넘거나 마이너스 값을 가질 수 있다는 점이다. 따라서 이산형 반응변수를 가진 자료를 가지고 회귀모형을 적합할 때에 위와 같은 방법은 권장되지 않는 방법이다.


✅ GLM을 이용하면 정규이론 방법을 적용하기 위해 필요했던 변환 작업이 필요없다.

❓Why? GLM의 적합과정 중 선택한 랜덤성분에 대해 ML방법을 사용하기 때문에 랜덤성분의 정규성 조건이 필요 없어지기 때문 + 어떤 연결함수가 선형모형이 만족되면 그 연결함수가 정규성을 만족하거나 분산을 일정하게 만드는 역할을 할 필요가 없음.


위 문장이 전부 한 번에 이해되지는 않지만 그래도 일단 넘어가면 된다.


댓글

이 블로그의 인기 게시물

Radiomics: Feature selection 3

  Demircioğlu, Aydin PhD  Benchmarking Feature Selection Methods in Radiomics, Investigative Radiology: January 18, 2022 - Volume - Issue - doi: 10.1097/RLI.0000000000000855 High dimensionality of the datasets and small sample sizes are critical problems in radiomics. Therefore, removing redundant features and irrelevant features is needed. Overall, per dataset,  30 different feature selection methods + 10 classifiers + 70 hyperparameter settings After each feature selection method, 1, 2, ..., 64 features were selected. Altogether, 14,700=30✕70 ✕7 models were fitted, each with a 10-fold cross-validation . More complex methods are more unstable than simpler feature selection methods. LASSO performed best when analysing the predictive performance , though it showed only average feature stability . Longer training times and higher computational complexity of the feature selection method do not mean for high predictive performance necessarily. Obtaining a more stable mode...

통계 : Dummy Variable Trap

 Regression model을 만들다 보면, 독립변수로 명목형 변수를 사용할 때가 많다. 지역이나 성별, biomaker유/무 등이 대표적으로 많이 사용되는 명목형 변수로, 특히 medical 저널에서는 성별을 covariate으로 취급하여 성별에 따른 종속변수의 차이를 보고자 할 때가 많다. 명목형 변수들은 Dummy Variable로 바꾸어서 regression model을 만드는데, one hot 인코딩 방식으로 더미 변수들을 만든다. 예를 들면,  ❕ male=0, female=1 ❕ Biomarker유=1, Biomarker무=0 이런식으로 만든다. 이와 같은 binary 데이터들은 더미 변수로 만드는 것도 쉽고 큰 문제가 되지 않는다. one-hot encoding의 이유는, 0과 1 대신 빨간색, 녹색, 파란색을 1,2,3 으로 코딩해버리면, 적합한 모델은 숫자가 더 큰 3을 빨간색보다 더 중요한 인자로 생각하게 되기 때문이다. 학력처럼 순서형이면 각 숫자에 의미가 있지만 여러 컬러처럼 단순 명목형일 때에는 one-hot 인코딩을 해야한다.  (단, 컬러가 연함 - 진함과 같이 순서형이라면 굳이 one-hot 인코딩을 안해도 된다.) one-hot encoding 의 예시는 아래 세 가지 카테고리로 보면 더 명확하게 이해가 된다. (image출처: https://towardsdatascience.com/encoding-categorical-variables-one-hot-vs-dummy-encoding-6d5b9c46e2db) 그럼 binary 말고 여러 카테고리가 있는 변수의 경우는 어떤 식으로 더미 변수를 만들까? Regression 모델을 만들 때에는 k개의 카테고리가 있다면, k-1개의 더미변수를 생성하게 된다. 위 그림에서 Blue일 때, d1, d2, d3 모두 0으로 코딩해도 Red, Green과 차이가 있으므로, d1과 d2만 만들어도 무방하다는 의미이다. 즉, d1과 d2가 0일 때, Blue가...

수리통계학 - 이산형 확률변수의 확률분포

 이산형 확률분포의 종류  - 베르누이분포, 이항분포, 이산형균등분포, 기하분포, 초기하분포, 음이항 분포, 포아송 분포 등 이산형 확률변수의 적률생성함수는 다음과 같은 형태로 표현된다. $$ M_{X}(t)=E(e^{tX})=\sum_{x=0}^{\infty}e^{tx}f(x) $$ 1. 베르누이 분포 베르누이 시행의 확률변수 X의 분포는 X=1의 확률에 의해 정의된다. (X=0 or 1) P=P(X=1)=P(성공 ) 베르누이 시행의 확률질량함수 f(x)는 $$ f(x) = p^{x}(1-p)^{1-x}, x=0, 1 $$ 베르누이 분포의 기댓값과 분산은 다음과 같다. E(X)= p , Var(X)= p (1- p ) 베르누이분포의 적률생성함수는 다음과 같다. $$ M(t)=E(e^{tx})=(1-p)+pe^{t} $$ 적률생성함수 유도 과정은 아래와 같이 진행할 수 있다. $$ M(t)=E(e^{tX})=\sum_{x=0}^{1}e^{tx}f(x)=\sum_{x=0}^{1}e^{tx}p^{x}(1-p)^{1-x}=e^{0}p^{0}(1-p)^{1}+e^{t}p^{1}(1-p)^{0}=(1-p)+pe^{t} $$ 적률생성함수를 t에 대해 1차 미분한 후 t값에 0을 대입하면 평균을 도출할 수 있다. 베르누이 분포의 적률생성함수를 1차 미분하면  $$ M(t)=(1-p)+pe^{t}\Rightarrow M^{'}(t)=\frac{d}{dt}(1-p+pe^{t})=pe^{t} \Rightarrow M^{'}(0)=p $$ 2. 이항분포 베르누이 시행을 독립적으로 n번 반복하여 시행한 경우, 성공한 총 횟수를 X라 정의하면, 이 확률변수 X는 이항분포를 따른다. 이항분포의 확률질량함수 f(x)는 다음과 같다. $$ f(x)=\binom{n}{x}p^{x}(1-p)^{n-x}, x= 0,1,2,...,n $$ 이항분포의 기댓값 E(X)= np , Var(X)= np (1- p ) 이다. 이항분포 ...