Bioinformatics with Park-Kleis

글

10월, 2021의 게시물 표시

GLM과 이탈도 - 모형검정 & 적합도검정

GLM에서 이탈도 이탈도 Deviance란 무엇일까? GLM에서 이탈도 deviance는 선형회귀모형에서 잔차제곱합에 대응하는 값으로 표본과 적합된 모형 간 편차를 정량화 하는 값이다. GLM에서 이탈도로 할 수 있는 검정이 무엇이 있을까? 1. 모형의 유의성 검정 2. 모형의 적합도평가 GLM 모형을 적합하면 다음과 같은 결과가 나오는데, 이탈도 값은 2개가 나온다. ①Null deviance ②Residual deviance 이 두 개의 이탈도 값이다. ①Null deviance는 절편만 있는 모형에서의 이탈도 ②Residual deviance는 β 가 포함된 모형에서의 이탈도를 의미한다. 먼저 ① 모형의 유의성 검정 을 살펴보겠다. 유의성 검정에서의 귀무가설과 대립가설은 다음과 같다. 귀무가설: β1 = β2 = 0 (Null model) 대립가설: 적어도 하나는 0이 아니다. 이를 검정하기 위한 검정통계량 LR(=가능도비 검정통계량) 은 다음과 같다. LR = [Null deviance] - [Residual deviance] = 2(현재모형 하에서 로그가능도 함수의 최댓값 - 귀무가설 하에서 로그가능도 함수의 최댓값) 따라서 이를 위 적합 결과에 적용하면 $$ LR = 225.76 - 189.12 = 36.64 $$ $$ 1 - pchisq(36.64, df=2) = 1.1(10)^{-8} $$ 결론: 유의확률이 매우 작으므로 귀무가설을 기각하고 대립가설을 선택할 수 있다. 모형의 유의성 검정에 대해 살펴보았으니 이번에는 두 번째인 ② 모형의 적합도 검정 을 살펴보자. 적합도 검정에서의 귀무가설과 대립가설은 다음과 같다. 귀무가설: 현재의 단순한 모형 M (=모형M에 포함되지 않은 모수들은 모두 0이다.) 대립가설: 포화모형 saturated model 이를 검정하기 위한 검정통계량은 이탈도 통계량으로 다음과 같이 정의한다. 이탈도 통계량 = 2[포화모형 로그가능도함수의 최댓값 ...

자세한 내용 보기

삼차원 분할표와 심슨의 역설 Simpson's paradox ; 오즈비

범주형 변수 분석에는 2X2 분할표가 간단하여 많이 사용되는데, 간단한 자료만 있는 것이 아니라 복잡한 자료들이 참 많다.. 3X3 분할표도 굉장히 많이 이용되는데, 예시를 살펴보고 삼차원 분할표는 어떻게 분석할 수 있는지 살펴보도록 하겠다. 📋 3X3 분할표 는 보통 아래와 같이 생겼다. Victims' race Defendants' race 선고 Rate(%) Yes No 백인 백인 53 414 11.3 흑인 11 37 22.9 흑인 백인 0 16 0.0 흑인 4 139 2.8 합 백인 53 430 11.0 흑인 15 176 7.9 위 표에서 먼저 합을 보자. 백인이 사형선고를 받은 비율은 11%, 흑인이 사형선고를 받은 비율은 7.9%이다. 이는 백인이 흑인에 비해 사형선고의 비율이 높다는 의미이다. 뭔가 그동안 보아왔던 것과는 좀 다른 결과이지 않은가? ❗설명변수인 X 와 반응변수인 Y 의 관계를 통계분석 시 주의해야 할 점은 두 변수에 동시에 영향을 주는 " 교란변수 confounding " 이다. 이를 공변량 covariates 이라고도 하는데, 앞으로는 이런 변수들을 공변량이라 하겠다. 🌟 공변량은 설명변수 X 와 반응변수 Y 모두에 연관되어 있다. 굉장히 매우 중요한 문장이다. 📋예를 들어 보자. 흡연자와 같이 사는 비흡연자에게 간접흡연이 미치는 영향을 살펴보는 연구를 하고자 설명변수로는 배우자가 흡연자인지의 여부, 반응변수로는 폐암 발생 여부로 지정했다고 하자. X = 흡연자와의 동거 여부 Y = 폐암 ...

자세한 내용 보기

오즈비의 신뢰구간

오즈비에 관한 통계적 추론 표본크기가 작을 때 오즈비의 표본추출분포는 비대칭적이기 때문에 오즈비에 대한 통계적 추론은 θ 를 자연로그 변환한 log( θ )를 이용한다. 두 변수 X , Y 가 서로 독립일 때, θ = 1 ➞ log( θ ) = 0 앞선 글에서 행이 바뀌거나 열이 바뀌면 오즈비는 역수가 되는 것을 살펴보았다. 마찬가지로 로그 오즈비는 행의 역수 혹은 열의 역수가 그 부호를 바꾼다는 의미에서 0에 대하여 대칭이다. 예를 들어, θ = 2 ➞ log(2) = 0.69 2의 역수 = 0.5 θ = 0.5 ➞ log(0.5) = -0.69 따라서 절대값이 같은 두 log( θ )는 같은 정도의 연관성을 의미한다. 오즈비의 로그 변환인 log( θ )는 θ 의 분포보다 더 정규분포에 가까운 표본추출분포를 갖는다. 표본크기가 커지면 log( θ )의 표본분포는 평균이 log θ 이고 다음과 같은 표준편차를 갖는 정규분포로 수렴한다. $$ SE=\sqrt{\frac{1}{n_{11}}+\frac{1}{n_{12}}+\frac{1}{n_{21}}+\frac{1}{n_{22}}} $$ 따라서 각 칸의 도수가 증가할수록 표준편차는 감소한다. 앞선 글(오즈비의 성질)에서 사용했던 표를 다시 가져와서 신뢰구간을 구해보겠다. Infarction Yes No Total Drug Used 28 41 69 Never 35 132 167 Total 63 173 236 log θ 의 왈드 신뢰구간은 다음과 같다. $$ log \hat{\theta} \pm ...

자세한 내용 보기

오즈비의 성질 Odds Ratio

오즈비는 임상에서 굉장히 많이 사용되는 개념이기도 하고, 로지스틱 회귀에서도 모형의 해석에서 굉장히 중요한 개념이다. 오즈비는 처음에는 이해하기 어렵지만, 이해를 하고나면 그 다음부터 쉽게 해석할 수 있고, 오즈비가 가진 여러 성질들도 이해할 수 있다. 📋오즈비의 성질을 살펴보기 위해 아래와 같은 표를 만들었다. Infarction Yes No Total Drug Used 28 41 69 Never 35 132 167 Total 63 173 236 📉 먼저 위 표를 바탕으로 상대위험도(Relative Risk)를 구해보자. ✔ Drug used 그룹 에서 Infarction Yes의 비율을 구해보자 ⇨ Infarction Yes : 28/69 = 𝛑 1 ✔ 이번에는 Drug never used 그룹 에서 Infarction Yes의 비율을 구해보자 ⇨ Infarction Yes : 35/167 = 𝛑 2 ❗이 경우 상대위험도(Relative Risk; RR) 는 다음과 같다. RR = 𝛑 1 / 𝛑 2 = ( 28/69) / ( 35/167) 📈 이번에는 Odds를 구해보자 ✔ Drug used 그룹 의 Odds = Odds1 라고 한다면 Odds1 = 𝛑 1 /(1- 𝛑 1 ) = 28/41 ✔ Drug never used 그룹 의 Odds = Odds2 라고 한다면 Odds2 = 𝛑 2 /(2- 𝛑 2 ) = 35/132 ❗ 따라서 오즈비(Odds Ratio) 는 다음과 같다. OR = (28*132)/(41*35) ...

자세한 내용 보기

GLM의 모형진단 - GLM part. 4

회귀 모형 (Regression model) 을 적합하고 모형 진단을 할 때 여러 검정이 필요한데, 그 중에서도 먼저 적합도 검정에 대해서 살펴보고자 한다. 관심 있는 모형을 M 이라 하고, 이 모형이 잘 적합되었는지 검정을 해보자. ✅적합도 검정 (Goodness of fit test) 이란? -포화모형에는 포함되어 있지만 간단한 모형에는 포함되지 않는 모든 모수가 0인지 검정하는 것 ✔ 귀무가설 : 간단한 모형 (현재 고려하고 있는 모형 = M) ✔ 대립가설 : 포화모형 (가장 복잡한 모형) 유의확률이 클수록 귀무가설을 기각하지 못하기 때문에 간단한 모형을 선택하게 된다. 즉, 유의확률이 크다면 간단한 모형이 복잡모형과의 설명력에서 차이가 없으므로 간단한 모형을 사용하면 된다. 범주형 변수 4개(binary)가 있다면 모수가 4개. ✅ 적합도와 이탈도 GLM에서 적합도 검정을 위한 가능도비 통계량 1. 이탈도(Deviance) = -2[Lm-Ls] Ls :포화모형의 이탈도, Lm : 간단모델의 이탈도 값이 클수록 포화모형과 비교했을 때 축소모형의 설명력이 좋지 못하다는 해석을 내릴 수 있음. P-value가 작을수록 적합결여에 대한 강한 증거가 된다. 2. 대표본의 경우 근사적으로 카이제곱 분포 를 따름. 예측변수가 모두 범주형 변수인 경우, 전체 Data는 분할표의 도수로 요약할 수 있다. 잔차를 이용해 적합도를 살펴볼 수 있다. L M = 모형 M 에서 얻은 로그 가능도함수의 최댓값 L S = 가능한 모형 중에서 가장 복잡한 모형에서의 로그 가능도함수의 최댓값 가장 복잡한 모형을 포화모형 saturated model 이라고 하고, 이 모형은 각 관측값에 대해 모수를 가지므로 완벽하게 자료를 적합시킨다. 포화모형은 모수들을 더 많이 포함하기 때문에 포화모형...

자세한 내용 보기

GLM에서 설명변수에 대한 검정 - GLM part. 3

GLM 적합 후에 여러 가지를 검정해야 하는데, 이번에는 설명변수에 대한 검정을 살펴보도록 하겠다. 표본이 큰 경우에 GLM의 ML 추정량들은 근사적으로 정규분포를 따른다. 설명변수가 한 개인 GLM을 생각해보자. (1) 왈드검정 Wald 귀무가설 β=0 을 검정하기 위한 왈드 검정통계량은 다음과 같다. $$ z=\hat{\beta}/SE $$ 귀무가설 하에서 z는 근사적으로 표준정규분포 를 따른다. $$ z^{2} \sim \chi^{2} (df=1) $$ 이항모수 𝛑에 대하여 SE 는 다음과 같다. $$ SE=\sqrt{\hat{\pi}(1-\hat{\pi})/n} $$ (2) 가능도비 검정 Likelihood ratio l 0 = 귀무가설 하에서의 가능도함수의 최댓값 l 1 = 완전모형 하에서의 가능도함수의 최댓값 $$ 2log(l_{1}/l_{0})=2[log(l_{1})-log(l_{0})]=2(L_{1}-L_{0}) $$ L0 = 귀무가설 하에서의 로그 가능도함수의 최댓값 L1 = 완전모형 하에서의 로그 가능도 함수의 최댓값 (로그변환과 두 배를 하면 대략적으로 카이제곱 표본분포를 따르게 됨) 귀무가설 β=0 하에서 2( L 1 - L 0 ) 이 검정통계량은 근사적으로 자유도가 1인 카이제곱분포 를 따른다. 가능도비 검정은 일반적으로 왈드검정보다 statistical power가 더 높다고 평가 받는다. (3) 스코어 검정 score test 왈드 검정과 달리 추정된 표준오차값이 아닌, 귀무가설이 참일 때 타당한 표준오차값(SE 0 ) 을 이용한다. 왈드 검정에서 SE는 다음과 같다. $$ SE=\sqrt{\hat{\pi}(1-\hat{\pi})/n} $$ z검정에서 사용하는 표준오차 즉, 스코어 검정에서 SE 0 는 다음과 같다. $$ SE_{0}=\sqrt{\pi_{0}(1-\pi_{0})/n} $$

자세한 내용 보기

도수에 대한 일반화선형모형 GLM Part. 2

앞선 글에서는 이항자료를 관측값으로 갖는 경우에 모형을 어떻게 적합할 것인가를 살펴보았다. 그럼 Counts 도수를 관측값으로 갖는 경우에는 어떻게 적합할까? 📋 도수를 관측값으로 갖는 범주형 반응변수 들은 예를 들어 ①디바이스 개수 ②실리콘 기판의 결함수 등이 있다. 도수자료를 가질 때 some GLM은 랜덤성분에 대해 포아송 분포 Poisson distribution을 가정한다. ❗포아송 확률은 다음 식과 같다. $$ p(y)=\frac{e^{-\mu} \mu^{y}}{y!} , y=0,1,2, \cdots $$ 포아송 분포를 따르는 데이터는 모수가 한 개 다. 그 모수는 바로 μ E(Y) = Var(Y) = μ 포아송의 평균을 모형화할 때에는 로그변환된 평균 을 사용하는 것이 일반적이다. GLM에는 세 가지 성분이 있다고 했는데, 도수자료를 가지는 GLM에서의 세 가지 성분에 대해 살펴보자. ✔ 랜덤성분: 포아송 분포 ✔ 자연모수: 로그 평균 ✔ 연결함수: log(μ) 포아송 로그 선형모형의 함수 그림은 아래와 같다. 하나의 설명변수 x에 대하여 포아송 로그 선형모형은 다음과 같다. $$ log\mu=\alpha+\beta x $$ 따라서 위 모형에서 평균 μ를 계산하면 다음과 같다. $$ \mu=exp(\alpha+\beta x)=e^{\alpha}e^{\beta x}=e^{\alpha}(e^{\beta})^{x} $$ 위 모형의 의미는 x가 한 단위 증가하면 μ가 exp(β)배 만큼 커진다는 뜻이다.

자세한 내용 보기

이항자료에 대한 일반화선형모형 GLM part.1

회귀모형을 적합할 때 적합하고자 하는 모형의 반응변수가 Binary data라면 어떻게 모형을 만들어야 할까? 반응변수가 두 가지의 범주 를 갖고 있는 경우가 참 많다. 예를 들면.. (예, 아니오) (성공, 실패) (양성, 음성) 이항반응변수를 Y 라 표시하고, 성공을 1, 실패를 0이라 나타내면, 반응변수 Y의 분포는 성공에 대한 확률 P( Y =1)=π 와 실패에 대한 확률 P( Y =0)=(1-π)로 표현할 수 있다. 이 분포의 평균 E( Y )=π 이며, n개의 서로 독립적인 이항반응변수의 관측값으로부터 관측된 성공횟수는 n 과 π 를 모수로 갖는 이항분포 를 따른다. 모수: n, π 이항반응변수를 갖는 값들을 회귀모델을 만드는 방법은 크게 두 가지이다. 1. 선형확률모형 먼저 이항반응변수를 갖는 값들을 보통선형모형을 이용해 항등연결함수를 사용해보도록 하겠다. $$ P(Y=1)=\alpha+\beta_{1}x_{1}+\cdots +\beta_{p}x_{p} $$ 이 모형은 성공확률이 설명변수에 따라 선형적으로 변하므로 Linear probability model 라고 부른다. 다른 변수가 고정되어 있을 때, x1이 한 단위 변한다면 모수 Beta1은 확률 P(Y=1)의 변화량을 의미한다. 한계점: 확률은 0과 1 사이의 값. 선형함수는 실수 전체에 걸쳐 값을 가질 수 있음. 2. 로지스틱 회귀모형 P( Y =1) 와 x의 관계는 비선형 형태이다. x의 변화량은 P(Y=1)가 0이나 1에 가까이 있을 때, 중앙일 때보다 영향을 덜 미치게 된다. 로지스틱 회귀함수 Logistic regression function은 다음과 같이 표현할 수 있다. $$ P(Y=1) = \frac{exp(\alpha+\beta x)}{1+exp(\alpha+\beta x)} $$ 모수 베타는 곡선이 증가하거나 감소하는 속도를 결정함. 만일 설명변수가 여러개라면 다음과 같이 표현 가능하다. $$ log[\frac{P(Y=1)}{...

자세한 내용 보기

선형모형: 정규랜덤성분을 가정한 GLM

Linear Regression 과 GLM은 어떤 관계일까? 우리가 흔히 생각하는 선형회귀모형(Linear regression model)은 GLM의 특별한 경우다. 앞선 글에서 GLM의 세 가지 성분 을 살펴보았다. ①랜덤성분 ②선형예측식 ③연결함수 간단히 복습하면.. 랜덤성분 - 반응변수 Y를 명시 선형예측식 - 설명변수 X를 명시 연결함수 - 반응변수 Y에 대한 확률분포의 기댓값 μ=E(Y)와 선형예측식을 연결하는 함수 g 를 명시 Linear regression model에서는 Y 랜덤성분 에 대해서 정규분포 를 가정하고, 항등연결함수 g(μ)=μ 를 이용하여 평균을 직접적으로 모형화할 수 있다. "GLM은 보통 선형모형을 두 가지로 일반화 시킨 모형이다." 참 이해하기 어려운 문장들이 가득한 GLM.. (1) 첫 번째 일반화는 랜덤성분이 정규분포가 아닌 다른 분포 를 갖게 하는 것 (2) 두 번째 일반화는 평균의 함수를 모형화 하는 것 ⇨ 이 두 가지는 categorical analysis에서 중요함 ❓"Yes or No" 라던지 포아송분포와 같은 이산형 반응변수를 가진 자료를 분석하는 전형적인 방법은 반응변수를 적당히 변환해 일정한 분산을 갖는 정규분포에 가깝도록 근사시킨 후에 최소제곱법을 이용해 선형회귀모델을 만드는 것이다. 그러나.. 이 방법은 한계를 가지는데, 예를 들면 확률값이 1이 넘거나 마이너스 값을 가질 수 있다는 점이다. 따라서 이산형 반응변수를 가진 자료를 가지고 회귀모형을 적합할 때에 위와 같은 방법은 권장되지 않는 방법이다. ✅ GLM을 이용하면 정규이론 방법을 적용하기 위해 필요했던 변환 작업이 필요없다. ❓Why? GLM의 적합과정 중 선택한 랜덤성분에 대해 ML방법을 사용 하기 때문에 랜덤성분의 정규성 조건이 필요 없어지기 때문 + 어떤 연결함수가 선형모형이 만족되면 그 연결함수가 정규성을 만족하거나 분산을 일정하게 만드는 역할을 할 필요가 없음. 위 문장이 전부 한 번에 이해되...

자세한 내용 보기

GLM 일반화선형모형의 성분

모든 GLM은 세 개의 성분이 있다. (1) 랜덤성분 random component - 반응변수 Y 를 정의하며, 반응변수 Y에 대한 확률분포를 가정한다. (2) 선형예측식 linear predictor - 설명변수(=독립변수) 들을 명시함. 변수들이 선형식의 우변에 다음과 같은 형태로, 예측변수들의 선형식으로 들어가는 것을 의미한다. $$ \alpha+\beta_{1}x_{1}+\cdots +\beta_{n}x_{n} $$ 모형에 대한 통계적 추론은 독립변수들의 관측값들을 고정된 값으로 간주한 조건부 추론을 하게 됨. (3) 연결함수 link function - Y에 대한 확률분포의 기댓값 E(Y)는 설명변수(=독립변수)들의 값에 따라 달라진다. $$ g(\mu)=\alpha +\beta_{1}x_{1}+\cdots +\beta_{n}x_{n} $$ 여기에서 연결함수는 "g" 로 랜덤성분과 설명변수들의 선형예측식을 연결하는 함수다. ✔ 연결함수의 가장 간단한 형태는 $$ g(\mu)=\mu $$ 이 연결함수는 평균자체를 모형화하므로 항등연결함수 identity link function 라고 한다. $$ \mu=\alpha +\beta_{1}x_{1}+\cdots +\beta_{n}x_{n} $$ 이 형태는 연속형(=양적) 반응변수에 대한 보통의 회귀모형 형태다. 일반적인 선형회귀(linear regression)이라 생각하면 된다. ❗다른 연결함수를 사용하면 µ 를 설명변수의 비선형식 으로 표현이 가능하다. ✔ 예를 들면 아래 식은 평균의 로그 변환된 값 을 모형화한 것이다. $$ g(\mu)=log(\mu) $$ 로그함수는 양수에 대해서 정의된다. 로그 연결함수는 µ 가 도수를 나타내는 자료와 같이 양의 값을 가질 때 적절히 사용가능하다. 아래 식은 로그선형모형이라 부른다. $$ log(\mu)=\alpha +\beta_{1}x_{1}+\cdots +\beta_{n}x_{n}$$ ❗아래 연결함수는 오즈...

자세한 내용 보기

민감도와 특이도 - 예측력 측도

민감도와 특이도 Predicted Total Pos Neg Actual Pos a b a+b Neg c d c+d 민감도 sensitivity 는 조건부확률로 실제 양성일 때, 양성으로 판정할 확률이다. $$ Sensitivity = P(Y=1|X=1) , Specificity = P(Y=0|X=0) $$ 이를 위 표에 적용해보면 민감도는 $$ \frac{a}{a+b} $$ 특이도 specificity 는 실제 음성일 때 음성으로 판정할 확률이다. 위 표로부터 구한 특이도는 다음과 같다. $$ \frac{c}{c+d} $$ 따라서 민감도와 특이도가 높을수록 예측력이 좋다고 할 수 있다.

자세한 내용 보기

이항모수의 유의성검정

ML 추정량 $$ \hat{\pi} $$ = 표본비율 $$ E(\hat{\pi})=\pi, \sigma(\hat{\pi})=\sqrt{\pi(1-\pi)/n} $$ 귀무가설 $$ H_{0}: \pi = \pi_{0} $$ 이를 검정하는 통계량은 $$ z=\frac{\hat{\pi}-\pi_{0}}{SE_{0}}=\frac{\hat{\pi}-\pi_{0}}{\sqrt{\pi_{0}(1-\pi_{0})/n}} $$ 이 검정통계량은 표본비율 hat(pi)가 귀무가설 하에서의 값으로부터 떨어진 정도가 표준오차의 몇 배나 되는지를 나타낸다. 귀무가설 하에서 이 검정통계량은 표본크기가 클 때, 평균이 0이고 표준편차가 1인 표준정규분포를 따른다. 신뢰 구간은 $$ \hat{\pi}\pm z_{\alpha/2}(SE) $$

자세한 내용 보기

가능도추정법 & 가능도함수 : 예제를 통해 쉽게 이해해보자

통계 분석의 핵심은 무엇일까? ✅통계 분석의 목적은 여러 가지가 있지만 가장 중요한 것 중에 하나는 관측된 표본을 통해 모수를 추정하는 것 이라 할 수 있다. 📋대선이 가까워지고 있는 요즘, 지지율 여론조사, 지지하는 정당 여론조사 뉴스가 굉장히 많이 올라온다. 뉴스들을 살펴보면 대략 표본은 1,000여 명 정도가 응답을 하고 여론조사 방식은 면접조사, ARS 등이 있다. 그런데, 여기서 드는 의문.. ❓1,000 명 정도 되는 표본의 대답이 전체 국민들을 대변하는 여론이라고 할 수 있을까? (가끔 표본 수가 고작 1,000 명 밖에 안되기 때문에 자기 마음에 들지 않는 여론조사 결과가 나오면 여론 조사가 잘못되었다고 판단하는 사람들도 많다. 생각보다 매우 매우 많다.) ❓표본 수가 2,000 명인 여론조사와 표본 수가 20,000 명인 여론조사 중 어떤 조사가 더 정확할까? 이는 여론 조사 설계에 따라 달라진다. 대략적으로 표본의 수가 1,000 ~ 2,000 정도면 대체적으로 여론조사 결과가 믿을만하다고 알려져 있다. 단, 표본이 전체 국민을 대변할 수 있을 정도로 표본 설계가 촘촘히 되어야 하며, 적절한 조사 방법을 이용해야 한다. 또한 편향이 생기지 않도록 설문지를 비롯해 여러 가지를 신경써야 한다. 만약 표본조사에서 33.5%가 야당 후보를 지지한다고 하면 모수 역시 대략 그 정도라고 추정할 수 있다. ✅모집단 전체를 조사하려면 비용과 시간이 너무 많이 소요되므로 비슷한 성능이라면 모집단을 대표하는 표본을 관측해 모수를 추정하는 방법이 널리 사용된다. 이렇게 미지의 모수값들은 표본을 이용해 추정 하는데 그 추정법 중에 하나는 최대가능도추정법 Maximum Likelihood Estimation 이다. "모수적 추정 방법은 반응변수에 대해 특정 확률분포 를 가정한다." 가능도 검정을 할 때 많이 마주치는 문장인데, 참 이해하기 어려운 문장이다. ❗확률 분포 는 여러 가지 종류가 있다. 대표적인 확률 분포로는...

자세한 내용 보기

범주형 변수 ; Categorical Variables

범주형 변수 (categorical variables)의 정의와 예시에 대해 살펴보고 다음 글부터 범주형 변수의 분석 방법에 대해 다루고자 한다. ✅범주형 변수 의 정의: 측정 단위가 여러 범주들의 집합으로 구성되어 있는 변수 범주형 변수는 질적 변수 (qualitative variables) 라고도 일컬어 진다. 📋범주형 변수의 예시 ex 1) 영화장르: 액션 - 로코 - 코미디 - 드라마 ex 2) 백신 접종 여부: 예 - 아니오 ex 3) 최종 학력: 중졸 - 고졸 - 전문대졸 - 대졸 - 대학원졸 ex 4) 행복 수준: 없음 - 가끔 - 꽤 행복 - 항상 행복 범주형 변수는 하위 세 가지 타입의 변수를 갖는다. 1. 이항변수 (Binary variables) ⇨ 위 예시 2번이 해당 ⇨ [예 or 아니오] 혹은 [찬성 or 반대] 두 가지의 범주만을 갖는 변수들 2. 명목형변수 (Nominal variables) ⇨ 위 예시 1번이 해당 ⇨ 3개 이상의 범주를 갖고 변수들 사이에 순서에 대한 의미가 없는 변수들 3. 순서형변수 (Ordinal variable) ⇨ 위 예시 3번과 4번이 해당 ⇨ 범주들이 일정한 순서를 갖는 변수들 (순서에 의미가 있음) 범주형 변수들을 어떻게 분석할 것인가? ⇨ GLM (Generalised Linear Model) 일반화 선형모형 이용함. 자세한 분석 방법들은 다음 글들에서 다루고자 한다.

자세한 내용 보기