오즈비의 성질 Odds Ratio 기본 콘텐츠로 건너뛰기

오즈비의 성질 Odds Ratio

  오즈비는 임상에서 굉장히 많이 사용되는 개념이기도 하고, 로지스틱 회귀에서도 모형의 해석에서 굉장히 중요한 개념이다. 오즈비는 처음에는 이해하기 어렵지만, 이해를 하고나면 그 다음부터 쉽게 해석할 수 있고, 오즈비가 가진 여러 성질들도 이해할 수 있다.


 📋오즈비의 성질을 살펴보기 위해 아래와 같은 표를 만들었다.


Infarction
Yes No Total
Drug Used 28 41 69
Never 35 132 167
Total 63 173 236



📉 먼저 위 표를 바탕으로 상대위험도(Relative Risk)를 구해보자.
Drug used 그룹에서 Infarction Yes의 비율을 구해보자
 ⇨ Infarction Yes : 28/69 =  𝛑1

✔ 이번에는 Drug never used 그룹에서 Infarction Yes의 비율을 구해보자
 ⇨ Infarction Yes : 35/167 = 𝛑2

❗이 경우 상대위험도(Relative Risk; RR)는 다음과 같다.

RR𝛑/ 𝛑= (28/69) / (35/167)



📈 이번에는 Odds를 구해보자

Drug used 그룹의 Odds = Odds1 라고 한다면
 Odds1 = 𝛑1/(1-𝛑1) = 28/41

Drug never used 그룹의 Odds = Odds2 라고 한다면
 Odds2 = 𝛑2/(2-𝛑2) = 35/132

❗ 따라서 오즈비(Odds Ratio)는 다음과 같다. 

OR = (28*132)/(41*35) = 2.576



위에서 상대위험도와 오즈비를 기초로 구하였고, 이제 본격적으로 오즈비의 성질에 대해 살펴보도록 한다.

오즈비를 θ 라 하자.
Drug use 여부를 X, Infarction 여부를 Y 라고 하자.


(1) 오즈비의 첫 번째 성질

두 변수 XY 가 서로 독립일 때 ➞ 즉,  𝛑𝛑2 ➞ Odds1=Odds2 ➞ θ = 1


정리하면,
θ = 1 ➞ 두 변수 X 와 Y 가 독립

θ > 1 ➞ 첫 번째 행(=Drug use 그룹)에서의 성공의 Odds가 두 번째 행(=Drug X)의 Odds 보다 크다. ➞ 𝛑1 > 𝛑2

θ < 1 ➞ 첫 번째 행(=Drug use 그룹)에서의 성공의 Odds가 두 번째 행(=Drug X)의 Odds 보다 작다. ➞ 𝛑1 < 𝛑2


❗ 위에서 구한 오즈비는 2.576으로 독립이 아니라고 할 수 있다.



(2) 오즈비의 두 번째 성질

❗ θ 가 1에서 멀어질수록 더 강한 연관성을 나타낸다. 

✔ θ 가 1 보다 클 때 (θ > 1)
오즈비가 4라는 것은 오즈비가 2일 때에 비해 독립성에서 더 멀어진 것이다.

✔ θ 가 1 보다 작을 때 (θ < 1)
0.25의 오즈비는 0.5의 오즈비를 갖는 경우보다 독립성에서 더 멀어진 것이다.

서로 역수 관계에 있는 오즈비방향만 반대일 뿐, 같은 정도의 연관성을 나타낸다.

if θ = 0.25 = Odds1이 Odds2의 0.25배
0.25의 역수는 1/(0.25)=4 이므로 Odds2가 Odds1의 4배라는 의미이다.




만약 행이 바뀌거나 열이 바뀐다면?

-먼저 행이 바뀌는 경우를 살펴보자.

Infarction
Yes No Total
Drug Never 35 132 167
Used 28 41 69
Total 63 173 236


Drug never used 그룹의 Odds = Odds1 = 28/41
Drug used 그룹의 Odds = Odds2 = 35/132

오즈비 = (35*41)/(28*132) = Odds1/Odds2 = 0.39 = 2.576 의 역수 = 1/2.576

따라서 Drug never used 그룹의 Odds는 Drug used 그룹의 Odds에 비해 0.39배이다.
이를 다르게 표현하면 Drug used 그룹의 Odds는 Drug never used 그룹의 "0.39의 역수"인 2.576배 이다.

따라서 행이 바뀌거나 혹은 열이 바뀌면 오즈비는 역수가 된다.




만약 행과 열이 서로 바뀐다면?

-행을 반응변수로 열을 설명변수로 다루거나, 행을 설명변수로 열을 반응변수로 다루더라도 오즈비는 변함이 없다.

댓글

이 블로그의 인기 게시물

Radiomics: Feature selection 3

  Demircioğlu, Aydin PhD  Benchmarking Feature Selection Methods in Radiomics, Investigative Radiology: January 18, 2022 - Volume - Issue - doi: 10.1097/RLI.0000000000000855 High dimensionality of the datasets and small sample sizes are critical problems in radiomics. Therefore, removing redundant features and irrelevant features is needed. Overall, per dataset,  30 different feature selection methods + 10 classifiers + 70 hyperparameter settings After each feature selection method, 1, 2, ..., 64 features were selected. Altogether, 14,700=30✕70 ✕7 models were fitted, each with a 10-fold cross-validation . More complex methods are more unstable than simpler feature selection methods. LASSO performed best when analysing the predictive performance , though it showed only average feature stability . Longer training times and higher computational complexity of the feature selection method do not mean for high predictive performance necessarily. Obtaining a more stable mode...

통계 : Dummy Variable Trap

 Regression model을 만들다 보면, 독립변수로 명목형 변수를 사용할 때가 많다. 지역이나 성별, biomaker유/무 등이 대표적으로 많이 사용되는 명목형 변수로, 특히 medical 저널에서는 성별을 covariate으로 취급하여 성별에 따른 종속변수의 차이를 보고자 할 때가 많다. 명목형 변수들은 Dummy Variable로 바꾸어서 regression model을 만드는데, one hot 인코딩 방식으로 더미 변수들을 만든다. 예를 들면,  ❕ male=0, female=1 ❕ Biomarker유=1, Biomarker무=0 이런식으로 만든다. 이와 같은 binary 데이터들은 더미 변수로 만드는 것도 쉽고 큰 문제가 되지 않는다. one-hot encoding의 이유는, 0과 1 대신 빨간색, 녹색, 파란색을 1,2,3 으로 코딩해버리면, 적합한 모델은 숫자가 더 큰 3을 빨간색보다 더 중요한 인자로 생각하게 되기 때문이다. 학력처럼 순서형이면 각 숫자에 의미가 있지만 여러 컬러처럼 단순 명목형일 때에는 one-hot 인코딩을 해야한다.  (단, 컬러가 연함 - 진함과 같이 순서형이라면 굳이 one-hot 인코딩을 안해도 된다.) one-hot encoding 의 예시는 아래 세 가지 카테고리로 보면 더 명확하게 이해가 된다. (image출처: https://towardsdatascience.com/encoding-categorical-variables-one-hot-vs-dummy-encoding-6d5b9c46e2db) 그럼 binary 말고 여러 카테고리가 있는 변수의 경우는 어떤 식으로 더미 변수를 만들까? Regression 모델을 만들 때에는 k개의 카테고리가 있다면, k-1개의 더미변수를 생성하게 된다. 위 그림에서 Blue일 때, d1, d2, d3 모두 0으로 코딩해도 Red, Green과 차이가 있으므로, d1과 d2만 만들어도 무방하다는 의미이다. 즉, d1과 d2가 0일 때, Blue가...

수리통계학 - 이산형 확률변수의 확률분포

 이산형 확률분포의 종류  - 베르누이분포, 이항분포, 이산형균등분포, 기하분포, 초기하분포, 음이항 분포, 포아송 분포 등 이산형 확률변수의 적률생성함수는 다음과 같은 형태로 표현된다. $$ M_{X}(t)=E(e^{tX})=\sum_{x=0}^{\infty}e^{tx}f(x) $$ 1. 베르누이 분포 베르누이 시행의 확률변수 X의 분포는 X=1의 확률에 의해 정의된다. (X=0 or 1) P=P(X=1)=P(성공 ) 베르누이 시행의 확률질량함수 f(x)는 $$ f(x) = p^{x}(1-p)^{1-x}, x=0, 1 $$ 베르누이 분포의 기댓값과 분산은 다음과 같다. E(X)= p , Var(X)= p (1- p ) 베르누이분포의 적률생성함수는 다음과 같다. $$ M(t)=E(e^{tx})=(1-p)+pe^{t} $$ 적률생성함수 유도 과정은 아래와 같이 진행할 수 있다. $$ M(t)=E(e^{tX})=\sum_{x=0}^{1}e^{tx}f(x)=\sum_{x=0}^{1}e^{tx}p^{x}(1-p)^{1-x}=e^{0}p^{0}(1-p)^{1}+e^{t}p^{1}(1-p)^{0}=(1-p)+pe^{t} $$ 적률생성함수를 t에 대해 1차 미분한 후 t값에 0을 대입하면 평균을 도출할 수 있다. 베르누이 분포의 적률생성함수를 1차 미분하면  $$ M(t)=(1-p)+pe^{t}\Rightarrow M^{'}(t)=\frac{d}{dt}(1-p+pe^{t})=pe^{t} \Rightarrow M^{'}(0)=p $$ 2. 이항분포 베르누이 시행을 독립적으로 n번 반복하여 시행한 경우, 성공한 총 횟수를 X라 정의하면, 이 확률변수 X는 이항분포를 따른다. 이항분포의 확률질량함수 f(x)는 다음과 같다. $$ f(x)=\binom{n}{x}p^{x}(1-p)^{n-x}, x= 0,1,2,...,n $$ 이항분포의 기댓값 E(X)= np , Var(X)= np (1- p ) 이다. 이항분포 ...