Odds Ratio and Relative Risk ; 오즈비와 상대위험도 part. 2 기본 콘텐츠로 건너뛰기

Odds Ratio and Relative Risk ; 오즈비와 상대위험도 part. 2

 지난 글에서 2X2 분할표에서 많이 사용되는 오즈비와 상대위험도의 개념에 대해서 살펴보았다.


그 중에서도 지난 글에서는 오즈비를 사용할 수밖에 없는 경우에 대해 살펴보았다. 

상대위험도가 직관적으로 이해하기 쉽고 위험비에 대한 쉬운 해석을 가능하게 하지만, 그럼에도 불구하고 보건 or 의학 계열에서 오즈비를 많이 사용 할 수밖에 없는 이유에 대해 살펴보았다.

또한 오즈비와 상대위험도는 가끔 동일하게 해석되기도 한다.

(자세한 내용은 이전 글로..)


그럼 이번 글에서는 오즈비와 상대위험도를 동일하게 해석할 수 있는 경우에 대해 살펴보도록 하겠다.


먼저 다음과 같은 오즈비의 특성을 이해해야 한다.


오즈비의 중요 특성: 상대적인 위험도를 과장하는 측면이 있다.


이는 굉장히 중요한 오즈비의 특성인데, Relative Risk 값보다 항상 큰 값을 가진다.

그리고 이는 해당 Event가 흔하게 일어날 수록 더욱 더 과장 된다.


📋예를 들어 보자.

따듯한 차를 마셨을 때와 방안 온도의 차를 마셨을 때 체온이 상승하는지 아니면 그대로 유지되는지에 대해 조사하고 다음과 같은 분할표를 얻었다.


 

체온 상승

유지

Total

Warm tea

90

10

100

Normal temp

20

180

200


먼저 Relative Risk 상대위험도를 구해보자.

$$ \frac{90/100}{20/200} = 9 $$


이번엔 Odds Ratio 오즈비를 구해보자. (유도과정은 이전 글 참고)

$$ \frac{90 * 180}{20 * 10} = 81 $$


이번엔 방금 구한 상대위험도와 오즈비를 해석해보자.

📉RR: 상대위험도는 9로, 이는 따듯한 차를 마신다면 체온이 상승할 확률이 방안 온도의 차를 마셨을 때보다 체온이 상승할 확률이 9배가 더 높다는 의미로 해석할 수 있다.


📈OR: 한편, 오즈비가 81라는 것은 따듯한 차를 마셨을 때 체온이 상승할 오즈가 방안 온도의 차를 마셨을 때 체온이 상승할 오즈보다 81배가 높다는 의미로 해석할 수 있다.


이 실험의 경우 상대적인 비율이 9배라는 것과 81배라는 것은 엄청난 차이가 있다. 그 비율에 있어서도 무려 9배가 차이가 난다. 오즈비 역시 상대적인 위험도를 나타내는 수치이지만 이렇게 큰 차이가 날 경우 오즈비를 상대위험도처럼 해석하면 안된다.


이러한 실험처럼 어떤 Event (이번 사례에서는 체온 상승)가 rare하지 않고 흔하게 일어나는 경우라면 그 상대적인 위험도를 매우 과장시키기 때문에 오즈비를 사용하는 것은 적절하지 않다.



📋이번에는 다음 사례를 살펴보자.

A약과 B약을 복용하였을 때 부작용이 일어날 상대위험도와 오즈비를 구해보도록 하겠다.


 

부작용

정상

Total

Drug A

2

242

244

Drug B

3

478

481


📉먼저 Relative Risk 상대위험도를 구해보자.

$$ \frac{2/244}{3/481} = 1.314 $$


📈이번엔 Odds Ratio 오즈비를 구해보자.

$$ \frac{2 * 478}{3 * 242} = 1.316 $$


역시 오즈비가 상대위험도보다 아주 약간 더 큰 값이 나왔다.

그러나 중요한 점은 오즈비와 상대위험도의 값이 매우 비슷하다는 것이다.

❗이러한 경우에는 오즈비를 상대위험도처럼 해석할 수 있다.


요약하자면, 오즈비는 직관적인 해석이 어려운 대신 상대위험도를 계산할 수 없는 사례-대조 연구에서 사용할 수 있고, 어떤 event가 일어날 사건이 희귀하다면(=확률이 작다면) 충분히 그 해석을 상대위험도로 근사하게 할 수 있다.


댓글

이 블로그의 인기 게시물

Radiomics: Feature selection 3

  Demircioğlu, Aydin PhD  Benchmarking Feature Selection Methods in Radiomics, Investigative Radiology: January 18, 2022 - Volume - Issue - doi: 10.1097/RLI.0000000000000855 High dimensionality of the datasets and small sample sizes are critical problems in radiomics. Therefore, removing redundant features and irrelevant features is needed. Overall, per dataset,  30 different feature selection methods + 10 classifiers + 70 hyperparameter settings After each feature selection method, 1, 2, ..., 64 features were selected. Altogether, 14,700=30✕70 ✕7 models were fitted, each with a 10-fold cross-validation . More complex methods are more unstable than simpler feature selection methods. LASSO performed best when analysing the predictive performance , though it showed only average feature stability . Longer training times and higher computational complexity of the feature selection method do not mean for high predictive performance necessarily. Obtaining a more stable mode...

통계 : Dummy Variable Trap

 Regression model을 만들다 보면, 독립변수로 명목형 변수를 사용할 때가 많다. 지역이나 성별, biomaker유/무 등이 대표적으로 많이 사용되는 명목형 변수로, 특히 medical 저널에서는 성별을 covariate으로 취급하여 성별에 따른 종속변수의 차이를 보고자 할 때가 많다. 명목형 변수들은 Dummy Variable로 바꾸어서 regression model을 만드는데, one hot 인코딩 방식으로 더미 변수들을 만든다. 예를 들면,  ❕ male=0, female=1 ❕ Biomarker유=1, Biomarker무=0 이런식으로 만든다. 이와 같은 binary 데이터들은 더미 변수로 만드는 것도 쉽고 큰 문제가 되지 않는다. one-hot encoding의 이유는, 0과 1 대신 빨간색, 녹색, 파란색을 1,2,3 으로 코딩해버리면, 적합한 모델은 숫자가 더 큰 3을 빨간색보다 더 중요한 인자로 생각하게 되기 때문이다. 학력처럼 순서형이면 각 숫자에 의미가 있지만 여러 컬러처럼 단순 명목형일 때에는 one-hot 인코딩을 해야한다.  (단, 컬러가 연함 - 진함과 같이 순서형이라면 굳이 one-hot 인코딩을 안해도 된다.) one-hot encoding 의 예시는 아래 세 가지 카테고리로 보면 더 명확하게 이해가 된다. (image출처: https://towardsdatascience.com/encoding-categorical-variables-one-hot-vs-dummy-encoding-6d5b9c46e2db) 그럼 binary 말고 여러 카테고리가 있는 변수의 경우는 어떤 식으로 더미 변수를 만들까? Regression 모델을 만들 때에는 k개의 카테고리가 있다면, k-1개의 더미변수를 생성하게 된다. 위 그림에서 Blue일 때, d1, d2, d3 모두 0으로 코딩해도 Red, Green과 차이가 있으므로, d1과 d2만 만들어도 무방하다는 의미이다. 즉, d1과 d2가 0일 때, Blue가...

수리통계학 - 이산형 확률변수의 확률분포

 이산형 확률분포의 종류  - 베르누이분포, 이항분포, 이산형균등분포, 기하분포, 초기하분포, 음이항 분포, 포아송 분포 등 이산형 확률변수의 적률생성함수는 다음과 같은 형태로 표현된다. $$ M_{X}(t)=E(e^{tX})=\sum_{x=0}^{\infty}e^{tx}f(x) $$ 1. 베르누이 분포 베르누이 시행의 확률변수 X의 분포는 X=1의 확률에 의해 정의된다. (X=0 or 1) P=P(X=1)=P(성공 ) 베르누이 시행의 확률질량함수 f(x)는 $$ f(x) = p^{x}(1-p)^{1-x}, x=0, 1 $$ 베르누이 분포의 기댓값과 분산은 다음과 같다. E(X)= p , Var(X)= p (1- p ) 베르누이분포의 적률생성함수는 다음과 같다. $$ M(t)=E(e^{tx})=(1-p)+pe^{t} $$ 적률생성함수 유도 과정은 아래와 같이 진행할 수 있다. $$ M(t)=E(e^{tX})=\sum_{x=0}^{1}e^{tx}f(x)=\sum_{x=0}^{1}e^{tx}p^{x}(1-p)^{1-x}=e^{0}p^{0}(1-p)^{1}+e^{t}p^{1}(1-p)^{0}=(1-p)+pe^{t} $$ 적률생성함수를 t에 대해 1차 미분한 후 t값에 0을 대입하면 평균을 도출할 수 있다. 베르누이 분포의 적률생성함수를 1차 미분하면  $$ M(t)=(1-p)+pe^{t}\Rightarrow M^{'}(t)=\frac{d}{dt}(1-p+pe^{t})=pe^{t} \Rightarrow M^{'}(0)=p $$ 2. 이항분포 베르누이 시행을 독립적으로 n번 반복하여 시행한 경우, 성공한 총 횟수를 X라 정의하면, 이 확률변수 X는 이항분포를 따른다. 이항분포의 확률질량함수 f(x)는 다음과 같다. $$ f(x)=\binom{n}{x}p^{x}(1-p)^{n-x}, x= 0,1,2,...,n $$ 이항분포의 기댓값 E(X)= np , Var(X)= np (1- p ) 이다. 이항분포 ...