Bioinformatics with Park-Kleis 기본 콘텐츠로 건너뛰기

라벨이 Odds Ratio인 게시물 표시

McNemar Test (맥니마 검정법) - (1) 이항형 대응쌍에 대한 종속비율들의 비교

 두 표본이 있다.  한 표본의 개체와 다른 표본의 개체가 짝지어진 경우의 범주형 반응변수를 비교하고 싶을 때, 두 표본의 반응변수들을 대응쌍(matched pairs)이라 한다.  대응쌍의 예시로는 1) longitudinal 연구에서 동일한 대상을 시간의 흐름에 따라 반복적으로 관측하는 경우.  - ex. 식습관을 바꾸기 전의 체중과 바꾼 후의 체중 2) 같은 범주를 갖는 유사한 반응변수들이 두 개 이상 되는 설문조사의 경우.  - ex. 환경 개선을 위해 자발적으로 (1) 더 높은 세금을 지불할 의향이 있는지, (2) 생활수준 긴축을 받아들일 의향이 있는지.  Belt-Tightening Higher tax Agree Disagree Total Agree 227 132 359 Disagree 107 678 785 Total 334 810 1144 위 표에서 행의 marginal counts (359, 785)는 더 높은 세금을 지불할 의향이 있는가의 도수,  열의 marginal counts (334, 810)은 생활수준을 긴축할 의향이 있는가의 도수이다. ❗이 두 가지 질문에 "예"라고 응답할 확률은 어떻게 비교할 수 있는가? (1) 더 높은 세금을 지불할 의향이 있는가? "예"라고 대답한 표본 비율 = 359/1144=0.314 (2) 생활수준 긴축의 의향이 있는가? "예"라고 대답한 표본 비율 = 334/1144=0.292  ❓ 표본 오즈비 는? $$ \frac{227\times678}{132\times107}=10.9 $$ ➞ 두 질문에 대한 의견에는 강한 상관성이 존재한다. 질문 1에 "예"라고 응답할 확률은  $$ P(Y_{1}=...

삼차원 분할표와 심슨의 역설 Simpson's paradox ; 오즈비

  범주형 변수 분석에는 2X2 분할표가 간단하여 많이 사용되는데, 간단한 자료만 있는 것이 아니라 복잡한 자료들이 참 많다.. 3X3 분할표도 굉장히 많이 이용되는데, 예시를 살펴보고 삼차원 분할표는 어떻게 분석할 수 있는지 살펴보도록 하겠다. 📋 3X3 분할표 는 보통 아래와 같이 생겼다. Victims' race Defendants' race 선고 Rate(%) Yes No 백인 백인 53 414 11.3 흑인 11 37 22.9 흑인 백인 0 16 0.0 흑인 4 139 2.8 합 백인 53 430 11.0 흑인 15 176 7.9 위 표에서 먼저 합을 보자. 백인이 사형선고를 받은 비율은 11%, 흑인이 사형선고를 받은 비율은 7.9%이다. 이는 백인이 흑인에 비해 사형선고의 비율이 높다는 의미이다. 뭔가 그동안 보아왔던 것과는 좀 다른 결과이지 않은가? ❗설명변수인 X  와 반응변수인 Y  의 관계를 통계분석 시 주의해야 할 점은 두 변수에 동시에 영향을 주는 " 교란변수 confounding " 이다. 이를 공변량 covariates 이라고도 하는데, 앞으로는 이런 변수들을 공변량이라 하겠다. 🌟 공변량은 설명변수 X  와 반응변수 Y 모두에 연관되어 있다. 굉장히 매우 중요한 문장이다. 📋예를 들어 보자. 흡연자와 같이 사는 비흡연자에게 간접흡연이 미치는 영향을 살펴보는 연구를 하고자 설명변수로는 배우자가 흡연자인지의 여부, 반응변수로는 폐암 발생 여부로 지정했다고 하자. X = 흡연자와의 동거 여부 Y = 폐암 ...

오즈비의 신뢰구간

 오즈비에 관한 통계적 추론 표본크기가 작을 때 오즈비의 표본추출분포는 비대칭적이기 때문에 오즈비에 대한 통계적 추론은 θ  를 자연로그 변환한 log( θ  )를 이용한다. 두 변수 X , Y  가 서로 독립일 때,  θ = 1 ➞ log( θ  ) = 0 앞선 글에서 행이 바뀌거나 열이 바뀌면 오즈비는 역수가 되는 것을 살펴보았다. 마찬가지로 로그 오즈비는 행의 역수 혹은 열의 역수가 그 부호를 바꾼다는 의미에서 0에 대하여 대칭이다. 예를 들어, θ  = 2 ➞ log(2) = 0.69 2의 역수 = 0.5 θ  = 0.5 ➞ log(0.5) = -0.69 따라서 절대값이 같은 두 log( θ  )는 같은 정도의 연관성을 의미한다. 오즈비의 로그 변환인 log( θ  )는  θ  의 분포보다 더 정규분포에 가까운 표본추출분포를 갖는다.  표본크기가 커지면 log( θ  )의 표본분포는 평균이 log θ  이고 다음과 같은 표준편차를 갖는 정규분포로 수렴한다. $$ SE=\sqrt{\frac{1}{n_{11}}+\frac{1}{n_{12}}+\frac{1}{n_{21}}+\frac{1}{n_{22}}} $$ 따라서 각 칸의 도수가 증가할수록 표준편차는 감소한다.  앞선 글(오즈비의 성질)에서 사용했던 표를 다시 가져와서 신뢰구간을 구해보겠다. Infarction Yes No Total Drug Used 28 41 69 Never 35 132 167 Total 63 173 236 log θ  의 왈드 신뢰구간은 다음과 같다. $$ log \hat{\theta} \pm ...

오즈비의 성질 Odds Ratio

  오즈비는 임상에서 굉장히 많이 사용되는 개념이기도 하고, 로지스틱 회귀에서도 모형의 해석에서 굉장히 중요한 개념이다. 오즈비는 처음에는 이해하기 어렵지만, 이해를 하고나면 그 다음부터 쉽게 해석할 수 있고, 오즈비가 가진 여러 성질들도 이해할 수 있다.  📋오즈비의 성질을 살펴보기 위해 아래와 같은 표를 만들었다. Infarction Yes No Total Drug Used 28 41 69 Never 35 132 167 Total 63 173 236 📉 먼저 위 표를 바탕으로 상대위험도(Relative Risk)를 구해보자. ✔ Drug used 그룹 에서 Infarction Yes의 비율을 구해보자  ⇨ Infarction Yes : 28/69 =  𝛑 1 ✔ 이번에는 Drug never used 그룹 에서 Infarction Yes의 비율을 구해보자  ⇨  Infarction Yes  : 35/167 =  𝛑 2 ❗이 경우 상대위험도(Relative Risk; RR) 는 다음과 같다. RR =  𝛑 1  /   𝛑 2  = ( 28/69) / ( 35/167) 📈 이번에는 Odds를 구해보자 ✔ Drug used 그룹 의 Odds = Odds1 라고 한다면  Odds1 =  𝛑 1 /(1- 𝛑 1 ) = 28/41 ✔ Drug never used 그룹 의 Odds = Odds2 라고 한다면  Odds2 =  𝛑 2 /(2- 𝛑 2 ) = 35/132 ❗ 따라서 오즈비(Odds Ratio) 는 다음과 같다.  OR = (28*132)/(41*35) ...

Odds Ratio and Relative Risk ; 오즈비와 상대위험도 part. 2

 지난 글에서 2X2 분할표에서 많이 사용되는 오즈비와 상대위험도의 개념에 대해서 살펴보았다. 그 중에서도 지난 글에서는 오즈비를 사용할 수밖에 없는 경우에 대해 살펴보았다.  상대위험도가 직관적으로 이해하기 쉽고 위험비에 대한 쉬운 해석을 가능하게 하지만, 그럼에도 불구하고 보건 or 의학 계열에서 오즈비를 많이 사용 할 수밖에 없는 이유에 대해 살펴보았다. 또한 오즈비와 상대위험도는 가끔 동일하게 해석되기도 한다. (자세한 내용은 이전 글로..) 그럼 이번 글에서는 오즈비와 상대위험도를 동일하게 해석할 수 있는 경우 에 대해 살펴보도록 하겠다. 먼저 다음과 같은 오즈비의 특성을 이해해야 한다. 오즈비의 중요 특성: 상대적인 위험도를 과장하는 측면 이 있다. 이는 굉장히 중요한 오즈비의 특성인데, Relative Risk 값보다 항상 큰 값을 가진다. 그리고 이는 해당 Event가 흔하게 일어날 수록 더욱 더 과장 된다. 📋예를 들어 보자. 따듯한 차를 마셨을 때와 방안 온도의 차를 마셨을 때 체온이 상승하는지 아니면 그대로 유지되는지에 대해 조사하고 다음과 같은 분할표를 얻었다.   체온 상승 유지 Total Warm tea 90 10 100 Normal temp 20 180 200 먼저 Relative Risk 상대위험도 를 구해보자. $$ \frac{90/100}{20/200} = 9 $$ 이번엔 Odds Ratio 오즈비 를 구해보자. (유도과정은 이전 글 참고) $$ \frac{90 * 180}{20 * 10} = 81 $$ 이번엔 방금 구한 상대위험도와 오즈비를 해석해보자. 📉 RR : 상대위험도는 9로, 이는 따듯한 차를 마신다면 체온이 상승할 확률이 방안 온도의 차를 마셨을 때보다 체온이 상승할 확률...

Odds Ratio and Relative Risk ; 오즈비와 상대위험도

  Odds Ratio 는 임상에서 매우 많이 사용되는 개념이다. 그러나 'Odds' 라는 개념이 직관적으로 잘 와닿지 않기 때문에 흔히 오용되기도 하는 개념이라 가장 먼저 잡고가야 할 주제로 삼았다.   오즈비는 범주형 자료에서 사용되는데, 오즈비를 보면서 가장 많이 접하게 될  2X2 분할표는 다음과 같이 생겼다.   Event Normal Total Exposed A B A + B Non-exposed C D C + D 흔히 하는 실수가 오즈비(Odds Ratio)를 해석할 때, 상대위험도(Relative risk)를 해석하듯이 한다는 점이다. 따라서 오즈비와 상대위험도의 각 개념에 대해서 살펴보고 넘어가도록 하자.   ❗Odds Ratio와 Relative Risk의 공통점 : 상대적인 비율 을 나타낸다. Public health / Medical 에서 Odds Ratio or Relative Risk를 사용하는 이유 - 어떤 조건에서 더 위험한지를 수치적으로 나타내기 위해서 사용 한다. 예를 들면, "흡연(조건)"을 하는 사람은 비흡연자에 비해 "폐암(Event)" 발생에 있어서 몇 배가 더 위험한가? 와 같은 질문에 대한 해답으로 많이 사용된다.   ✅위와 같은 2X2 이차원 분할표에서 Odds Ratio (오즈비) 의 수식적 정의 는 다음과 같다. P1 = A/(A+B) ; P2 = C/(C+D) Odds1 = P1/(1-P1) ; Odds2 = P2/(1-P2) Odds Ratio = Odds1/Odds2 = A*D/B*C ✅ 한편 2X2 분할표에서 Relative Risk (상대위험도) 의 수식적 정의 는 ...