현실 데이터엔 결측값이 꼭 있다.건강검진 데이터에서 혈압이나 공복혈당이 누락되었거나,고객 이탈 예측에서 일부 고객의 사용 이력이 비어 있는 경우처럼. 많은 분석가는 이를 평균값이나 중앙값으로 간단히 채우고 넘어가지만,이런 방식은 데이터의 불확실성을 완전히 무시하고 추정치를 과소평가하게 만든다. 특히 인과추론, 회귀모델, 정책 효과 평가처럼 추론 기반 분석에서는 치명적일 수 있다.그렇다면 어떻게 해야 더 신뢰할 수 있을까? 그렇다면 변수 간의 관계를 고려하면서, 불확실성까지 반영하는 결측값 처리법은 없을까? 🔍 MICE란 무엇인가? MICE (Multivariate Imputation by Chained Equations)는결측값이 있는 각 변수에 대해, 나머지 변수들로 회귀모델을 학습하여 결측을 예..
현대의학은 "얼마나 좋은가"를 수치로 말하는 과학이다.신약이 기존 약보다 얼마나 효과적인지, 위험요인이 질병과 어떤 관련이 있는지 등을 판단하기 위해,연구자들은 다음과 같은 지표들을 사용한다. 이번 글에서는 논문에서 자주 등장하는 9가지 대표 지표를 알기 쉽게 정리하고,각 지표가 언제, 왜, 어떻게 쓰이는지 소개한다. ✅ 1. RR (Relative Risk, 상대위험비) 비유: 불 붙은 성냥을 들고 있는 사람이 화재를 낼 확률과 없는 사람의 확률을 비교하는 것 정의: 노출군의 질병 발생 위험이 비노출군보다 몇 배 높은지를 나타낸다.계산:해석:RR = 1.0 → 차이 없음RR > 1 → 위험 증가RR 🧪 예시: 백신군 감염률 2%, 위약군 4% → RR = 0.5 → 백신은 감염 위험을 절반으로 줄..
✨ 시작 질문 “모델이 틀릴 수도 있는데, 그래도 인과추정을 믿을 수 있을까?” 관측 데이터를 기반으로 인과효과(ATE)를 추정할 때, 모델의 추정이 틀리면 결과는 엉뚱해질 수 있다.그래서 Doubly Robust Estimator라는 개념이 등장했다. 그중에서도 가장 강력한 무기가 바로 TMLE, Targeted Maximum Likelihood Estimation이다. 🧠 TMLE란 무엇인가? TMLE는 통계 모델과 머신러닝 모델을 결합한 인과추정 기법이다. 한 문장으로 요약하면: “결과모형(Outcome Model)과 처치모형(Treatment Model) 중어느 하나만 맞아도 ATE 추정이 일관되게 가능하도록 만든 방법이다.” 즉, 예측력이 뛰어난 머신러닝 모델을 사용하면서도 인과추론의 ..
🧠 Mediation Analysis란? “어떤 개입이 결과에 영향을 준다”는 사실을 알아도,‘왜’ 그런 결과가 생겼는지,‘어떤 경로를 통해 작동했는지’까지 이해하는 건 또 다른 차원의 이야기다. 🧩 예시:운동이 혈압을 낮춘다고 할 때,그 사이에서 체중 감량이 작용했을 수도 있다.“운동이 혈압에 영향을 주는 전체 효과 중,체중 감량이라는 간접 경로를 통해 나타나는 부분은 얼마나 될까?” 이처럼,단순히 효과가 있는지를 넘어서,그 효과가 어떤 경로를 거쳐 나타나는지를 분석하는 것이 바로👉 Mediation Analysis(매개분석)다. 그리고 이 매개분석이 인과추론 관점에서 재정의되면,단순한 상관관계 분석을 넘어서,실제 개입(intervention)의 경로를 이해하고 설계하는 도구가 된다.(정책/의료..
🧬 반복측정과 군집 구조를 한 번에!혼합효과모형(Mixed Effect Model) 완전 정복 – 개별 환자 차이도 반영하는 진짜 회귀 모델 – 📌 1. 왜 혼합효과모형이 필요한가? 임상과 보건 데이터를 보면 자주 등장하는 구조가 있다.바로 한 사람에게서 여러 번의 관측이 이루어진 반복 측정 데이터, 또는같은 병원, 같은 지역, 같은 의사에게 속한 환자들이 나오는 군집(클러스터) 데이터이다. 환자 ID날짜혈당치료나이ADay 1145165ADay 7138165ADay 30132165BDay 1154070BDay 30152070 이처럼 한 사람에게 여러 관측이 존재하거나,한 병원/지역에 속한 여러 사람이 존재하면, 관측값들이 독립적이지 않다. ✅ 그런데 일반적인 회귀모델은“모든 관측값이 서로 독립”..
🧠 반복측정 데이터의 두 축 : GEE와 GLMM 완전 정복 – 어떤 데이터를 만나도 유연하게 대응하는 반복측정 회귀의 쌍두마차 – 1️⃣ 왜 반복측정 데이터를 따로 다뤄야 할까? 임상 연구나 보건 데이터에서는 한 환자에게 여러 번 측정값이 쌓이는 구조가 흔하다.또는 여러 명의 환자가 같은 병원이나 지역 같은 군집에 포함되기도 한다.예시설명환자 A의 혈압1일차, 3일차, 7일차 반복 측정병원 내 환자같은 병원의 처치 프로토콜 영향건강검진 데이터동일한 수검자에게 매년 반복 측정된 결과 이러한 반복되거나 군집화된 데이터는 관측값 간에 상관이 생긴다.그런데도 일반 회귀모형(OLS, GLM 등)은 모든 관측값이 독립이라고 가정한다 ❌→ 잘못된 추정, 과소한 표준오차, 왜곡된 p-value가 발생할 수 있..