비타민을 먹고 감기가 나았다!
어느 날 감기에 걸린 사람이 비타민C를 챙겨 먹었고, 며칠 뒤 감기가 나았다고 해요.
그래서 "역시 비타민 덕분이야!"라고 생각하죠. 🤔
하지만 사실, 감기는 약을 안 먹어도 일주일쯤 지나면 대부분 자연스럽게 낫는 병이에요.
😏 즉, 감기 → 비타민 → 회복처럼 보이지만, 사실은 시간만 지나도 나았을 가능성이 커요.
이와 같이 실제의 인과 관계를 올바르게 추론하기 위해선 몇 가지 중요한 가정을 반드시 충족해야 해요.
오늘은 이 인과 관계 추론을 위해 필요한 몇 가지 중요한 가정들에 대해 알아보려고 해요.
특히 의학 연구나 정책 평가에서는 이 가정들이 굉장히 중요한 역할을 한답니다!💡
1. 상관관계(Correlation) 🤝
상관관계가 있어야 인과관계가 성립되지만,
그렇다고 상관관계가 있다고 반드시 인과 관계가 성립되는 건 아니에요!
🔍 예시
예를 들어, 아이스크림 소비가 늘어나면 동시에 수영장 익사 사고가 증가하는 경향이 있어요.
두 변수 사이에는 분명 상관관계가 있을 수 있지만,
인과 관계를 바로 연결하는 건 조금 무리예요.
왜냐면, 둘 다 기온이라는 공통된 원인(교란 변수)으로 영향을 받을 수 있기 때문이에요.
이처럼, 상관관계가 인과 관계를 증명하는 건 아니라는 점을 꼭 기억하세요!
2. 시간적 선후 관계(Temporal Sequence) ⏰
원인(A)이 결과(B)보다 먼저 발생해야만 인과 관계가 성립해요!
즉, 원인과 결과는 시간적으로 순차적으로 발생해야만 올바른 인과 관계를 추론할 수 있다는 거죠.
🔍 예시
흡연이 폐암을 유발한다고 할 때,
폐암이 먼저 발생하고 그 후에 흡연을 시작한 경우에는 인과 관계가 성립하지 않아요.
폐암은 흡연 후에 발생해야 인과 관계가 성립하는 거예요.
시간 순서가 중요하답니다!
3. 무작위화(Randomization) 🎲
실험에서 무작위화는 처치(treatment)가 무작위로 배정되어,
두 그룹 간에 체계적인 차이가 없다는 중요한 가정이에요.
이렇게 해야 실험군과 대조군이 기본적으로 동일한 특성을 가질 수 있기 때문에,
처치의 차이만을 평가할 수 있어요.
🔍 예시
신약과 기존 약물의 효과를 비교하는 실험에서,
참가자들을 무작위로 나누고, 한 그룹에는 신약을, 다른 그룹에는 기존 약물을 투여해요.
이렇게 하면, 두 그룹은 성별, 나이, 건강 상태 등에서 유사한 특성을 가지게 되어,
처치의 차이만을 평가할 수 있게 되죠.
신약의 효과를 정확히 비교할 수 있게 되는 거예요! 🧪
두 그룹이 각 그룹에 속하게 된 '특성'이 있다면 안돼요!
( * Selection Bias 발생 ! )
4. 조건부 독립성 (Conditional Independence) ⚖️
조건부 독립성이란, 처치 배정과 잠재적 결과가 교란 변수로부터 독립적이라는 가정이에요.
교란 변수란, 원인(A)과 결과(B) 간의 관계를 왜곡할 수 있는 외부 변수를 의미해요.
즉, 처치와 결과 간의 관계를 분석할 때, 교란 변수를 적절하게 통제한 후에야
처치의 인과적 효과를 정확하게 추론할 수 있다는 말이죠.
🔍 예시
예를 들어, 운동이 체중감소에 미치는 순수한 인과효과를 추정할 때,
식습관이나 유전적 요인이 교란 변수로 작용할 수 있습니다.
교란 변수를 통제하지 않으면 운동이 체중에 미치는 순수한 영향을 정확히 분석하기 어려워져요.
만약 식습관을 고려하지 않고 운동만을 분석한다면,
식습관이 좋은 사람들은 운동 효과가 더 크게 나타날 수 있기 때문에
운동만으로 체중 변화가 큰 영향을 미쳤다고 결론 지을 수 없습니다.
교란 변수를 잘 통제한 후에야 운동이 체중에 미치는 실제 효과를 정확하게 분석할 수 있어요!
5. SUTVA (Stable Unit Treatment Value Assumption) 📏
SUTVA는, 각 개체가 받은 처치가 다른 개체의 결과에 영향을 미치지 않는다는 가정이에요.
즉, 각 개체는 독립적으로 처치의 영향을 받으며, 다른 개체와의 상호작용이 없다는 전제 조건을 의미해요.
이 가정이 깨지면 처치의 효과를 정확하게 추론할 수 없답니다.
🔍 예시
온라인 교육 프로그램의 효과를 평가할 때,
각 참가자가 동일한 프로그램을 받고,
그 결과가 다른 참가자에게 영향을 미치지 않아야 해요.
만약 프로그램이 참가자 간 서로 정보 공유가 있었거나 상호작용이 있었다면,
한 참가자의 처치(가령, 프로그램 평가)가 다른 참가자에 처지에 영향을 줄 수 있게 되며,
SUTVA가 깨지므로 그 효과를 정확히 추론하기 어려워집니다.
6. 양의 확률 (Positivity) 🏆
양의 확률은 모든 공변량 패턴에 대해 처치를 받을 확률이 0이나 1이 아닌 양의 확률이어야 한다는 가정이에요.
즉, 어떤 특성을 가진 개체라도 처치군과 대조군에 모두 속할 가능성이 있어야 한다는 거죠.
🔍 예시
예를 들어, 특정 나이나 소득 수준의 사람들만 처치군에 속했다면,
이들만 대상으로 처치 효과를 분석한 결과를 다른 나이대에 적용할 수 없어요.
양의 확률 가정이 깨졌기 때문에, 분석된 결과를 일반화하기 어려워집니다.
그래서 모든 사람들이 처치군과 대조군에 포함될 수 있도록 해야,
처치의 효과를 모든 집단에 일반화할 수 있답니다.
( * Selection Bias 발생 ! )
7. 동일한 처치 정의 (Consistency 또는 Well-defined Intervention) 🧩
"운동을 했다"라는 말, 과연 누구에게나 같은 의미일까요?
비슷해 보이는 표현도, 사람마다 다르게 해석되면 인과 추론은 위험해져요.
Consistency는 “같은 처치를 받은 사람은, 모두 동일한 결과 구조를 가진다”는 가정이에요.
🔍 예시
연구에서 "비타민 섭취"가 건강에 미치는 효과를 보고 싶다고 해볼게요.
그런데 한 사람은 하루에 고용량 비타민C를 먹고, 다른 사람은 종합비타민을 일주일에 한 번 먹는다면…
‘비타민을 먹었다’는 처치 자체가 너무 다르게 해석되는 거예요.
이런 상태에서는 "비타민 효과"라는 게 정확히 무엇을 의미하는지조차 애매해지죠.
처치는 명확하게 정의되어야 하고,
모든 대상자에게 동일하게 적용되어야 해요.
그렇지 않으면 우리가 추정하는 인과 효과가 무엇을 의미하는지도 불분명해질 수 있어요.
( * Information Bias 발생 ! )
8. 모든 교란변수 측정됨 (No Unmeasured Confounding) 📚
우리가 어떤 처치의 인과 효과를 정확하게 추정하려면,
결과와 처치 모두에 영향을 줄 수 있는 모든 교란 변수가 관측되어 있어야 해요.
중요한 요인이 빠져 있다면, 우리는 인과 효과를 잘못 추정할 위험이 크다는 거예요.
🔍 예시
한 학생이 "공부할 때 음악을 들으면 성적이 오른다"고 주장해요.
데이터를 봤더니, 음악 듣는 학생들이 성적이 조금 더 높아요. 🎶
그래서 우리는 “오, 음악이 집중력에 도움이 되는 건가?”라고 생각할 수도 있죠.
하지만!
음악을 들으며 공부하는 학생들은 이미 자기 주도 학습력이 높은 학생일 수도 있어요.
혹은 학원에서 집중력을 훈련받은 학생들일 수도 있죠.
그런 변수들은 설문지나 데이터에서 측정되지 않았고, 고려되지 않았어요.
그렇다면, 음악이 성적에 영향을 미쳤다고 보긴 어렵죠.
진짜 원인은 측정되지 않은 '학습 습관'일 수도 있으니까요.
9. 반사실 추론 가능성 (Counterfactual Framework) 🔄
우리가 말하는 "효과"란,
사실은 한 사람이 두 가지 다른 경우(처치 O, 처치 X)에서 어떤 차이를 보일지를 상상하는 거예요.
하지만 문제는… 현실에서 한 사람에게 두 상황을 동시에 관찰할 수 없다는 것이죠.
🔍 예시
M씨는 A대학교에 진학해서 지금 좋은 직장을 다니고 있어요.
그래서 말하죠... “역시 A대를 와서 이렇게 잘 된 거야!”
동시에 이런 상상도 합니다... "만약 그때 B대학교에 갔더라면, 지금도 이만큼 잘 됐을까?"
문제는, M씨는 동시에 A대와 B대에 갈 수 없어요.
우리가 보는 결과는 오직 A대를 간 경우의 결과뿐이죠.
B대를 갔을 경우의 삶은 존재하지 않지만, 우리는 그 결과를 추정해보고 싶어 해요.
관측되지 않은 세상(counterfactual world)을 조심스럽게 재구성, 반사실 추론하여,
“같은 사람이, 다른 행동을 했을 때 결과가 어떻게 달랐을까”를 따져보는 거예요.
🎯 전체 가정 요약
인과 추론은 이 9가지 가정 위에 서 있어요:
1. 상관관계
2. 시간적 선후 관계
3. 무작위화
4. 조건부 독립성
5. SUTVA
6. 양의 확률
7. 동일한 처치 정의
8. 교란 변수 완전 측정
9. 반사실 추론 가능성
이 중 단 하나라도 어긋나면, 아무리 정교한 분석도 잘못된 결론을 내릴 수 있어요.
🔍 여러분의 연구나 실험에서 이 가정들이 어떻게 적용되고 있는지 점검해보세요!
그렇지 않으면, 멋진 연구도 잘못된 결론에 도달할 수 있습니다. 🚀
'인과추론' 카테고리의 다른 글
🧠 인과추론 – Mediation Analysis란? (0) | 2025.05.17 |
---|---|
[인과추론] 인과추론의 3대 프레임워크: 개념부터 실무 활용까지 🎯 (0) | 2025.04.24 |
[인과추론] “IQ 높이려면 발을 키우라고요?” – 상관관계에 속지 않는 법 (0) | 2025.03.31 |
[인과추론] 과거 통계 모델링의 한계를 넘어서 (5) | 2024.12.28 |