Correlation은 Causation을 말하지 않는다.
위 유명한 명제는,
데이터 분석에서 상관관계가 인과관계를 의미하지 않음을 경고한다.
상관관계는 종종 우연의 일치일 수 있으며, 외부 요인이나 숨겨진 변수들이 영향을 미칠 수 있다.
최근 들어, 인과 추론이 연구에서 중요한 분야로 떠오르고 있다.
이는 단순히 변수들 간의 관계를 분석하는 것을 넘어서,
어떤 변수가 다른 변수에 대해 인과적인 영향을 미치는지를 추론하려는 시도를 포함한다.
2021년, 인과 추론을 공동 연구한
Joshua D. Angrist, Guido W. Imbens, David Card가 노벨 경제학상을 수상한 바 있다.
이들의 연구는 관찰 데이터를 기반으로 한 인과 관계 추론 방법을 발전시켰고,
경제학뿐만 아니라 여러 사회과학 분야에서 인과 추론의 중요성을 크게 확립한 기폭제가 되었다.
기존 통계 모델링 방식에 대한 비판
경제학과 계량 경제학 분야에서 유명한 학자인,
Edward E.는 과거의 통계분석이 단순히 많은 모델을 사용함으로써
최적화된 모델을 찾는 데에만 의존했던 점을 비판하였다.
수 백, 수 천 가지의 모델을 테스팅하고,
그중 일부의 결과만 논문에 게재하는 방식이 문제라고 주장하였다.
이런 방식은 모델을 어떻게 설정하는지,
샘플을 어떻게 사용했는지에 따라
결과가 민감하게 변할 수 있기 때문에 신뢰할 수 없다고 보았다.
즉, 꼼수에 불과하다는 것이다.
후속 연구자인 Joshua D.는,
30년 전까지는 그러한 비판이 합당했을지라도,
현재는 그렇지 않다고 주장한다.
적절한 연구 설계를 통해 연구의 신뢰성을 확보할 수 있다고 보았다.
이를 Credibility Revolution이라고 칭한다.
신뢰할 수 있는 연구 설계와 방법론이 발전함에 따라,
이전의 비판은 이제 무효화되었다고 주장한다.
그렇다면, 과거의 현재의 통계 모델링 차이는 무엇인가?
과거에는 종속 변수(dependent variable)를
가장 잘 설명하는 통계 모형을 만드는 것이 핵심이었다.
모델을 통해 데이터를 분석하고, 특정 관계를 설명하는 데 집중한다.
이는 Estimation을 중시하는 방식이다.
지금은 결과에 대한 해석 방식이 달라졌다.
단순히 모델로 결과를 추정하는 것에 그치지 않고,
인과적인 추론이 가능한지 여부를 확인하기 시작했다.
즉 Identification이 핵심이 된 것이다.
어떤 변수들이 진정한 인과 관계를 보이고 있는지,
그 관계는 어떻게 식별할 수 있을지
명확한 기준을 세우는 것이 중요해졌다.
변수들이 인과관계를 보이고 있는지, 어떻게 식별할까?
연구 설계 방법에서, Identification을 위한 가장 쉬운 방법으로
무작위 실험(RCT)이 있다.
RCT는 인과 관계를 추론할 때 golden standard로 간주된다.
이 방법을 통해 가장 신뢰할 수 있는 방식으로
인과적인 효과를 추정할 수 있다.
흡연이 실제 폐암 발병에 유의한 영향을 미칠 것인가?
실험실에 순백의 연구 참여자 500명을 수집하였다.
해당 참여자의 흡연을 동전 던지기를 통해 무작위로 결정한다고 생각해 보자.
이를 통해, 성별도, 나이도, 유전자도,
흡연 여부에 어떠한 관여를 하지 않는 상태가 된 것이다.
이때 흡연 여부에 따른 폐암 유무 차이가,
진정한 인과 효과로 해석될 수 있겠다.
그러나, 이와 같은 실험을 실제로 진행하는 것이 가능해 보이는가?
RCT는 인과 관계를 추론하는 데 강력한 도구이지만, 윤리적, 실용적, 경제적 한계에 부딪힌다.
그래서 수집된 데이터를 이용하여
RCT와 비슷한 효과를 얻기 위한 다양한 Identification 전략이 필요하다.
1. Matching 기법 활용
심혈관 질환(CVD) 발병에 고혈압이 인과적인 영향을 미쳤는지를 분석하고자 한다.
Case group은 심혈관 질환을 겪는 환자들로,
Control group은 심혈관 질환을 겪지 않은 정상군으로 구성되어 있다.일반적인 회귀 분석 기법을 사용하면, case group에서 control group 대비
고혈압 보유 여부가 통계적으로 유의하게 높았는지를 중점적으로 분석하게 된다.
그러나, 여기에는 잠재적 편향이 존재할 수 있다.Control group은 심혈관 질환을 겪지 않은 정상군인데,
젊은 사람, 비음주, 비흡연자들이 많이 포함되어 있어,
고혈압 여부를 제외하고도 case group과 다른 특성들을 많이 가지고 있다.
또한, 젊은 사람, 비음주자, 비흡연자들이기 때문에
고혈압을 가지고 있는 경우도 상대적으로 적을 가능성이 높다.
단순한 회귀분석을 통해
'고혈압이 심혈관 질환에 미치는 인과적 효과'를 명확하게 발라낼 수가 없다.
Randomization 효과를 얻으려면, case group과 control group이
동일한 나이대, 동일한 음주력, 동일한 흡연력을 가진 사람들로 구성되어야 한다.
이를 충족시키기 위해, Matching을 수행한다.
나이대, 흡연력, 음주력을 하나의 '특성'으로 정의하고,
이 특성이 비슷한 군 간의 비교를 수행하여
실질적으로 A질환이 target질환에 미치는 인과적 효과를 확인하는 것이다.
비슷하게, Weighting 방식으로
위 '특성'을 가중치로 부여하여
두 집단 간의 균형을 맞추는 방식도 존재한다.
2. Instrumental Variables (IV) 활용
제왕절개가 산모의 출산 후 합병증에 미치는 영향을 분석하고자 한다.
산모의 나이와 기저 건강 상태(예: 고혈압, 당뇨, 심장병) 등은 출산 후 합병증뿐만 아니라
제왕절개 여부에도 영향을 미칠 수 있는 혼란변수로 작용할 가능성이 크다.
특히, 고령 산모일수록 자연 분만 중 위험이 높아 제왕절개를 권고받을 가능성이 높으며,
기저 건강 상태가 좋지 않은 경우에도 제왕절개가 권장될 수 있다.
동시에, 고령 산모와 건강 상태가 좋지 않은 산모는 출산 후 합병증 발생 가능성 또한 높아진다.
이를 해결하기 위해 Instrumental Variable(IV)로,
"병원의 제왕절개 경향"을 활용한다.
특정 병원의 제왕절개율은 제왕절개 여부에는 영향을 미치나,
산모의 출산 후 합병증에는 직접적으로 영향을 미치지 않는다.
수집된 데이터 샘플에서 제왕절개율이 크게 차이 나는 두 병원 A와 B의 샘플을 추출하였다.
병원 A는 90% 확률로 제왕절개를 권장하며,
병원 B는 10% 확률로 제왕절개를 권장하고 있다.
병원 A는 나이가 어리고 건강 상태가 좋더라도 제왕절개를 권장하는 경향이 있으며,
병원 B는 나이가 많고 건강 상태가 좋지 않더라도 제왕절개를 권장하지 않는 경향이 있다.
따라서, 어떤 병원을 선택했는지가 제왕절개 여부를 결정하는 주요 요인이 되었으며,
나이와 기저 건강 상태는 개입되지 않았다.
이를 통해, 혼란 변수의 영향을 배제하고 제왕절개의 순수한 인과적 효과를 추정할 수 있게 되었다.
3. Causal Discovery
앞서 말한 위 두 방식은 RCT로 수집되지 않은 관찰 데이터에서
RCT의 Randomization 효과를 모방하려는 방식이라고 할 수 있겠다.
데이터 adjustment에 초점을 두기보다,
나의 데이터에 잠재적 인과 구조를 탐구하기 위한 방법이나
Assumption과 Model에 인과 효과가 있음을 입증하기 위한 방법엔 무엇이 있을까?
Causal Discovery는
특정 인과 관계를 가정하고, 데이터를 통해 이를 입증하거나 조정하는 것이 아니라,
데이터에서 가정을 검증하며 인과 구조를 찾아내는 접근이다.
조건부 독립성과 데이터의 패턴을 분석하여 Causal Graph를 생성하며,
어떤 변수가 원인이며 어떤 변수가 결과인지 방향성을 학습한다.
기존 가설 없이 데이터에서 직접 인과 구조를 학습하며,
특히 복잡한 관계나 숨겨진 경로를 탐구하는 데 유용하다.
이를 구현하는 알고리즘으로는 조건부 독립성을 활용한 PC 알고리즘,
시간적 순서를 기반으로 한 Granger Causality, 비정규 분포 데이터를 활용하는 LiNGAM 등이 존재한다.
이러한 방법들을 통해 Identification을 기반으로 인과 관계를 추론하면,
보다 신뢰할 수 있는 인과적인 효과 해석이 가능하다.
오늘날 머신러닝 기술이 발전하면서 인과 추론의 새로운 가능성을 열어주고 있으며,
이를 통해 데이터 분석은 단순 상관관계를 넘어
인과 구조를 탐구하는 새로운 패러다임으로 진화하고 있다.
인과 추론은 복잡한 문제를 해결하고 실질적인 통찰을 제공하는 강력한 도구로,
다양한 분야에서 더욱 중요한 역할을 할 것이다.
위 글은 박지용 교수님의 인과추론 강의를 듣고
추가적인 공부를 위해 작성한 것이다.
인과추론에 대해 보다 심도 있는 공부를 원한다면,
교수님의 강의를 참고하는 것이 큰 도움이 될 것이다.
https://www.youtube.com/channel/UCkEHnPq2T8Vpafk3p-Rk49A
이상으로 글을 마친다.