1️⃣ 질문 정의: ‘정말 이게 원인이었을까?’단순 상관이 아니라 인과 관계를 검증하는 질문에서 출발 📌 예:“당뇨 치료제를 투여한 환자의 사망률이 낮았는데, 정말 약 때문에 그런 걸까?” 👉 이 질문이 없다면, 그냥 회귀 분석일 뿐. 인과추론의 시작은 "why"에서 비롯됨. 2️⃣ DAG 그리기 (Directed Acyclic Graph)변수 간 인과 구조를 시각화하여 혼란을 줄이고 분석 전략의 설계도🗺️로 삼기. 📌 DAG 작성 시 포인트:노드: 변수 (예: Age, Treatment, Outcome)화살표: 인과 관계피해야 할 구조: 순환 구조 (A → B → A) Treatment → Outcome ↑ ↑ ..
🎯 인과추론, 도대체 뭐길래? “이 약이 효과가 있었을까?”“그 정책이 없었으면 어떻게 됐을까?” 이런 질문을 할 때, 우리가 진짜로 알고 싶은 건 ‘인과관계’입니다.단순히 함께 나타난다(correlation)가 아니라,👉 정말 ‘그것 때문에 그렇게 된 건지’ 알고 싶은 거죠! 🛠️ 인과추론이란? “어떤 개입(Treatment)이 결과(Outcome)에 영향을 줬는가?” 를 과학적으로 추정하는 방법 즉, “그랬다면 어땠을까?”(Counterfactual) 를 상상해서 비교하는 게 핵심입니다.예를 들어, 신약을 복용한 환자와 복용하지 않은 똑같은 조건의 환자를 비교해진짜 신약이 효과 있었는지 알아보는 거예요. 📦 인과추론 방법론 총정리! 🔍 방법💡 핵심 아이디어✅ 사용 조건🧪 예시📊 난이..
데이터를 분석할 때 이상치(Outlier) 는 반드시 마주치는 문제입니다.특히 병원 환자 데이터처럼 복잡하고 개인 차이가 큰 데이터를 다룰 때는,수치만 보고 단순히 제거하는 것은 매우 위험합니다. 🚨 이번 글에서는 단변량(univariable) 이상치 처리부터전문가 협의 후 유지해야 하는 경우,그리고 다변량(multivariable) 이상치 탐지까지실제 현장에서 쓸 수 있는 깊이로 정리합니다. 🚀 1. 이상치란 무엇인가요? 🤔 이상치(Outlier) 는 대부분의 데이터 패턴과 크게 동떨어진 값을 의미합니다.발생 원인은 다양합니다. 원인설명입력 오류오타, 센서 오류 등극단적 사건금융 위기, 감염병 폭발 등희귀 이벤트드문 특수 사례 (ex. 100세 이상 고령자)개인 특성중증 질환자, 특수 환자군 ?..
― 이대로만 해도 ‘그나마’ 안 망한다 ― 데이터 분석을 하다 보면 이런 말 자주 듣습니다. “아 그거 결측 많아요. 그냥 평균으로 넣었어요.”“결측치 많아서 모델이 안 돌아가요.”“삭제했는데 성능 왜 이러죠?” 결측치는 분석가의 발목을 붙잡는 은근한 복병입니다.실제 업무에선 단순히 "채운다"나 "지운다"로는 해결 안 됩니다.결측이 왜 생겼고, 어떤 종류고, 무엇을 위해 다루는지에 따라전략이 완전히 달라져야 합니다. 1️⃣ 실무에서 마주치는 결측치, 이건 알아야 합니다 종류설명예시실무적 함의MCAR (Missing Completely at Random)완전히 무작위 결측설문 중 실수로 빠뜨림제거해도 영향 적음MAR (Missing at Random)특정 변수에 따라 결측 확률 다름나이 많은 응답자가 ..