Post

11.05 Chapter 10

인과와 상관

인과와 상관

  • 원인과 결과를 원과 화살표로 나타낸 것을 인과 그래프라고 합니다.

인과관계와 상관관계

  • 변수 사이의 관계에는 인과관계와 상관관계가 있습니다.
  • 인과관계란 원인과 결과의 관계를 뜻합니다.
  • 상관관계는 데이터에서 보이는 관련성을 말합니다.
    • 즉, 확률변수 사이가 독립이 아니라는 것을 뜻합니다.
  • 두 변수에 관련된 외부 변수가 존재할 때, 이를 중첩이라 하며, 그 변수를 중첩요인이라 합니다.

인과관계와 상관관계

  • 무작위 통제 실험에서 얻은 데이터로 인과관계를 간파할 수 있는 것은, ‘아침밥의 빈도’라는 조건을 무작위로 할당함으로써, 가정환경 등 여타 요인의 영향을 제거할 수 있기 때문입니다.
  • 인과관계는 없지만 상관관계는 있을 때, 이를 허위상관이라 합니다.
  • 상관관계가 있을 때, 인과관계가 있는 경우도 있고 없는 경우도 있습니다.
  • 인과관계를 밝히는 것이 중요한 이유는, 개입이 가능하기 때문입니다. 즉, 원인 변수를 변화시키는 개입에 의해 결과 변수를 바꿀 수 있습니다.

상관관계를 알면 할 수 있는 일

  • 상관관계는 2개 변수 X, Y 사이의 관련성이므로, 한쪽 변수로부터 또 다른 변수를 예측할 수 있습니다.

  • 시간을 중첩요인이 되기 쉬움
  • 인과성과 상관성을 분석할 때, 허위상관을 주의해야 함

무작위 통제 실험

  • 인과관계 발견이 어려운 이유 중 하나는 중첩요인의 존재입니다.
  • 음주가 폐암에 미치는 효과를 알고자 한다면, 음주 이외의 요인을 동일하게 하지 않으면 안 됩니다.
  • 변수 X에서 변수 Y로의 인과효과를 추정하는 가장 강력한 방법은 무작위 통제 실험입니다.
  • 즉, 알고자 하는 요인인 변수 X에 표본을 무작위로 할당하고 개입 실험을 수행한 다음, 변수 Y와 비교하는 방법입니다.
  • 인과 추론의 근본 문제: 인과효과의 조사는 원리상 불가능하다는 한계에 맞닥뜨리게 되는 것이다.

통계적 인과 추론

  • 무작위 통제 실험 없이, 실제 데이터에서 인과효과를 추정하고자 하는 발상이 생겨났습니다.
  • 다중 회귀: 중첩요인을 측정해 모형에 도입하는 것입니다.
  • 층별 해석: 중첩요인을 기준으로 데이터를 몇 가지 그룹으로 나누어, 각 층 안에서 중첩요인의 효과를 가능한 한 작게 하는 방법이 있습니다.

층별 해석

  • 경향 점수 짝짓기: 원인변수=0인 집단과 1인 집단에서 비슷한 중첩요인을 가진 데이터를 골라 쌍으로 만드는 방법
  • 이중차분법: 시간 축을 도입, 집단 간 차이에 대해 다시 한번 처리 전후의 차분을 취함으로써 인과효과를 추정할 수 있습니다.

베이즈 통계

베이즈 통계의 사고방식

통계학의 2가지 흐름

  • 빈도주의 통계, 베이즈 통계

불확실성 다루기

  • 빈도주의 흐름에서의 불확실성은, 모집단에서 표본을 추출할 때의 불확실성입니다.

불확실성

  • 빈도주의에서의 확률은 무한히 반복 실행한 결과로서의 객관적인 빈도를 나타냄
  • 베이즈 통계는 확률을 얼마나 확신하는지로 해석하는 원리입니다.

통계 모형

  • 데이터로 모집단의 실제 분포를 추론하는 것을 통계적 추론이라 합니다.
  • 데이터를 이용하여 추정한 통계 모형 p(x)가 모집단의 실제 분포 q(x)와 어느 정도 들어맞는지를 정량화함으로써, 통계 모형 p(x)의 적합도를 평가할 수 있습니다.

  • 최대가능도 방법

최대가능도 방법

베이즈 통계의 사고방식

  • 통계 모형의 파라미터를 확률변수로 취급하여, 그 확률 분포를 생각합니다.
  • 분석자가 데이터를 알기 전 단계의 확률분포, 즉 사전분포를 미리 마련해 두어야 합니다.
  • 이를 이용해 사후분포를 구하는 것이 베이즈 통계에서의 추정입니다.

베이즈 정리

베이즈 추정의 예측분포

  • 베이즈 추정으로 얻은 파라미터의 사후분포로 예측분포를 만들 수 있습니다.
  • 실제 모집단 분포와 예측 분포가 어느 정도 일치하는가를 평가할 때는 확률밀도함수를 비교하는 쿨백-라이블러 발산을 이용합니다.
  • AIC와 같은 모형의 좋고 나쁨을 평가하는 지표를 정보량 기준이라 합니다.

베이즈 정리

베이즈 통계 알고리즘

  • MCMC 방법이라는 계산 알고리즘을 사용합니다.
  • 특정 확률분포를 따르는 난수 발생 알고리즘입니다.
  • 이것을 이용하여 사후분포를 따르는 난수를 발생시키고, 그 난수의 집합을 관찰함으로써 사후분포의 성질을 분석합니다.

    1. 대표적으로 몬테카를로 방법이 있습니다. 베이즈 정리
    2. 또 다른 명칭으로 마르코프 연쇄가 있습니다.
  • 구체적인 계산은 깁스 표집이라는 방법으로 이루어집니다.
This post is licensed under CC BY 4.0 by the author.