
1. 상관관계와 인과관계
- 상관관계 / 그냥 같이 다닌다! (친구처럼) - 통계적으로 뭔가 관계가 있는 것 같음.
- 인과관계 / 이것 때문에 저것이 일어난다! (부모-자식처럼) - 원인과 결과가 명확하고, 다른 이유로는 설명할 수 없음.
> 이 둘을 이해하는 가장 좋은 방법으로 상관관계는 '친구 사이', 인과관계는 '부모-자식 사이'로 비유가능 할 듯
1) 상관관계 (Correlation): "어? 너도 거기 있었네?"(친구 사이)
- 비유 / 두 변수 사이에 뭔가 관계가 있긴 한데, 정확히 왜 그런지는 모르겠어!
- 설명 / 마치 두 친구가 항상 같이 다닌다고 해봐요. 철수와 영희가 맨날 같이 학원에 가고, 같이 밥을 먹고, 같이 PC방에 가요. 그럼 우리는 "아, 철수랑 영희는 친한가보다!" 하고 생각하겠죠?
이게 바로 상관관계예요. 철수와 영희가 함께 움직이는(공변하는) 경향이 있다는 걸 알 수 있어요. 하지만 철수가 학원에 가는 게 영희를 학원에 가게 만든 건지, 아니면 영희가 가는 바람에 철수가 따라가는 건지, 아니면 둘 다 집에 가는 길에 학원이 있어서 그냥 같이 가는 건지, 정확한 원인과 결과는 알 수 없어요. 그냥 "어떤 관계가 있네?" 정도만 아는 거죠.
- 상관관계 예시
> 키와 체중 / 키가 큰 사람이 대체로 체중도 많이 나가죠? 키가 커지면 체중도 늘어나는 경향이 있어요. 하지만 키가 커졌다고 해서 무조건 체중이 늘어나는 건 아니고, 체중이 늘었다고 키가 크는 것도 아니에요. 그냥 같이 움직이는 경향이 있다는 거죠.
> 마스크 착용률과 외출 감소 / 마스크를 많이 쓰는 시기에는 외출이 줄어드는 경향이 있었죠. 하지만 마스크를 썼기 때문에 외출을 안 한 걸까요? 아니면 외출을 줄이기 위해 마스크를 쓴 걸까요? 사실은 '코로나19 유행'이라는 다른 이유 때문에 마스크도 쓰고 외출도 줄인 거죠.
> 학습 시간과 성적 / 공부를 오래 하면 성적이 잘 나오는 경향이 있죠. 하지만 벼락치기로 10시간 공부한 것보다 매일 꾸준히 1시간씩 공부한 게 성적이 더 잘 나올 수도 있어요. 단순히 시간만 가지고는 '원인'이라고 단정하기 어렵습니다.
2) 인과관계 (Causality) / "네가 그랬잖아!"(부모-자식 사이)
- 비유 / 한 변수가 바뀌면 다른 변수가 무조건 그 때문에 바뀌는 확실한 관계!
- 설명 / 이건 마치 '엄마와 아들' 관계 같아요. 엄마(원인)가 밥을 지으면 아들(결과)이 밥을 먹을 수 있게 되죠. 엄마가 밥을 안 지으면 아들은 밥을 먹을 수 없어요. 엄마의 행동이 아들의 행동에 직접적인 영향을 주는 거죠. 즉, '원인'이 있으면 반드시 그에 따른 '결과'가 나타나는 관계를 인과관계라고 해요. 이걸 밝히려면 훨씬 더 엄격한 조건들이 필요합니다.
<인과관계 3가지 조건>
> 공변성(함께 움직이는 경향) / 엄마가 밥을 지으면(원인) 아들이 밥을 먹는다(결과). 원인이 움직이면 결과도 같이 움직여야 해요.
> 선후관계(시간적으로 먼저) / 엄마가 밥을 지은 후에 아들이 밥을 먹죠? 아들이 밥을 먹은 후에 엄마가 밥을 짓지는 않잖아요. 원인이 결과보다 시간적으로 항상 먼저 일어나야 해요.
> 비허위성(제3의 다른 변수로는 설명될 수 없어야 함) / 엄마가 밥을 지었더니 아들이 밥을 먹었어요. 그런데 알고 보니 아들이 배가 고파서 냉장고에 있는 피자를 꺼내 먹으려던 참이었는데, 엄마가 밥을 지어준 게 아니라 그냥 옆에 앉아 있었던 것뿐이라면? 이건 엄마가 밥을 지어준 것과 아들이 밥을 먹은 것 사이에 직접적인 인과관계가 있다고 보기 어렵죠.
즉, 엄마가 밥을 지어준 것 말고는 다른 어떤 이유로도 아들이 밥을 먹었다고 설명될 수 없어야 해요.
- 인과관계 예시
> 100°C와 끓는 물 / 물을 100°C로 가열하면 반드시 물이 끓어요. 100°C로 가열하는 것이 '원인'이고, 물이 끓는 것이 '결과'죠. 다른 어떤 이유 때문에 물이 끓는 것이 아니에요.
> 세균 감염과 질병 발생 / 특정 세균에 감염되면 반드시 그 세균이 유발하는 질병이 발생해요 (물론 개인의 면역력 등 변수가 있지만, 세균이 직접적인 원인이죠). 세균 감염이 '원인'이고, 질병 발생이 '결과'입니다.
2.상관관계와 인과관계 오류
- 다음의 내용은 상관관계(correlation)를 인과관계(causation)로 착각했을 때 벌어지는 오류를 잘 보여주는 사례. 쉽게 말해, 두 가지가 함께 일어난다고 해서 한 가지가 다른 한 가지의 원인이라고 단정할 수 없다는 것. 중간에 숨어있는 다른 원인, 즉 '제3의 변수'를 놓치면 이런 실수를 하게 됨.
1) 속담 / "까마귀 날자 배 떨어진다" (烏飛梨落)
- 현상 / 까마귀가 날아가는 것과 동시에 배가 떨어져요.
- 오해 / 까마귀가 날아서 배가 떨어졌다고 생각해요.
- 진실 / 배가 익어서 스스로 떨어질 때가 된 것뿐이고, 우연히 그때 까마귀가 날아간 거예요. 까마귀의 비행이 배가 떨어지는 원인이 아니죠. 까마귀가 날든 안 날든 배는 떨어질 운명이었던 거죠.
2) 신문 기사 / "콜라 소비가 많은 나라의 국민이 상대적으로 더 부유해진다" (1997년 이코노미)
- 현상 / 콜라 소비량이 많은 나라의 국민들이 더 부유한 경향이 있어요.
- 오해 / 콜라를 많이 마셔서 부유해진다고 생각해요.
- 진실 / 콜라를 많이 마시는 것과 부유함 사이에는 직접적인 인과관계가 없어요. 오히려 '콜라를 많이 마시는 나라'는 대체로 경제적으로 발전한 나라일 가능성이 높습니다. 경제가 발전했기 때문에 국민들이 소득이 높고, 소득이 높으니 콜라 같은 기호식품도 더 많이 소비하는 거죠. 여기서 '경제 발전'이 바로 제3의 변수입니다.
3) 연구 논문 / "익사 사망자의 증감은 아이스크림이 원인이다"
- 현상 / 아이스크림 판매량이 늘어나면 익사 사망자 수도 늘어나는 경향이 있을 수 있어요.
- 오해 / 아이스크림이 익사의 원인이라고 생각해요.
- 진실 / 아이스크림 판매량과 익사 사망자 수의 증가는 더운 날씨라는 제3의 변수 때문이에요. 날씨가 더워지면 사람들이 아이스크림을 더 많이 사 먹고, 동시에 물놀이를 많이 하게 되면서 익사 사고의 위험도 함께 증가하는 거죠. 아이스크림 자체가 익사를 유발하는 건 아니에요.
4) 연구 논문 / "초콜릿을 많이 먹으면 노벨상을 받을 확률이 높아진다"
- 현상 / 초콜릿 소비량이 많은 나라에서 노벨상 수상자가 더 많이 나올 수 있다는 통계가 있을 수 있어요.
- 오해 / 초콜릿을 먹으면 똑똑해져서 노벨상을 받는다고 생각해요.
- 진실 / 이 또한 나라의 경제 수준, 교육 환경, 연구 투자와 같은 제3의 변수가 더 큰 영향을 미칩니다. 경제적으로 풍요로운 나라는 초콜릿 소비량도 높을 수 있고, 동시에 교육 및 연구에 대한 투자도 활발하여 노벨상 수상자를 배출할 가능성도 높아지는 거죠. 초콜릿이 직접적으로 뇌 기능을 향상시켜 노벨상 수상에 기여하는 것은 아니에요.
결론적으로, 이 모든 예시들은 단순히 두 가지 현상이 함께 발생한다(상관관계)는 이유만으로 한 현상이 다른 현상의 원인이다(인과관계)라고 속단해서는 안 된다는 것을 보여줌. 어떤 현상의 원인을 제대로 파악하려면 단순히 같이 일어나는 것만 볼 것이 아니라, 그 사이에 숨어있는 다른 요인들을 꼼꼼하게 따져봐야 함.