“왜 네이트 실버의 예측만 트럼프의 당선 가능성이 유독 높게 나올까?”
“왜 네이트 실버의 예측만 트럼프의 당선 가능성이 유독 높게 나올까?”
  • 앤드류 프로코프
  • 승인 2016.11.08 03:56
  • 댓글 0
이 기사를 공유합니다

※ 대선을 앞둔 마지막 주말, 클린턴과 트럼프 두 후보의 막판 행보를 소개하는 기사를 제치고 소셜미디어와 인터넷을 장식한 이슈는 여론조사 분석과 보도를 둘러싼 네이트 실버(Nate Silver)와 허핑턴포스트 간의 격렬한 논쟁이었습니다. 정확히는 논쟁이라기보다 네이트 실버의 방법론에 문제를 제기하는 기사를 허핑턴포스트가 싣자, 네이트 실버가 이에 대해 짜증 섞인 반박을 트위터에 줄줄이 올린 것입니다.

네이트 실버는 미국의 통계학자이자 정치분석가, 언론인입니다. 그가 설립한 <파이브서티에잇(FiveThirtyEight)>은 통계 분석을 스포츠뿐 아니라 정치, 경제, 사회 문제를 진단하고 살펴보는 데까지 확장한 데이터 저널리즘을 표방하는 언론으로, 지난 2012년 대선을 포함해 여러 차례 선거 결과를 정확하게 예측해 주목을 받았습니다. <파이브서티에잇>은 대선 내내 트럼프의 당선 가능성을 다른 예측 기관이나 언론사들보다 높게 전망해 왔고, 그 이유에 대한 설명을 따로 달기도 했습니다.

다음은 논쟁이 불붙기 이틀 전, 미국 언론 매체 <복스(VOX)>가 네이트 실버의 여론조사 분석 방법을 분석한 기사를 번역한 것입니다. 

민주당 지지자들은 <파이브서티에잇>이 내놓은 전망을 볼 때마다 가슴이 철렁할 겁니다. 며칠 전만 해도 클린턴의 당선 가능성을 85%라고 밝혔다가 3일 아침 다시 66.9%로 크게 낮췄기 때문입니다. <파이브서티에잇>의 전망대로라면 여전히 트럼프가 열세라지만, 트럼프가 대통령이 될 확률이 1/3을 넘는다는 말이 됩니다. 민주당 지지자들은 트럼프의 당선 가능성은 커봤자 16%, 심지어 1%도 안 된다고 이미 결론을 내린 다른 주요 매체와 여론조사 기관의 분석을 보고서야 마음을 좀 가라앉힐지도 모릅니다.

전국 여론조사는 물론이고 격전지를 중심으로 표심을 예측한 조사에서도 대부분 클린턴이 당선에 필요한 선거인단 270명을 어렵지 않게 확보하리라는 결과가 나왔습니다. 그런데 도대체 무슨 근거로 이렇게 당선 가능성이 널을 뛴다고 하는 건지 <파이브서티에잇>를 비판하는 목소리도 나옵니다. 하지만 네이트 실버의 방법론이 근본적으로 틀렸다는 비판이나 소위 다른 언론과 다른 튀는 예측을 내놓아 주목을 받고 구독자를 늘리려고 꼼수를 부렸다는 식의 비판은 적절치 않다는 점을 먼저 밝혀둡니다.

<파이브서티에잇>의 창설자 네이트 실버는 다른 언론과 다르게 트럼프의 당선 가능성을 높게 보고 있다. (사진/ Salon 캡쳐)

지난 2008년과 2012년 두 차례 대선에서 시종일관 오바마의 승리를 점쳐 결과적으로 더 큰 주목을 받은 <파이브서티에잇>의 방법론은 이번에도 크게 바뀌지 않았습니다. 네이트 실버의 모델을 보면 일리 있는 가정과 전제를 바탕으로 사안에 접근했고, 섣불리 단정 지어서는 안 되는 부분에 세심한 주의를 기울였을 뿐이라고 해석해도 전혀 무리가 없다는 걸 알 수 있습니다.

다만 각각의 전망이 맞았는지 틀렸는지 우리는 영원히 알 수 없습니다. 전망치는 늘 당선 가능성을 확률로 표기하는데, 실제 해당 대선은 정해진 시점에 딱 한 번만 치러지기 때문이죠. (예를 들어 클린턴이 승리해도 클린턴 당선 가능성을 90%로 예측한 전망과 51%로 예측한 모델 가운데 어느 것이 더 나았다고 말할 수 없는 겁니다)

어쨌든 거의 모든 예측이 클린턴의 승리를 점치고 있는 가운데 <파이브서티에잇>이 (클린턴의 당선 가능성을 유달리 낮게 점치기 때문에) 돋보이는 건 사실입니다. 특히 <파이브서티에잇>의 모델 가운데 선거날까지 눈여겨봐야 할 부분도 있습니다.

먼저 <파이브서티에잇>이 내놓은 예상치는 (다른 언론과 기관의 예상보다) 트럼프의 당선 가능성을 대개 크게 점쳤습니다. <뉴욕타임스> 업샷의 전망치와 <파이브서티에잇>의 전망치의 변화 추이를 살펴보면 이런 경향이 한눈에 들어옵니다.

옅은 색 선이 <파이브서티에잇>의 전망치, 짙은 색 선이 <뉴욕타임스> 업샷의 전망치. <파이브서티에잇>이 대개 트럼프의 당선 가능성을 크게 점쳐왔다는 걸 알 수 있습니다. (그래프 출처: 복스)

당선 가능성이 커지고 낮아지는 방향, 추세는 비슷하더라도 그 정도의 차이는 분명 달랐습니다. <파이브서티에잇>의 모델을 토대로 한 결과 전망치의 움직임이 훨씬 컸습니다. 7월 중하순, 8월 말, 1차 토론 직전 등 트럼프의 지지율이 오르던 시점에 <파이브서티에잇>은 다른 언론보다 트럼프의 당선 가능성을 훨씬 더 크게 올렸습니다. 이에 대해 네이트 실버가 직접 왜 <파이브서티에잇>의 모델이 트럼프의 당선 가능성을 더 높게 점치는지 설명하기도 했습니다.

여론조사가 정확한지 그때그때 검증할 수는 없습니다. (매번 실제로 선거를 치러봐야 정확히 알 수 있기 때문이죠) 과거의 투표 데이터가 여론조사 결과를 해석해 예측을 내놓는 데 하나의 준거로 쓰이는데, 이번 대선은 특히 예년과 다른 몇 가지 특징을 염두에 두어야 합니다. 특히 여론조사에서 나타나는 지지율의 변동 폭이 컸고, 다른 선거보다 제삼 후보의 지지율이 높으며 지지 후보를 결정하지 못한 유권자들도 많습니다. 한쪽 후보가 압도적인 격차는 아니더라도 선거인단 과반을 확보하기에 충분한 주에서 벌인 여론조사에서 시종일관 앞선 것도 예년 선거와 다른 특징입니다.

<파이브서티에잇>을 포함한 모든 언론사, 모든 예측 기관이 이런 차이를 분석해 데이터를 해석하는 데 반영했을 겁니다. 차이는 어디에 얼마나 가중치를 두고 해석하느냐에서 비롯됐을 수 있습니다. 각각의 특징을 실제 투표 결과를 예측하는 데 어떻게 받아들여야 할지 살펴보겠습니다.

“새로운 여론조사 결과” 어떻게 받아들여야 할까?

지금껏 진행된 수백, 수천 번의 여론조사 결과 대부분 힐러리 클린턴의 승리가 점쳐졌습니다. 선거를 앞두고 속속 발표되는 ‘막판 표심’을 반영했다는 여론조사는 지지율 격차가 좁혀지고 박빙주(swing state)의 양상도 더 치열해졌다고 합니다. 새로운 조사 결과를 어디까지 믿어주고 어느 정도 심각하게 받아들여야 하는지는 뉴스를 접하는 유권자 개개인의 판단이기도 하지만, 여론조사 결과를 종합해 대선 판세를 분석해야 하는 언론사나 예측 기관도 고민에 빠집니다.

기존의 답변과 다른 여론조사를 얼마나 신뢰하고 가중치를 얼마나 줘야 할까요? 그에 따라 여론조사 분석 결과 나타나는 판세가 요동칠 수도 있습니다. (허핑턴포스트가 제공하는 링크에서 여론조사 결과의 변동폭을 얼마나 고려할 것인지에 따라 지지율 격차가 꽤 많이 차이 난다는 사실을 확인할 수 있습니다)

<파이브서티에잇>도 새로 발표되는 여론조사 결과에 상대적으로 가중치를 높게 부여했습니다. 이론적으로 이렇게 하면 오랫동안 업데이트되지 않았던 지역의 표심을 더 빨리 반영할 수 있다는 장점이 있습니다.

하지만 <뉴욕타임스> 업샷의 조시 카츠(Josh Katz)가 지적한 것처럼 이 방법에는 명백한 단점도 있습니다. 표심의 변화와 새로운 분기점이 될 만한 사안을 빨리 반영할 수 있는 반면, 중요하지 않은 정보나 변화에 소위 낚일 수 있는 위험도 늘어나고, 결국 안정적이고 일관적인 예측은 그만큼 어려워지는 겁니다.

<뉴욕타임스>는 새로 발표된 여론조사 결과를 (<파이브서티에잇>보다) 더 점진적으로 반영합니다. 여론조사에서 지지율이 변했다고 1번 후보에게 투표하려던 유권자가 2번 후보를 실제로 찍을 확률이 그만큼 변한다고 보기는 어렵기 때문에 <뉴욕타임스>의 신중한 접근이 더 정확할 때도 있습니다.

그러나 여전히 어떤 방법이 더 낫다고 단정할 수 없습니다. 특히 선거가 다가올수록 새로 발표되는 여론조사 결과는 실제 결과와 가까울 가능성이 큽니다. 몇 주 전, 몇 달 전 데이터는 어쩌면 고려할 가치가 높지 않을 수도 있습니다. 또 다른 변수는 사전 투표입니다. 이미 표를 행사한 이들은 여론조사 결과에 영향을 받지 않습니다.

부동층과 제3 후보 지지율

11월 3일 기준으로 투표하겠다고 밝힌 응답자 가운데 클린턴의 전국 지지율은 45%, 트럼프는 41~43% 정도입니다. 여전히 12~14%는 지지 후보를 결정하지 못했거나 제3 후보를 찍겠다는 유권자입니다. 2012년 선거를 일주일도 안 남겨둔 시점에서 이런 유권자들은 3~5%에 불과했습니다. 여전히 정확한 예측을 상당히 어렵게 하는 요인이라고 할 수 있습니다.

과거 사례를 비추어 봤을 때 이런 부동층 유권자들은 막판에 어떤 후보에게 기울까요? 제3 후보를 지지하다가도 막판에 후보를 바꾸는 일이 일어날 법한 시나리오일까요? 네이트 실버는 지난 9월 이에 관해서도 “확신할 수 없다”고 썼습니다.

기본적으로 <파이브서티에잇>이 트럼프에게 희망적인 전망을 내놓는 이유가 여기에도 있습니다. (물론 전국 지지율로 대통령을 뽑는 게 아니라 주별로 선거인단을 뽑아 승자 독식 형태로 몰아주는 룰이 있다는 걸 알지만) 클린턴이 지지율에서 2% 정도 앞서는데 아직 전체 유권자의 10% 이상이 어디로 갈지 모르는 상황에서 클린턴의 승리를 기정사실처럼 이야기하기는 너무 이르다는 겁니다.

클린턴의 근소한 리드는 얼마나 안심해도 되는 정도인가?

이는 여론조사의 오차에 관한 질문이기도 합니다. 쉽게 말해 클린턴이 2% 앞선다고 나온 여론조사의 오차 범위가 2%가 넘는다면 이를 어떻게 해석해야 할까요? 예를 들어 지난 2012년 대선에서 오바마의 실제 득표율은 여론조사 평균값보다 2~3% 높았습니다. 그럼 클린턴이 2~3% 앞선다고 해봤자 결국 누구도 앞서있지 않다는 뜻이나 다름없다는 뜻일까요?

여러 여론조사 기관은 오차범위의 한 극단으로 실제 득표율이 지지율을 빗나갈 가능성은 매우 낮다고 밝혔습니다. 즉, 근소한 차이라지만 클린턴이 많은 주에서 앞서고 있는 게 사실이라면, 이를 토대로 승부를 예측한 내용이 틀리려면 대부분 주의 결과가 뒤집혀야 하는데 그럴 가능성이 작다는 겁니다. 그러나 네이트 실버는 박빙주에서 예측이 빗나가면 전체 판세가 뒤바뀔 수도 있다며 여전히 가능성을 완전히 배제할 수 없다고 말했습니다.

마지막으로 분명히 해야 하는 사실이 하나 있습니다. 네이트 실버의 모델도 가장 유력한 시나리오로 힐러리 클린턴의 압승을 점치고 있다는 사실입니다. 70% 가까운 확률로 클린턴이 대통령이 될 거라고 내다보면서도 다른 여론조사 분석보다 다양한 불확실성을 좀 더 고려에 넣었을 뿐입니다. 실버가 직접 밝혔듯이 우리는 미래에 어떤 일이 일어날지 기본적으로 정말 모릅니다.

누가 생각이나 했겠습니까? 선거를 열흘도 채 안 남긴 시점에 FBI의 제임스 코미 국장이 클린턴의 국무장관 시절 개인 계정으로 받아본 것으로 보이는 이메일을 재수사하겠다고 밝힐지, 그리고 15살 소녀에게 음담패설이 담긴 문자, 메일을 보낸 혐의로 조사를 받고 있던 앤소니 위너(Anthony Weiner)의 컴퓨터가 재수사의 실마리가 될 줄도 말입니다. 

원문보기 : "Nate Silver's model gives Trump an unusually high chance of winning. Could he be right?"

본지 제휴 <News Peppermint>, 무단 전재 재배포 금지


관련기사

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.