변호사 전석진
논문 요약
윤석열 전 총장이 대선 후보 1위를 달린다는 언론 보도는 ARS 여론조사의 오류로 인한 허상이라는 사실이 밝혀졌습니다.
결론적으로 우리나라의 ARS 조사는 영남“출신”과 호남 “출신” 유권자들만에 의한 여론 조사가 전체 여론 조사로 둔갑을 한 결과이고 결코 적절한 여론 조사 결과가 아니라는 것이다.
이번 글에서는 미국의 ARS 여론 조사에 대한 것을 먼저 연구한 다음에 우리나라 ARS조사의 비과학성을 증명하였습니다.
미국에서의 ARS 여론 조사의 특징을 정리해 보면 아래와 같습니다.
첫째, ARS 조사는 선거 직전에만 유효하다.
둘째, 부동층이 과소하게 나온다.
셋째, 보수 지지층을 과다 포집한다.
넷째, 극단층을 과다 포집한다.
다섯째, 응답률이 낮다.
여섯째, 정확도가 낮다.
일곱째, 보수층에 편향되어 있다.
여덟째, 대통령에 대한 반대 의견이 과장된다.
라는 것입니다.
이러한 미국 ARS조사의 특징은 우리나라의 경우에도 그대로 나타나고 있습니다.
여론 조사에서는 표본 추출이 가장 중요한 것인데 우리나라 ARS 여론 조사는 표본 추출에 있어 심각한 문제점을 가지고 있는 것입니다.
실제 최근 데이터를 조사해 본 결과로는 전화면접 및 언급량 지표에서는 모두 이재명이 1위인 것으로 나타나고 ARS 조사에서만 윤석열 전 총장이 1위를 하는 것으로 나타납니다.
결론적으로 볼 때, 윤 전 총장이 대선 후보 1위라는 ARS 여론 조사 결과는 극보수층과 극 진보층만으로 이루어진 표본 집단을 두고 이루어 진 것이기 때문에 아주 부정확한 결과라고 할 것입니다.
언론기관은 비과학적인 여론 조사는 보도하지 말아야 한다는 한국 기자협회의 선거여론조사보도준칙에 따라 앞으로 AAPOL 기준으로 5%도 안되는 응답률을 가지고 있어서 비과학적이라고 입증된 ARS 조사 보도는 공표해서는 안된다는 것이 제 의견입니다.
자세한 것은 아래를 참조하시기 바랍니다.
논문 원본
윤석열 전 총장이 대선 후보 1위를 달린다는 언론 보도는 ARS 여론조사의 오류로 인한 허상이다.
이 점에 대하여 외국의 이론을 살핀 후에 우리나라 ARS 여론 조사의 실태와 문제점을 냉정하게 살피기로 한다.
결론을 미리 언급하자면 우리나라의 ARS 조사는 영남“출신”과 호남 “출신” 유권자들만에 의한 여론 조사가 전체 여론 조사로 둔갑을 한 결과이고 결코 적절한 여론 조사 결과가 아니라는 것이다.
여론 조사 결과가 언론에 보도되면 전체 판세에 따라 투표 여부와 지지자 선택이 결정되어 승자 편승 효과(bandwagon effect) 또는 자기충족적 예언(self-fulfilling prophecies) 현상이 나타날 수있다.
현 상황에서도 윤석열 총장의 야권 대선 주자 등장은 야권에 후보가 없다는 대안부재론에 의한 것이므로 윤석열 총장의 1위 보도로 승자 편승 효과가 나타날 가능성이 높다. 윤석열 총장이 이재명 지사를 이길 수 있다고 보도가 되니까 윤석열 총장이 야권 대권 주자로 더욱 지지를 받는 것이다.
이 말은 만일 윤석열 총장이 이재명 지사를 이길 수 없다는 여론 조사가 나오고 이 조사가 설득력을 가지게 되면 윤석열 총장의 지지율은 한 번에 급격히 빠질 수도 있다는 해석이 된다.
아래에서는 미국에서 ARS 여론 조사에 대하여 어떻게 보고 있는지를 먼저 살피기로 한다.
1. 미국에서의 ARS 조사의 실태
미국에서는 ARS 조사를 interactive voice response (IVR) 또는 로봇 조사(Robopoll)이라고 한다.
아래에서는 우리나라 용례에 맞추어 ARS 여론 조사라고만 한다.
가. ARS 조사의 유효 시점
미국에서의 연구 결과를 보면 선거 바로 직전에 행해진 ARS 조사는 대체로 정확하다고 하고 있다1)2).
즉 선거가 가까워져 오면 관심을 가진 사람들이 급격히 늘어나기 때문에 표본 추출이 정확해지고 응답률이 높아지기 때문이다.
정치 저관여층이 고관여층으로 바뀌고 고관여층만을 조사해도 표본 추출에 문제가 없기 때문이다.
이 말은 ARS 조사는 선거에서 먼 시점에서는 정확하지 않은 결과를 낸다는 뜻이다.
20대 대선까지는 아직 10개월이나 남았기 때문에 지금 행해지는 대선후보에 대한 ARS 조사는 정확할 수가 없는 것이다.
나. 부동층 과소
미국에서 ARS 조사에서는 부동층이 작은 것으로 나타났다3).
이는 우리나라도 마찬가지이다.
다. 극단층의 과다 포집
미국에서 ARS 조사에서는 극단층의 지지가 더 많이 드러난다고 하고 있다.
특정 문맥에서 특정 후보에 대한 높은 수준의 지지를 보여주고 있다4).
지지도가 과장되는 것이다.
우리나라의 경우에 윤석열 전 총장의 지지율이 과장되게 나타나는 것도 ARS 조사의 특성에서 나오는 것이다.
라. 보수 지지층 과다 포집
미국에서 ARS 조사는 면접조사에 비해 자신을 매우 보수적이라고 한 사람이 많았다(53%: 40%). 그리고 보통이나 진보적이라고 말한 사람이 적었다(19%:32%)5).
1) 보수층에게 유리한 ARS 여론조사
ARS 조사기관인 라스무센 리포트는 다른 면접 조사기관인 Siena College보다 평균 5%정도 보수 정당인 공화당에 유리한 결과가 나온다6).
다른 ARS 여론조사 업체인 SurveyUSA는 공화당에 4% 정도 유리한 결과를 내놓는다7).
면접 조사 업체는 0.7포인트 민주당쪽으로 편향되어 있다8).
우리나라에서도 보수층을 대표하는 윤석열 전 총장의 경우 ARS 조사에서 지지율이 높게 나온다. 어느 정도 더 나오는가는 알 수 없으나 이러한 효과는 분명히 있는 것이다.
2) 보수후보에 대한 지지 과장
미국 하원의원 선거에서 ARS 조사는 보수당인 우크하트 후보가 22% 우세하다고 발표하였다. 전화면접 조사는 중도 후보인 롤린스를 2% 이기고 있는 것으로 발표하였다. 결과는 우크하트 후보의 1% 승리였다9).
이 예는 ARS 조사가 보수 후보의 지지율을 과장하고 극단적으로 우세하다고 발표하고 있다는 점을 나타내 주고 있다.
이는 우리나라에서도 마찬가지라고 판단된다.
ARS는 보다 보수적인 이념적인 공화당 후보의 지지율을 과장되게 나타내는 경향이 있다10).
ARS 여론조사는 보수층인 공화당, 노인, 백인이 포집될 가능성이 높다11).
ARS 여론조사 회사인 라스무센 리포트는 많은 주에서 예측이 틀렸고 특히 공화당에 상당히 편향된 결과를 보여주었다12).
우리나라 ARS 여론 조사에서도 보수층을 과다 포집하는 경향을 보이고 있다13).
마. 저응답률
미국에서 ARS 조사는 응답률이 면접조사의 반도 안되었다(9% : 23%)14).
적정 응답률은 미국에서는 최소한 10%를 말하고 있다15).
AAPOR의 평균 응답률은 32%였다16).
바. 부동층이 면접 조사보다 현저하게 낮게 나온다.17).
비관여층은 녹음된 설문 듣다가 그냥 전화를 끊어 버리고 만다. 그러므로 표본에는 고관여층만 남게 된다. 반면 면접에서는 사람이 물어보니까 저관여층도 대답을 하게 된다.
면접 조사에서는 38%가 모르겠다고 나오는데 ARS는 5.9%만이 모르겠다로 답하는 것이 그 예이다.
사. 대통령에 대한 반대 여론 과다 포집
미국에서 ARS 여론조사는 대통령에 대한 비지지율이 상당히 높고 의견 없음 비중이 매우 낮은 것으로 나온다. 이는 ARS 조사에서의 낮은 협력율에서 기인한 비응답 편이를 보여주는 것이다18).
아. 짧은 조사 시간과 콜백이 없다19).
전화면접 업체는 응답률을 높이기 위하여 6-8번의 콜백을 한다20). 반면 ARS 조사에서는 콜백이 거의 없다.
자. ARS 조사의 부정확성
2012년 미국 대선에서는 ARS 조사 결과가 형편없이 나왔다21).
ARS 여론조사 업체인 Rasmussen Reports의 오차는 5.8%였는데 이는 다른 조사 기관들의 오차보다 매우 높은 것이었다22).
ARS 여론조사 업체인 라스무센 리포트는 2009년 이후에는 극도로 부정확한 결과를 내고 있다.
ARS 여론조사는 싸지만, 문제가 많은 조사 방법이다. 응답률이 5%까지 내려가기도 한다.
미국에서도 요즈음 응답률이 9%가량으로 저하되어 업계의 위기라고 하고 있다23).
차. 뉴스 기관들의 보도 거부
미국의 유수한 뉴스기관들(ABC 뉴스, NBC, AP 통신, Washington Post, CNN 등)은 ARS조사의 방법론적 문제점 때문에 ARS 조사에 근거한 기사를 게재하지 않는다24)25).
AAPOR의 전임 사장 Peter Miller는 “ARS 자동 조사는 가정에 지나치게 의존한다. 그리고 이러한 가정은 큰 그리고 예측 불가의 오류를 가져올 것이다”라고 말하고 있다26).
Pew Research Center의 Scott Keeter 이사도 ARS조사가 여론조사의 기본 원칙을 어기는 조사라고 평하고 있다27).
1) ARS 쓰지 않기로 결의
이러한 현상은 우리나라에서도 마찬가지이다.
2019.10.30. 한국조사협회 이사회는 ‘ARS 조사를 하지 않겠다’라는 재결의안을 통과시켰다. ARS 조사는 과학적이 아니라는 이유에서 이다28). 한국통계학회와 한국조사연구학회는 ARS를 과학적인 조사방법으로 인정하지 않고 있으며, 비과학적이고 부정확하기 때문에 여론조사에 활용하지 말아야 한다는 입장을 밝힌 바 있다. 사단법인 한국조사협회(KORA)도 ARS가 응답율이 낮고 부정확해 비과학적이라며 회원사들이 ARS 조사를 수행하지 않을 것을 결의한 바 있다.
카. 미국에서의 ARS 조사의 특징점에 대한 정리
미국에서의 ARS 여론 조사의 특징을 정리해 보면 아래와 같다.
첫째, ARS는 선거 직전에만 유효하다.
둘째, 부동층이 과소하게 나온다.
셋째, 보수 지지층을 과다 포집한다.
넷째, 극단층을 과다 포집한다.
다섯째, 응답률이 낮다.
여섯째, 정확도가 낮다.
일곱째, 보수층에 편향되어 있다.
여덟째, 대통령에 대한 반대 의견이 과장된다.
라는 것이다. 아래에서 보는 바와 같이 이러한 미국 ARS조사의 특징은 우리나라의 경우에도 그대로 나타나고 있다.
2. 응답률
응답률이란, 설문에 참여하여 이탈 없이 모든 필수 문항에 응답한 사람 수를 배포수에 비교하여 산출한 값이다. 우리나라에서는 전혀 응답을 시작하지 않은 사람들을 응답률 분모에서 제외하는 협력율을 응답률로 발표한다. 미국에서는 전혀 응답을 하지 않은 사람들도 분모에 넣어서 응답률을 계산한다. 우리나라에서 협력율에 접촉율을 곱한 숫자가 미국에서의 응답률이다. 우리나라에서는 협력율을 응답율로 포장하여 마치 응답률이 상당한 것처럼 발표를 하는 것이다.
위에서 본 미국 연구 결과에서 응답률을 언급한 것은 우리나라에서 응답률이라고 말하는 것과는 다르다. 우리나라에서 5% 응답률이라는 것은 미국에서는 1.5% 상당의 응답률과 같은 것이다.
통계가 의미가 있으려면 무작위(randomness) 원칙을 지키고, 비접촉자의 경우 반복 접촉(call back)을 통해 응답자가 될 수 있게끔 시도하여 대표성에 편이가 있지 않도록 해야 한다. 반복접촉을 하지 않는 방법은 비과학적인 것이다.
그런데 지금의 우리나라의 대부분의 국내 ARS 여론 조사는 이러한 원칙들을 지키지 못하고 있다.
현재 우리나라 ARS 여론조사기관은 통상 2~3회 정도의 반복 접촉만을 실시한다.
비용 최소화가 주원인이다. 그러나 이러한 2, 3회의 반복 접촉만으로는 응답률을 올리는 것에 커다란 문제점이 있다. 아래 보는 실예에서 보더라고 ARS 조사 응답률은 2% 미만인 경우도 많다. 표본 집단 문제 때문에 통계로서의 가치가 없는 것이다.
가. 응답률 평균
전화여론 조사는 응답률 평균이 18%29)이다30).
이것도 낮은 응답률로 보고 있고 이렇게 낮은 응답률은 신뢰도에 영향을 줄 수 있다고 하고 있다31).
나. 응답률이 낮으면 극단성을 띤다.
접촉실패로 다른 응답자를 추가로 찾아 나갈수록 표본의 대표성은 떨어진다. 관심도가 떨어지는 사람들이 전화를 아예 받지 않거나 거절하는 일이 반복되고, 갈수록 표본은 해당 주제에 관심도가 높은 사람들로 채워져 나갈 수밖에 없다. 당연히 결과도 더 극단성을 띨 수밖에 없게 된다32).
이것이 ARS 조사의 실태인 것이다.
아래에서 구체적으로 다루기로 한다.
다. 낮은 응답률-대표성 없음
응답률이 낮으면 표본의 대표성이 상실되게 된다.
낮은 응답률은 다수의 목소리를 담지 못하고 자기주장을 하고 싶은 사람의 의견을 전달하는 도구로 전락하게 된다. 응답률이 낮아진다는 것은 극단적인 표본이 과대 대표되는 것을 의미한다. 과학적 여론조사는 적절한 응답률을 전제로 한다.
ARS 조사와 같이 응답률이 낮은 여론 조사는 표본에 문제가 있는 비과학적인 조사이므로 언론이 보도를 하면 안되는 것이다(아래 보도 준칙 참조).
라. 거절 중도 이탈
거절/중도이탈의 규모는 전화면접조사에 비해 ARS 조사가 월등히 크다33). 그래서 응답률이 낮은 것이다.
마. 표본의 편향성
응답률이 낮으면 표본이 편향성을 보이게 된다.
ARS 여론 조사에서 편향성은 더욱 크게 나타난다. 응답률이 매우 낮기 때문이다.
아래에서 분석하는 바와 같이 영남 출신 유권자와 호남 출신 유권자들만 조사에 응답하고 따라서 중도층을 포집하지 못하는 표본 편향성이 나타나는 것이다.
바. 표본 추출의 중요성
미국에서 200만명의 유권자를 상대로 한 여론 조사를 벌인 적이 있는데 이 조사에서 공화당의 낸든 후보가 루즈벨트 후보를 이길 것이라고 예측한바 있다. 그러나 이 예측은 틀렸다. 표준 집단이 공화당에 편향되어 있었기 때문이다.
이에 비하여 이와 동시에 갤럽은 2,000명을 상대로 한 여론 조사를 하였는데 여기서는 정확한 결과를 예측하였다. 표본 추출이 정확했기 때문이다.
이만큼 여론 조사의 표본 추출이 중요한 것이다.
우리나라의 ARS 여론 조사는 표본 표출에 있어서 심각한 문제를 가지고 있다. 보수층이 많은 표본 집단에서 여론 조사를 하면 보수층이 지지하는 후보가 지지율이 높은 것처럼 나오는 것은 당연한 것이다. 위 미국의 예에서 보듯이 ARS 조사는 보수층을 과대 포집한다.
미국에서는 비응답편향 문제를 해결하려고 심지어는 몇주에 걸친 반복접촉을 한다34).
우리나라에서는 단 두 번의 반복 접촉(리턴 콜)을 한다. 그리고 나머지 문제는 가중치 부여방식으로 해결하려고 한다. 그러나 이런 가중치 부여방식으로 문제를 해결할 수 없는 것이다. 부정확한 결과를 보정할 수 있는 가중치 방법은 없다.
사. 응답률 저조로 신뢰성 결여
학자들은 응답률이 10%보다 낮은 여론조사는 신뢰성이 매우 낮으므로 이러한 여론조사결과는 발표를 금지시켜야 한다고 지적하고 있다35).
현재 상황에서 응답률이 10%가 넘지 않는 것은 ARS 조사이므로 이 견해는 결국 ARS 조사를 공표를 금지하여야 한다는 의견이다.
위에서 본 바와 같이 미국에서도 상당한 유력 기관들은 ARS 조사 결과를 보도하지 않고 있다.
1) 반정부 여론 과대 포집
ARS 조사는 반정부 보수층의 의견을 과다 대표한다는 지적이 있다36).
2) 극단적인 응답
전화면접보다 ARS 조사에서 극단적인 응답이 많았다는 점도 주목된다37).
전화 면접조사 방식을 쓰는 한국갤럽보다 ARS방식을 쓰는 리얼미터는 무당층 비율이 낮게 나온다. 이는 ARS 자동응답 방식 조사의 공통적 특성으로써 리얼미터뿐 아니라 자동응답 방식 여론조사 업체들은 면접조사 방식 업체들보다 무당층 비율이 낮게 나온다.
이것도 극단 반영의 예이다.
ARS 여론조사는 정치의 양극단에 치우지는 결과를 낳게 된다38) .
ARS 조사에서는 양극단에 있는 응답자들이 더 강력히 자기 주장을 펴는 경향이 있다. 즉, ARS 조사에서는 자기 의견이 명확하지 않는 중도, 유보층의 응답자들은 굳이 응답할 필요성을 못 느껴 기피하고 자기 주장이 강한 사람들이 더 적극적으로 응답하게 되어 낮은 응답률이라는 결과를 낳게 된다는 것이다. 무응답층이나 유보층이 ARS 조사에서 더 낮게 나타나는 것도 이 때문이다.
ARS 조사는 중도층 의견이 덜 반영된다39). 중도층은 전화에서 “여론조사 기관입니다” 소리를 듣자마자 전화를 끊어 버리는 경우가 많다.
3) 지지율 차이를 과장
ARS 시스템이 면접 시스템보다 지지율차를 과장되게 나타내 주고 있다.
아. ARS 조사는 극단의 의견을 가진 사람들의 의견임
ARS 여론 조사는 표본 표출이 잘못된 극단의 의견층에 대한 조사이다.
응답률이 2.2%라함은 44,000명을 전화연결후 거절한 사람을 거쳐서 단 1,000명을 골라내었다는 것이다. 즉 44,000명중 단 1,000명의 극단의 의견을 가진 사람들의 답을 기초로 여론 조사를 하였다는 말이다. 중도층은 다 전화를 거절하였다는 뜻이다.
4만4천명의 중도층을 걸러내고 1,000명의 극단적 의견의 정치 고관여층의 의사를 물은 것이다.
이같이 극단적인 의견을 가진 사람들을 상대로 의견을 구하면 지지율이 극단적인 의견만을 반영할 수밖에 없다.
1) 고관여층 참여 많음
ARS 여론조사는 열성적 응답자의 비율이 높다.
ARS 방식은 정치 이슈에 관심이 높은 열성적 응답자 즉 정치 고관여층의 참여 비율이 높다40)41). 이슈에 관심이 없는 사람들은 중도에 전화를 끊어 버린다.
한국갤럽조사연구소 정지연 이사는 “ARS 방식은 응답률이 낮고, 응답률이 낮으면 매우 적극적인 사람들만 응답하게 된다. ARS 조사에는 이런 열성 지지자들의 수치가 반영돼있다고 볼 수 있다”고 말했다42).
ARS 조사는 비응답 편향 때문에 보다 적극적이고 의사가 확고한 사람만을 포집한다.
3. 지역이기주의와 응답자
그럼 어떤 사람들이 적극적 열성적 응답자이고 어떤 사람들이 무관심한 중도층인가를 살펴보자.
우리나라 정치 분석에 있어서 가장 기본이 되는 것은 지역이기주의에 의한 의사결정이다.
이전 포스팅에서 정리한 결과를 짧게 인용하면 아래와 같다.
2015년의 장은영외 1인의 논문43)도 투표행태에서 지역이기주의는 어쩔 수 없는 현실이고 앞으로도 유효하다고 결론 내리고 있다.
이 논문은 한국에서 지역주의 투표행태가 바뀌지 않았고 앞으로도 지역주의 행태가 지배하는 상황을 회피할 수는 없다라고 단정적으로 결론을 내리고 있다44).
이현출 및 Alexandre Repkine의 논문(2020 6월 Asian Survey)에서도 지역주의와 나이가 정치적 의사 결정에 있어 가장 중요한 선택의 요소라고 하고 있다45).
2020 총선에서도 지역주의가 부활하였다고 하고 있다46).
이러한 지역이기주의는 여론 조사시에도 나타난다.
우리나라의 지역별 인구 분포를 보면 아래와 같다.
부산·대구·경북·경남을 포함하는 영남출신이 12,527,000명(전체의 31.5%)으로 가장 많고 전남북의 호남출신은 8,570,000명으로 전체의 21.5%, 충남북 출신은 15.2%인 6,046,000이다47)
언론 기사들도 여전히 지역주의에 의한 집토끼론을 전개하고 있다48). 위의 논문 등에서 본 바와 같이 지역이기주의는 아직까지 우리나라 국민의 투표행태의 기본이다.
그리고 투표를 전제로 한 여론 조사에서도 이러한 지역주의가 나타나는 것이다.
이러한 점을 감안하여 응답층 분석을 하여야 한다. 아래의 실제 여론 조사 결과도 이와 같은 지역주의 구도를 반영하고 있는 것이다. 아래에서 다시 살피기로 한다.
4. 부동층
가. 선거 기간과 부동층
선거에 가까이 오면 고관여층이 많아지고 부동층이 줄어 들어 이때에는 ARS 여론조사가 의미가 있다.
2021.4.5.기사에 의하면 선거가 이틀앞으로 다가오자 서울과 부산 유권자의 투표 의향이 97% 수준에 이르고, 지지 후보가 없거나 잘 모르겠다는 부동층 비율은 5~6% 정도로 크게 줄어든 것으로 나타났다고 하고 있다49).
보궐선거 투표일이 이틀로 다가오자 부동층이 약 3%로 준 것이다50).
그러나 선거일이 2주 정도 남은 2021.03.21.에는 아직 선거일까지 시간이 남은 만큼 뽑을 후보가 없거나 모르겠다는 부동층도 32%를 넘었다고 하고 있다51).
이때에는 ARS 여론조사가 맞지 않는 것이다.
2021-04-01 기사에는 4.2일부터 사전투표인데도 부동층이 26.2%인 것으로 나타났다52).
선거가 일주일도 안남았는데도 상당수가 부동층이라는 것을 알 수 있다.
위 기사들에서 보면 선거 일주일을 남기고서도 부동층의 숫자는 26% 이상이고 선거 직전에 가야 부동층이 5-6%정도로 줄어드는 것으로 나타난다.
2030세대들의 경우 투표할 대선 후보를 선거 일주일 전에 정한다53). 그리고 위에서 본 바와 같이 선거 일주일 전에도 부동층이 30% 상당으로 나타난다.
그런데 지금의 ARS 20대 대선 후보 지지도 조사에서는 선거가 10개월이나 남았는데 부동층이 5%가량밖에 안 되는 이상한 현상을 보게 된다. 35% 상당의 부동층의 의사는 반영이 되지 않는 것이다. 극단층만 과다 포집된 것이다. 심각한 오류인 것이다.
나. 부동층의 분류
경기, 서울, 강원, 제주, 충청 일부 등 출신의 유권자들은 자신들의 출신 지역의 후보도 없는 대선에 그것도 10개월이나 남아 있는 대선에 지금 단계에서 관심을 보일 이유가 없다. 앞으로 시간이 지나 충분한 정보를 가지게 되면 지지 후보를 결정할 것이라고 생각한다. 그러므로 이러한 사람들은 ARS 여론 조사에 응하지 않게 되는 것이다.
결국 영호남을 대표하는 주자가 있는 영호남 출신들만이 대선을 10개월을 앞둔 이 시점에서 누가 좋은 후보인지에 관심을 갖게 된다.
전의 포스팅에서 밝혔듯이 2021.1. 부터의 여론 조사결과를 요약하면 ARS 여론 조사에서는 윤석열 총장이 큰 차이로 1위를 나타내고 있지만, 전화 면접조사에서는 줄곧 이재명이 1위이고 윤석열 총장은 2위를 달리고 있었고 지금도 그렇다54)55).
나는 이전 포스팅에서 “이제 윤석열 총장이 여론조사 1위라는 것은 뉴스 가치가 없다. 이후로는 윤석열 총장이 2위로 추락했다는 보도가 뉴스가치를 가지게 된다. 그러므로 앞으로는 언론이 면접 조사 방식의 여론 조사결과를 받아 윤석열 총장이 2위로 떨어졌다고 보도하기 시작할 가능성이 높다”고 예측하였다.
5. 14일 그와 같은 보도가 있었다. 면접 조사 결과를 받아서 윤총장이 2위로 떨어졌다는 보도들이 나오기 시작한 것이다56).
언론은 “여론조사 전문기관 한국갤럽(전화 면접 사용)이 매일경제·MBN 의뢰로 지난 11~12일 성인 남녀 1,007명을 상대로 가상 양자대결을 조사한 결과, 이 지사 지지도는 42%, 윤 전 총장 지지도는 35.1%로 나타났다”고 보도하였다57).
여전히 ARS 조사에서는 윤 전총장이 1위로 나오지만 예상대로 보도가 ARS를 근거로 하지 않고 이제는 면접조사 결과를 기준으로 보도를 하는 것이다. 언론이란 그런 것이다.
이미 말했듯이 2021. 1,2,3,4월 모두 면접조사에서는 일관되게 윤석열 총장이 이재명 지사에게 아주 크게 지고 있는 것으로 나타났다. 이재명이 전화면접에서 1위를 차치하였다는 것은 전혀 새로운 내용이 아니다.
다. 최근의 여론 조사 내용
ARS 조사의 문제점을 보기 위하여 아래 최근의 여론 조사결과를 요약해 보았다58).
먼저 위 표에서 전화면접에서는 모두 4% 차이로 이재명 지사가 1위, 윤석열 전총장이 2위인 것으로 나타난다. ARS 조사에서는 윤석열이 8%~9% 차이로 모두 1위인 것으로 나타난다. 언급량 지표에서는 이재명 지사 27.2%로 1위, 윤석열 전 총장은 22.8%, 24.2%로 2위로 나타난다.
응답률은 AAPOL 기준은 면접조사는 6%가량 되고 ARS 조사는 2%가량으로 아주 낮게 나왔다.
중도층은 면접조사에서 29%~41%까지 나왔고 ARS 조사는 3.9%~7.0%로 나왔다.
ARS조사에서 응답률이 2% 이하로 나온 것은 경기, 서울, 충청, 당원, 제주 출신의 부동층들이 응답 도중 전화를 끊어 여론 조사에 응하지 않았고, 따라서 영남 및 호남 출신의 유권자들로만 주로 이루어졌다는 사실을 나타내 주고 있다.
ARS 조사에서 중도층이 3.9%~7.0%로 낮게 나온 것도 이미 중도층이 조사 도중에 응답을 포기하여 걸러지고 나머지 중도층만 남았다는 사실을 알려주고 있다.
대선을 10개월 남겨둔 이 시점에서는 중도층이 40% 정도 나와야 정상인 것이다.
즉 면접조사에서 나타난 중도층들 30%가량은 ARS 조사에서는 모두 조사를 거부했다는 사실을 보여주고 있다.
결국 위 ARS 조사들은 영호남 적극 지지층들만을 대상으로 여론 조사를 하고 그 결과를 나타내 주고 있는 것으로 해석되는 것이다. 그리고 ARS 조사에서는 보수층의 지지도가 더 높게 나타나고 대통령 반대층이 더 높게 나오는 특성이 있으므로 이와 같은 사실을 감안할 때 윤석열 전 총장의 지지도는 더 디스카운트가 되어야 하는 것이다.
결론적으로 볼 때, 윤 전 총장이 대선 후보 1위라는 ARS 여론 조사 결과는 극보수층과 극 진보층만으로 이루어진 표본 집단을 두고 이루어 진 것이기 때문에 아주 부정확한 결과라고 할 것이다.
한국 기자협회의 선거여론조사보도준칙은 아래와 같이 규정하고 있다.
“제4조(과학성) ① 여론조사는 과학성이 생명이다. 미디어는 대표성과 신뢰성이 의심되는 여론조사를 기획하거나 의뢰하지 않는다. 또한, 이와 같은 문제가 있는 여론조사 결과는 보도하지 않는다.”59)
언론기관은 위 준칙에 따라 앞으로 AAPOL 기준으로 5%도 안되는 응답률을 가지고 있어서 비과학적이라고 입증된 ARS 조사 보도는 공표해서는 안된다고 생각한다.
윤석열 전 총장의 지지도는 이와 같이 비과학적인 ARS 조사에 기초를 두고 있는 것이다. 현재를 정확하게 표시해 주는 것도 아니고 미래 예측력은 더더욱 없는 것이다.
1) Previous studies have shown that IVR polls conducted immediately before elections are generally accurate, but have raised questions as to their validity in other contexts.
ARS 여론 조사는 선거 바로 직전에만 유효하다고 결론.
Mellman hypothesized that Interactive Voice Response polls are only valid when conducted immediately before an election.
But polls conducted earlier in campaigns show demonstrable differences when comparing the two types of telephone interview methods.
2) 선거 직전에는 대부분의 모든 유권자들이 관여를 하고 있고 정보를 충분히 가지고 있다. 그래서 면접 조사와 ARS 조사 사이의 차이점이 사라지게 된다.
Just before an election, when nearly all voters are engaged and informed, the differences between live interview and IVR polls tend to disappear.
3) The findings suggest that in general elections, IVR polls find fewer undecided voters compared to surveys conducted using live interviewers.
Chapter 5 contains an analysis of undecided rates in general election polling data in the 2010 U.S. Senate and gubernatorial elections, and finds support for the expectation that IVR polls tend to find fewer undecided voters.
4) In primary elections, IVR polls can show larger support than live interview polls for a more ideologically extreme candidate who has high levels of support among more opinionated and engaged voters.
IVR polls may tend to over-sample more engaged and opinionated voters, often resulting in smaller percentages of undecided respondents, and higher levels of support for specific candidates in certain contexts.
5) If non-response bias is producing the differences, then there will be significant differences between samples for the two survey methods and a lower response rate for the IVR polls. Van Lohuizen and Samohyl found two notable differences between the IVR and live interview samples that they collected for their polls. First, the IVR poll results had a higher percentage of self-identified “very conservative” voters (53% compared to 40%) and a smaller percentage of moderate or liberal voters (19% compared to 32%) when contrasted with the live interview poll results.
6) For instance, say that Rasmussen Reports polls are 5 points more favorable to Republicans, on average, than polls from Siena College. Do we adjust the Rasmussen polls to match the Siena ones, or the other way around? The answer, of course, is somewhere in between. Specifically, we calculate a weighted average from all the polling firms in our universe, where the weights are based mostly on pollster quality.
Most of the automated polling firms have a Republican-leaning house effect.
7) For instance, it’s about 2 points for Rasmussen Reports (our estimate for Rasmussen includes polls conducted by its subsidiary, Pulse Opinion Research) and
4 points for SurveyUSA.
8) On average, the robopoll firms have a 2-point Republican-leaning house effect, whereas the live interviewer polls have a 0.7-point Democratic-leaning house effect. The difference between the two, then, is 2.7 points.
This produces broadly similar answers, but the ‘robopoll effect’ becomes slightly larger: a difference of about 3.4 points between the automated surveys and the live ones.
9) https://vtechworks.lib.vt.edu/bitstream/handle/10919/51239/Brunk_AC_T_2015.pdf?sequence=1&isAllowed=y
10) Interactive Voice Response polls have been shown in at least one instance to overstate support for a more conservative candidate in an ideologically-charged Republican primary election (van Lohuizen and Samohyl 2011).
11) Our unweighted automated voice recorded surveys typically will be more Republican, older and whiter than the voting population we are trying to measure.
13) 일년전 쯤 국내 모 ARS 조사담당자가 언론을 통해 조사결과를 보고하면서 특정 계층의 응답이 과다대표되고 있다고 인정한 적이 있다. 당시 반정부 여론이 높던 시점에서 보수층일수록 여론조사에 적극적으로 참여하던 경향이 반영된 결과로 볼 수 있다.
http://www.eai.or.kr/main/search_view.asp?intSeq=1837&board=kor_eaiinmedia
14) More importantly, and consistent with the literature on Interactive Voice Response in other contexts, they found that the response rate for the IVR poll was less than half the response rate for the live interview poll (9% compared to 23%).
https://vtechworks.lib.vt.edu/bitstream/handle/10919/51239/Brunk_AC_T_2015.pdf?sequence=1&isAllowed=y
15) various studies described their response rate as “acceptable” at 10%, 54%, and 65%
16) The average AAPOR response rate across all communities is 32 percent, whereas the CASRO rate is 50 percent.
17) I found that Interactive Voice Response polls report statistically significant smaller percentages of undecided voters compared to those conducted using live interviewers.
18) This paper conducts a time series analysis of the President’s job approval question asked on 624 national surveys conducted with live operators, over the internet and using robo-polls. It concludes that while live operator surveys and internet surveys produce quite similar results, robo-polls produce a significantly higher estimate of the disapproval rate of the President and a significantly lower estimate for ‘no opinion’, attributing the difference in results to non-response bias resulting from low participation rates in robo-polls.
19) (1) Short polling period, no callbacks.
Most robopolls are conducted very quickly, over a one day period. They typically make only one attempt to reach a voter at each number dialed. If no one answers the phone they do not make callbacks to that number but simply replace it with a new telephone listing.
20) Contrast this to a Field, PPIC or Times/USC poll which is typically conducted over a one-week period and which makes up to six to eight different attempts at each usable number to try to bring voters into the sample.
21) But it has not had success everywhere: automated polls performed significantly worse than other methodologies in the 2012 U.S. presidential election.
22) The 105 polls released in Senate and gubernatorial races by Rasmussen Reports and its subsidiary, Pulse Opinion Research, missed the final margin between the candidates by 5.8 points, a considerably higher figure than that achieved by most other pollsters.
23) Today, getting that same number of respondents requires between 7,500 and 9,000 calls to get a reasonably sized sample, a precipitous decline in what’s called the response rate, which is seen as a crisis in the industry.
24) some prominent news organizations (e.g., ABC News, NBC News, and the Associated Press) have refused to run stories based on IVR polls because of methodological concerns (Blumenthal 2009).
25) ABC News policy is not to report robo-poll surveys.
26) Potential problems with non-response and non-coverage are commonly thought to affect the accuracy of polls, and they led former AAPOR president, Peter Miller, to argue that automated polls “rely too much on assumptions to make estimates based on data from an increasingly unrepresentative part of the population. Heroic assumptions will lead to big, unpredictable errors” (Cohen 2012).
28) 이 협회는 한국갤럽, 칸타코리아, 닐슨코리아, 한국리서치 등 대형여론조사 업체 48곳이 회원사로 가입해 있는 국내 최대 여론조사기관 협의체다. 협회는 지난 2014년에도 ‘ARS 행동 규범’을 제정해 ARS 조사를 수행하지 않겠다고 결의했다. 회원사인 코리아리서치 원성훈 부사장은 “ARS가 과학적인 조사방법이 아니라는 점을 재확인하고 결의를 다지는 차원”이라고 말했다. https://news.joins.com/article/23625445
ARS 자동 조사가 면접 조사를 참조하였다는 연구도 있다.
29) 한국 기준의 응답률
31) During the symposium, Scott Keeter, the director of survey research
at the Pew Research Center, pointed to research showing that the average response rates for pollsters between 1996 and 2004 was 30 percent but that in recent years, even with the Pew Research Center’s incredibly rigorous efforts, it had dropped to the low 20s and even high teens, a rate of decline of 1 or 2 percentage points per year. This problem alone warrants significant concern about the current and particularly the future reliability of survey research, even among the most conscientious of practitioners.
Political Polling in the Digital Age
33) 박인호외 2인, 선거여론조사의 객관성ㆍ신뢰성 제고를 위한 조사방법론 개선방안 연구(최종)
34) 미국에서는 이동전화에 로보콜을 하는 것은 불법이다. 그러므로 미국에서의 ARS조사는 집전화에 대한 것이다.
35) 김영원 숙명여대 통계학과 교수는 지난 2월 자신의 페이스북을 통해 “한국의 응답률 계산은 접촉실패 사례 수를 분모에 넣지 않아 응답률이 (실제보다) 높다”며 “미국의 응답률 10%와 우리나라 응답률 10%는 다르다”고 쓴소리를 한 바 있다. 신 교수도 서울경제신문과의 통화에서 “최소한 응답률 10%를 넘지 않는 여론조사 결과는 발표를 하지 못하게 해야 한다”고 목소리를 높였다.
36) 일년전 쯤 국내 모 ARS 조사담당자가 언론을 통해 조사결과를 보고하면서 ARS조사는 특정계층의 응답이 과다대표되고 있다고 인정한 적이 있다. 당시 반정부 여론이 높던 시점에서 보수층일수록 여론조사에 적극적으로 참여하던 경향이 반영된 결과로 볼 수 있다.
37) 전화면접 조사에서는 ‘대체로 잘못하고 있다’가 평균 20.8%, ‘매우 잘못하고 있다’가 27.8%였다. 그러나 ARS 조사에서는 ‘대체로 잘못하고 있다’가 평균 10.5%인 반면, ‘매우 잘못하고 있다’는 46.2%였다.
극단적인 결과가 나오는 것이다.
38) It is our belief that voters who participate in automated voice recorded surveys tend to be more intense on both sides of the political spectrum.
39) 한국갤럽에서는 '자동응답 방식 조사는 중도층 의견이 덜 반영되고 허위 응답 비율이 높아지는 등 과정의 통제나 검증이 어려운 방식이라서 미국 언론에서는 대선 여론조사 내보낼 때 면접조사 방식만 보도한다'라며 리얼미터를 간접 디스한 바 있다.
40) 한국갤럽은 ARS 조사는 정치 고관여층 여론을 과대 표집한다고 하고 있다.
스마트폰 ARS 조사의 경우 질문을 받은 뒤 전화기를 얼굴에서 떼고 화면에 번호를 눌러야 하는 불편함이 있어 정치 저관여층이 답변을 포기할 가능성이 크다는 것이다.
상대적으로 대중의 보편적인 의견이나 정서를 보여줄 수 있는 '전화 면접조사(CATI)'와 정치 이슈에 관심이 높은 고관여층의 참여 비율이 높은 '자동응답조사(ARS)' 방식의 차이로 설명할 수 있습니다.
면접조사와 ARS가 차이를 보이는 건 ARS가 정치 이슈에 관심이 많은 정치 고관여층의 참여도가 상대적으로 높기 때문입니다. 면접조사 방식에선 무작위 번호 추출을 통해 전화를 걸면 응답자가 도중에 전화를 끊지 않도록 조사원이 설득하면서 답변을 이끌어내야 합니다. 정치에 관심이 없는 사람이라고 해도 조사원의 설득에 따라 설문조사에 참여할 가능성이 큰 셈이죠.
41) If the robopolls turn out to be wrong, it will probably because of some combination of response bias (for instance, the robopolls are only getting the most enthusiastic respondents — who are almost certainly Republican this year — and are essentially overcompensating for the ‘enthusiasm gap’), and the failure of most automated polling firms to include cellphones in their samples.
43) Is Regional Voting Still Effective? Empirical Analyses of Local Elections in Korea 현대 정치 연구 2015. 봄호
44) Based on these results, there appears to be little possibility of change in regional voting behavior in Korea. Therefore, it is expected that elections in Korea will continue to be unable to escape the effects of regional domination.
45) Voters’ region of origin and age are the two most important factors in vote choice, irrespective of the socioeconomic and demographic characteristics of their regions.
46) The election results also showed an ideological division along geographical lines in the country’s southern regions -- a return of regionalism that appeared to have faded out in the parliamentary elections four years ago.
http://m.koreaherald.com/amp/view.php?ud=20200416000918
47) 서울·인천·경기지역출신이 전체의 31.3%인 9백26만8천명을 차지하고 있다. 여기서 서울 경기, 인천은 외지에서 온 사람의 비율이 거의 다이므로 이들은 집토끼 분석에서 제외한다.
48) 이제 결론은 분명해졌다. 상대 진영의 어젠다를 선점하고 외연을 확대하는 것도 중요하지만 'PK의 인정을 못 받는 PK 출신 대통령'은 절대 출현할 수 없다는 점이다. PK 주자들은 무슨 수단을 동원하든 절대 집토끼를 놓쳐서는 안 된다.
50) 리얼미터가 지난달 30∼31일 뉴시스 의뢰로 서울 유권자 806명을 대상으로 서울시장 보궐선거 후보 지지도를 조사한 결과 국민의힘 오세훈 후보가 57.5%, 더불어민주당 박영선 후보가 36.0%로 나타났다.
이 조사에서 '지지 후보가 없다'라거나 '잘 모르겠다'는 응답은 2.7%에 불과했다.
부동층의 경우 야권 단일화 이전인 3월 22∼23일 TBS·YTN 의뢰 리얼미터 조사(서울 1천42명 조사, 오차범위 ±3.0%p)에서 14.9%였지만 단일화 이후 급격히 수축하는 모양새다.
52) 동아일보 여론조사에 따르면 서울시장 보선에 투표할 후보에 대해 ‘결정하지 못했다’(22.9%)거나 ‘잘 모르겠다’(3.3%)고 답한 부동층은 26.2%로 집계됐다. 특히 20대의 경우 ‘결정하지 못했다’(47.0%)와 ‘잘 모르겠다’(5.0%)를 합한 비율(52.0%)이 절반을 넘었고, 30대 부동층도 36.9%로 집계됐다. 반면 40대 이상은 10명 중 8명 이상이 투표할 후보를 결정했다고 답했다. 유독 2030세대에서 부동층 비율이 높게 나타나고 있는 것.
동아일보가 리서치앤리서치에 의뢰해 서울 821명을 대상으로 3월 28, 29일 실시.
54) 여론 조사 방법에 따라 여론 조사의 결론이 바뀌는 경우는 많이 있다.
지난달 24~25일 입소스가 전화면접 방식으로 조사한 결과, 민주당은 44.4%, 통합당은 21.3%였다. 하지만 사흘 뒤 27~28일 알앤써치의 ARS 방식 조사에선 민주당(34.6%)과 통합당(32.1%)이 오차범위(±3.0%포인트) 내 접전이었다. 조사 ‘기관’이 아닌 '방식'에서 오는 차이가 큰 것이다.
55) 4.15.자 한국 갤럽 조사만 윤석열 총장 25%, 이재명 지사 24%를 보이고 있다.
56) https://www.yna.co.kr/view/AKR20210514063100001
57) https://www.news1.kr/articles/?4306544
58) 이 자료는 중앙여론조사심의위원회에 공표된 자료를 정리한 것이다.
59) https://www.journalist.or.kr/news/section4.html?p_num=13
코멘트와 답변
코멘트 1. 8가지 문제점 중 사실상 동일한 것으로 보이는 것들이 있다. 예를 들어 부동층이 과소하거나 극단층을 과다 포집하는 것, 응답률이 낮다는 것은 사실상 같은 문제가 아닌가라는 의문이 제기될 수 있다.
답. 사실상 같은 현상의 다른 표현이 맞다.
코멘트 : 보수층이 과다포집되는 문제나 보수층에 편향되는 문제도 사실상 같은 것으로 보이는데, 이와 관련해서는 미국이 보수(혹은 공화당 지지자들)과 우리나라의 보수는 성격이 많이 다르다는 문제도 짚어야 하지 않을까 싶다.
답. 이건 어떤 면에서는 같은 측면도 있다고 생각한다. ARS 조사에서 같은 현상을 내는 것은 같은 점이 있다고 생각한다.
코멘트 : 네 글의 논점인 ARS조사에서 윤석렬의 1위가 허상이라는 것은 잘 드러나지만 읽는 사람들에게는 읽고 난 후 뭔가 ‘그래서?’라는 생각으로 마무리가 덜 되는 느낌을 줄 것 같다. ARS가 의미 없으니 전화면접에 의해 이재명 1위, 윤석렬 2위의 구도가 설득력이 있다는 것이 네 논점인지 아니면 윤석렬이 무너질테니 다른 사람을 내세워야 한다는 것인지가 애매하다. 네 이전 글을 읽은 사람들은 후자라고 생각하겠지만 이번 글만 읽은 사람들은 좀 다를 것으로 보인다.
답: 이 부분에 대하여는 글을 썼다가 지웠다. 나의 의견을 너무 강요하는 것 같아서.... 그냥 글을 보고 생각해 보도록 하였다.
코멘트 : 네말대로 선거직전의 ARS만이 정확도가 높다면, 지금 어떠한 여론조사는 실제를 반영하지 않는다는 얘기네. 그럼 그걸 분석하는 자체도 의미가 축소될수 밖에 없다.
답: ARS는 선거 직전에만 정확도가 높고 그 이전에는 정확도가 형편없다는 말이고 다른 면접 조사와 같은 것이 정확하지 않다는 말은 아니다.
면접 조사의 경우에도 응답률이 낮으면 부정확해 지지만 현재 면접 조사는 응답률이 5%는 넘는 것으로 나온다.
코멘트 : 그러나 네 말대로 지지율의 향방을 조정할수 있는게 현재 여론조사라면, 누군가가 윤석열을 띄우고자 여론조사의 방법 등을 조작해서 실시하고 있다는 얘기가 된다.
이번만을 위하여 조작하였다는 말은 아니다. 이전에도 ARS조사가 행해졌지만 이번에는 특히 응답률이 낮다는 것이다. 일부러 조작하였다는 취지는 아니다. 다만 문제가 있는 ARS조사를 언론기관이 자꾸 보도하는 것은 큰 문제이다.
코멘트 : 그렇다면 차라리 현재 어떤 세력이나 부류가 (언론, 여론조사기관 등 포함) 윤석열을 띄우고자 하는가를 분석하는게 더 설명이 되지 않을까.
담 : 보도는 그럴 수 있다.
코멘트 : 따라서 나는 다르게 생각한다. 여러 기관에 의해 주기적으로 발표되는 지지율이 조작이나 허구라는 사실에 동의하지 않는다. 누가 컨트롤타위가 되어 일관적인 방향을 설정하지 않는한 이런 결과가 지속적으로 나오기 힘들기 때문이다.
답 : ARS 조사는 일관되게 틀린다는 것이 나의 견해이다. 이것이 조작이라면 조작일 수 있다.
코멘트 : 일정부분 현재의 민의의 선택의 방향을 보여주는것이라 믿는다.
답 : 면접 조사는 그렇다. ARS 조사는 영남“출신”과 호남 “출신”으로 이루어지 표본에서 조사가 된 것이다.
코멘트 : 물론 앞으로 여론의 추이가 어떻게 될지는 아무도 모르지만..
답 : 나는 윤석열 전 총장의 지지율이 낮아질 것으로 예측한다.
Comments