明天(美國時間11月3日)就是民調沒美國總統選舉,一年的想像續年大戲到了大結局。和四年前的中不準情況類似,拜登(Joe Biden)在民調上領先,川普根據民調的否還翻盤預測,更有可能勝出選舉。前的奇蹟
- 2020美國大選看關鍵:即時開票,民調沒誰將入主白宮?
但四年前,想像續年傳媒普遍樂觀相信希拉蕊(Hillary Clinton)勝出,中不準最後跌破眼鏡。川普當時最有名的否還翻盤一副圖是《紐約時報》在開票當晚的實時預測圖:希拉蕊從80%的贏面,一直下降到5%。前的奇蹟有了四年前的民調沒教訓,傳媒在預測方面都謹慎了很多。想像續年那麼,中不準這次川普(Donald Trump)是否還能繼續四年前的翻盤「奇蹟」?

應該說明,《紐約時報》這張圖看上去視覺衝擊力非常大,然而實際上卻沒有那麼「奇蹟」。在一開始點票時,希拉蕊勝出機會有80%左右,川普也有20%。
在概率統計而言,20%是一個不算小的幾率。比如,拋硬幣連拋兩次都是正面的機會就是25%,比20%略高;扔骰子要得到一個「六點」的機會有13%,比20%的機會還小。這樣對比一下就知道,川普能勝出固然是小概率,但和「奇蹟」還相距甚遠。
2016年的選舉結果令很多人指責「民調不準」,甚至是「主流媒體的假民調」。但在認為「民調不準」時,往往容易忽視了在2016年選舉的最後階段,川普在民調上有一個急起直追的過程。人們往往記住了急起直追之前,希拉蕊的優勢是如何大,但忘記了這個最後階段的急起直追大大增加了川普的勝算。
在分析網站538在2016年整個過程的勝出機會預測(下圖),在選舉最後階段川普的勝率一直在漲(除了最後一天有所下降)。在網站RCP上給出的民調,進入11月份之後,雙方的差距已經縮小到小於5個百分點,最後一星期的平均民調希拉蕊只高3.2%。

最後在普選票中,希拉蕊贏了2.1%,和最後一周的平均民調的差距只有1.1%(3.2-2.1=1.1)。這個差距完全在預測的誤差範圍之內。根本不能說民調不準。
美國是選舉人團制度,關鍵州的民調比全國民調更重要(這裡不展開討論)。川普的「急起直追」不僅反映在全國民調上,在關鍵州的「急起直追」勢頭更迅猛,不但雙方差距迅速縮小,在一些關鍵州,川普甚至後來居上。
川普在2016年選舉前最後兩星期能「急起直追」有兩個因素。
第一,民調中相當一部分原先「未確定」的人,實際上大部分是川普的支持者,越靠近投票,就越從「未確定」的陣營跑到「川普」陣營,筆者稱為「川粉歸位」現象。
第二,在選前10天,爆發了柯米(James Comey)的「二次電郵服務器門」,媒體廣泛報導,大大打擊希拉蕊的選情。在選前三天才澄清「沒有新發現」。儘管民調有回升(這就是最後一天538預測希拉蕊機會又上升之故),但競選節奏和氣勢都被打斷,回天乏力。
而在最後時刻川普「急起直追」之前,希拉蕊的民調領先,造成兩個嚴重的後果。一個是民主黨的選民太放心,認為自己的一票沒有這麼關鍵,所以沒有出來投票。另一個是希拉蕊自己也錯信民調,沒有到關鍵的威斯康辛和密西根州拉票,反而「心太大」希望反轉紅州,把精力放在後來也沒能贏的幾個南方州上。
反觀川普一直宣傳自己能贏那些看似贏不了的州,不斷在這些州拉票,充分動員了這些州的共和黨選民。兩個陣營對民調的不同態度,也是希拉蕊輸掉大選的重要原因。
在以上各種綜合因素下,川普的「後來居上」和「跑贏民調」就不奇怪了。下表列出全國和各關鍵州在選前最後時刻的平均值,最後結果,和川普「跑贏民調」的多少(即最後得票比率 – 平均值的差距)。其中,帶「*」號的明尼蘇達民調數據非常少,不足以說明問題,但也列在這裡;內華達和亞利桑那用紅色標記,因為那是川普唯二「跑輸民調」的關鍵州。

以上可以看到,在2016年的搖擺州中(明尼蘇達數據太少,不足以說明問題),在選前最後一周,希拉蕊只在威斯康辛和密西根明顯領先。在佛羅里達和賓夕法尼亞,希拉蕊的「領先」都在誤差範圍內,實際是平手。佛羅里達和賓夕法尼亞最後被川普「反轉」不能說是「民調錯誤」。其他五個搖擺州(俄亥俄、愛荷華、北卡、喬治亞、內華達、亞利桑那)都是川普領先。
因此,實際民調「不準」只有威斯康辛和密西根(尤其是前者),川普在威斯康辛「跑贏民調」多達7.2%,在密西根「跑贏民調」3.7%。最後都以極少差距贏得這兩州。根據以上分析,這兩州「民調不準」,很大可能是民主黨選民沒有充分被發動的緣故。
民調基建於統計學之上,本身有紮實的數學依據,民調又是社會科學和商業活動的主要工具,沿用已久行之有效。因此,如果民調出問題,那麼不是民調這種方法學出現問題,而是某些細節出現問題。
經過2016年「民調不準」的問題,這幾年民調界也進行了反思。一個普遍而重要的改進是,加強採樣加權的應用。簡單說來,川普的目標選民中的一大塊,是低學歷白人男性,他們可能不願意接受民調,於是在民調中的代表性就會降低。這樣就可以通過計算這類人口的比例,按比例調整民調結果。
另一種導致民調不準的可能是,在民調中不說真話(所謂的「害羞的川普支持者」,Shy Trump Supporter)的比例。筆者認為這個比例被誇大了,在美國很少有人專門「騙人」,裝成對手的支持者,他們最多會說自己「未決定」、「不知道」等。根據前面討論,這些人在最後關頭都會「川粉歸位」。也就是說能反映在最後階段的民調上。