T他说,民主党候选人已经出局了,民意测验者有权投票!伯尼·桑德斯领先两个长度,卡马拉·哈里斯和伊丽莎白·沃伦紧随其后,但科里·布克和贝托·奥洛克的速度很快!政治赛马季节即将来临,我敢打赌我知道你在想什么:“停下!”
每次选举我们都抱怨赛马报道,每次选举我们都一成不变。这种报道的问题并不是说它不重要。谁在领导一场特定的比赛,以及领先的程度对那些试图决定自愿为哪位候选人提供时间或金钱,甚至是是否值得的人来说都非常重要值得了解一个没有获胜机会的边缘候选人的政策立场。问题是媒体有充分的证据表明,他们鼓励媒体让每一场比赛看起来都比实际情况更接近,埃里卡在报道中说了什么哥伦比亚新闻评论叫做“为竞选加油”。
有些人只是想知道候选人的表现如何,并寻求一种更客观、定量更严谨的替代观点,而不是权威观点,他们近年来转向了内特·西尔弗(Nate Silver)的数据新闻来源五三八。但即使它们也被2016年感到烧毁。在奥巴马胜利的银行被嘲笑,王牌在初级和克林顿的遥远的龙头中,作为一个71%的最爱,使赢家队伍中的一般圈子成为一般。作为一个整体,以数据为中心的政治报道严重打击。
白银发行了部分罪过有关初步预测。但他坚定地为大选预测辩护,认为(1)他的模式给了特朗普比几乎任何其他人都好的机会,(2)有29%机会发生的事情并不意味着不可能发生。也许失败者很幸运。然而,后一种说法揭示了一个关于此类预测性质的不稳定真相,这让许多读者感到惊讶:既然所有预测都是概率性的,这意味着在一场惨败的胜利中它们并不是完全错误的,那么它们在什么意义上是正确的呢?
这个总统赛季,我们有机会做得更好。首先要设定一些新的标准。我们需要一种评估预测的方法,超越简单的对错二分法。最重要的是,我们需要利用概率的数学工具来告诉我们,什么时候不太可能的结果会对预测不利,什么时候不会。我意识到概率的语言对大多数人来说并不是天生的。除了偶尔去赌场,我们很少用概率术语交谈。为了帮助你在即将到来的选举中成为一个眼光敏锐的新闻消费者,以下是四个关键的概率原则,以帮助你保持选举预测的背景。
1.可能会发生一些不可能的事情
奇怪的故事的新闻中的一个常见轨迹是惊人的巧合:一对夫妇有三个孩子在单独的几年里有一个带有同一个生日的孩子,一个男人和他的兄弟都被火车袭击,同时在同一天骑自行车,等等。这些故事通常伴随着统计教授的报价,这使得可能与机会发生的事情发生可能:100万到1,10亿到1,或者颜色比较其他罕见事件的概率,就像赢得Powerball彩票一样然后在回家的路上被闪电击中。
这些巧合比我们想象的要普遍得多,这主要是由于大量的可能的chances each coincidence is given to happen (the large number of three-child families in the world, say) and the number of such events that we would recognize if given the chance (e.g., we would care just as much if the brothers had been sisters, and if they had been hit by cars instead of trains). The mathematicians Persi Diaconis and Frederick Mosteller called this the Law of Truly Large Numbers: With a large enough sample size, any outrageous thing is bound to happen. So, given the sheer number of caucuses, straw polls, primaries, and down-ballot races we are about to witness, we may be certain that some wacky result will occur. This is fine.
你可以轻易地创造出人类历史上从未见过的、永远不会再出现的结果。
然而,有些事情没有说明,这就是为什么一些极不可能发生的事情在本质上是值得注意的。例如,有一种方法可以产生一种几乎肯定是人类历史上从未见过、也从未重复过的结果:洗牌。假设牌被正确洗牌,产生的牌组应该平均每52*51*50*出现一次*2*1洗牌,因为这是52张牌的可能排列数,所有的可能性相同。这个数字大得让人无法理解,大约是1068,或100000000000000000000000000000000000000000000000000000000000000000000。在宇宙的预期寿命中,地球上的每个人都可以每纳秒洗一次牌,而且这个数字一点也不会减少。那么,为什么不写一篇新闻报道,每当一副牌被洗牌,以天文数字上不可能的事件,刚刚发生?为什么不请统计学家来评论说这就像连续赢了8次强力球?
原因是绝大多数可能的洗牌都不包含任何可识别的内容图案这暗示了除了纯粹的偶然性之外的任何其他假设。这些备选方案往往作为不太可能的嫌疑犯潜伏在幕后,直到一些特别不可能的数据显示出来。例如,在假设某一特定硬币是公平的情况下,20次抛硬币的顺序如下:
Hhhhtththtthththtthht和Hhhhhhhhhhhhhhhhhhhhhh
具有完全相同的概率:≈ 百万分之一,但只有后者暗示了另一种假设:硬币有偏,甚至两面都有头,使得观察到的结果是确定的。
这对选举预测的意义是不可能发生的事情(例如,Dwayne“The Rock”Johnson是2020年的民主党人 - 目前约为1%的机会predictit.org.)不一定是有趣的因为它是不可能的,除非它被认为是针对某些潜在的假设的证据,这是对概率估计的一些潜在的假设:特定的硬币是公平的,或者一个主要方不太可能提名一位在没有政治经验的前摔跤手。
将有趣的巧合与无意义的巧合进行分类的数学工具是Bayes定理,它准确地规定了任何给定的观测应该如何使我们从一类备选方案中更新给定假设的概率分配。该定理的基本见解,首先由托马斯·贝叶斯在18世纪50年代,我们根据观察结果给出假设的概率(后验概率)与我们在进行观察之前给出的概率(先验概率)和假设成立时的观察结果的概率(条件概率)成正比。
因此,贝叶斯推理可以帮助我们检测上述模式,但前提是我们考虑到可能的替代方案及其先验概率。例如,如果我们最初只假设一枚硬币是很可能这是公平的,但有一万分之一的概率出现双正面(也许我们听说过这种硬币的存在,但认为它们非常罕见),然后在连续出现20次正面后,贝叶斯规则会让我们比较这两个数量:
9999/10000 * (½)20.1/10000 * 1
我们对双头硬币理论的后验概率赋值是99%。在偶然性假设下数据的不可能性将使这一理论从其本身变得非常不可能接近确定。这就是为什么特别的原因形式不太可能的发生是如此值得注意的是:他们带着巨大的潜在能量,如卷起的弹簧,可以释放出来推出一个不太可能的替代假设,例如除了机会以外的东西或对美国政治的基本假设来发动不太可能的替代假设。是错误的,进入近乎确定的高度。
2.随着事件展开,概率可能会急剧上下
除了召开Fivethirtyight在2016年大选上显然令人兴奋的模型外,还有许多批评者已经锁定在第二点:预测概率波动选举前的事太多了。希尔对克林顿获胜几率的预测可能以71%结束,但在选举前的五个月里,这一预测在55%到85%之间上下波动。根据批评者的说法,这是模型中存在一些根本性不稳定性的证据,或者更糟的是,完全未能以正确的方式捕捉不确定性。考虑到她的民调数字在那段时间相对稳定,这种波动似乎尤为明显;FiveThirtyEight网站显示,她在全国范围内一直是2-6分的热门。改变了什么?
主要改变的是克林顿在佛罗里达州、宾夕法尼亚州、俄亥俄州、密歇根州和威斯康星州等几个关键州的表现,以及这对选举团的影响。尽管她的全国民调数据显示了令人满意的差距,但一些摇摆州的差距总是非常小。
在没有定量规模的情况下,我们可能会回归叙述,以驳回有利于我们自己的偏见的证据。
为了他的模型无法维持更加谨慎的态度和项目,克林顿可能失去的稳定概率,那么,银已经批评。Nassim Nicholas Taleb,数学哲学家和作者《黑天鹅》,叫西尔弗”忽视概率,“ 一种 ”欺诈罪,“及”十足的骗子。“但数学上讲,但没有理由无法波动的预测概率更多的即使在民意调查中有微小的变化。
作为一个思想实验来说明这是如何工作的,假设我们在1000次投币(代表候选人投票数每天的波动)上下注,我们所关心的是最后的净利润(代表选举胜利)。我们可以选择每次下注的金额,但每次下注的金额必须保持不变。由于这个假设,我们很快就会注意到下注的金额并不重要。重要的是正面和反面的顺序。我们每次下注的次数越多,我们的运气就越不稳定,但如果过去和未来波动性是一样的,那么在任何一个给定的中间点,比如说在第500次抛硬币之后,完成得比我们开始的更好的机会只取决于迄今为止抛硬币的结果,这意味着无论我们下注1美元/次抛硬币还是100万美元,其波动性都是相同的。
在游戏开始时,我们获胜的几率是50/50。下面的图表显示了在给定的抛硬币序列中,这种几率是如何随着时间的推移而展开的。左边我们假设下注金额为1美元,右边为100万美元。但除了标题外,图表完全相同。在这两种情况下,概率从20%波动到80%百分之百的可能性并不大。
类似的现象也可以在选举预测中表现出来。预测概率的波动可能完全可以与2016年FiveThirtyEight的波动一样大;粗略地说,所需要的只是假设民意调查的波动性在时间上是恒定的。如果民意调查相当稳定,这意味着预测概率可能比民意调查反弹得更多。当民意调查接近50/50时,这些概率波动的大小将特别大,2016年在几个关键州也是如此。
将概率视为物理系统的一个固定的、可测量的量,如质量或比热,这是一个常见的误解。要记住的重要原则是,概率最终与信息有关,随着新信息的披露,我们的概率可能也应该随之改变。有时这些变化可能是戏剧性的。在克林顿对特朗普的情况下,这意味着尽管(或事实上是因为)民调稳定,但双方的预测获胜机会都会出现大幅波动。当一场比赛像2016年那样在刀口上保持平衡时,任何轻微的摆动都可能使它以某种方式下降。
3.一些概率应该与频率匹配,但这不是全部
那么,我们应该如何评估概率选举预测的质量,特别是2016年的明显灾难?西尔弗的模型不应该给特朗普一个更合理的机会吗?
什么才算合理?建模混乱的现实世界现象与简单的骰子和纸牌游戏不同的是,通常没有办法验证概率分配是“正确的”。这些罕见的事件不像掷出双6那样是可以预测的,相反,它们可能取决于一些永远不会重复的因素,或许是无法预测的。比如,詹姆斯·科米(James Comey)在大选前11天致信国会,称联邦调查局(FBI)在调查克林顿的电子邮件时发现了新证据,这封信对民调造成的冲击,可以说也包括在FiveThirtyEight的模型中;这只是一个偶然的巧合,当它发生的时候,它产生了它所产生的效果。面对当时可获得的信息,有理由认为这是非常不可能的。
现实世界的不可能数学
克雷格·卡普兰(Craig Kaplan)用硬纸和透明胶带组装了一个漂亮的圆形,看起来就像巴克敏斯特·富勒(Buckminster Fuller)的作品或一种新奇的新型足球。它由四个正十二面体组成(12边的所有角度的多边形和…阅读更多
然而,在许多这样的实例中,如果意外持续发生,就可能证明模型是不完整的。西尔弗为他的概率进行了辩护,他说,实际上,他的模型只会像他们自己预测的那样被蒙蔽。西尔弗说,虽然单凭一个人的预测是不可能证实的,如果他认为有x %获胜机会的候选人中有x %最终获胜,那么他的预测是正确的。正如他在Twitter上说,“它并不复杂。”
然而,事情并非如此简单。
首先,尝试使用频率来验证概率总是存在一个固有的问题。如果你认为抛硬币的概率是50/50,那就不断地抛硬币,最终你就会确信硬币是否平衡了。这被称为频率验证,甚至一些更复杂的系统(如天气)的预报也可以用这种方法进行检查。由于天气条件和天气预报每天都在变化,像下雨的几率这样的东西永远无法通过多次重复某一天来真正测试,但由于所有的日子都受制于相同的基本天气系统模型,预测概率和观测频率之间的差异过大可能表明模型假设是错误的。但是很明显一度事件,例如2019年全球经济衰退或核战争的机会,使频率验证接近毫无意义。
这是面临的竞选预测转盘,如白银:每次选举,尤其是一个具有像特朗普这样独特的规范诽谤的人,最好被认为是一次性活动?或者,可以通过比较对观察到的频率的概率来测试可以测试的某些因素(人口统计学,派对,投票数和投票百分比之间的关系)吗?为了分析有意义,事件一切都是同样地在某些方面。但都是选举相似足够的?
即使我们认为将频率验证应用到选举中是合理安全的,概率和观察到的频率之间的一致性也只是预测的一部分。例如,一位气候学家知道,在你所在的地区,平均每年大约有90天下雨(大约25%)。他们会说每一天那天下天的雨气的机会是25%,在多年的过程中,银色的标准做得很好;观察到的频率将与预测概率密切匹配。然而,这些预测对某人试图决定是否在特定日子里携带雨伞几乎没用。
更好的预报更具体地基于当天的情况,而真正的气象学家用一种叫做“布莱尔分数”的东西来衡量他们的表现,这不仅奖励了他们的“可靠性”(频率验证),也奖励了他们的“分辨率”(每次预测的差异有多大),所以预测者不能通过每天重复平均概率来作弊。不拘泥于公式,Brier分数的思想是根据概率预测和完全确定性预测之间的差异惩罚预测,完全确定性预测明确地说,观察到的事件肯定会发生。它将奖励一个寻找所有可用信息并大胆预测概率接近100%的选举预测者,假设他们选中的候选人最终获胜。实际上,布莱尔指数会激励预测者去回答这个问题:“将会发生什么?”Silver并没有公开用Brier分数给自己的模型打分,但考虑到它们的概率通常都在95%以上,而且无论如何都接近于确定性,它们很可能会表现得很好。
4.概率预测是不完美的,但它们比备选方案好
概率作为不确定性的数学语言已有300多年的历史,在从赌博到气象学、经济学和政治学的广泛背景下都显示了它的有用性。如果使用得当,它可以帮助我们从观察中学习,并对未来做出更好的预测。但这些预测总是受制于可能存在缺陷的模型假设。总有改进的余地。正如丹麦的格言所说:“很难做出预测,尤其是对未来的预测。”最近的经验告诉我们,另一种选择是听取付费发言人和专家的意见,他们往往倾向于冲突,倾向于编造关于势头和不安的故事,这更糟糕。
这就是概率数学能给我们提供最大价值的地方。在不确定的不确定尺度下,我们要么退回那些否定证据支持自己偏见的叙述,要么举手说“任何事情都是可能的”。概率给了我们第三个选择:我们可以考虑一个假设。(硬币有两个头;特朗普将当选)起初不太可能,但在积累有利于我们的证据后,我们会改变主意。面对足够的证据,我们甚至可能会更加确定。投币等简单的例子可以作为一个警告,表明结果可能是违反直觉的。但在复杂的世界中,克服我们的直觉往往是必要的,如果做得好,就可以做到像肯塔基德比一样令人振奋。
Aubrey Clayton是一个生活在波士顿的数学家。