简历阅读- - -复制危机背后的缺陷推理

关闭

您已阅读了2个免费的每月一篇文章中的1个。了解更多。

关闭

复制危机背后的缺陷推理

现在是改变不确定性量化的方式。

以下是同一故事的三个版本:1。1996年秋季,曼彻斯特的英国律师萨利克拉克,享受了一个...由Aubrey Clayton出生

HIre是同一个故事的三个版本:

1. 1996年秋季,曼彻斯特的英国律师莎莉克拉克生下了一个显着健康的男婴,当他11周龄时突然死亡。当次年有另一个男婴时,她仍然从创伤事件中恢复过来。悲惨地,他也在出生后八周去世了。这两个孩子死亡的原因并不明显,但警方涉嫌他们并非巧合。克拉克被逮捕并被指控有两项谋杀罪。儿科医生罗伊草甸,术语“Munchausen综合征通过代理综合征”在审判中作证说,这是一个像克拉克那样的富裕家庭的两个孩子都会死于突发的婴儿死亡综合征(SID)或“COT死亡。“他估计了7300万美元的赔率,他多于80:1的长者连续四年赢得了大型国马赛。克拉克被定罪并被判处在监狱里的生活。新闻称为她作为一个儿童凶手。

2.假设一位40多岁的健康女性在她的乳房中发现了一个可疑的肿块,她去做了乳房x光检查。报告回来说那个肿块是恶性的。她想知道诊断错误的几率。她的医生回答说,作为诊断工具,这些扫描非常准确。这样的扫描可以发现几乎100%的真正癌症,而只有大约5%的情况下会将良性肿块误诊为癌症。因此,这是假阳性的概率非常低,大约是二十分之一。

3. 2012年,英国哥伦比亚大学的Araa Norenzayan教授声称有证据表明,看着Rodin的雕塑的形象“思想家”可以让人们更少的宗教。In a trial of 57 college students, he randomly assigned participants to either view “The Thinker” or a control image, Myron’s Discobolus, a sculpture of a Greek athlete throwing a discus, and then rate their belief in God on a scale from 1 to 100. Subjects who had been exposed to “The Thinker” reported a significantly lower mean God-belief score of 41.42 vs. the control group’s 61.55. The probability of observing a difference at least this large by chance alone was about 3 percent. So he and his coauthor concluded “The Thinker” had prompted their participants to think analytically and that “a novel visual prime that triggers analytic thinking also encouraged disbelief in God.”

不想:一项研究声称,凝视着罗丹的着名作品,“思想家”改善了对上帝的分析和气馁的信仰,是复制危机中的许多展品之一。 照片由Hung Chung Chih / Shutterstock

这三个小插曲都涉及到用概率推理的相同错误。前两个是众所周知的谬论的例子,分别称为检察官谬论和基础比率谬论。第三种是对一项科学研究的典型统计分析,这种分析你可以在今天大多数有声誉的杂志上找到。事实上,Norenzayan的研究结果发表在科学迄今为止在研究文献中被引用约424次。无神论者欢呼这是宗教非理性的科学证据;有宗教信仰的人对这种认为他们信仰的根源是缺乏推理能力的说法感到不快,这是可以理解的。

这三个例子的核心推理失败,说明了为什么从天文学到动物学的许多领域的许多成果都无法被复制,这是科学界目前正在努力解决的一个大问题。


T.让我们看到这些论点的缺陷的数学透镜是贝叶斯的定理.这个定理指出,根据一些观察,我们给一个理论分配的概率(萨利·克拉克有罪,一个病人患了癌症,大学生盯着罗丹看就不那么有神了),与假设该理论是正确的观察的条件概率成比例,和先验概率,我们在进行观察之前给出了理论。当两种理论相互竞争时,其中一种可能会使观测结果更有可能,也就是说,产生更高的条件概率。但根据贝叶斯规则,如果我们从一开始就给它一个很低的概率,我们可能仍然认为这个解释不太可能。

因此,所有三个例子中缺少的成分是各种假设的先验概率。在Sally Clark的案件中,控方的理论是她谋杀了她的孩子,这本身就是一件极为罕见的事件。为了论证起见,假设通过统计历史上的谋杀记录,我们得出像她这样的母亲犯下双重杀婴罪的几率为1亿比1。在另一种假设下,这将平衡观察结果的极端不可能性(两名婴儿死亡),即他们得到了很好的照顾。从数值上来说,Bayes定理会告诉我们比较:

(1/73,000,000) *(99999999/100000000)与(1)* (1/100,000,000)

根据这些前科,除了孩子们的死亡没有其他证据,我们得出结论,克拉克实际上有58%的可能性是无辜的。

允许我们在这些参数中看到缺陷的数学镜头是贝叶斯定理。

对于乳腺癌的例子,医生需要考虑类似症状的类似女性中癌症的总发病率,而不包括乳房X光检查的结果。也许医生会从经验中说,大约99%的相似患者发现一个肿块,它结果是良性的。因此,恶性肿瘤的低前几率将平衡获得错误阳性扫描结果的低机会。在这里,我们将权衡数字:

(0.05)*(0.99)vs.(1)*(0.01)

我们会发现病人有83%的几率没有癌症。

关于雕塑和宗教情绪的研究,我们需要评估在考虑数据之前的可能性,简要遇到艺术品可能具有这样的效果。过去的经验应该让我们非常持怀疑态度,特别是鉴于声称的效果的规模,平均对上帝的平均信仰减少了大约33%。如果艺术可能有这样的影响,我们会发现任何到博物馆的旅行会使我们在信仰和非信仰之间送去。或者如果某种方式“思想家”挥舞着独特的无神论力量,它在1904年的巴黎揭幕应该与组织宗教的群众出境相对应。相反,我们经历了自己的宗教信仰,以及我们社会的宗教信仰,通过时间相对稳定。Maybe we’re not so dogmatic as to rule out “The Thinker” hypothesis altogether, but a prior probability of 1 in 1,000, somewhere between the chance of being dealt a full house and four-of-a-kind in a poker hand, could be around the right order of magnitude.

他声称,诺伦萨扬的数据不太可能是偶然出现的,但要想动摇我们的怀疑态度,还需要更大的可能性。根据这项研究,在假设观测到的震级影响的情况下,结果的概率大约是在纯粹偶然假设下的12倍。将这一主张与我们的先验概率分配结合到贝叶斯定理中,将产生:

(12 p) * (1/ 1000) vs (p) * (999/ 1000)

根据这个实验,我们最终得出“思想者”-无神论效应的概率是0.012,也就是83分之一,这是一个比较有趣的现象,但几乎肯定不值得发表。


T.但问题是,如今统计分析的主流模式不是贝叶斯。自20世纪20年代以来,判断科学理论的标准方法一直是显著性检验,这一方法受到了统计学家罗纳德·费舍尔(Ronald Fisher)的欢迎。费舍尔方法及其后期衍生产品现在已成为科学数据分析的通用语言。特别是,Google Scholar目前返回了285万条引文,其中包括“统计显著性”一词。Fisher声称,显著性测试是科学推理的通用工具,“在所有实验中都是通用的”,这一说法似乎得到了其在所有学科中广泛使用的证明。

费舍尔对贝叶斯推理深恶痛绝,认为它是一个巨大的历史错误,“数学界唯一深陷其中的错误。”因此,他的方法没有任何先验概率的位置,他认为先验概率不是进行推理所必需的。显著性检验仅使用假设假设假设为真的数据概率,即仅使用贝叶斯规则的条件概率部分。如果观察到的数据(或更极端的数据)在假设下不太可能,通常是无效的“无效假设”,则该数据被视为“重要”数据,并被视为拒绝该假设的充分证据。

无神论者欢呼这是宗教非理性的科学证据;宗教人士被冒犯了。

Defending the logic of this approach, Fisher wrote, “A man who ‘rejects’ a hypothesis provisionally, as a matter of habitual practice, when the significance is at the 1 percent level or higher”—that is, when data this extreme could only be expected 1 percent of the time—“will certainly be mistaken in not more than 1 percent of such decisions. For when the hypothesis is correct he will be mistaken in just 1 percent of these cases, and when it is incorrect he will never be mistaken in rejection.”

然而,这一论点掩盖了一个关键点。为了理解什么是错误的,认为以下完全正确,Fisher总结乳腺癌的事实(没有假阴性,5%假阳性率):

假设我们扫描100万相似的女性,我们告诉所有测试他们患有癌症的人。然后,在那些实际患有癌症的人中,我们每一次都会正确。在那些没有它的人之中,我们将是5%的时间不正确。因此,总体而言,我们的程序将不得不低于5%的时间。

听起来有说服力,对吧?但这是事实的另一个摘要,包括基本率为1%:

假设我们扫描100万相似的女性,我们告诉所有测试他们患有癌症的人。然后我们将正确地告诉所有10,000名患有他们拥有的癌症的女性。剩下的990,000名肿块良性的女性中,我们将错误地告诉49,500名患有癌症的女性。因此,我们识别患有癌症的女性,约有83%的诊断性会被错误地诊断出来。

想象一下你或亲人接受了积极的测试结果。您可以找到哪些摘要更相关?通过忽略假设的现有概率,显着性测试的性价比仅仅基于患者在不存在的情况下进行患者的频率,或者仅基于如何不太可能的事实而达到患者的频率,则相当于诊断医疗状况。如果嫌疑人是无辜的,案件是如此。简而言之,重要的测试将告诉我们的假设患者,她可能有癌症,并且会有错误定罪的莎莉克拉克。

自从显著性测试出现以来,就一直受到这些方面的批评。1960年,圣奥拉夫学院(St. Olaf College)的心理学教授威廉·罗兹布姆(William Rozeboom)写道,科学推理的真正逻辑是“逆概率”,也就是贝叶斯定理。1966年,芝加哥大学(University of Chicago)心理学系的大卫·巴坎(David Bakan)将显著性测试的逻辑谬误称为“每个人都知道”,但没有人会大声承认的东西,就像皇帝的新衣故事一样。1994年,统计学家雅各布·科恩(Jacob Cohen)写了一篇名为《地球是圆的》(the Earth Is Round, p < 0.05)的严厉批评文章,认为显著性检验只关注给定假设下数据的概率,而不是给定数据下的假设,这让事情变得落后了。Falk和Greenbaum(1995)将其称为“通过矛盾进行概率证明的错觉”或“获得非概率的错觉”,Gigerenzer (1993)1称为“永久幻觉”。

在Sally Clark的案件中,控方的理论是她谋杀了她的孩子,这本身就是一件极为罕见的事件。

主要是由于费雪的影响,这些观点在历史上没有赢得许多人对贝叶斯主义的皈依。但实际经验现在可能开始做理论做不到的事情。


S.在我们的例子中,那些检测结果呈阳性并被推定为癌症的妇女再次通过活组织检查进行检测。我们将看到大多数初步结果无法重复,这是癌症诊断中的“复制危机”。这正是今天科学界正在发生的事情。

对Norenzayan的发现进行的一项后续研究,采用相同的程序,参与者人数几乎是他的10倍,发现两组人对上帝的信仰没有显著差异。事实上,“思考者”组的上帝信仰平均得分(62.78)略高于对照组(58.82)。但由于最初的研究遵循了所有通常的研究规则,该杂志接受这篇论文是有理由的,这意味着规则是错误的。

诺伦康那样的高调复制失败使一些科学家们称之为以前的所有研究。大规模项目已经开始尝试复制各种学科的成熟结果,以及他们发现的结果并不漂亮。它始于心理学。通过开放科学中心涉及数百名研究人员的合作项目发现只有97个心理学研究中的35个(即36%)成功复制。所有这些都使用过意义的测试。

只有其他一些复制伤亡包括:

  • 1988年由Strack,Martin和Stepper在“面部反馈假说:”当人们被迫微笑时,拿着一支笔在他们的牙齿之间说,它会引发他们的幸福感。

  • 例如,1996年的“社会启动”中的Bargh,Chen和Burrows的结果声称,例如,当人们接触到与老龄化有关的词语时,他们采用了陈规定型老年行为。

  • 哈佛商学院(Harvard Business School)教授艾米·卡迪(Amy Cuddy)在2010年对“强势姿势”(power pose)进行的研究:采取强势姿势几分钟可以通过影响你的荷尔蒙水平和风险承受能力,让你的生活变得更好。

但危机不会就此结束。从经济学到神经科学再到癌症生物学,类似的项目都显示出了同样的问题。一项对临床前癌症研究的分析发现,只有11%的结果是重复的;发表在期刊上的21项社会科学实验科学自然,只有13(62%)存活的复制;在经济学中,研究了18种经常引用的结果,发现11(61%)复制;并且对临床前药理学试验的估计是,只有50%的阳性结果是可重复的,这是鉴于药物行业大小的情况,据估计,美国每年每年280亿美元的实验室成本。

我们贝叶斯人已经看到这一年。2005年,John Ioannidis,现在是斯坦福医学院和统计部的教授写了一篇标题的文章,标题为“为什么大多数公布的研究发现是假的”。2他在一个简单的贝叶斯论证中表明,如果一种理论,比如基因和疾病之间的关联,具有较低的先验概率,那么即使在通过了统计学显著性测试后,它仍然有较低的概率是正确的。他认为,这将是医学上的规范,研究人员可以通过筛选许多可能的关联,仅仅是偶然地找到一个符合重要阈值的关联。14年后,我们在几乎所有的科学领域都看到了同样的现象。

现在,达成共识终于开始出现:科学有问题,导致成立的结果失败。一个提出的和长期逾期补救措施一直在改革统计数据。2015年,该期刊基本和应用社会心理学采取了严厉措施,禁止在所有提交的文件中使用显著性测试,今年3月,在自然共同签署了超过800名作者,旨在完全消除使用统计显着性。过去已经尝试过类似的建议,但每次抵抗被击败而且重要性测试都仍然是标准。也许这次担心担心职业生涯的职业生涯的价值,因为Irreproyucible将提供他们所需的额外动力的科学家。

想象一下你或亲人接受了积极的测试结果。您可以找到哪些摘要更相关?

历史上科学家一直拒绝使用贝叶斯推理的主要原因是他们害怕被指责为主观性。贝叶斯规则所要求的先验概率似乎是对科学道德的不恰当的违背。这些前科从何而来?我们怎么能允许个人判断污染我们的科学推断,而不是让数据自己说话呢?

但考虑克拉克案中所谓的“客观”概率。通过对观察到的SID的发病率(约1小时)的调整施加一些调整,在7300万人中提出了7300万的图,以解释克拉克家族的知名:他们是稳定工作和莎莉的非吸烟者超过26岁。他怎么知道他已经调整了所有正确的因素?为什么不包括她和她的丈夫都是律师的事实?关于他所包括的克拉克的更具体信息,他必须继续的可用数据越少,直到他的样品大小减少到1.他也假设一个家庭的SIDs死亡对在统计上独立,因此他们的概率应该得到乘以一排硬币翻转的概率连续两次。这次假设当时受到了普遍批评的,因为儿童共享的任何环境或遗传因素都将否定独立性。但是,鉴于如此罕见的事件的数据缺乏,对他们的依赖性没有任何修正是有点主观的?

根据经验和专家判断,绘制这些线路,而不是在为诺伦丹的假设的先前概率基于我们对世界所了解的假设而分配的最高概率。此外,它可能无关紧要我们使用的概率是什么。我们是否认为有机会在1千万,百万,或亿元,贝叶斯分析会告诉我们诺伦敦的结果并不是那么令人印象深刻,我们仍然非常可疑。关键是我们有充分的理由持怀疑态度,我们应该遵循数学家(和贝叶斯)皮埃尔 - 西蒙拉普拉斯的咒语,即非凡的索赔需要非凡的证据。通过忽略前瞻的必要性,意义测试将打开误阳性结果的门。

对于一个守卫,关于统计方法的这种辩论似乎是一种深奥争吵,但含义大得多。我们都有科学真理的股份。从小的个人决定,关于吃什么食物或担心的健康风险,对教育,医疗保健,环境和更多的公共政策,我们都支付了一个价格,当科学研究的身体受到误报的污染时。最终复制研究可以从噪声中对真正的科学对,但只需大量成本。与此同时,我们可能仅基于统计幽灵的矛盾发现不断上升。

为了解决复制危机,我们必须改变量化和管理科学不确定性的方式。在其漫长的历史中,概论在体育、医学、经济和法律等诸多领域被误用来支持错误的推理。这些错误中的大多数最终都得到了纠正。萨莉·克拉克(Sally Clark)在监狱服刑三年后被无罪释放,原因是检查她第二个孩子的病理学家向控方和辩方隐瞒了关键证据。但她的呼吁也暴露了梅多统计论点的缺陷。另外两名女性,安吉拉·坎宁斯(Angela Cannings)和唐娜·安东尼(Donna Anthony),根据梅多的证词在类似案件中被判有罪,被释放。第三名女性,因谋杀自己的三个婴儿而受审的特鲁普蒂·帕特尔(Trupti Patel),被无罪释放。但克拉克因谋杀孩子而被错误关押的创伤仍在继续折磨着她。获释几年后,她死于酒精中毒。

现在,医学院的学生经常被教授基本发病率的诊断重要性。Bayes定理有助于他们正确地将检测结果与上下文联系起来,避免不必要地警告那些罕见疾病检测呈阳性的患者。如果不考虑最后一个因素,即贝叶斯先验概率,将是犯下与Sally Clark案中相同物种的谬误。

复制危机暴露了这一事实,这已经是几十年来统计数据的秘密,同样的谬论是现代科学实践的核心。


Aubrey Clayton是一个生活在波士顿的数学家。他教导了概率的逻辑和哲学哈佛推广学校


参考文献

1.吉仁泽,盖德。"统计推理中的超我,自我和本我"行为科学数据分析手册:方法论问题(1993):311-339。

2.埃尼迪斯,约翰。“为什么大多数发表的研究结果都是假的?”《公共科学图书馆·医学》杂志上2,没有。8 (2005): e124。

加入讨论