l让我来告诉你两个诺贝尔奖的故事——好吧,差不多吧。我要介绍的第一个奖项是1901年颁发给威廉Röntgen的,以表彰他发现了x射线。这一发现的细节本身就很吸引人,但对我们来说,最重要的一点是Röntgen根本不是在寻找x射线。相反,他正在研究各种类型的真空管的行为。一个装有钡的设备意外地发出闪光,这让他怀疑有什么不寻常的事情正在发生。六年后,他来到斯德哥尔摩领取奖牌。
我想告诉你们的第二个诺贝尔奖在两个重要方面不同。首先,它还没有被授予,也可能永远不会。第二,在某种意义上,它涉及相反一个意想不到的发现参与其中的科学家知道他们在寻找什么:当两个质子碰撞在一起时产生的一种极其罕见的粒子。事实上,这种粒子在大约100亿次碰撞中才会发生一次。结果,他们根本没有考虑到像Röntgen这样的意外数据源,而是因为原始数据太大而无法记录,而丢掉了99.995%。我说的是2012年7月4日希格斯玻色子的发现。
希格斯粒子代表了几十年来最重要的物理发现之一:所谓粒子物理标准模型的最后一部分,该模型描述了基本粒子及其相互作用。这也是大科学的胜利。位于瑞士日内瓦附近的欧洲核子研究组织欧洲核子研究中心(CERN)大型强子对撞机(LHC)的希格斯实验产生了数十PB的数据,展示了粒子物理学史上前所未有的计算能力。这是一个积极的证据,证明由大数据驱动的科学可以在重要方面扩展我们的观测范围。但是,通过要求科学家在开始实验时大致了解他们在寻找什么,它是否也改变了我们对意外发现的看法,这种发现不仅导致了X射线,还导致了正电子、超导体和分数量子霍尔效应?答案很微妙。
观察希格斯玻色子需要收集大量的数据,原因很简单:首先,它是由质子相互碰撞产生的,但绝大多数碰撞(大约100亿次中只有一次例外)都不能产生希格斯玻色子。第二,一旦产生了希格斯玻色子,它的衰变产物可能会被湮没在由碰撞产生的类似信号的喷雾中,而且可能不会被发现。最后,粒子物理学界在宣布发现之前,要求有“5 σ”水平的确定性(这意味着,观测到的信号是统计上侥幸的几率为0.005%或更少)。这是一个令人印象深刻的标准——如果我们按照这个标准记录美国总统选举的选票,我们可能永远不会知道选举的结果,或者我们可能会陷入无限期的重新计票过程。
粗略计算表明,即使在LHC周围每秒循环12000次的碰撞质子束密度极高的情况下,一个真实的希格斯玻色子产生率也只会导致每10秒产生一个希格斯玻色子。虽然这听起来可能很多,但我们无法直接观察希格斯粒子。希格斯粒子一产生,就衰减成各种“普通”粒子对。这些可能包括:底部夸克及其反夸克、W玻色子、胶子、τ、Z玻色子、魅力夸克和光子对。这些普通粒子是探测器实际观察到的(尽管其中一些粒子也会衰变为电子、μ子和光子)。问题是,这些衰变产物也由一长串其他相互作用产生,包括直接产生夸克喷流、W玻色子和Z玻色子。这些类型的“背景信号”的强度是希格斯粒子信号强度的十倍以上。
这使得希格斯玻色子就像众所周知的“黄色大海捞针”,只不过有点扭曲而已。想象一下,我们要找的不是一根针,而是从一块特定的区域(让我们称之为“希格斯场”)上割下来的绿草,这块区域修剪得非常整齐,每一片叶片的长度都完全相同——比如说,2.5英寸。草垛中还散布着鲜花、杂草和从不同的田地中割下来的绿草,其中一些没有被注意到(让我们称之为“背景田地”),因此有各种可能的长度。你怎么能证明这个干草堆里有来自希格斯场的绿草——从而证明希格斯场存在呢?
我们物理学家会做的是快速筛选干草堆,扔掉杂草和黄色的干草,留下绿色的草叶,我们会按大小排列。这将允许我们观察超过2.5英寸的刀片,并得出希格斯场存在的结论。现在,记住Röntgen和他发现x射线的故事,我们可能会试图保留所有的杂草、干草和鲜花。毕竟,谁知道它还可能包含什么其他的物理学,以及它可能会带来什么意外发现呢?
要理解为什么我们不能保存所有这些数据,请考虑是什么产生了这些数据。ATLAS探测器是迄今为止建造的最大的科学仪器之一:一个圆柱体,有15层楼高,直径有8层楼高,里面充满了液体氩气,并且有非常大的磁场,ATLAS每50纳秒产生1亿像素的图像。如果我们要保存所有这些数据,我们需要每秒记录大约40tb的数据。从这个角度来看,这就好比在实验的持续时间(10年或更长的时间)内,连续地将四倍于全球互联网总容量的数据记录到磁盘上。
相反,我们烧干草。事实上,几乎所有希格斯实验的数据都被认为是无趣的。这是否意味着我们不能意外发现?不一定。我们努力保存任何看起来有趣的东西。为了智能地做到这一点,所有大粒子物理实验都使用一个“触发器”系统,该系统可以快速评估任何给定的图片是否值得保留。这相当于快速浏览刚刚拍摄的数码照片,看看结果如何。触发系统由一系列嵌套的、更加复杂、速度也相应较慢的算法组成,这些算法可以逐渐剔除不感兴趣的图片。
使用复杂的探测器模拟,我们测试了这些算法的效率,以确保它们不会丢弃有趣的图片。这并不总是容易的。例如,考虑下面两张图片。
左边的图片是质子-质子碰撞产生的两个夸克,这很常见,也不是特别有趣。夸克变成了粒子的“喷流”,用两个黄色的塔来表示。右边的图片显示了一个Z玻色子衰变为一个电子和一个正电子(电子的反粒子),这更罕见,也更有趣。这可能是一种意想不到的物理学现象,因为它表明Z玻色子的质量相当于90个质子(实际上与希格斯玻色子的质量差别不大)。但粗略地看一下,这两幅画看起来非常相似:两个黄色的塔。
一个好的算法将能够选择右边的图片作为有趣的,并保留它,同时丢弃其他的。它可能会观察到,左边图片中的塔是分散的,而右边图片中的塔只有铅笔那么薄。或者说左边的图中有一个喷流,右边的图中有一个电子。根据每组数据中衰变轨迹的能量和方向,可以计算出衰变前原始粒子的质量,从而发现这些细微的差异。
我们能够用巨大的计算能力完成这样的分析:仅过滤一项就有大约10亿兆次浮点运算。因为发现了希格斯玻色子,它工作得非常出色。经过筛选,我们建立了一个由大约10万个处理器组成的庞大的计算机网络,分布在全球的计算中心。对于每次碰撞,我们从观测到的衰变粒子的质量(以及其他数量)中计算出母粒子的质量。在大多数情况下,我们这样做是错误的,因为衰变粒子实际上不是来自于单一的母体。这意味着我们计算的质量基本上是随机的,产生了我们测量的背景分布。然而,偶尔观察到的衰变粒子确实来自单一的母粒子,比如希格斯玻色子衰变为两个光子。通过积累足够的数据,我们在希格斯玻色子的独特质量上看到了一个“碰撞”,它位于所有我们已经计算出质量的“错误”对的平滑下降的背景分布之上。这个突起的质量是125亿电子伏特/c2,如下图所示。
因此,过滤掉不感兴趣的数据是很困难的,但它是有效的。但还有一个更困难的问题,那就是决定“无趣”到底意味着什么。当然,巨大的能量沉积是有趣的(图2中的黄塔),因为它们表明稀有粒子的存在。丢失的能量也很有趣(请记住,能量守恒是物理学的一个关键原理),因为它表明存在着逃出探测器而不留下痕迹的粒子。这些可能是幽灵般的中微子,或者更令人兴奋的超对称粒子,它们被假定存在,但尚未被观测到。衰变产物(电子、光子、μ子等)的证据被认为是有趣的,因为它可能是新的、尚未发现的稀有粒子的结果。
但所有这些“有趣的”事件都是在特定的理解框架内定义的。如果我们让Röntgen写下他1901年实验中所有可能有趣的结果,那么X射线照射下钡实验成分的闪烁就不会出现在清单上。类似地,从大型强子对撞机上丢弃的数百万PB的数据也可能包含我们忽略的全新物理。如果一个新的、出乎意料的粒子衰变太奇怪,或者看起来很普通,那么它可能会被触发器抛出。
在太怪异的领域可能违反能量守恒的证据,在质子碰撞,然后部分或全部能源vanishes-certainly不是我所期望的,但是也很难会观察与当前触发系统。那是因为没有什么特征可以寻找。如果我们仔细监测我们预期的碰撞次数,结果发现没有我们预期的那么多,我们可能会发现那些缺失的碰撞,但这是非常困难的,甚至可能是不可能的测量。同样难以捕捉到的是某些在衰变前寿命相对较长的新型粒子。这意味着它会在我们的探测器中间衰变为可见粒子。我们的触发系统被设计成聚焦于指向探测器中心的粒子,而不是在中间意外弹出的粒子。
在过于普通的方面,让我们回到干草堆的类比。假设超过2.5英寸的黄色干草意味着什么(我会告诉你什么,但我不知道!)记住,为了避免几乎不可能完成的筛选整个干草堆的任务,我们烧掉了所有黄色的干草。因此,除非有人事先告诉我们,2.5英寸的黄色稻草很重要,否则我们不可能把它扔掉,否则,这种意外发现是不可能的。
在很多方面,一方面想要记录下所有的东西,另一方面又需要实际,这两者之间的紧张关系并不新鲜。这是任何实验的一个特征,从一个单独的科学家在她的实验室笔记本上写数据,到数千个使用超级计算机的国际团队。但是这种紧张被大数据实验放大到前所未有的程度,比如在大型强子对撞机中进行的实验。在这些实验中,“不带理论地观察”——被随机地引入到全新的科学中——是比较困难的。如果你的理论是非常错误的,那么你的实验是空的,你被迫回到绘图板。但如果你的理论只是轻微的错误呢?我们往灯柱下看,因为灯柱有光,我们睁大眼睛寻找新东西——但阴影里可能藏着什么呢?
迈克尔·图茨自1983年以来一直是哥伦比亚大学的物理学教授。他是一名实验基础粒子物理学家,研究基本力和粒子。目前,他是欧洲核子研究中心(CERN)大型强子对撞机(Large Hadron Collider) ATLAS实验美国分队的操作项目经理,负责监督对大约500名物理学家的支持。