事实如此浪漫

大数据如何创造虚假信心

摄影:Juergen Faelchle / Shutterstock

如果我说美国人最近变得更以自我为中心了,你可能会把我当成一个脾气不好的人,容易在美好的日子里抱怨。但如果我说我可以通过分析1500亿字的文本来支持这个说法呢?几十年前,如此大规模的证据只是一个白日梦。然而今天,1500亿数据点实际上是passé。对“大数据”分析的狂热推动已经席卷了生物学、语言学、金融以及两者之间的所有领域。

虽然没有人能完全同意如何定义它,一般的想法是找到巨大的数据集,它们可以揭示传统调查所看不到的模式。这些数据通常是由数以百万计的真实用户行为生成的,比如推文或信用卡购买,它们可以使用数千台电脑来收集、存储和分析。不过,对许多公司和研究人员来说,这项投资是值得的,因为这些模式可以解开从遗传疾病到明日股价等任何信息。

但有一个问题:人们很容易认为,有了如此惊人的数据量,依赖大数据的研究不会错。但数据的庞大可能会给结果注入一种虚假的确定感。其中很多可能都是假的,为什么我们应该对盲目信任大数据的研究暂停一下呢。

在语言和文化方面,2011年谷歌发布了大数据Ngrams工具。在杂志上大肆宣扬科学,谷歌ngram允许用户在谷歌的扫描图书数据库中搜索短语——大约占所有已出版图书的4% !看看这些短语的频率是如何随时间变化的。这篇论文的作者预言了“文化组学”的出现,这是一种基于大量数据的文化研究,从那时起,谷歌ngram基本上是无穷无尽的娱乐但对语言学家、心理学家和社会学家来说也是座金矿。他们搜罗了数以百万计的书籍来证明,例如,是的,美国人正在变得更多的个人主义;我们“忘记我们的过去一年比一年快”;道德理想是消失来自我们的文化意识。

我们正在失去希望:“希望”一词的ngram图表,xkcd作者兰德尔·门罗发现的许多有趣的情节之一。如果ngram真的反映了我们的文化,我们可能会走向一个黑暗的地方。

问题始于Ngrams语料库的构建方式。在一个研究三位佛蒙特大学的研究人员指出,总的来说,谷歌书籍包括每本书的一个副本。这完全符合其最初的目的:将这些书籍的内容暴露给谷歌强大的搜索技术。然而,从社会学研究的角度来看,它使语料库发生了危险的扭曲。

例如,有些书最终会低于其真正的文化分量:指环王没有比,巴伐利亚州的巫术迫害. 相反,一些作家变得比生活更伟大。例如,从英国小说的数据中,你可能会得出结论,在20世纪的20年里,每个角色和他的兄弟都被命名为兰尼。事实上,这些数据反映了作家厄普顿·辛克莱(Upton Sinclair)的多产(但不一定广受欢迎):他创作了11部关于兰尼·巴德(Lanny Budd)的小说。

谁叫兰尼·?:“兰尼”和英语小说中更常见的名字的情节。

更糟糕的是,ngram并不是一个一致的、平衡的出版版本。UVM的同一项研究表明,除了其他成分的变化外,从20世纪60年代开始,科学论文的数量显著增加。所有这些都让人很难相信谷歌ngram准确地反映了单词文化流行度随时间的变化。

想象一下:大写F的“Figure”主要用于标题,在整个20世纪使用频率急剧上升,这表明随着时间的推移,语料库中包含了更多的技术文献。这可能说明了社会的一些情况,但并不能说明大多数社会是如何使用词汇的。

即使你越过了数据源,解释仍然是一个棘手的问题。当然,像“性格”和“尊严”这样的词语可能会在几十年后衰落。但这是否意味着人们对道德的关注减少了?没那么快,注意事项伊利诺伊大学厄巴纳-香槟分校的英语教授特德·安德伍德说。他认为,上个世纪初的道德概念可能与我们的截然不同,“尊严”可能是由于非道德原因而流行起来的。因此,我们通过回溯当前关联得出的任何结论都是可疑的。

当然,这些对统计学家和语言学家来说都不是新闻。数据和解释是他们的生计。不过,谷歌Ngrams的不同之处在于,它试图让海量的数据蒙蔽我们,让我们认识到自己可能被误导的方式。

这种诱惑并不只存在于ngram研究中;类似的错误破坏了所有类型的大数据项目。例如,以谷歌流感趋势(GFT)为例。GFT于2008年发布,它将在数百万谷歌搜索查询中统计“发烧”和“咳嗽”等词,并使用它们来“即时预测”有多少人患了流感。根据这些估计,公共卫生官员可以在疾病控制中心(Centers for Disease Control)从医生报告中计算出真实数字之前两周采取行动。

当大数据不被视为灵丹妙药时,它可以带来变革。

最初,据称GFT的准确率为97%。但是作为一个研究在东北大学的文献中,这种准确性是一种侥幸。首先,GFT完全错过了2009年春夏的“猪流感”大流行。(事实证明,GFT主要预测的是冬天。)然后,系统开始高估流感病例。事实上,这一数字比2013年的峰值高出140%。最终,谷歌干脆取消了这个项目。

那么问题出在哪里呢?和ngram一样,各位没有仔细考虑数据的来源和解释。数据源Google Searchs不是一个静态的野兽。当谷歌开始自动完成查询时,用户开始只接受建议的关键词,从而扭曲了GFT看到的搜索结果。在解释方面,GFT的工程师最初让GFT按面值获取数据;几乎所有的搜索词都被视为潜在的流感指标。GFT拥有数以百万计的搜索词,几乎肯定会将“雪”等季节性词语过度解读为流感的证据。

但当大数据不被视为灵丹妙药时,它可能会带来变革。哥伦比亚大学的研究人员杰弗里·萨满(Jeffrey Shaman)等几个小组已经做到了这一点通过使用前者来弥补后者的偏差,结果优于CDC和GFT的流感预测。“萨满的团队测试了他们的模型与季节中已经发生的实际流感活动,”根据疾病预防控制中心的说法. 通过考虑最近的过去,萨满和他的团队对他们的数学模型进行了微调,以更好地预测未来。所有需要的是团队能够批判性地评估他们的假设对他们的数据。

为了不让自己听起来像个讨厌谷歌的人,我要赶紧补充一句,谷歌绝不是唯一的罪魁祸首。我的妻子是一名经济学家,曾经为一家公司工作,这家公司搜集了整个互联网上的招聘信息,并将它们汇总成统计数据,供州劳务机构使用。该公司的经理们吹嘘说,他们分析了美国80%的工作岗位,但数据的数量再次蒙蔽了他们,让他们看不到可能被误读的方式。例如,一家当地的沃尔玛可能会发布一个销售助理职位,而实际上它希望招聘10个,或者在招聘完成后几周内都没有发布。

因此,与其屈服于“大数据傲慢”,我们其余的人最好保持我们的怀疑态度——即使有人指出了数十亿字。


Jesse Dunietz博士。卡内基梅隆大学计算机科学专业的学生,曾为主板《科学美国人》客座博客等等。在推特上关注他@jdunietz.


12条评论-加入讨论