事实如此浪漫在数字

大数据如何创造虚假信心

由Jesse Dunietz于2016年4月23日发布

我如果我说美国人最近变得更以自我为中心了，你可能会把我当成一个脾气不好的人，容易在美好的日子里抱怨。但如果我说我可以通过分析1500亿字的文本来支持这个说法呢?几十年前，如此大规模的证据只是一个白日梦。然而今天，1500亿数据点实际上是passé。对“大数据”分析的狂热推动已经席卷了生物学、语言学、金融以及两者之间的所有领域。

虽然没有人能完全同意如何定义它，一般的想法是找到巨大的数据集，它们可以揭示传统调查所看不到的模式。这些数据通常是由数以百万计的真实用户行为生成的，比如推文或信用卡购买，它们可以使用数千台电脑来收集、存储和分析。不过，对许多公司和研究人员来说，这项投资是值得的，因为这些模式可以解开从遗传疾病到明日股价等任何信息。

但有一个问题：人们很容易认为，有了如此惊人的数据量，依赖大数据的研究不会错。但数据的庞大可能会给结果注入一种虚假的确定感。其中很多可能都是假的，为什么我们应该对盲目信任大数据的研究暂停一下呢。

在语言和文化方面，2011年谷歌发布了大数据 Ngrams工具。在杂志上大肆宣扬科学，谷歌ngram允许用户在谷歌的扫描图书数据库中搜索短语——大约占所有已出版图书的4% !看看这些短语的频率是如何随时间变化的。这篇论文的作者预言了“文化组学”的出现，这是一种基于大量数据的文化研究，从那时起，谷歌ngram基本上是无穷无尽的源的娱乐但对语言学家、心理学家和社会学家来说也是座金矿。他们搜罗了数以百万计的书籍来证明，例如，是的，美国人正在变得更多的个人主义；我们“忘记我们的过去一年比一年快”;道德理想是消失来自我们的文化意识。

**我们正在失去希望:**“希望”一词的ngram图表，xkcd作者兰德尔·门罗发现的许多有趣的情节之一。如果ngram真的反映了我们的文化，我们可能会走向一个黑暗的地方。

问题始于Ngrams语料库的构建方式。在一个研究三位佛蒙特大学的研究人员指出，总的来说，谷歌书籍包括每本书的一个副本。这完全符合其最初的目的:将这些书籍的内容暴露给谷歌强大的搜索技术。然而，从社会学研究的角度来看，它使语料库发生了危险的扭曲。

例如，有些书最终会低于其真正的文化分量：指环王没有比，巴伐利亚州的巫术迫害. 相反，一些作家变得比生活更伟大。例如，从英国小说的数据中，你可能会得出结论，在20世纪的20年里，每个角色和他的兄弟都被命名为兰尼。事实上，这些数据反映了作家厄普顿·辛克莱（Upton Sinclair）的多产（但不一定广受欢迎）：他创作了11部关于兰尼·巴德（Lanny Budd）的小说。

更糟糕的是，ngram并不是一个一致的、平衡的出版版本。UVM的同一项研究表明，除了其他成分的变化外，从20世纪60年代开始，科学论文的数量显著增加。所有这些都让人很难相信谷歌ngram准确地反映了单词文化流行度随时间的变化。

**想象一下：**大写F的“Figure”主要用于标题，在整个20世纪使用频率急剧上升，这表明随着时间的推移，语料库中包含了更多的技术文献。这可能说明了社会的一些情况，但并不能说明大多数社会是如何使用词汇的。

即使你越过了数据源，解释仍然是一个棘手的问题。当然，像“性格”和“尊严”这样的词语可能会在几十年后衰落。但这是否意味着人们对道德的关注减少了？没那么快，注意事项伊利诺伊大学厄巴纳-香槟分校的英语教授特德·安德伍德说。他认为，上个世纪初的道德概念可能与我们的截然不同，“尊严”可能是由于非道德原因而流行起来的。因此，我们通过回溯当前关联得出的任何结论都是可疑的。

当然，这些对统计学家和语言学家来说都不是新闻。数据和解释是他们的生计。不过，谷歌Ngrams的不同之处在于，它试图让海量的数据蒙蔽我们，让我们认识到自己可能被误导的方式。

这种诱惑并不只存在于ngram研究中;类似的错误破坏了所有类型的大数据项目。例如，以谷歌流感趋势(GFT)为例。GFT于2008年发布，它将在数百万谷歌搜索查询中统计“发烧”和“咳嗽”等词，并使用它们来“即时预测”有多少人患了流感。根据这些估计，公共卫生官员可以在疾病控制中心(Centers for Disease Control)从医生报告中计算出真实数字之前两周采取行动。

当大数据不被视为灵丹妙药时，它可以带来变革。

最初，据称GFT的准确率为97%。但是作为一个研究在东北大学的文献中，这种准确性是一种侥幸。首先，GFT完全错过了2009年春夏的“猪流感”大流行。(事实证明，GFT主要预测的是冬天。)然后，系统开始高估流感病例。事实上，这一数字比2013年的峰值高出140%。最终，谷歌干脆取消了这个项目。

那么问题出在哪里呢?和ngram一样，各位没有仔细考虑数据的来源和解释。数据源Google Searchs不是一个静态的野兽。当谷歌开始自动完成查询时，用户开始只接受建议的关键词，从而扭曲了GFT看到的搜索结果。在解释方面，GFT的工程师最初让GFT按面值获取数据；几乎所有的搜索词都被视为潜在的流感指标。GFT拥有数以百万计的搜索词，几乎肯定会将“雪”等季节性词语过度解读为流感的证据。

但当大数据不被视为灵丹妙药时，它可能会带来变革。哥伦比亚大学的研究人员杰弗里·萨满(Jeffrey Shaman)等几个小组已经做到了这一点通过使用前者来弥补后者的偏差，结果优于CDC和GFT的流感预测。“萨满的团队测试了他们的模型与季节中已经发生的实际流感活动，”根据疾病预防控制中心的说法. 通过考虑最近的过去，萨满和他的团队对他们的数学模型进行了微调，以更好地预测未来。所有需要的是团队能够批判性地评估他们的假设对他们的数据。

为了不让自己听起来像个讨厌谷歌的人，我要赶紧补充一句，谷歌绝不是唯一的罪魁祸首。我的妻子是一名经济学家，曾经为一家公司工作，这家公司搜集了整个互联网上的招聘信息，并将它们汇总成统计数据，供州劳务机构使用。该公司的经理们吹嘘说，他们分析了美国80%的工作岗位，但数据的数量再次蒙蔽了他们，让他们看不到可能被误读的方式。例如，一家当地的沃尔玛可能会发布一个销售助理职位，而实际上它希望招聘10个，或者在招聘完成后几周内都没有发布。

因此，与其屈服于“大数据傲慢”，我们其余的人最好保持我们的怀疑态度——即使有人指出了数十亿字。

Jesse Dunietz博士。卡内基梅隆大学计算机科学专业的学生，曾为主板和《科学美国人》客座博客等等。在推特上关注他@jdunietz.

当前问题

看到完整的问题

选择通讯和提交必威开户官网联系细节…
新的章节周四 Nautilus每周四都会发布一篇关于其每月主题的专题报道的新篇章。注册此列表以了解最新和最棒的最新信息。编辑精选星期天阅读我们过去一周一直在思考的关于鹦鹉螺的故事和博客。

最近的条目

当前问题

相关问题