复读-数字文学

你已经阅读了每月两篇免费文章中的一篇。学习更多的知识。

数字文学

当你使用电脑时,批判性阅读会变得更好。

“文学是数据的反面,”小说家斯蒂芬·马奇在2012年10月的《洛杉矶时报书评》中写道

“我“迭代是数据的反面,”小说家斯蒂芬·马奇在《科学》杂志上写道洛杉矶时报书评2012年10月,他引用了他最喜欢的莎士比亚诗句麦克白:“光线变浓了,乌鸦在新来的树林里长翅膀。”马奇接着问道,“乌鸦和乌鸦有什么区别?什么都没有。光线变浓是什么意思?谁知道呢?”尽管这些词很管用,但根据马奇的说法,它们作为纯数据毫无意义。

有许多人不同意他的观点。随着数字技术的兴起,人类直觉和诠释在人文知识中的至高无上地位正受到前所未有的挑战,科学方法正悄悄进入英语系。一些人文主义者正急切地采用这些新工具,而另一些人则认为它们存在问题。数字人文学科的迅速崛起引发了激烈的争论,争论的焦点是它对这个专业意味着什么,以及试图量化人类直觉这样难以捉摸的东西是否只是被误导了。

今天,世界上大量的文学作品已经数字化,学者们只需点击鼠标就可以阅读。对关键词搜索进行简单的修饰就能对这些数据产生迷人的见解。以谷歌的N-gram服务器为例,它在2011年首次亮相,引起了轰动。该服务器允许您跟踪谷歌Books数据库中单词或单词组合(“双字组”、“三元组”或“n字组”)的频率。例如,你可以看到单词的意思是如何变化的。在1965年之前,“黑色”只是一种颜色,出现的频率和“红色”差不多,比“白色”少得多。但在1965年至1970年间,“黑色”一词突然有了新的含义,它的使用频率跨越了“红色”和“白色”之间的界限。N-gram频率图很诱人;看着它,你会觉得历史好像被一个x-y图捕捉到了。

乌鸦和白嘴鸦的区别是什么?什么都没有。

内布拉斯加州大学(University of Nebraska)英语教授马修•乔克斯(Matthew Jockers)表示,对于数字人文学科来说,n字就像“入门毒品”。真正有效的东西是主题建模。通过关键词搜索,你可以在一本书中找到“债券”的相关信息,但它无法告诉你,该债券是一种金融工具、一种化学结构,还是一种约束囚犯的手段。所有这些含义都混杂在人类语言的模糊性中,这对我们来说很自然,但对计算机来说却是一个无法破解的代码。

Sapolsky_TH-F1

开发《

伟大的艺术总是超越时代,科幻小说也不例外。它已经预见到移动电话、潜艇、地球同步卫星和触摸屏电子产品。科幻人物也开始了时间旅行,早在爱因斯坦告诉我们一种叫做……阅读更多

主题建模超越了词语本身,而着眼于它们所使用的上下文。它可以推断出每本书讨论的主题,揭示出人类学者无法发现的文学作品的模式。主题建模算法使我们能够像通过望远镜一样看待文学作品,扫描大量的文本并寻找意义的排列——“遥远的阅读”,这是斯坦福大学的弗兰科·莫雷蒂创造的术语。这种方法已经被广泛应用于各种主题,比如爱尔兰人对19世纪美国奴隶制的看法,女性和黑人在早期美国社会中的角色,甚至是在社交信息服务上发帖的青少年的态度。

主题建模克服了N-gram的一个基本限制:您不知道单词出现的上下文。哪些文件使用“黑色”表示颜色,哪些文件使用“黑色”表示种族?N-grams不能告诉你。因此,除非你们已经知道,否则很难解释一个单词或短语频率的突然变化可能意味着什么。主题建模算法为文档中的每个单词推断出该单词所指的主题。在没有人为干预的情况下,它会自动发出“黑色”是指种族还是指颜色的声音。至少在理论上,它超越了文字的含义。

MacKenzie_SIDEBAR-image

当今数字人文学科中占主导地位的主题建模算法是潜在Dirichlet分配。该算法基于人类如何撰写文档的简化概率模型。根据模型,您可以从随机选择文档主题开始。例如,50%与基因组学有关,30%与计算有关,20%与糖尿病有关。你文章中的主题及其百分比是从一种叫做“迪里克莱”分布的概率分布中提取出来的,这种分布被认为是封装了你那个时代的时代精神——你的同龄人群体中所有作家都倾向于写基因组学而不是炼金术。

要编写每个单词,你需要滚动一个加权骰子来决定该单词将涉及哪个主题。假设骰子出现在“基因组学”上。现在你打开这个主题,它只不过是一袋附有概率的单词。例如,在“基因组学”主题中,“DNA”一词可能以1/50的概率出现,单词“sequence”的概率为1/100。你掷一个不同的骰子,一个骰子的加权方式使得它有1/50的几率落在“DNA”上,1/100的几率落在“sequence”上依此类推。骰子告诉你该写哪个字,然后你继续写下一个字。

你的文档的读者,无论是人类还是计算机,都不知道你的文章有50%是关于基因组学的,30%是关于计算的——这些百分比是隐藏的,或“潜在的”。为了弄清楚文档的主题,读者必须反向工作:尝试计算哪些主题和百分比最有可能产生出现在文档中的单词。我们可以通过展开上面描述的写作模式来教计算机这样做。

给定一个大的文档档案,计算机首先在第一个文档中查找倾向于同时出现的单词,然后将这些单词分组为“单词包”,然后对下一个文档执行相同的操作。它可能会看到一些分组再次出现,这将增加它对这些确实是主题的信心。其他分组可能不会再次出现,计算机对它们的信心也会减弱。最终,它将大致了解主题以及每个文档的内容。经过数千次迭代后,该方法将收敛到一组良好的概率分布,并将能够生成一组与存档中的文档在统计上相似的文档。

当应用于文本主体时,主题建模产生属于一起的词的“袋子”,如“黑奴dat种植园dis监工mulatto…”或“物种全球气候二氧化碳水....”。数字人文研究人员会解释说,这两个袋子分别指的是美国奴隶制和气候变化。每个袋子对应一个主题。

对于数字人文主义者来说,这种方法打开了一个充满可能性的世界。“我们经常写爱尔兰人如何同情19世纪美国奴隶的困境,”乔克斯说。“以前,我们会坐在我的办公室里,翻阅着书,然后说,‘这是一本讲述奴隶制的爱尔兰书,不是很有趣吗?’”他说,现在他可以告诉你是哪一个250书是关于奴隶制的。主题建模还允许您挖掘新的主题和主题。Jockers发现了19世纪“下午茶”习惯的稳步兴起,他们将主题模型应用到19世纪的英国小说中,这个练习出现了“下午午餐上午客厅课程今天访客喝茶”这样的主题组。有时候,电脑甚至比它的人类用户表现得更好。当麻省理工学院的研究生Karthik Dinakar使用话题模型研究青少年在社交媒体上发布的帖子时,计算机正确地将“她强迫我放弃好东西”的帖子解读为关于性行为的——这是在印度长大的Dinakar错过的一点美国俚语。

主题建模算法使我们能够像通过望远镜一样查看文献,扫描大量文本并搜索意义的星座。

主题建模算法也可以在主题之间找到意想不到的联系。例如,加州大学欧文分校的历史学家莎伦·布洛克发现,“女人”和“黑人”这两个词主要出现在档案馆的一个主题中宾夕法尼亚州公报布洛克的发现非常具体地证明了黑人和女性的边缘化:对于这家以商业为主的报纸(想想华尔街日报》减去两个世纪),黑人和妇女只作为财产存在。

通过在人文学科和计算机科学之间搭建桥梁,数字人文学科正在改变着每一门学科。对于在是/否、真/假二元世界中接受训练的计算机科学家来说,这座桥通向一个模糊的新世界,有许多灰色的阴影——一个迷失方向但令人兴奋的地方。相比之下,人文主义者“几百年前就知道没有正确答案”,他们对此也很满意,普林斯顿大学的计算机科学家大卫·布莱(David Blei)说,他是潜在狄利克雷分配(latent Dirichlet allocation)的联合发明人,该算法是目前数字人文学科中使用的主要主题建模算法。“相反,他们在寻找视角。”

在桥的另一边,主题建模将定量论证引入人文学科,这是一个相当重要的领域,许多人选择研究,因为它是定量性的当Block topic为50万份历史期刊的摘要建模以追踪女性历史的演变时,她的论文的读者无法通过图表。“一位评论家说,这篇文章显然是一位不了解我们这个领域的计算机科学家写的,”她说。接受她的论文的杂志试图将她限制在最多三张表格或图表内。她说:“我问他们,你读过吗?没有他们就没有文章了。”。

对于人文学科来说,另一个相对较新的东西是科学方法中长期以来不可或缺的元素:可证伪性。乔克斯相信,人道主义者用统计方法检验他们的假设——有时是伪造——的日子即将到来。他自己已经这样做了。在他自己的书中宏观分析Jockers使用主题模型认为,关注政治或宗教主题的作家比其他作家更有可能使用笔名。Jockers和康奈尔大学(Cornell University)的计算机科学家David Mimno对这一假设进行了统计测试,多次运行主题模型,看看这种差异是否可以归因于偶然变化。尽管乔克的许多其他假设都站得住脚,但这一个没有——结果是两篇无关紧要的文章扭曲了结果。“确凿的证据很快就消失了,”乔克斯写道。

对于计算机科学家来说,在一个是/否、对/错的二元世界中训练,这座桥通向一个模糊的新世界,有许多灰色阴影。

也许令人惊讶的是,march——数字人文学科的怀疑者——挑出了主题建模的这一方面来赞美。他说:“在人文学科中有实际可证伪的问题……这太了不起了。”你几乎可以听到“但是”的声音。他说:“这种精神很棒,但他们还没有准备好处理这些棘手的问题。”“关于济慈的《夜莺颂》,你可以问什么可证伪的问题?”’”

这也许是对数字人文学科批评中最常听到的重复:牛肉在哪里?伟大的见解在哪里?

支持者认为数字人文学科产生了新的见解,但它产生的意义星座不是人文主义者所习惯的那种见解。例如,伊利诺斯大学的英语教授泰德·安德伍德对4275本1700年至1900年间的书籍进行了主题建模,他注意到文学的变化比我们所认为的要缓慢得多。

例如,在这一时期的头一百年里,“旧的”盎格鲁-撒克逊词语的使用比例下降了。但在随后的一个世纪里,文学三叉戟。在诗歌中,“旧”字的使用明显增加。在小说中,“旧”字也变得更加流行,但没有那么引人注目。然而,在非小说类作品中,“旧”字的出现频率与上个世纪保持不变。这些数据反映了一系列复杂的历史过程——小说和诗歌的出现自觉地打破了古典主题,转而处理普通人的经历。这种变化常常被归因于浪漫主义学派,但数据显示,这种变化持续了很长一段时间,并在浪漫主义者被认为已经过时之后很长一段时间。安德伍德说:“我们的词汇是所有的学校、运动、时期、文化转折。”。“如果你有一个持续一个世纪或更长时间的趋势,那真的很难应对。”

数字人文技术可以帮助我们看到渐进的变化,无论是在文学还是其他领域。人类很难理解在人类生活的时间尺度上发生的变化,或者更长的时间。如果安德伍德的假设是正确的,我们可以需要电脑填补了我们的盲点。主题建模并没有颠覆或取代我们以前的观察方式;它能增强。“它不是人类阅读的替代品,而是我们能力的假体延伸,”加州大学洛杉矶分校信息研究教授约翰娜·德鲁克(Johanna Drucker)说。

当然,使用义肢需要练习。传统的人文学科教导我们要批判性地阅读,要看到隐藏在表面之下的含义。现在,一个新的挑战出现了:如何将我们擅长的批判性阅读与计算机擅长的远程阅读相结合。纽约城市大学(City University of New York)研究生中心(Graduate Center of the Graduate Center)数字人文学科教授马修·k·戈尔德(Matthew K. Gold)指出,我们已经开始习惯于通过kindle、ipad和其他设备阅读书籍。“我们愿意让他们帮助我们阅读,帮助我们进行批判性的解读吗?”德鲁克认为我们会。她预测,最终,数字人文“将成为普通文化的一部分”。

那么,计算机能理解莎士比亚的“rooky wood”吗?文学的意义是仅仅存在于文字之中,还是在人类阅读文字的过程中产生的?艾萨克·阿西莫夫的话来自I机器人回想起来:“人们说‘这就像你脸上的鼻子一样简单’。但是,除非有人向你举起镜子,否则你能看到你脸上的鼻子有多大?”


Dana Mackenzie是加州圣克鲁斯的一名自由数学和科学作家。他最近的一本书是零字的宇宙:通过方程式讲述的数学故事,由普林斯顿大学出版社于2012年出版。

2评论-加入讨论