R还记得一切都是“2.0”的时候吗?米歇尔·奥巴马是杰奎琳·肯尼迪·奥纳西斯的2.0版?Facebook被认为是Web 2.0的一个例子?我们都明白它的意思,它在空中或“网络空间”——另一个流行词——中徘徊了五年,直到它被“3.0”和“网络”从日常词汇的使用中取代。
语言和人一样,都有15分钟的成名时间。但有些词值得我们全神贯注,因为它们不受时尚风潮的影响。这些词是语言的组成部分,在早期人类祖先和今天之间提供了联系。寻找那些众所周知的“极度保守”的单词是许多语言学家的使命。
在语言的起源,斯坦福大学语言学家梅里特·鲁伦提出,在3万多年前的最后一次冰河时代融化之前,即1.5万年前,有一种人类使用的语言将人类分散到世界各地。
这种原始语言与今天语言的语法和句法几乎没有共同之处。这听起来不像今天说的话。鲁伦试图通过识别世界上大约6000种语言中的相关词汇,并展示它们是如何作为所有语言的支柱来重建它。
鲁伦在该领域的大多数同事彻底否定了他的理论。这种方法没有遵循传统语言学的规则。他们还反对有一个地理上统一的人类祖先群体的建议。辩论变得激烈起来。一位不愿透露姓名的学者说,在一次会议上有人“拳打脚踢”。
但鲁伦有他的支持者,而这场争论在15年的时间里一直处于僵局。直到一个学者不太可能从另一个领域进入。
鲁伦在该领域的大多数同事都断然否定了他的理论。
作为一个撞毁了一个与世隔绝的学术领域并彻底重新定义它的人,马克·佩格尔(Mark Pagel)显得相当谦逊。佩格尔是英格兰南部雷丁大学的进化生物学家,通过基因测序研究人类进化和古生物学。
正如佩奇在最近的一次采访中坚称的那样,他相当意外地介入了原始语言的争论;他只是求助于语言学,以更好地理解基因是如何进入和退出基因库的,并好奇单词是否遵循同样的传播和替换模式。
乍一看,基因和语言之间似乎没有明显的联系。DNA,也就是基因复制因子,在语言中代代相传,而新词以看似不可预测的频率不断地进入语言。你们上次的谈话有多少是关于你的智能手机,“烤一些金发女郎”,或者一些流行明星“电臀舞”的高超技巧?我们的日常口语交流可能是我们进化史的一个窗口,这似乎不是直觉。
然而,这正是佩奇想要展示的。他推测,一个单词的寿命可以像基因标记一样被量化。如果黑色素含量高1;对于生活在炎热气候中的人群来说,黑色素的基因是必不可少的。同样,佩格尔推断,如果一个词是不可或缺的,比如“手”,它将在不同的语言中持续存在,而其原始词根几乎没有变化。
“语言是会说话的基因,能得到他们想要的东西,”他在2011年的一次TED演讲中说。
所以佩吉决定让文字自己说话。
他首先对四种现代语言——俄语、西班牙语、英语和希腊语——的当代文学语料库进行了统计分析,这些语言代表了印欧语系的四个分支,印欧语系包含87种语言。内容包括口语、历史书籍、文学、新闻媒体和音乐录音。(值得注意的是,Pagel所依赖的是传统语言学家使用的资料库。不过,他的方法很新颖。)
我们的日常口语交流可能是我们进化史的一个窗口,这似乎不是直觉。
佩奇没有像鲁伦所做的那样,逐字比较单词,并在该语言的句法上下文中分析它们的根结构,而是使用了一种被称为计算系统发生的统计算法来处理大量数据。
他使用了一个包含200个词汇意义的数据集,称为Swadesh基本词汇表,其中包含了最基本的意义,如数字、代词和重要的动词和名词。在所有200种意义中,经常使用的词的同源词数量最少,被替换的速度比不经常使用的词慢,因此,佩格尔推测,变化速度最慢。自大约8700年前原始印欧语起源以来,“手”一词不会有太大变化,尽管它可能在到波斯语或斯拉夫语的过程中丢失了一个元音或交换了一个辅音。
相比之下,经常被替换的单词有多个同义词。就拿“帽子”这个词来形容帽子吧。在19世纪,“bonnet”是一个流行的同义词。“hat”和“bonnet”之间没有词源上的联系,因此我们说这两个词被替代了。同样地,Pagel发现像“脏”这样的概念在同一时期也有9个替代者。在很长一段时间里,人们可能会说“脏”,然后认为“脏”最能表达他们对周围环境的不满。
佩奇在发表于《科学》杂志的一篇论文中将一个单词的稳定性与它的寿命联系起来本性2007年。去年四月,他在《华尔街日报》上发表了一篇文章美国国家科学院院刊(美国国家科学院院刊),显示了一个词的使用频率和它的年龄之间的直接关系。佩格尔和他的团队提出了一个初步的定律,通过计算,现代语言中每1000个单词中使用一次以上的单词,“其祖先深度的可能性要高出7到10倍”。
有些单词的寿命很长,它们可以追溯到近九千年前印欧语的起源。佩吉开始怀疑其中一些单词是否早于印欧语言本身的起源。
自大约8700年前原始印欧语起源以来,“手”一词不会有太大变化,尽管它可能在到波斯语或斯拉夫语的过程中丢失了一个元音或交换了一个辅音。
鲁伦试图通过剥离词根,并通过声音和词源比较世界上各语言群的合成词来证明一种原始语言的存在,而佩奇则专注于识别词义,并开始追溯它们。
佩格尔解释说:“我们的逻辑是,我们实际上预测了这些词是什么,然后找到它们的同源词。”
研究小组提取了200个单词的意思,并在七种不同的欧亚原始语言中构建了它们的形式表,这些语言共跨越了近4000种现代语言。
他的发现表明生物学和语言惊人的融合。
鲁伦的书出版13年后语言的起源,Pagel用计算算法的工具表明,有23个单词可以追溯到15000年前,在最后一个冰河时代解冻时,第一次大规模的人类迁徙横跨欧亚大陆。
这些“超保守”的词语让我们深入了解了人类祖先必须口头交流的最初概念:
代词:你(熟悉和正式的);我;我们;这一切;那
问题:什么;谁
动词:给;听到;拉;吐痰;流动
形容词/副词:不是;旧的;黑色的
名词:男人/男性;母亲;手;火;树皮;灰烬;蠕虫2
这是一个巧合3.这个数字与人类细胞中携带遗传物质的染色体对相同。但这个类比很能说明问题——佩格尔解释说,找到一种纯粹的语言就像找到一条独特的DNA线,通过生物学将我们与我们的祖先联系起来。
这就是文字传播对人类进化如此重要的原因。佩格尔说:“从这个意义上说,单词可以模仿基因,这一事实绝对令人惊讶。”
Simon Kirby是爱丁堡大学语言进化教授,他进一步说“看语言可以看作是一个进化系统,”我们可以看到,就像基因一样,言语自私地行动。当一个词特别有用时,它就会插入对话中。它的效用使得它不太可能发生变异。
如果说目的的效用是词汇继承的组织原则,佩格尔说他和他的团队对23个极端保守的词汇中的一些感到惊讶。诸如“灰烬”、“树皮”和“蠕虫”之类的词都在这组词中。
佩格尔说:“对我们这些虫子来说,这真的很有趣和愉快。”“我们开始与人类学家交谈,他们提醒我们,你必须意识到的一件事是,西方人不受蠕虫的折磨,但几乎每个人都有。”
进化专家还指出,这可能是围坐在篝火旁关心自己健康问题的狩猎采集者的热门话题。其他出现的原始词汇“ash”和“bark”也同样如此,人类学家认为它们不仅用于生火,还被用作药物。
佩吉指出,这项工作是一个最佳假设,而不是一个证明。用进化生物学的经验方法来加深我们对语言迁移、词源学和交流的理解,为研究和重建古代语言及其文化带来了巨大的希望。
找到一个纯语言菌株就像找到一个独特的DNA线,通过生物学把我们和我们的祖先联系在一起。
“我想每个人都同意这些语言应该有亲缘关系,”约瑟夫·萨尔蒙斯说,他是威斯康星大学日耳曼语言教授,也是一名原始语言怀疑论者。“世界各地的语言之间存在着我们尚未掌握的基因关系。这些语言不太可能独立产生。”
计算和数量科学进入语言学研究,为人类进化起源的研究打开了新的大门。
还有一些学术机构正在兴起,通过语言来研究进化。爱丁堡大学的语言进化和计算中心开始将语言视为理解生物变化的新门户。
研究语言是如何从神经学的角度产生的,可以让研究人员把注意力集中在人类和灵长类动物的最后一个共同祖先上,据估计生活在大约600万年前。它们共同的声音和行为可以揭示物种之间的联系。
爱丁堡大学的Keelin Murray解释说:“我们用比较的方法试图得出我们与黑猩猩共同祖先的结论。”
这将导致下一步有趣的进化研究,如了解我们与灵长类动物的共同祖先。
她说:“它甚至会帮助我们得出结论,我们是何时成为独一无二的人类的。”
这句名言表明,就像DNA是生物的基石一样,有一些概念对任何语言交流系统都是必不可少的,永远不会消失。即使在Web 4.0上也不行。