简历阅读 -如何构建数学搜索引擎

关闭

你已经阅读了每月两篇免费文章中的一篇。学习更多的知识。

关闭

如何构建数学搜索引擎

Neil Sloane的整数序列百科全书的令人惊讶的力量。

在星期六的平均夏季,数学家尼尔斯隆醒来令危机。“总有危机,”他说 - 虽然......由Siobhan Roberts

O在平均每个夏天的周六,数学家尼尔·斯隆(Neil Sloane)一觉醒来就发现了一场危机。他说:“危机总是存在的。”一个周六的早餐时,他看到了一封名为“来自外太空的编辑”的收件箱邮件。法国的一名撰稿人未经授权,删除了斯隆的《整数序列在线百科全书》(Online Encyclopedia of Integer Sequences)中的一个条目。与维基百科(Wikipedia)一样,该百科全书也是由志愿撰稿人和编辑提供支持的。

一天的工作:尼尔·斯隆在他的阁楼书房里,指挥着百科全书。他把吉卜林(Kipling)的警句贴在墙上,写道:“他有一个理论,如果一个人整天不在工作旁,而晚上大部分时间都在工作,他就会让自己发烧:所以他就在他的文件中吃饭、睡觉。” 西沃恩·罗伯茨

但每天,斯隆都像打理花园一样打理他的百科全书,除草、修剪和种植,他也喜欢更多的惊喜。例如,就在同一个星期六上午,一个漂亮的新序列出现了。斯隆以其标志性的活力四射解释说,这个样本受一个规则支配,“给你一个数字列表,只有16个数字,最大的是999999亿。”6个9和6个0。这太不可思议了!出乎意料的是,我们最终得到了这个数字。”

的确,那个星期六,在新泽西州高地公园的斯隆的家里,天空一片蔚蓝,云雾缭绕,蝉鸣,气温接近季节的最高点,……82、85、86、90、94、95。斯隆住在一个图书馆里,就像住在一座房子里一样(交叉着一个古怪的蜉蝣橱柜),书架把每个房间都隔开了,从二楼爬楼梯到他的阁楼书房的是指环理论和数论。阁楼是百科全书的指挥中心,百科全书是一个经过策划的数据库和超过25万个序列的搜索引擎,以各种方式与世界相连。

例如,搜索关键字“云”,就会得到序列A136281.

在参考文献中,你会看到这样的评论:“这些是雷暴图。它们连接的组件是单个周期(云)、路径(闪电)或孤立的顶点(雨滴)。”

Sapolsky_TH-F1

交通幽灵狩猎

没有什么经历能比虚幻的交通堵塞更令人困惑了。我们大多数人都有过这样的经历:前面的车辆突然刹车,迫使你刹车,然后后面的司机也刹车。但是,不久之后,你……阅读更多

输入关键字“sky”,你得到序列A074481通过评论:“这些素质形成了类似于天文辐射的模式(天空中的点,流血淋浴似乎起源)。”

输入“蝉”,你就得到了A161664上面的定义是“质数循环上蝉物种出现的安全时期”,并链接到剑桥著名数学家艾伦·贝克的一篇论文,论文中问道:“物理现象是否存在真正的数学解释?”1

然而,大多数用户不是通过搜索关键字而是通过搜索序列来挖掘百科全书。他们可能在自己的研究中发现或发明了一个序列,所以他们在寻找数字匹配。通过这种方式,百科全书提供了一种数学谷歌,每个序列都是特定数学或科学性质的指纹。2

由此产生的达到和范围的百科全书派出了一个级联指数,包括自然科学,物理科学,地球和空间,逻辑和数学,应用科学和技术,社会科学,业务和金融,以及超越。

正是这种将学科联系起来的能力赋予了百科全书强大的力量。

有些序列是由数学公式控制的,但不是所有的序列,有些序列根本没有数学基础。“对我来说,”斯隆说,“整数序列只是一串数字,整数。它们之间不需要特殊的数学关系。比如,美国总统的出生日期。”

其他新序列是斯隆的弟弟送来的他在参观巴塞罗那的毕加索博物馆时,偶然发现了这位艺术家1936年的作品中的一个序列,“Poème: Mathématiquement pure image illusoire du ronflement écoeurant”(翻译为:“从数学上讲,令人作呕的打鼾的纯粹幻觉图像”)。这里有一个顺序是关于天主教教皇的他们的数字顺序和他们统治的顺序;方济各教皇是第266任教皇,作为第一位方济各教皇,他理所当然地不介意他的罗马数字“i”。

“当然,”斯隆说,“必须有某种哲学关系,某种有意义的联系。必须有一些统一的线索,但不一定是数学上的。”一般来说,任何能被计算的东西都是公平的。甚至哲学本身.One such example, according to Charles Greathouse, an editor in chief and trustee of the encyclopedia’s foundation, and an analyst and programmer at Case Western Reserve University, “would be the debate between Hipparchus and Chrysippus about (according to Plutarch) the number of compound propositions, which the former gave as 103,049 or 310,954 and the latter as more than 1 million. It seems that Hipparchus was referring to sequencesA001003A010683.和克莱斯普斯A025225.所有三个都是关于计数物体的序列,就像留在那些作家中的碎片中描述的那样。“

正是这种将学科联系起来的能力赋予了百科全书强大的力量。罗格斯大学(Rutgers University)数学教授多伦·泽尔伯格(Doron Zeilberger)说:“整数序列的百科全书比任何一个数学家都能激发更多的新研究。”这让斯隆成了名人——齐尔伯格曾称他为“世界的”最有影响力的数学家。“斯洛安并没有证明Fermat的最后定理,也没有成为Poincaré的猜想。但随着Zeilberger指出,“证明大开放问题通常是死胡同,比如攀登珠穆朗玛峰。”相比之下,他说,一系列序列只是冰山的尖端。

开始计数:百科全书中的序列A250001定义了在飞机上排列任意数量的圆圈的方法数。有一种方法可以绘制一个圆圈,三种方式绘制两个圆圈,14种方式绘制三个圆圈,173种方式绘制四个圆圈(最近从前一计数的168校正),并且初步计数预测有16,968种方式画五个圈子。 jon wild.


N今年10月份的EIL Sloane佩戴了大型复古矩形眼镜 - 高中的完美视力恶化,他在开始收集序列时,他开始戴着眼镜作为研究生。

1967年,他在康奈尔大学(Cornell University)完成了博士学位论文,研究了人工智能领域一个有关神经网络(后来被称为“感知器”)的问题。他试图确定当单个神经元被激活时,神经网络中有多少神经元被触发,以及这种活动是会永远持续下去还是会消失。为了给神经元建模,他用一个幼稚的简单例子,他制作了一棵“根树”,这是一幅数学图,其中相互连接的节点代表神经元,根节点代表活动的结束。通过这样的研究,他得到了一个有7个术语的序列:0,1,8,78,944,13,800,237,432。例如,对于第四项,他考虑了一个由四个神经元组成的神经网络。他计算了所有四个节点到根的平均距离,得到了数字78。在一个由5个神经元组成的网络中,他得到了944个神经元;有6个神经元,13,800个;有7个神经元,237432个。

这个序列看起来很有希望,尽管斯隆无法找到一个模式或公式来给出下一个和所有的项,以及序列的增长率。他在图书馆查找这个序列,想看看它是否发表在组合学之类的数学书上,但一无所获。然而,在这个过程中,他发现了其他一些有趣的序列,他把它们藏起来以作进一步的调查。他最终使用1937年的工具Pólya的枚举定理计算出了这个公式。

但这个迂回曲折的过程令人沮丧。这项任务本不应该这么困难。他应该能够简单地在一个全面的参考指南中查找所有现存的整数序列。因为没有这样的东西存在,他决定自己建造它。“我开始收集序列,”他说。“我浏览了康奈尔图书馆的所有书籍……还有文章和期刊,以及我能找到的任何其他来源。”

感知器:尼尔·斯隆1964年的笔记本上有第一个序列,灵感来自他的神经网络博士学位,是这个数据库的开始。 西沃恩·罗伯茨

斯隆把他的收藏首先放在穿孔卡片上,然后放在“手册”里整数序列的手册已于1973年发布的,贝尔电话实验室的版权所有,他于1968年开始工作。1995年,他推出了一个称为Superseeker的自动电子邮件查找服务,由此讨论的句子查询和数据库回复了答案。1996年,他在Oeis.org打开了他的公开浏览的存储库。随着实验室的祝福,Sloane把它放在研究部门的网站上。他们很乐意举办,因为序列带来了交通;如果你收集它,他们会来。当斯洛安和他的关注时写出来在Slashdot,它推动了该网站崩溃的交通。斯洛安说,“我的管理 - 纯粹的研究方 - 对此感到非常自豪。”

到了20世纪90年代中期,百科全书也开始证明它的研究价值。有一天,斯隆正在他的办公室里工作,当时那里是AT&T贝尔实验室,他的同事保罗·赖特走进来,提出了手机信号塔的问题:定位基站塔的最佳方法是什么,最大化信号和最小化电力消耗,这样发射塔不会太靠近,造成干扰,并且在特定的土地限制下可以或不能定位发射塔。

Sloane通过他的暑期学生,现在是加拿大/美国Mathcamp的执行主任,以及探照学校咨询委员会和校对学院咨询委员会和校对学校咨询委员会和校对学院的纯数学方面。他们计算了少数塔的最佳安排,然后通过新生百科全书发现了许多人的惊喜,通过了一个与数字理论的不同背景不同的序列的匹配,涉及在甜甜圈形状的圆圈上计算地图。

斯隆说:“我们设法在电话业务方面有所帮助,得出了一些很好的数学公式和一些有趣的序列,并证明了这两个问题是等价的。”3, 4

正是在这种意义上,一个序列是一个指纹——一种通用语言或条形码或规范形式——可以解开一个鲜为人知的数学或科学对象的身份,或物体及其迄今未知的相互联系。

最终,这一切都回到了计数,计数是一个普遍方便的工具。这也使得百科全书变得很方便。

“数学家会爱的一件事是如果有办法搜索数学。这不存在,“宾夕法尼亚大学计算机和信息科学助理教授Nadia Henticer表示,在斯隆的夏季实习,作为她的导师。“如果你发现一些对象,你可能会以之前没有想过的方式考虑这一点,”她说,还注意到你可能使用自己发明的术语,努力寻找。“您无法将数学对象键入Google,您无法将一个对象键入维基百科。但您可以根据数字序列评估您的对象。“如果将序列插入OEIS,则非常接近搜索数学。“OEIS是一种将对象翻译成规范形式的方式,”她说。

最终,这一切都回到了计数,计数是一个普遍方便的工具。这也使得百科全书变得很方便。“假设您正在在一个域名的问题上致力于解决问题,同时解决您遇到一系列整数的问题,”Manish Gupta是一位在Dhirubhai Ambani信息学院运行实验室的培训通信技术。“现在您可以使用百科全书并搜索,如果这是众所周知的话。很多次都会发生这种序列可能在具有另一个问题的完全不相关的区域中出现。由于数字是自然的计算产出,对我来说,这些连接非常自然。“

Gupta和他的同事Nilay Chheda在他们的论文《RNA作为排列》中引用了百科全书,从信息理论的角度详细阐述了RNA的新解释。不涉及技术细节,很容易想象整数序列如何应用于遗传学:基因是DNA序列,而DNA序列又定义了RNA序列。DNA测序的过程决定了AGCT核苷酸碱基(腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶)的模式或顺序。古普塔说,这一领域的研究人员使用“不同的数学对象,如图表、组、形式语言和组合学”。每一种这样的表述都与数字产生联系。”他说,最著名的联系,是一组被称为加泰罗尼亚数字的序列,当然,在百科全书中也有它的词条,序列A004148

The encyclopedia’s impact on scientific research broadly speaking can be measured by its citations in journals, which currently Sloane has tallied to more than 4,500, ranging through biology, botany, zoology, chemistry, thermodynamics, optics, quantum physics, astrophysics, geology, cybernetics, engineering, epidemiology, and anthropology. It is a numerical database of the human canon.

自我提醒:尼尔·斯隆(Neil Sloane)目前正在对百科全书长达半个世纪的档案进行数字化,经过三年的努力,他预计将于明年夏天完成这一进程。 西沃恩·罗伯茨


年代loane于2012年从AT&T实验室退休。这本百科全书回到家中,放在阁楼的服务器上,档案放在卧室的书架上。门和斯隆的研究有一个告诉吉卜林的警句,手写和贴在墙上:“他有一个理论,如果一个男人不整天呆在他的工作和大部分的晚上,他自己开了黄热病:所以他吃和睡在他的文件。”

所以斯隆遭受序列性失眠也就不足为奇了。“这是其中一个序列夜晚唤醒了我,“他说,在他为百科全书的50周年举行的庆祝会议上提供开幕式谈话。“就像昨晚3点一样,” -

2、3、4、5、7、9、8、11、13、17、19、23、15、29、14、31、37、41、43、47、53、59、61、67、71……

该序列已到达他的收件箱中的生日,这只是在党内的一周内,由Amarnath Murthy,一名电子工程师和基于孟买的业余爱好数学家提交的一周,他们为百科全书提供了超过4,900个序列。那天晚上躺在黑暗中,斯洛安试图证明一些似乎明显的东西:某些数字(例如,例如6,10,12)中的序列中从未发生过;证据压倒了,但没有证据。他成功地证明了6岁从不出现 - 最小的数字和最简单的案例 - 但需要几个小时,早上他发现了证明的差距,留下了问题。

为了了解这一场景,斯隆给它起了个绰号“火车上的陌生人”(Strangers on a Train),这个名字来自帕特里夏·海史密斯(Patricia Highsmith)的心理惊悚小说和阿尔弗雷德·希区柯克(Alfred Hitchcock)的电影。“默西序列是一串数字,”斯隆解释说,“构建它的规则是n这一项对下一项来说是陌生的nTerms,这意味着它不能和下一个有公因数n条款。你总是取最小的,你还没用过的数字。”

除了他的失败证明,《火车上的陌生人》还因为另一个原因引起了斯隆的恐慌。在以披萨和蛋糕为特色的周年庆典上,印第安纳大学的认知科学家道格拉斯·霍夫斯塔德(Douglas Hofstadter)是一个长期的序列爱好者,斯隆和海宁格讨论了基于这一规则计算序列的讨厌之处。由于当前项取决于未来项,当然未来项还没有被计算出来,计算——如果是用铅笔和纸手工计算的话——需要混乱和费力的试错。海宁格一直在与数学家、魔方高手卢卡斯·加伦(Lucas Garron)合作,研究另一种更简单的策略,而不是回顾和评估该序列最近的过去。“回顾过去比展望未来容易,”斯隆说。“但它们是等价的。”不过,他后来补充说,“展望未来会更好一些。”

实际上,从未来的角度考虑,当斯隆多年前开始他的收集时,他在他的手册中提到了另一个实际应用:序列,他说,“当来自参宿四的第一个信号到达时,序列可能也会有用。”具体地说,他提出了顺序A001034将以我们的外星弟兄们吉祥起来:60,168,360,504,660,1092,2,448,2,520,3,420,4,080 ......这是关于对称性的序列;非活动简单对称组的命令,对称性的基本基本粒子。而且它将建立我们的凭据。“This message would be a very concise way of saying, ‘We are intelligent beings, interested in mathematics (and by implication knowledge, the higher things in life, music ...) rather than war, power ...’ ” It would be a friendly and optimistic beginning.


Siobhan Roberts是一名基于多伦多的作家。她的最新书是《玩耍的天才:约翰·霍顿·康威的好奇心》。


参考文献

1.贝克,A。有真正的物理现象数学解释吗?114,223-238(2005)。

2.Billey, S.C. & Tenner, B.E.定理指纹数据库。美国数学学会通告60.,1034-1039(2013)。

3.王志强,王志强,王志强,等。六方晶格的子晶格。离散数学170.29-39(1997)。

4.黎曼曲面的若干格。当代数学20129-32(1996)。

加入讨论