事实如此浪漫

mp3, jpeg和侯默·辛普森的脸背后的数学技巧

O十多年前,我坐在大学的数学物理课上,我的教授讲述了一个让我震惊的想法。我认为,毫不夸张地说,这是应用最广泛的数学发现之一,其应用范围从光学到量子物理、射电天文学、MP3和JPEG压缩、x射线晶体学、语音识别,以及PET或MRI扫描。这个数学工具被命名为傅里叶变换它甚至被詹姆斯·沃森和弗朗西斯·克里克利用罗莎琳德·富兰克林产生的x射线图来解码DNA的双螺旋结构。(克里克是傅里叶变换方面的专家,他开玩笑说要写一篇题为《观鸟者的傅里叶变换》的论文,向狂热的观鸟者沃森解释数学原理。)

你可能每天都在使用傅里叶思想的后代,无论是播放MP3、浏览网页、问Siri问题,还是收听广播电台。(顺便说一句,傅里叶不是懒虫。除了他在理论物理和数学方面的工作,他也是第一个发现温室效应)。

那么傅里叶的发现是什么,为什么有用呢?想象一下在钢琴上弹奏一个音符。当你按下钢琴键时,锤子会敲击一根弦,弦以一定的固定频率(a音每秒440次)来回振动。当琴弦振动时,它周围的空气分子来回弹跳,产生一种我们称之为声音的振动空气分子波。如果你能观察空气进行这种周期性的舞蹈,你会发现一条平滑的,起伏的,不断重复的曲线,这叫做正弦波,或正弦波。(澄清:在钢琴键的例子中,确实会产生不止一个正弦波。一个真正的钢琴音符的丰富性来自于许多柔和的泛音,除了主要的正弦波产生。一个钢琴音符可以近似作为正弦波,但音叉是一个更合适的例子,是一种声音好吧-近似为一个正弦信号)

钢琴音符所产生的声波可以看作是一个简单的正弦波。 米兰B / Shutterstock

现在,不是单键,而是三个键一起演奏和弦。由此产生的声波并不漂亮——看起来就像一团复杂的混乱。但在这混乱的声波中隐藏着一个简单的图案。毕竟,和弦只是三个键敲在一起,所以产生的杂乱声波实际上只是三个音符(或正弦波)的总和。

钢琴和弦产生的声波可能看起来一团糟,但它只是三个不同的音符(正弦波)加在一起。 克里斯汀·丹尼洛夫/麻省理工学院

傅里叶的观点是,这不仅仅是和弦的一种特殊性质,它更普遍地适用于任何类型的重复波,无论是方形的,圆形的,弯曲的,三角形的,等等。傅里叶变换就像一个数学棱镜——你输入一个波,它就会吐出这个波的成分——这些音符(或正弦波)加在一起就会重建这个波。

如果这听起来有点抽象,这里有一些不同的方法来形象化傅里叶的技巧。第一个来自卢卡斯诉巴博萨他自愿抽出时间来制作难以置信的维基百科上的数学和科学动画,他在那里的名字是“卢卡斯vb”。

让我们取一个正方形的波,让它穿过傅里叶棱镜,看看另一边出来的是什么。

由LucasVB制作的动画图片。 开始

在这些图像中(点击通过维基百科看到它是一个动画),红色的方波被提炼成一组纯音符(蓝色的正弦波)。把这些蓝色波浪想象成红色波浪的数学成分表。按这个类比,傅里叶变换就是一个配方——它精确地告诉你需要将多少音符混合在一起来重建原始的波。动画中的垂直蓝线本质上是一个图形,直观地表示每个音符的数量。

这是另一种方式想想这个,由马修·亨德森他是剑桥大学的博士生创建充满数学好奇心的gif动画。马修用圆代替正弦波来解释傅里叶的技巧。这包括一组不同大小的圆,每一个圆都以一个更大的圆的边缘为中心。然后圆圈开始旋转,大圆圈带动小圆圈旋转,小圆圈的旋转速度比大圆圈快。如果你追踪一个点在最小圆上的运动,你可以重建任意形状的波,就像所示在下面的动画和剧照中。再一次,傅里叶变换告诉你如何构建波:哪个圆圈,以什么速度运动。

马修·亨德森

如果你年龄足够大玩了呼吸描记器,您可能对使用轮中轮来跟踪复杂模式的想法很熟悉。这里有一个互动版的相同动画,由LucasVB创建,在那里你可以乱来和改变圆的大小。

总而言之,傅里叶变换告诉你每个成分(正弦波或圆)对整个波的贡献有多大。这就是为什么傅里叶的技巧是有用的。想象一下你在和朋友通电话你想让他们画一个方波。要做到这一点,最繁琐的方法就是读出一长串数字,这些数字代表了波在每个时刻的高度。有了这些数字,你的朋友就可以耐心地把原来的波浪缝在一起。这基本上就是像WAV文件这样的旧音频格式的工作原理。但是如果你的朋友知道傅里叶的技巧,你可以做一些非常巧妙的事情:你可以告诉他们一些数字——上图中不同圆圈的大小。然后,他们可以利用这张圆图来重建原始的波。

这不是什么晦涩的数学把戏。傅里叶变换几乎出现在波的任何地方。无处不在的MP3格式使用了一种变体的傅立叶技巧来实现对之前的WAV(发音为“wave”)文件的巨大压缩。MP3把一首歌分成几段。对于每一个音频片段,傅里叶的技巧将音频降到它的成分音符,然后存储在原始波的位置。傅里叶变换还能告诉你每个音符对歌曲的贡献有多大,这样你就能知道哪些是最重要的。真正的高音并不是那么重要(我们的耳朵几乎听不到它们),所以mp3把它们扔掉,导致额外的数据压缩。音响发烧友不喜欢mp3就是因为这个原因——它不是无损音频格式,他们声称自己能听出区别。

这也是智能手机应用Shazam能够做到的识别一首歌。它把音乐分成小块,然后用傅里叶的技巧找出组成每个小块的成分音符。然后,它会搜索数据库,看看这些音符的“指纹”是否与他们存档的歌曲相符。语音识别使用相同的傅里叶指纹技术来比较你演讲中的笔记和已知的单词列表。

你甚至可以对图像使用傅里叶技巧。这是一个伟大的视频展示了如何用圆圈画霍默·辛普森的脸。在线百科全书Wolfram Alpha使用了类似的想法著名的人的脸。这看起来像是一个你只会在一个非常无聊的鸡尾酒会上使用的技巧,但它也被用来将图像压缩成JPEG文件。在以前的Microsoft Paint中,图像是保存在位图(BMP)文件中,位图文件是一长串编码每个像素颜色的数字列表。JPEG是图像的MP3格式。要构建JPEG,首先要将图像分成8 * 8像素的小方块。对于每一块,你用重建侯默·辛普森的脸的相同圆的想法来重建图像的这一部分。就像mp3播放的是高音,jpeg播放的是小圆圈。其结果是文件大小大幅减少,但质量却略有下降,这一见解导致了我们都喜欢的在线视觉世界(最终给了我们猫的gif)。

兰德尔·门罗/XKCD

傅里叶的技巧在科学中是如何运用的呢?我在推特上呼吁科学家们描述他们是如何在工作中使用傅立叶的思想的。他们的反应让我大吃一惊。做出回应的科学家们使用傅里叶变换来研究潜水结构与流体相互作用的振动,试图预测即将到来的地震,确定非常遥远的星系的成分,在大爆炸的热残留物中寻找新的物理学,从x射线衍射图中发现蛋白质的结构,为NASA分析数字信号,研究乐器的声学,完善水循环模型,寻找脉冲星(旋转的中子星),以及利用核磁共振了解分子的结构。傅里叶变换甚至被用来识别杰克逊·波洛克(Jackson Pollock)的一幅赝品,通过破译画中的化学物质。

唷!对于一个小小的数学技巧来说,这是一笔不小的遗产。

Aatish Bhatia是一位科学作家和物理学家普林斯顿大学他是科学和技术委员会的副主任和讲师。他是获奖的科学博客的作者经验主义的热情在Twitter上的账号是@aatishb

得到了鹦鹉螺必威开户官网

最新和最受欢迎的文章投递到您的收件箱!


这篇经典的事实如此浪漫的文章最初发表于2013年11月。

3评论-加入讨论