简历阅读- - -机器中的偏差

关闭

您已阅读了2个免费的每月一篇文章中的1个。了解更多。

关闭

机器中的偏差

为什么面部识别导致了错误的逮捕。

由Sidney Perkowitz.2020年8月19日

一世ñ月，罗伯特·威廉姆斯，一个非洲裔美国人，被错误地逮捕了因错误的面部识别算法，一个计算机化的方法，通过相对于已知的人的数据库图像分析人脸和识别它们。他被戴上手铐，并在他的家人底特律警方的逮捕前没有被告知原因，则获刑隔夜警察把嫌疑犯照片，指纹和DNA样本后。

第二天，侦探展示了威廉姆斯一家在销售手表的商店的非裔美国人的监视视频图像。它立即显然，他不是威利尼亚姆斯。详细说明他的逮捕华盛顿邮报，威廉姆斯写道，“警察互相看了。我听说有人说'电脑必须已经错了。'“威廉姆斯学会在调查商店的盗窃方面，面部识别系统已经将他的驾驶执照照片标记为匹配监视图像。但下一步，调查人员首先确认匹配的地方，然后寻求更多的证据进行逮捕，仍然糟糕，威廉姆斯被带进来。他不得不在监狱里度过30个小时，然后在他被释放之前发布1,000美元的债券。

**可怕的错误：**2019年，斯里兰卡警方使用面部识别系统错误地将马里兰州大学生阿马拉·马吉德（上图）认定为恐怖爆炸案嫌疑人。在一次新闻发布会上，马吉德说：“由于这个可怕的错误，我收到了如此多的死亡威胁，如此多的人只是要求我被绞死，以及所有这些可怕、可怕的行为。” 美联社图片/巴尔的摩太阳报，Algerina Perna

据美国公民自由联盟(American Civil Liberties Union)报道，威廉姆斯被捕的独特之处在于它受到了公众的关注。¹使用面部识别有超过4,000个警察部门，几乎确定了其他人在犯罪中被错误地涉及。2019年，棕色大学生Amara Majeed是由斯里兰卡恐怖主义轰炸的嫌疑人被错误地发现。斯里兰卡警方撤回了这个错误，但在主要收到了死亡威胁之前。即使一个人免费，除非采取特殊步骤删除它，否则他或她的个人数据仍在犯罪记录中列出。

国家标准与技术研究所最近的研究和马萨诸塞术学院²已经证实，计算机面部识别是在比白人的人匹配的非洲裔的面孔不太准确。这种差异的一个原因是在从该计算机算法形成匹配的数据集缺少非高加索面。来自世界各地的有色人种可怜表示，他们的五官和皮肤色调的范围，创建什么研究人员称之为“人口偏见”内置的技术。

F通过广泛的监视和大量的照片存储，动物识别技术产生了广泛的影响。20世纪20年代，调查人员开始窃听电话以追踪犯罪活动。20世纪70年代，模拟闭路电视增加了对人的远程视觉监控。但是，通过与互联网和警察部门连接的摄像机，数字方法极大地扩大了监控的力量和规模。在家庭、企业和公共场所无处不在，到2021年，预计将在50多个国家安装10亿台摄像机，地球上每8个人安装一台。

为了确定嫌疑人，联邦调查局和警方比较来自监视摄像机和其他来源的影像照片数据库。这些含有一些犯罪嫌疑犯照片，但图像的大部分来自非刑事来源，如护照和国家的驾照汇编;也就是说，数据库大多是暴露普通，一般无辜公民的刑事调查。911后这种做法渐渐长大，当美国政府提出的总信息意识，一个全球性的计划，关于人收集数据，并通过各种方式，包括面部识别识别它们。乔治敦大学的中心隐私权和科技称，美国成年人的一半，1.17亿人，出现在警方的访问的数据库。^3.2019年，美国房屋监督委员会前的证词透露，联邦调查局可以扫描6.4亿张照片面部匹配。^4.

警察们面面相觑。我听一个人说:“一定是电脑弄错了。”’”

联邦调查局和警方通过计算机程序扫描这些大量的照片，并将其数字化以识别身份。开发这项技术的一条重要线索始于美国数学家、人工智能先驱伍德罗·威尔逊·“伍迪”·布莱索。1959年，他和一位同事发明了一台识别字母数字字符的机器，然后又发展到面部识别。

他们的第一个想法是通过将其覆盖到矩形的像素阵列来分析一个字符。根据它是否包含在图像的一部分，每个像素接收到二进制1或0。在称为“n元组”的相邻组中对像素进行采样，以考虑它们之间的空间关系。进一步的操纵产生了体现“A”的一组二进制数字。此过程找到并存储了每个字符的比分和结果的唯一分数;然后通过将其分数与存储器中的值进行比较来识别未知字符。该方法工作，正确识别高达95％的手写和印刷数字。

还在技术

输油管道是如何开始的

乔纳森·沃尔德曼

1859年8月27日，上校埃德温·德雷克(Edwin Drake)在宾夕法尼亚州泰特斯维尔(Titusville) 70英尺深的海底发现了石油，不久之后，他遇到了一个问题。他没有地方存放这种深绿色的液体，也没有什么好办法移动它。在那之前,当地人……阅读更多

然而，对于面部的复杂性而言，N元组织对其外观也随着照明，头部，面部表情和受试者年龄而变化。Bledsoe的团队转向了从面孔照片测量的人类运营商，例如眼睛的瞳孔或耳朵顶部到底部之间的距离。^5.1967年，研究人员表明，使用来自数千张照片的存储面部测量的计算机减少了99％，人数将不得不筛选到匹配新照片。然后，在1973年，日本电脑科学家Takeo Kanade自动化整个过程，其中一个计算机程序从没有人为干预的脸部的图像中提取眼睛，嘴巴等。

布莱索的基础面部识别工作是由国防部资助的，或者根据一些证据，是由中央情报局资助的，这两项工作都会限制他发表研究结果的自由。^5.但今年年初，作家绍伦扎维斯描述有线1995年Bledsoe在Bledsoe去世后，他从审查Bledsoe的生命和他的工作档案中学到了他的工作。^6.Raviv报告说，识别实验从400名男性白种人的照片数据库开始。在档案中，拉维夫没有看到任何关于女性、人或肤色的资料，也没有看到几十张必须代表布莱索面部尺寸的标记照片中的她们的照片。

由于布莱索的原创性研究，其他技术出现了，由更强大的计算机和更大的数据库开发和测试算法的支持。现在推出的AI方法是将最新的变化;但来自于缺乏布莱索的形成性数据集多样性的偏见仍然存在，并且出于同样的原因，在这些先进的方法。

F或数年，标准的美国国家技术研究所（NIST）已邀请的面部识别算法生产者提交他们的测试。在2019年，NIST提出了它的189种算法分析从99个多为商业开发。^7.在两种应用中，对850万人的1800万张图像的联邦数据库进行了检查，以确保总体准确性，并跨越不同的人口群体：1:1匹配，将人脸与存储的图像进行比较以进行验证，如确认护照的有效性；1:n匹配，将一张脸与整个数据集进行比较，通常是为了找到犯罪嫌疑人。对于每一种算法，研究人员确定了假阴性的数量，其中一张应该与数据库中的一张相匹配的脸没有，以及假阳性的数量，其中一张脸与错误的一张相匹配。

数据显示，面部识别已显著提高。未能提交的脸匹配数据库中的一个率由4％，2014年下降到只有0.2％，2018年较新的算法也分别在容貌困扰早期努力的变化不敏感。NIST的研究人员归咎于这些收益在面部识别，通过深卷积神经网络（CNN）的“工业革命”。

一项测试显示，非洲面孔的假阳性率是欧洲面孔的63倍。

神经网络是一个计算系统，可以教导来执行某些任务，稍微像生物脑中的连接神经元一样。CNN模仿人类视觉感知。在我们的大脑中，视觉皮层的专门区域中的神经元在眼睛看到的某些一般元素中，例如物体的边缘，线倾斜地倾斜的线条和颜色。大脑将这些结果组成为一个有意义的整体，允许一个人，例如，即使在模糊或不同的条件下也能够快速识别朋友。

与n元组方法一样，在CNN中，形成图像的像素是在空间相邻的块中进行分析的，但随后的阶段提供更深入的分析。就像大脑中的区域一样，每个阶段都在寻找不同类型的一般图像元素，就像大脑发现的那样，而不是寻找眼睛、鼻子等。经过数学处理的结果通过各个阶段传递和增强，最终生成一张完整的面孔。至关重要的是，这是通过首先将CNN暴露于各种面部图像的大数据集来实现的。这“训练”了系统，使其发展出一种分析人脸的综合方法。

在NIST的测试中，基于CNN的算法表现最好；但总的来说，算法在识别不同种族、性别和年龄的人方面存在差异。这些结果与早期1:1匹配的研究相呼应，并且是第一个探索1:n匹配的人口统计学效应的结果。每个应用程序中的错误都会产生不同的不良结果。1:1搜索中的假阳性可允许未经授权的访问；在对犯罪嫌疑人的1:n搜索中，如果出现假阳性，则该主体将面临无端指控的风险。

在1:n匹配中，NIST的数据表明，最精确的算法也是最可靠的。在美国联邦调查局的160万张面部照片数据库中，那些不太熟练的人给出的非裔美国女性与非裔美国男性以及白人男性和女性的假阳性率更高。在1:1匹配中，一些算法错误匹配非裔美国人和亚洲人的面孔的频率是白种人面孔的10到100倍。然而，值得注意的是，一些来自亚洲国家的算法给出的亚洲人的假阳性比白种人的少。报告指出，这表明训练数据集的多样性程度可能会强烈影响CNN的人口统计表现。

“面部识别不应该被用来自由的剥夺的人。”

其他研究更加全面探索了多样性如何影响神经网络的培训。2012年，B.F. Klare和A.K.密歇根州立大学的耆那教大学和同事测试了1：1个面部匹配警察的马克马特。^8.他们研究的不同类型的算法对非裔美国人面孔的准确性都低于白人或西班牙人面孔。研究的一种算法是由其训练数据集定义的神经网络。研究人员发现，当这个数据集仅限于非洲裔美国人的面孔时，结果与非洲裔美国人的匹配度提高了，同时，当训练数据集拥有同等数量的非洲裔美国人、西班牙裔和白人面孔时，也提高了多样性。

这表明如何使偏培训数据库更加公平。在最近的一个示范，研究人员在生物公司Onfido取得了人口统计学不平衡数据集较少偏见。^9.它的面部图像来自不同的大陆，不同的大陆，例如来自非洲的0.5％，而欧洲的61％。非洲面对欧洲人而言，这产生了63倍的假阳性率。但是当研究人员使用更多非洲面的统计方法比单独提供更多的非洲面，差异减少到2.5倍，是未来可能性的迹象。

但根据NIST报告首席科学家、生物测定学家帕特里克·格罗瑟（Patrick Grother）的说法，严肃的警方行动应该不仅仅需要算法匹配。他解释说，算法实际上会返回可能的候选列表。在理想的下一步中，寻找嫌疑人的调查员必须确认此列表中存在良好匹配。只有到那时，侦探才会寻找其他证据，如目击者或法医数据，以证明逮捕和指控该对象是正当的。人类调查员的“不匹配”可以推翻错误的机器识别，这一事实应该是令人放心的，但为时已晚，威廉姆斯无法避免被错误逮捕及其后果。

Andrew Guthrie Ferguson是美国大学华盛顿大学法学院教授，他研究了技术和公民权利。回应我的查询，他写道，“面部识别不应剥夺人们的自由。”它是“以不受管制的方式使用的工具太危险。威廉姆斯的案例是停止的信号特别指定不公正之前采用面部识别的发生无法挽回。”

修复面部识别技术的缺陷并非易事，因为这个复杂的领域包括数十个有不同程度偏见的软件生产商，以及数千个可以选择其中任何一种算法的执法机构。也许只有联邦政府努力建立标准并规范遵守这些标准才有必要，否则我们就不会再有罗伯特·威廉姆斯(Robert Williams)这样的人，不会再有任何少数群体的成员，也不会再有任何公民不公正地在监狱度过一夜或更糟糕的日子。

西德尼·珀科维茨(Sidney Perkowitz)是埃默里大学(Emory University)坎德勒物理学荣誉退休教授，他写过有关警察算法的文章，目前正在写一本相关的书。他最近的书是物理：一个非常简短的介绍和真正的科学家不穿关系。

参考

1. Garvie，C.由于人脸识别而涉及他们没有提交的罪行中的未统一的人。Aclu.org/news（2020）。

2.Buolamwini，J.和Gebru，T.性别阴影：商业性别分类中的交叉准确性差异。机器学习研究论文集811 - 15,(2008)。

3.Garvie，C.，Bedoya，A.，和Frankle，J.《永远的阵容》。乔治敦隐私与技术法律中心（2016年）。

4.政府监管机构对FBI 6.4亿张照片面部识别数据库提出质疑。《福布斯》（2019）.

5. Boyer，R.S.（ed。）自动推理：纪念伍迪布莱索的文章Kluwer Academic Publishers，Dordrecht，荷兰（1991）。

6. Raviv，S.面部识别的秘密历史。有线(2020)。

7. Grother，P.，银，M.，＆花冈，K.人脸识别厂商测试。美国国家标准与技术研究所（2018）。

8.Klare，B.F.，Burge，M.J.，Klontz，J.C.，Vorder Bruegge，R.W.，和Jain，A.K.人脸识别性能：人口统计信息的作用。IEEE信息取证和安全事务7.，1789-1801（2012）。

9.Bruveris, M.， Mortazavian, P.， Gietema, J.， & Mahadevan, M.，减少人脸识别的地理表现差异。arxiv(2020)。检索自DOI: 2002.12093

领导图像：Greenbutterfly / Shutterstock

第089期

黑暗的一面

探索这个问题

第一章
我们和他们

下一篇文章：

事情

宇宙已经制作了几乎所有的星星

由Caleb Scharf.

选择新闻通讯并必威开户官网提交联系方式...
新的章节星期四 Nautilus每周四都在其每月主题上发布新篇章。注册此列表以最新和最伟大的。编者的选择星期日阅读关于鹦鹉螺的故事和博客，我们在过去的一周里一直在考虑。

输油管道是如何开始的

第089期

黑暗的一面

探索这个问题

下一篇文章：

宇宙已经制作了几乎所有的星星

相关文章：

人工智能是永远无法理解的吗？

我们需要一个FDA的算法

是建立新基础设施的种族主义的算法吗？