B.在2012年,谷歌以为我是个男人。
让我倒回去。当年1月,这家搜索巨头发布了一项新的隐私政策,首次试图将用户的使用数据从其一系列产品(包括谷歌搜索、Gmail、谷歌日历、YouTube等)汇总到一个个人资料中。这种变化引起一场轰动,内外科技圈,结果,用户聚集到“广告偏好”部分的概要文件,在谷歌上市类别用户似乎感兴趣,推断从他们的网络使用模式“电脑和电子产品,”或“养育”。除了这些类别,谷歌还列出了它认为你的年龄范围和性别。它以为我是个男人,大概在35岁到44岁之间。我28岁。
很快,我意识到它不仅仅是我:我职业圈子里的少女在Twitter上嗡嗡作响 - 全部标有男人。女性作家也是如此哑,科技媒体网站;玛丽苏从女权主义的角度涵盖极客的光泽文化;和《福布斯》,商业杂志。那么,我们所有人有什么共同点呢?我们的搜索历史充斥着网络开发、金融和科幻等主题。换句话说,我们像男人一样搜索。至少谷歌是这么想的。
谷歌正在做的是现在是技术产品普遍的东西:它正在使用代理。代理是真正知识的立场 - 类似于设计师用作他们真正的观众的立场的角色。但在这种情况下,我们正在谈论代理数据:当您没有有关您想要的用户的信息时,您使用您必须使用的数据来推断信息。在这里,谷歌希望追踪我的年龄和性别,因为广告商对这些信息提供了高价值。但由于谷歌当时没有人口统计数据,它试图从它有很多:我的行为数据中推断这些事实。
然而,这种代理的问题是它依赖于假设 - 这些假设会随着时间的推移更深入地嵌入。因此,如果您的模型假定,从过去所见和听到的,那么大多数对技术感兴趣的人都是男性,它将学习访问科技网站的用户更容易成为男性。一旦烘焙烘焙,它会歪斜结果:越多的女性被标记为男性,越多,男性主宰技术网站 - 而且系统更强烈地开始将技术网站使用与男性相关联。
代理人“定义他们自己的现实,并用它来证明他们的结果。”
简而言之,代理数据实际上可以减少一个时间随着时间的推移而不是更多的,而不是你甚至意识到它。关于我们的大部分数据是代理数据,来自用于预测信誉的邮政编码,坐在坐在习惯于预测青少年的驾驶习惯的分数。
很容易说谷歌经常获得性别问题并不重要;毕竟,它只是使用该信息来满足更多“相关”的广告。如果我们大多数人宁愿忽略广告,那么谁会关心?但考虑潜在的影响:例如,如果是谷歌经常编码的女性,他们在2012年在2012年工作的妇女,那么它可能会对技术出版物的读者看起来比实际更为男性的倾斜数据。运行媒体网站的人密切关注他们的受众数据,并使用它来做出决定。如果他们相信他们的观众比他们更多的男性,他们可能会思考,“好吧,也许女性只关心技术” - 以前毫无疑问地听到他们毫无疑问。这可能会歪曲出版物的报告科技公司的性别差距,以更关注的是“管道”,少于让妇女的结构和文化问题。毕竟,如果对技术感兴趣的妇女不存在,雇主如何雇用他们?
这是理论上的,当然:我不知道谷歌的经常被误判了,而且我不知道这有多受影响技术产业继续被察觉的方式。但那是问题:谷歌也没有。代理是自然的不精确的,写入数据科学家凯茜o'neil数学毁灭武器.更糟糕的是,他们会自我延续:他们“定义自己的现实,并用它来证明自己的结果。”
现在,谷歌觉得我不再是个男人了。在过去五年的某个时候,它对我进行了整理(这并不奇怪,因为谷歌现在对我有了更多的了解,包括我是否经常购买裙子和搜索发型的想法)。但这并不能阻止其他科技公司依赖代理,包括Facebook。2016年秋天,在ProPublica发现Facebook正在允许广告商根据他们的比赛来定位客户,即使他们被广告住房 - 自1968年联邦公平住房法案以来一直存在公然的非法。要测试该系统,ProPublica发布了一个拥有50美元的预算,并选择标记为“可能搬家”的用户或对“购买房屋”(我们早些时候谈论的某些属性的十亿令人兴趣)来定位为“可能搬家”的用户。非洲裔美国人,亚裔美国人和西班牙裔的用户。广告立即获得批准。然后他们向民权律师约翰·克拉曼展示了结果。他喘息着。“这是可怕的,”他告诉他们。“这是巨大的非法。”
但先等等:Facebook实际上并没有让我们把自己的种族放在个人资料上。那么它是如何让广告商按照这种方式细分的呢?当然是通过代理。你看,Facebook给广告商提供的并不是真正根据种族和民族定位的能力。它以种族亲和力为目标。换句话说,如果你喜欢的帖子或页面(根据Facebook的算法)表明你对某个特定种族或民族的内容感兴趣,那么你可能会被包括在内。但Facebook并没有在广告客户面前这样定位:什么时候ProPublica创建了它的广告,Facebook在“人口统计学”部分中放置了民族亲和力菜单 - 一个清晰的迹象,即这种选择不仅仅是兴趣,而是关于身份。
Facebook有合法的原因,以提供基于种族的目标 - 例如,为黑人女性设计的头发产品实际上是针对黑人女性的,否则西班牙裔社区集团占据了西班牙裔人。那讲得通。和以来ProPublica一份报告,Facebook开始不包括某些类型的广告,例如住房,信用和就业,使用民族亲和力定位。但是通过使用代理数据,Facebook不只是打开歧视广告的门;它还开辟了一个潜在的合法漏洞:他们可以否认他们是非法运作的,因为他们并没有通过比赛过滤用户,而是仅受利息相关的内容。当然。
信息研究学者萨菲亚·诺布尔(Safiya Noble)表示,Facebook在后端为用户分配身份,而不允许这些用户在系统前端选择自己的身份,这也让人深感担忧。“我们正在被一个甚至不允许我们宣布自己的种族和民族的平台塑造种族形象,”她告诉我。“不允许在平台上显示文化和种族特征意味着什么?”
这意味着Facebook控制其用户如何在线代表在线,防止人们选择以他们所喜欢的方式识别自己,同时使广告商能够做出假设。而且因为这一切都是通过代理数据发生的,所以它被视图掩盖 - 因此我们大多数人甚至从未意识到它发生了。
Sara Wachter-Boettcher是一名网络顾问,也是这本即将出版的书的作者技术上的错误:性别歧视的应用程序,有偏见的算法和有毒技术的其他威胁。
摘录技术上是错误的:性别歧视的应用,偏见算法和毒性技术的其他威胁由Sara Wachter-Boettcher。©2017由Sara Wachter-Boettcher。与出版商的许可用于W.W.Norton&Company,Inc。保留所有权利。