简历阅读- - -对于预防疾病，数据是新药

关闭

您已经阅读了2篇免费月刊文章中的1篇。了解更多。

关闭

对于预防疾病，数据是新药

说出你的生物学秘密是不是太苦了?

蒂姆•麦克唐奈埃米利亚诺·庞齐的插图2015年2月5日

A.关于Amelia Sloan的几个关键数据点：她喜欢吮吸自己的脚趾。她穿着粉红色的芭蕾舞裙。她不接受记者的采访。她出生在VA的秋季教堂。2013年4月25日，下午6:54，占地8磅，2盎司。Amelia按计划进入世界，但并非所有她的金牛座都这样做了，这一事实提出了其他关键数据点：在美国，约有500,000名婴儿每年都出生。在出生时，每种重量低于两升苏打水瓶。他们造成医疗保健系统估计年度260亿美元。其中330,000人在第一年不生存，而且许多其余的人遭受终身健康和认知问题。医生不知道为什么。

为了解开这个谜团，阿米莉亚出生的医院的科学家们正在梳理另一个数据集:将她健康的新生儿基因组中的数十亿分子与早产儿基因组进行比较。总的来说，这些数据本身只是医学科学家收集的大量基因组数据中的一个小点，而这些数据的规模在几年前还不可能达到。一群新的医学研究人员认为，检查尽可能多的人的完整基因信息，不仅会揭示从早产到癌症和自闭症等健康问题的治疗方法，还会揭示预防这些问题完全发生的预测性洞察力。

你身体的一切，从你重要器官的基本结构和功能，到你的眼睛和皮肤颜色，都被编码在一条独特的链上，由30亿个核苷酸分子组成，核苷酸有四种口味，分别由字母a、T、C和g代表。核苷酸拼出了一个蓝图——你的dna——它完全相同地排列在你的数万亿个细胞中。DNA和解码它的RNA一起组成了你的基因组，RNA使你的身体可以制造蛋白质和其他生物分子。反过来，你的基因组又被分成称为基因的功能块。当蓝图写得恰当时，你可能会忘记它的存在:你会长出四肢，消化食物，生出健康的孩子，做我们人类身体能做的所有其他事情。但是，就像一部小说的手稿可能会有拼写错误，从而混淆了它的意思一样，你的基因组中的打印错误，从父母那里遗传下来的或在怀孕时引入的，可能会给你带来糖尿病或肥胖等疾病。对研究阿米莉亚的科学家来说，找到治疗方法首先要识别这些错误。

20年前，当分子生物学家、阿米莉亚(Amelia)基因组的保管者乔·沃克利(Joe Vockley)开始研究遗传学时，科学家们搜寻基因故障的方式就像在黑暗的房间里用手电筒寻找一只丢失的袜子一样:到处照照，直到找到为止。但现在，美国最大的医院网络之一的非营利组织Inova转化医学研究所(ITMI)的首席科学官Vockley希望，大量的数据将揭示疾病的根源，而不是对可疑基因进行无休止的偶然检测。使用所谓的“大数据”就像打开泛光灯寻找你的袜子。有了正确的基因标记，临床医生就可以对女性的基因组进行取样，预测她早产的可能性，然后采取措施预防。

沃克利说：“我们正试图从医学实践走向医学科学。”。“我认为基因组医学及其预测和预防原则将重新定义这个国家的医学实践。”

也在健康中

这就是400岁的生活

斯蒂芬·凯夫

“整个世界是一个舞台，所有的男男女女不过是演员;他们有出场，也有出场，一个人一生扮演许多角色，他的表演有七个时代。——莎士比亚《皆大欢喜》阅读更多

恐惧:在未来，你的基因信息就像你的谷歌搜索一样，可以被医疗保险公司获取，这些公司希望以你为代价降低他们的风险。

但是像这样的努力已经引起了隐私专家的愤怒——其中一些人已经对国家安全局收集数百万电话记录和Facebook连接的行为大为光火。恐惧:在未来，你的基因信息就像你的谷歌搜索一样容易被营销人员、警察部门和身份窃贼获取，更不用说医疗保险公司和雇主为了降低风险而牺牲你。虽然Vockley对一个新基因组所做的第一件事就是去掉它的标识符，比如名字，但并不能保证这些数据能够或将永远保持匿名。今年1月，麻省理工学院(MIT)的数据科学家亚尼夫·埃利希(Yaniv Erlich)“重新确认了近50人的基因组”(合法地“破解”了身份)，这些人曾参与过Vockley 's等研究，方法是将匿名基因组与姓氏和来自遥远家庭成员的部分基因组数据连接起来，这些数据可以在一个家谱网站上公开。“我们将进入基因信息无处不在的时代，”埃利希说。

早产只是一个开始:今天，ITMI正在从其他患者那里收集数以万计的基因组，以找到癌症、糖尿病、骨关节炎和心血管疾病的根源。它还进行了一项研究，在婴儿出生的头两年反复取样，以观察基因的功能在这段时间内是如何变化的。Vockley估计，他的实验室总共生成了世界上超过10%的人类基因组数据。随着一个新的内部DNA测序设备正在建设中，他希望到明年年底将这个数字提高到15%。

如果Vockley成功，他可以改变无数初始化的生活。但对于Amelia和其他人来说，潜在的收益是赤裸裸，数据明智的风险，因为他们出生的那天？

乘着数据浪潮

我们正在迈向这样一个未来:海量数据处理将不仅为医学研究提供动力，而且几乎将为社会的各个方面提供动力。牛津大学牛津互联网研究所的数据学者Viktor Mayer-Schönberger说，他说，我们正处于一种根本性的转变之中，从一种我们基于少量信息对世界作出推断的文化，转变为一种通过稳步积累几乎无限的一切数据来收集全面的新见解的文化。

为了说明这一点，Mayer-Schönberger回顾了19世纪中期发现的海军军官生马修·方丹·莫里(Matthew Fontaine Maury)的盐渍航海日志，他是一名聪明的年轻海军军官，在1839年的一次公共马车事故中致残。在华盛顿特区的海图和仪器仓库里，毛利坐在一张桌子上，他注意到，海军的标准航线主要是由传统和迷信指引的，经常是曲折和荒谬的。沮丧之余，他仔细查看了长期被忽视的航海日志，惊奇地发现了无数关于不同时间和地点的水和风况的记录——这些数据总体上清楚地揭示了最有效的航线将在何时何地。在他的调查结束时，毛利绘制了120万个数据点(实际上是手工绘制的)，永久性地改变了美国的军事导航。

他们的工作就是从这一大堆惊人的基因数据中挖出与患病人群密切相关但与健康人群无关的变异。

现在想象一下，如果莫里不仅收集了他在航海日志中发现的数据，还收集了与航海相关的每一个数据，地球上每一个地方的每一个风速和水深。永远。他的实验结果应该是完美无缺的，但他的羽毛笔可能无法胜任这项任务。样本容量的统计概念只是因为收集才有必要所有比如说，关于投票行为的数据长期以来是不可能的。由于数字存储和处理的最新进展，情况不再如此。

“收集所有信息的价值，”Mayer-Schönberger说，并发表了一篇详尽的论文，题为大数据“你不必担心偏见或随机化。你不必担心事先要有一个假设，一个结论。”如果你把所有的东西都看一遍，景观就会变得清晰，图案就会自然而然地出现。

2009年，随着猪流感席卷全球，谷歌有机会将这一理论付诸实践。那里的分析人员发现，他们只使用搜索查询就能预测疫情即将发生的地方。结果证明，这一结果是准确的，足以让公共卫生官员提前知道这种疾病会在哪里出现。预测能力最终取决于45个搜索词，包括“流感并发症”、“感冒/流感药物”和“抗生素药物”，这些搜索词开始在谷歌服务器上集群出现。总的来说，这些术语与搜索者所在地区即将爆发的流感密切相关。

当你在谷歌上搜索“流感疗法”时，你会发现流感并不奇怪，谷歌的研究意义在于怎样它从美国5000万个最常见的搜索查询中找出了这些词。而不是假设怀疑,相关测试,,慢慢地建立一个列表,研究人员开发了一个算法(逐步说明电脑过滤数据),同时在所有查询任何话题,发现那些在时间和地点相关公共卫生记录流感暴发。正确的术语——实际上是所有的术语——自己找到了。泛光灯一亮，所有的猜测都消失了。

基因组时代的数据

这些对Vockley和他的团队来说都很重要。他们正在筛选来自Inova费尔法克斯医院深处的近1000个新生儿基因组，包括阿米莉亚的基因组。这家医院位于华盛顿特区郊区的福尔斯彻奇，是一座庞大的砖混结构迷宫。在这里，医生治疗癌症，更换关节，移植心脏(去年，包括迪克·切尼的心脏)。

沃克利在这样的医院长大。他童年时在匹兹堡郊外的一些最早记忆是探望家庭成员，这些家庭成员不得不接受反复手术以去除疼痛的骨生长，这种骨生长可能会转化为致命的癌症，由一种称为多发性软骨外生骨疣的遗传病引起。虽然Vockley没有遗传这种疾病，但它已经传遍了他的家族几代人。因此，即使是在孩提时代，沃克利就明白家庭的不幸可能是由其细胞深处的神秘故障造成的。

“这是了解遗传学的艰难方式，”他说。

这段经历点燃了火花，使他获得了加州大学洛杉矶分校的博士后奖学金和临床遗传学实习。到20世纪90年代初，他在史克比查姆（现在的葛兰素史克，按收入计算，是世界第十大制药巨头）找到了一份工作在那里，他搜索了一个小的部分基因组数据库，寻找与癌症有关的基因。第一个完整的人类基因组要到2003年才能测序，但沃克利已经了解了这一潜力。他拥有的数据越多，找到的就越多。

到2010年他来到Inova时，全基因组测序技术已经真正实现了。为了将病人的血液样本转换成数字文件，实验室的技术人员去除白细胞，用化学方法熔化除DNA和RNA(基因组)之外的所有东西。他们把它分成几块，然后在每一端贴上实验室生成的非人类DNA。这种DNA与玻璃板上的互补DNA结合，将人体样本锁定在合适的位置。然后他们使用一种聚合酶，这种酶每次细胞分裂时都会复制你的基因组，然后大量生产出一个精确的复制品。聚合酶经过修饰，在它复制的每个核苷酸上添加荧光标记，这样每一个新的a、T、C和G都有颜色编码。这些颜色由超高分辨率相机采集，一个基因组数据文件就诞生了。这个过程对每个不同的样本重复30次，以纠正错误或误读。

当Vockley在SmithKline Beecham的时候，仅仅测序10000个核苷酸——仅仅是一个完整基因组的0.00033%——就需要18个小时。今天，测序仪可以在同样的时间内检测450亿个核苷酸(考虑到重复测试，大约是一个样本所需核苷酸的一半)，这要归功于工程技术的进步，它使同时处理多个样本成为可能。随着效率的提高，成本下降了几个数量级:2001年，对一个完整的人类基因组进行测序花费了大约1亿美元;如今，这个价格不到1万美元。

有了这项技术，Vockley在Inova发现了一群热衷于将大数据分析应用于医疗问题的科学家。他还发现了很多婴儿——每年大约有1万名婴儿出生在那里，使它成为全国最繁忙的新生儿设施之一，这也是他一直在等待的机会。在Inova的家乡弗吉尼亚州，每年大约有12%的婴儿早产，这是全国平均水平的一个缩影。Vockley说，几十年来，早产一直是一种棘手的疾病;近30年来，尽管产前护理取得了突飞猛进的改善，但发病率却没有变化。

“人们所做的一切，都没有产生影响，”他说。“所以问题是，我们能在基因组学的世界里找到一些改变结果的东西吗？”

预防追求

到2010年，Vockley和他的团队设计了一个计划挖掘出生前遗传的遗传根源。他会使母亲，父亲和婴儿的数千种基因组大使，并以同样的方式找到模式，谷歌流感趋势找到了其预测性搜索条件：通过立即查看所有数据。

两年前，他的团队开始在医院的产房里四处走动，寻找不仅愿意透露自己的基因组，而且愿意透露婴儿基因组的孕妇。然后，技术人员从参与研究的母亲和父亲身上采集血液和唾液样本，并在出生后一两天内采集婴儿的血液和唾液样本，从中对基因组进行排序。

在这项研究中，Vockley现在有2710个基因组，包括父母各881个基因组和948个婴儿，并仍在收集任何自愿出现的早产儿的样本。单是DNA就包含了惊人的数据量:30亿个核苷酸乘以2710个参与者等于8.1万亿a、C、T和g。

随着他们的预测力量，这些调查结果表明，从今天的练习中大规模转变的可能性，主要依赖于猜测。

比较任何两个人，他们的绝大多数DNA序列都是相同的；毕竟，我们是同一物种。但30亿个字母的DNA序列中，大约有10000个多字母片段因人而异，主要是基于血统（例如，来自纽约州北部的两个白人——第一批测序的人类基因组的人口统计数据——将比他们与津巴布韦的一名妇女有更多的共同点）。这些不同的部分被称为“变体”，Vockley的目标是从良性多数中挑出致病的少数。

为此，他雇佣了一个由40名生物信息学家组成的团队，这是一个受过计算机编程和生物学培训的专业软件工程师，他们首先将足月前出生研究中的每一个新基因组放入两个数字桶中的一个：“有病”（足月前）和“无病”（足月）。然后，他们的工作就是把这一大堆令人震惊的基因数据切碎，找出与患病人群密切相关但与健康人群无关的变异。

他们首先编写了一种算法，将所有2710个基因组堆叠在一起，并同时观察它们。这使得计算机能够过滤掉每个人身上相同的序列。这就是大数据集的好处发挥作用的地方:如果只有少数几个基因组可供研究，它们之间的任何相似或不同可能都是偶然的产物。但如果在所有2710个基因组中都出现了完全相同的序列，则更有可能这是所有人类共有的东西，因此不是疾病的因素。

下一步是过滤祖先的差异，比如巴黎人和津巴布韦人之间的差异。在这里，Vockley充分利用了华盛顿都市区的种族多样性;这项早产儿研究的参与者来自77个不同的国家，因此有可能解释和过滤许多基于血统的差异。

Vockley说，“突然之间，你从10000个可能与参与者之间任何数量的差异有关的变异”变成了100个更可能与疾病有关的变异。

同时，不同的算法搜索每个基因组中的共性，所有早产家族共享的变异，但在任何足月家族中都没有发现。直接确定变量导致早产只是挑战的一部分:Vockley也对变异感兴趣相关与疾病;这些相关性可能不会直接导致早产，但可以作为危险信号，以特殊水平的护理观察怀孕。总的来说，这个消除过程已经产生了20个基因变异，Vockley认为这些基因变异在早产中发挥了作用，他计划将这一结果发表在同行评议的杂志上自然遗传学这个冬天。其中包括影响胎盘发育和母亲子宫颈长度等物理因素的变异，以及母亲和胎儿之间的生化失衡。如果一名妇女的这些基因的任何组合检测呈阳性，这可能意味着她早产的风险增加。

凭借其预测能力，这些发现表明，与目前主要依靠猜测的做法相比，有可能发生重大转变。数据和它所讲述的故事赋予医生权力，医生可以开定制治疗处方，大大增加安全和成功分娩的几率。可以开发出新的药物来提前纠正不平衡，而对风险保持警惕的分娩护士可以为并发症做好准备，而不是在最后一分钟匆忙适应。

“反应性药物是我们目前所拥有的，”Vockley说。“你生病了，我们给你治疗。我们的目标是让你不生病。”

癌症的线索

世界上最先进的数据挖掘项目之一适用于对癌症的同样的分析。Ilya Shmulevich, a lead genomicist who directs a Genome Data Analysis Center at the National Institutes of Health’s The Cancer Genome Atlas, says the project was born out of a shared frustration among cancer researchers at being forced, by a dearth of data, to study cancer one defective gene at a time, even while suspecting that the disease is actually the result of many genomic malfunctions, all happening at once.

“为了了解该系统在癌症中破坏的地方，”他说，“我们必须衡量关于该系统的一切。”

麻省理工学院的“黑客”重建了近50个身份。他说，这个过程“比估计的要容易得多”。

在过去的几年中，NIH团队从世界各地10000名癌症患者的20种不同类型的癌症中获得了完整的基因组数据。为了弄清是什么导致了这种疾病，科学家们对患者健康细胞中发现的基因组以及肿瘤的扭曲基因组进行了测序。结果已经滚滚而来。10月中旬，华盛顿大学圣路易斯医学院的科学家利用癌症基因组图谱数据，发现了12种主要癌症类型中通常发生突变的127个基因。这一发现为早期发现更多癌症的单一检测奠定了基础。这样的研究也为基于肿瘤独特分子特性设计的靶向药物铺平了道路。

基因的排序在整个生命中都是不变的，这只是预测和预防遗传疾病的第一步。同样重要的是:RNA分子可以读取基因的DNA蓝图，产生功能蛋白质，从形成组织到抗击细菌疾病。随着时间的推移，这些翻译分子会随着饮食和压力等环境条件而改变。今天对同一个人进行抽样调查，一年后再对同一个人进行抽样调查，结果会截然不同。Shmulevich认为，当你从健康状态转变为疾病状态时，将你与自己进行比较具有很大的潜力。庞大的基因组数据可以揭示细胞行为中前所未见的模式，就像大规模的交通数据可以帮助你的GPS导航器找到最有效的回家路线。利用这些数据，医生可以在你出现任何症状之前就知道你“患上”了癌症。

大数据未来

Data Aficionados喜欢Shmulevich说，我们接近未来，为每一个走进诊所的患者来获得全部基因组信息将便宜，快速，轻松;生物技术启动的噱头正在朝着第一个100美元的基因组赛车，这可能只是几年之遥。对于Vockley来说，这将为医生战斗疾病提供前所未有的战略优势，而且避免任何需要在黑暗中拍摄。与小型统计样本不同，仔细选择数据以回答预定义问题，大规模数据收集面临它可以揭示的内容的限制;今天由ITMI收集的相同基因组数据和明天可以使用癌症基因组阿特拉斯，以研究其他疾病，如糖尿病或肥胖症。

但大数据的长期存在也让它面临着不可预见的风险:肆无忌惮的玩家可以利用它在你患上疾病之前提高医疗保险费，在你拖欠贷款之前拒绝信贷，或者在Mayer-Schönberger个人最喜欢的末日场景中，在“罪犯”犯罪之前惩罚他们，所有这些都基于你的大数据档案。认为少数民族报告但这些预测是由纯粹的数据而不是怪异的浮动千里眼做出的。换句话说，真正的风险并不是NSA会知道你在工作期间给男朋友打了长途电话，而是你可能从一开始就不会被录用，因为有你数据资料的人很可能会打这样的电话。

将基因组数据添加到关于你的所有信息中，增加了有一天它可能被用于原始研究之外的其他目的的风险。Mayer-Schönberger表示，有了大数据，“我们人类不一定会变得更赤裸、更受监视。”“作为一个人类群体，我们变得更加赤裸。社会中的互动和动态将会暴露出来。”

Amelia Sloan在她的第二天生命中成为了大数据时代的公民。仍然在医院，她放弃了血液和唾液的样本，为前期出生学习，她的母亲霍莉志愿者。霍莉有充分的理由登录：她自己在同一家医院送货五年，她一直在甲板上几十个前的诞生，并且经常看着什么应该是一个欢乐的家庭场合转动葬礼。

“刚开始的时候，这太可怕了，”她说，“因为他们出来的时候都很小，那里有所有的设备，还有所有的人，你会想，‘这个小婴儿到底怎么能活下来？’”

霍莉想停止向自己询问这个问题。所以她，她的新宝贝和一些家庭成员向Vockley的学习提供了他们的基因组，承诺在与其他研究人员分享之前，数据将成为匿名。但这可能是一厢情愿的思考。事实上，它可能已经为时已晚，无法保护您的基因组免受窥探眼睛。由于MIT的ERLICH显示，当数据被放置在关于它们的所有其他数据的上下文中，当数据被放置在所有其他数据的上下文中时，参与者可能从其基因组绘制的舒适度。

埃利希的职业生涯始于银行雇佣他侵入银行系统，寻找安全漏洞。这段经历让他对数据集到底有多安全产生了怀疑，所以去年晚些时候，他决定测试基因组数据的锁。他从公共研究数据库中提取了10个完整的、据称是匿名的基因组，并将它们与人们提交给一个商业基因家谱重建网站的部分Y染色体DNA片段进行了匹配。因为Y染色体传输从父亲到儿子姓氏一样,做一个匹配不需要在同一个人使它足以推断匿名基因组的姓,然后缩小个体年龄和state-of-residency信息不合法使用考虑识别的研究数据库。埃利希重建了近50个身份，他说，这个过程“比估计的要容易得多”。

类似的结果可以通过将研究基因组与任何其他基因组数据源相结合来实现，比如另一项医学研究或为警方调查或亲子关系测试收集的DNA。除此之外，任何数量的组合都是可能的：基因组数据可以与亚马逊的购买习惯相结合，以针对p具有某种遗传特征或疾病的人，所需的只是偶然或有意地释放基因组数据，通过NAFFU（Netflix面临2009美元的诉讼在2009，当它发布被认为是匿名的电影审查数据，很快被两个德克萨斯大学的研究者重新鉴定）。或者维基解密式的私刑数据转储。由于如此多的基因组数据由家庭成员共享，你姐姐参与泄露的基因组研究也会泄露你的秘密。

在大数据时代,迈尔·舍恩伯格说,“如果一个人选择他的基因组测序,在本质上他是妥协的基因组信息他所有的亲戚,也“开辟了一个伦理裂缝对于任何想捐赠他们的基因组科学,自愿的或代表他们的新生儿。

Vockley和Shmulevich都指出《医疗保险可携带性和责任法案》（HIPAA）是自1996年克林顿总统签署成为法律以来的医疗隐私标准，是防止非感官共享医疗数据的充分保障。但纽约大学法学院的信息和隐私法专家凯瑟琳·斯特兰德堡（Katherine J.Strandburg）认为，从基因组到Facebook之类的大数据，需要一种新的法律保护，这种保护超越了数据收集时所能做出的任何保证（比如说，你在为电子邮件提供商注册时同意的传统通知和同意合同），而是明确禁止未来的滥用。

她说:“人们不知道如何处理收集到的关于他们的信息。”“所以我们真的需要更直接的监管，禁止某些行为，某些信息的使用。”

这可能就是为什么去年秋天，生命伦理的研究总统委员会2009年由美国总统巴拉克•奥巴马(Barack Obama) Issues-created劝其伦理并发症引起的生物医学的进步technology-sent一份备忘录,总统敦促建立州和联邦法律,扩大基因数据的隐私保护而不管它的来源。对霍莉和阿米莉亚来说，幸运的是，在这方面较为进步的法律之一是2008年乔治·w·布什总统签署的《基因组信息非歧视法案》(Genome Information Nondiscrimination Act, GINA)，该法案明确禁止保险公司或雇主基于基因信息进行歧视。与HIPAA不同的是，GINA的工作基于这样一个假设，即所有的数据终有一天都会进入公共领域，因此禁止滥用本身，而不是共享数据。

对Vockley来说，基因组医学的前景大于风险。他认为，在不远的将来，基因组数据将让医生花更多的时间来抵御你可能患上的疾病，而不是击退你已经患上的疾病。他想知道，“如果每个人都有预测，而不是生病，医院会是什么样子?”

因为技术总是超过监管，共享多少数据仍然是只有你，或者你妈妈才能做出的决定。

“我觉得把我的基因组绘制出来会很酷，”霍利·斯隆说。“20年后再问我一次，我是否仍然认为这是个好主意。”

蒂姆·麦克唐奈是琼斯妈妈他在杂志上报道环境科学和政策。

本文最初发表于2013年10月的《秘密密码》(Secret Codes)杂志。

发行021

信息

探索这个问题

第一章
在记录

下一篇文章：

文化

ISIS是如何破坏我的调查问卷的

由丽迪雅威尔逊

选择通讯和提交必威开户官网联系细节…
新的章节星期四每周四，鹦鹉螺号都会根据其每月的主题出版一个新的专题故事章节。注册此列表以了解最新和最棒的最新信息。编辑精选星期天阅读我们过去一周一直在思考的关于鹦鹉螺的故事和博客。

这就是400岁的生活

发行021

信息

探索这个问题

下一篇文章：

ISIS是如何破坏我的调查问卷的

相关文章:

你想让人工智能有意识吗？

机器人的智能生活

为什么电脑写不出好小说