简历阅读- - -为了预防疾病,数据是新药

关闭

你已经阅读了每月两篇免费文章中的一篇。学习更多的知识。

关闭

为了预防疾病,数据是新药

放弃你的生物学秘诀太痛苦了吗?

关于阿米莉亚·斯隆的几个关键数据:她喜欢吮自己的脚趾。她穿着粉红色的芭蕾舞裙。她不接受记者的采访。由蒂姆•麦克唐奈……

一个关于阿米莉亚·斯隆的几个关键数据:她喜欢吮自己的脚趾。她穿着粉红色的芭蕾舞裙。她不接受记者的采访。她于2013年4月25日下午6点54分出生在弗吉尼亚州的福尔斯彻奇,体重8磅2盎司。阿米莉亚准时来到了这个世界,但并不是她所有的金牛座同胞都准时来到了这个世界,这个事实也提出了其他关键的数据:在美国,每年大约有50万婴儿早产。出生时,每个人的重量还不到一个两升的汽水瓶。据估计,它们每年耗费医疗系统260亿美元。其中超过33万人在第一年就夭折了,剩下的许多人一生都在遭受健康和认知问题的折磨。医生们也不知道原因。

为了解开这个谜团,阿米莉亚出生的医院的科学家们正在梳理另一个数据集:将她健康的新生儿基因组中的数十亿分子与早产儿基因组进行比较。总的来说,这些数据本身只是医学科学家收集的大量基因组数据中的一个小点,而这些数据的规模在几年前还不可能达到。一群新的医学研究人员认为,检查尽可能多的人的完整基因信息,不仅会揭示从早产到癌症和自闭症等健康问题的治疗方法,还会揭示预防这些问题完全发生的预测性洞察力。

你身体的一切,从你重要器官的基本结构和功能,到你的眼睛和皮肤颜色,都被编码在一条独特的链上,由30亿个核苷酸分子组成,核苷酸有四种口味,分别由字母a、T、C和g代表。核苷酸拼出了一个蓝图——你的dna——它完全相同地排列在你的数万亿个细胞中。DNA和解码它的RNA一起组成了你的基因组,RNA使你的身体可以制造蛋白质和其他生物分子。反过来,你的基因组又被分成称为基因的功能块。当蓝图写得恰当时,你可能会忘记它的存在:你会长出四肢,消化食物,生出健康的孩子,做我们人类身体能做的所有其他事情。但是,就像一部小说的手稿可能会有拼写错误,从而混淆了它的意思一样,你的基因组中的打印错误,从父母那里遗传下来的或在怀孕时引入的,可能会给你带来糖尿病或肥胖等疾病。对研究阿米莉亚的科学家来说,找到治疗方法首先要识别这些错误。

20年前,阿米莉亚基因组的保管人、分子生物学家乔·沃克利(Joe Vockley)开始研究遗传学时,科学家们寻找基因故障,就像在黑暗的房间里用手电筒寻找丢失的袜子一样:在这里和那里发光,直到你找到它。但是现在,Inova转化医学研究所(ITMI)的首席科学官Vockley希望,大量的数据将揭示疾病的根源,而不必对可疑基因进行无休止的反复测试。Inova转化医学研究所是该国最大的医院网络之一中的一个非盈利组织。使用所谓的“大数据”就像打开泛光灯寻找你的袜子。有了正确的遗传标记,临床医生可以对女性的基因组进行取样,预测其早产的机会,然后采取措施预防早产。

“我们正试图从医学实践走向医学科学,”Vockley说。“我认为,基因组医学,以其预测和预防的原则,将重新定义这个国家的医学实践。”

恐惧:在未来,你的基因信息可以像谷歌搜索一样提供给健康保险公司,希望以你为代价降低风险。

但是像这样的努力已经引起了隐私专家的愤怒——其中一些人已经对国家安全局收集数百万电话记录和Facebook连接的行为大为光火。恐惧:在未来,你的基因信息就像你的谷歌搜索一样容易被营销人员、警察部门和身份窃贼获取,更不用说医疗保险公司和雇主为了降低风险而牺牲你。虽然Vockley对一个新基因组所做的第一件事就是去掉它的标识符,比如名字,但并不能保证这些数据能够或将永远保持匿名。今年1月,麻省理工学院(MIT)的数据科学家亚尼夫·埃利希(Yaniv Erlich)“重新确认了近50人的基因组”(合法地“破解”了身份),这些人曾参与过Vockley 's等研究,方法是将匿名基因组与姓氏和来自遥远家庭成员的部分基因组数据连接起来,这些数据可以在一个家谱网站上公开。“我们将进入基因信息无处不在的时代,”埃利希说。

早产只是一个开始:今天,ITMI正在从其他患者那里收集数以万计的基因组,以找到癌症、糖尿病、骨关节炎和心血管疾病的根源。它还进行了一项研究,在婴儿出生的头两年反复取样,以观察基因的功能在这段时间内是如何变化的。Vockley估计,他的实验室总共生成了世界上超过10%的人类基因组数据。随着一个新的内部DNA测序设备正在建设中,他希望到明年年底将这个数字提高到15%。

如果Vockley成功了,他可能会改变无数早产儿的生活。但对阿米莉亚和其他人来说,这些潜在的收益值得冒着出生那天一样赤裸着身子站在数据上的风险吗?


骑行数据波

我们在前往未来的途中,大规模的数据处理将不仅仅是医学研究,而且几乎是社会的各个方面。Viktor Mayer-Schönberger, a data scholar at the University of Oxford’s Oxford Internet Institute, says we are in the midst of a fundamental shift from a culture in which we make inferences about the world based on a small amount of information to one in which sweeping new insights are gleaned by steadily accumulating a virtually limitless amount of data on everything.

为了表明,Mayer-Schönberger在19世纪中期的一年中发现了一座盐剥盐日志的缓存,这是一个明亮的年轻海军军官,这是一个明亮的年轻海军官员于1839年陷入斯塔科赫事故。局限于仓库的一张桌子of Charts and Instruments in Washington, D.C., Maury noticed that the Navy’s standard routes, navigated mainly by tradition and superstition, were often meandering and nonsensical. Frustrated, he pored over long-ignored logbooks, and was amazed to find countless entries on water and wind conditions in different times and places—data—that in aggregate clearly revealed when and where the most efficient routes would be. By the end of his investigation, Maury had plotted 1.2 million data points (literally by hand) and permanently transformed U.S. military navigation.

他们的工作是削减惊人的遗传数据,以雕刻与患病人群密切相关的变体,而不是健康的遗传数据。

现在想象一下,如果莫里不仅收集了他在航海日志中发现的数据,还收集了与航海相关的每一个数据,地球上每一个地方的每一个风速和水深。永远。他的实验结果应该是完美无缺的,但他的羽毛笔可能无法胜任这项任务。样本容量的统计概念只是因为收集才有必要全部比如,关于投票行为的数据,长期以来都是不可能的。由于最近数字存储和处理技术的进步,情况不再如此。

收集所有信息的价值表示,Mayer-Schönberger是出版了一个有名的令人详尽的论文大数据“你不必担心偏见或随机化。你不必担心事先要有一个假设,一个结论。”如果你把所有的东西都看一遍,景观就会变得清晰,图案就会自然而然地出现。

2009年,随着猪流感席卷全球,谷歌有机会将这一理论付诸实践。那里的分析人员发现,他们只使用搜索查询就能预测疫情即将发生的地方。结果证明,这一结果是准确的,足以让公共卫生官员提前知道这种疾病会在哪里出现。预测能力最终取决于45个搜索词,包括“流感并发症”、“感冒/流感药物”和“抗生素药物”,这些搜索词开始在谷歌服务器上集群出现。总的来说,这些术语与搜索者所在地区即将爆发的流感密切相关。

当你在谷歌上搜索“流感疗法”时,你会发现流感并不奇怪,谷歌的研究意义在于如何it identified these terms out of the 50 million most common search queries in the U.S.. Rather than hypothesizing suspect terms, testing for correlation, and slowly building up a list, researchers developed an algorithm (stepwise instructions for a computer to filter data) that looked simultaneously at all queries on any topic and found those that correlated in time and place to public health records on flu outbreaks. The right terms—virtually all of them—found themselves. With the floodlights on, all the guesswork was gone.


基因组学时代的数据

这一切都没有在Vockley和他的团队中丢失。他们正在筛选近1,000个新生基因组,包括Amelia,从Inova的Fairfax医院,一个庞大的砖和混凝土迷宫,VA庞大的砖和混凝土迷宫,在华盛顿,D.C.的郊区边缘。在这里,医生治疗癌症,替换关节和移植的心(包括去年,迪克切尼的心脏)。

Vockley就是在这样的医院长大的他最早的一些记忆来自于他在匹兹堡郊区度过的童年时光,那时候他的家人来看望他,为了去除痛苦的骨骼生长,他不得不多次接受手术。这种生长可能会变成致命的癌症,它是由一种名为多发性软骨外骨骼的遗传疾病引起的。虽然Vockley没有遗传这种疾病,但它已经在他的家族中代代相传。所以,即使还是个孩子,Vockley也明白一个家庭的不幸可能是由他们细胞深处的神秘故障造成的。

“这是学习遗传学的艰难途径,”他说。

这段经历点燃了他的火花,使他获得了博士后奖学金,并在加州大学洛杉矶分校(UCLA)获得了遗传学临床实习期。到20世纪90年代初,他在SmithKline Beecham(现在的葛兰素史克,世界上收入排名第十的制药巨头)找到了一份工作,在那里他搜索了一个与癌症相关的部分基因组的小数据库。第一个完整的人类基因组直到2003年才被测序,但Vockley已经了解了其潜力。他掌握的数据越多,发现的就越多。

到2010年他来到Inova时,全基因组测序技术已经真正实现了。为了将病人的血液样本转换成数字文件,实验室的技术人员去除白细胞,用化学方法熔化除DNA和RNA(基因组)之外的所有东西。他们把它分成几块,然后在每一端贴上实验室生成的非人类DNA。这种DNA与玻璃板上的互补DNA结合,将人体样本锁定在合适的位置。然后他们使用一种聚合酶,这种酶每次细胞分裂时都会复制你的基因组,然后大量生产出一个精确的复制品。聚合酶经过修饰,在它复制的每个核苷酸上添加荧光标记,这样每一个新的a、T、C和G都有颜色编码。这些颜色由超高分辨率相机采集,一个基因组数据文件就诞生了。这个过程对每个不同的样本重复30次,以纠正错误或误读。

当Vockley在Smithkline Beecham时,只测量10,000个核苷酸 - 只有0.00033%的全基因组 - 服用18小时。如今,测序机可以通过450亿个核苷酸(约为一个样本所需的一半,给出一个样本所需的一半),因为在相同的时间内,由于工程进步,使得可以一次处理许多样品。随着效率的增加,成本下降了数量级:2001年测序一个完整的人类基因组成本约为1亿美元;今天价格标签不到10,000美元。

有了这项技术,Vockley在Inova发现了一群热衷于将大数据分析应用于医疗问题的科学家。他还发现了很多婴儿——每年大约有1万名婴儿出生在那里,使它成为全国最繁忙的新生儿设施之一,这也是他一直在等待的机会。在Inova的家乡弗吉尼亚州,每年大约有12%的婴儿早产,这是全国平均水平的一个缩影。Vockley说,几十年来,早产一直是一种棘手的疾病;近30年来,尽管产前护理取得了突飞猛进的改善,但发病率却没有变化。

“人们正在做的每一件事,都没有产生影响,”他说。“所以问题是,我们能否在基因组学领域找到改变结果的方法?”


预防早产儿

到2010年,Vockley和他的团队制定了一项计划,挖掘早产的基因根源。他将收集来自母亲、父亲和婴儿的数千个基因组,并以谷歌Flu Trends发现预测性搜索词的方式找到模式:同时查看所有数据。

两年前,他的团队开始在医院的产科病房里漫游,寻找那些不仅愿意透露自己的基因组,还愿意透露孩子基因组的孕妇。然后,技术人员收集了参与研究的父母的血液和唾液样本,并在婴儿出生后的一到两天内收集了他们的血液和唾液样本,以此来对基因组进行排序。

Vockley现在在研究中有2710个基因组,包括881个母亲和父亲以及948个婴儿,并且仍在从任何愿意前来的早产儿身上采集样本。单是DNA就包含了惊人数量的数据:30亿个核苷酸乘以2710个参与者就等于8.1万亿个a、C、T和Gs。

这些发现的预测能力表明,与目前主要依靠猜测的做法相比,有可能发生巨大的转变。

比较任何两个人,他们的绝大多数DNA序列将是相同的;毕竟,我们是同一物种。但是大约10000多字母块的3 billion-letter DNA字符串因人而异,主要基于血统(两个白人从纽约。北部人口有史以来第一次人类基因组sequenced-will彼此有更多的共同点比和一个女人从津巴布韦,例如)。这些不同的部分被称为“变异”,Vockley的目标是从良性的多数中筛选出致病的少数。

为了做到这一点,他雇佣了一个由40名生物信息学家组成的团队,这是一群受过计算机编程和生物学训练的专业软件工程师,他们首先将早产儿研究中的每一个新基因组放入两个数字领域:“患病的”(早产)和“非患病的”(全月)。然后,他们的工作就是从这一大堆惊人的基因数据中挖出与患病人群密切相关但与健康人群无关的变异。

他们首先编写一个算法,将所有2710个基因组堆叠在一起,并同时查看它们。这使得计算机能够过滤出每个人身上相同的序列。这就是大型数据集的好处所在:如果只有少数几个基因组可以使用,那么它们之间的任何相似或差异都可能是偶然的结果。但如果在所有2710个基因组中都出现了完全相同的序列,那么它很可能是所有人类的共同点,因此不是疾病的一个因素。

下一步是过滤吞噬祖先的变化,巴黎人之间的差异,比如说,和津巴布韦。在这里,瓦克利利用了D.C.地铁地区的种族多样性;在预先出生的参与者中,从77个不同的国家举行冰雹,可以解释并筛选出许多基于祖先的差异。

Vockley说:“突然之间,你从10000个变种”,可能与参与者之间的任何数量的差异有关,“到100个”,更有可能与疾病有关。

同时,不同的算法在基因组中搜索每个桶中的共同点,即所有前期家族共享的变体,但在任何全期家族中都找不到。锁定直接原因前期出生只是挑战的一部分:Vockley也对变种感兴趣相关患病;这些相关性可能不会直接导致预期出生,但可以用作红色旗帜,以观察怀孕的特殊护理。完全是,这种消除过程产生了20个基因组变体,瓦克利认为在预期出生中发挥作用,他计划在同行评审期刊中发布自然遗传学这个冬天。其中包括影响胎盘发育和母亲子宫颈长度等物理因素的变异,以及母亲和胎儿之间的生化失衡。如果一名妇女的这些基因的任何组合检测呈阳性,这可能意味着她早产的风险增加。

这些发现的预测能力表明,与目前主要依靠猜测的做法相比,有可能发生巨大的转变。有了数据和它所讲述的故事的支持,医生可以开出定制的治疗方案,大大增加安全成功分娩的几率。可以开发新的药物来提前纠正失衡,提醒分娩护士警惕风险,可以为并发症做好准备,而不是在最后一分钟匆忙适应它们。

“反应性药物是我们目前所拥有的,”Vockley说。“你生病了,我们给你治疗。我们的目标是让你不生病。”


癌症的线索

世界上最先进的数据挖掘项目之一将这种分析应用于癌症。铅genomicist Ilya Shmulevich,指导基因组数据分析中心(National Institutes of Health)的癌症基因组图谱,说这个项目出生的挫败感癌症研究人员被迫共享,缺乏数据,研究癌症的一个有缺陷的基因,尽管人们怀疑这种疾病实际上是许多基因组故障同时发生的结果。

他说:“为了了解癌症中系统的哪个部分被破坏了,我们必须衡量这个系统的一切。”

麻省理工学院的“黑客”重建了近50个身份。他说,这个过程是“比估计更容易”。

在过去的几年里,NIH团队从世界各地1万名癌症患者的20种不同类型的癌症中获得了完整的基因组数据。为了弄清是什么导致了这种疾病,科学家们对患者健康细胞和肿瘤扭曲的基因组进行了测序。结果已经陆续出炉。10月中旬,圣路易斯华盛顿大学医学院(Washington University 's School of Medicine In St. Louis)的科学家们利用癌症基因组图谱(The Cancer Genome Atlas)的数据,发现了12种主要癌症类型中常见突变的127个基因。这一发现为一种可以在早期发现更多癌症的单一测试奠定了基础。这样的研究也为基于肿瘤独特分子特征的靶向药物的研制铺平了道路。

在整个寿命中保持相同的和测序基因仅是预测和预防遗传疾病的第一步。同样重要的是:读取基因的DNA蓝图的RNA分子,创造功能蛋白质,从形成组织到对抗细菌疾病。随着时间的推移,这些翻译分子因饮食和压力等环境条件而变化。从现在开始对同一个人进行抽样,从现在开始一次可以显示出毫无不同的画面。Shmulevich在您从健康状况到疾病状态时会享有巨大的潜力。大型基因组数据可以揭示以前在细胞的行为中的看不见的模式,就像大规模的交通数据可以帮助你的GPS导航员找到最有效的路线。使用数据,医生可以告诉你在出现任何症状之前,你很快就会“下降”癌症。


大数据的未来

像Shmulevich这样的数据爱好者说,我们即将实现这样的未来:为每一个走进诊所的病人获取整个基因组信息将是廉价、快速和简单的;一群生物科技初创公司正在竞相推出首个100美元的基因组,这可能只需要几年时间。对Vockley来说,这将为医生对抗疾病提供前所未有的战略优势,避免任何需要在黑暗中打针。与精心挑选数据来回答预先设定的问题的小型统计样本不同,大规模数据收集在揭示信息方面没有限制;今天由ITMI和癌症基因组图谱收集的基因组数据,明天可能被用于研究其他疾病,如糖尿病或肥胖。

但大数据的长期保存期也让它暴露在不可预见的风险中:不择手段的玩家可以利用它在你发病前提高医疗保险费,在你拖欠贷款前拒绝信贷,或者,在梅耶·舍恩伯格(Mayer Schönberger)个人最喜欢的启示录场景中,在“罪犯”犯罪前惩罚他们,所有这些都基于您的大数据档案。思考少数派报告,但纯粹的数据而不是怪异的浮纹岩石发出预后。换句话说,真正的风险不是NSA将知道您在工作期间对您的男朋友进行了长途电话,但您可能永远不会被聘用,因为您的数据配置文件可能会有人做出这样的电话。

将基因组数据添加到其中关于您的混合中,您可以提高有一天它可以用于原始研究以外的目的的风险。梅尔-Schönberger说,“这不是人类一定会变得更加赤身赤身裸体,更接受训练。”“我们作为一种人类的社区变得更加裸体。这是互动,社会中的动态将被暴露。“

阿米莉亚·斯隆在她出生的第二天就成为了大数据时代的一员。还在医院的时候,她为早产研究提供了血液和唾液样本,这是她的母亲霍莉(Holly)自愿参加的。霍莉有充分的理由签约:她自己在这家医院做了5年的接生护士,已经为数十起早产做好了准备,而且太频繁地目睹本应是欢乐的家庭聚会变成了葬礼。

她说:“刚开始的时候,我很害怕,因为他们出来的时候非常小,有那么多设备,那么多人,你会想,‘这个小婴儿到底是怎么活下来的?’”

霍莉不想再问自己这个问题了。因此,她、她的新生儿和一些家庭成员向Vockley的研究提供了他们的基因组,并承诺在与其他研究人员分享之前,这些数据将是匿名的。但这可能只是一厢情愿的想法。事实上,要想保护你的基因组不被窥探,可能已经太晚了。正如麻省理工学院的埃利希所指出的,当这些数据被置于与他们有关的所有其他数据的背景之下时,参与者从他们的基因组“匿名化”中获得的安慰就会减少。

埃利希的职业生涯始于银行雇佣他侵入银行系统,寻找安全漏洞。这段经历让他对数据集到底有多安全产生了怀疑,所以去年晚些时候,他决定测试基因组数据的锁。他从公共研究数据库中提取了10个完整的、据称是匿名的基因组,并将它们与人们提交给一个商业基因家谱重建网站的部分Y染色体DNA片段进行了匹配。因为Y染色体传输从父亲到儿子姓氏一样,做一个匹配不需要在同一个人使它足以推断匿名基因组的姓,然后缩小个体年龄和state-of-residency信息不合法使用考虑识别的研究数据库。埃利希重建了近50个身份,他说,这个过程“比估计的要容易得多”。

将研究基因组与任何其他基因组数据来源结合起来,也可以获得类似的结果,比如另一项医学研究或为警方调查或亲子测试收集的DNA。除此之外,任何数量的组合都是可能的:基因组数据可以与亚马逊(Amazon)的购买习惯相结合,以针对具有特定基因特征或疾病的人进行营销活动。它所需要的只是通过一场混乱(Netflix在2009年面临50亿美元的诉讼,因为它公布了据称是匿名的电影评论数据,但很快被两名德克萨斯大学的研究人员重新确认)或一个维基解密式的义务人员数据dump。既然如此多的基因组数据是由家庭成员共享的,那么你妹妹参与泄露的基因组研究也会泄露你的秘密。

在大数据时代,Mayer-Schönberger说:“如果一个人选择了他的基因组测序,他实质上也妥协了他所有亲属的基因组信息,”这对于任何想到捐赠他们的人来说,这是一个道德的裂缝。基因组到科学,或代表他们刚出生的婴儿同意。

Vockley和Shmulevich都提到了《健康保险可携带和责任法案》(HIPAA),这是自1996年比尔·克林顿总统签署成为法律以来的医疗隐私标准,是防止非自愿医疗数据共享的充分保障。但信息和隐私法专家,比如纽约大学法学院的凯瑟琳·j·斯特兰德伯格(Katherine J. Strandburg)认为,从基因组到Facebook上的“赞”,需要一种新的法律保护,这种保护超越了在数据收集时可以做出的任何保证(比如,你在签署电子邮件提供商时同意的传统通知和同意合同),并明确禁止未来的滥用。

“人们不知道关于他们收集的信息,”她说。“所以我们真的需要更多的直接监管,在某些类型的实践,某些信息的情况下,根本不允许。”

这可能就是为什么去年秋天,2009年,美国总统巴拉克·奥巴马(Barack Obama)成立了生物伦理问题研究总统委员会,就生物医学技术进步引起的伦理问题向他提供建议。该委员会向总统发送了一份备忘录,敦促制定州和联邦法律,扩大对基因组数据的隐私保护,无论其来源如何。对霍莉和阿米莉亚来说,幸运的是,在这方面较为进步的法律之一是乔治·W·布什总统在2008年签署的《基因组信息不歧视法》(GINA),该法明确禁止保险公司或雇主基于基因信息的歧视。与HIPAA不同,GINA的工作假设是,所有数据都有一天会进入公共领域,因此禁止滥用数据本身,而不是共享数据。

对于Vockley,基因组医学的承诺超过了风险。他看到一个不太遥远的未来,基因组数据将让医生花更多的时间,从而降低你可能会得到你已经拥有的疾病。“医院会看起来像什么,”他奇怪,如果每个人都有预测,而不是患病?“

因为科技总是超越监管,分享多少数据仍然是只有你,或者也许是你的妈妈才能做出的决定。

“我以为让我的基因组映射会很酷,”霍莉斯斯隆说。“如果我仍然认为这是个好主意,那就在20年内再次问我。”


Tim McDonnell是一个副本制作人妈妈琼斯杂志,他涵盖了环境科学和政策。

1评论 - 加入讨论