基因组测序技术的发展,促使越来越多个体基因组序列被测定,不知大家有没有留意过这些样品来源的志愿者,不过现在Whitehead生物医药研究院的一组研究人员指出通过简单的网络搜索,就可以找到这些捐赠DNA的匿名志愿者了。
这项发表于1月18日Science杂志上的研究成果引发了诸多争论,作者认为,让科学家们难以利用到个人基因组资料,会阻碍科学的进步,其实重点应该在于教育捐赠者有关遗传学研究的风险和好处,并且制定恰当使用这些遗传学信息的法规。
领导这一研究的是Whitehead生物医药研究院计算遗传学家Yaniv Erlich,他表示,参与公共测序项目的志愿者们一般都被告知,这种匿名性并没有100%的保证,但其身份被泄露的风险很小,可以忽略不计。
然而,在一篇发表于2005年的华盛顿邮报新闻中,一个十几岁的男孩通过在线族谱搜索工具,找到了其精子捐赠的父亲,这说明这种风险性可能还是比较高的。这篇新闻报道称,这个男孩将其DNA样品提交给了一个家谱搜索服务部门,后者利用男孩的Y染色体中的重复序列,在自己的序列数据库中寻找相匹配的人,虽然这个搜索并没有直接找到他父亲,但是却搜索出了两名同姓的男子。追踪这个信息,男孩就能找到并联系上他的父亲。
“我们听说了这个故事,就想,哇,这可能是对个体基因组(隐私)的一个威胁,”Erlich说。
为了验证要找到DNA捐赠者的身份是否十分容易,Erlich研究组研发了能从全基因组序列中检索Y染色体重复的软件,通过寻找这些重复序列,他们就能进行家谱搜索了。“然后我们就想,尝试一下Craig Vente的基因组搜索吧,结果它起作用了!”
研究人员在Ysearch.org中搜索可用的家谱序列数据库,果然,通过这一迄今为止最强的匹配,他们找到了来自英格兰林肯郡的Venter,将这个姓氏,与Craig Venter的年龄和居住地结合起来(这两种信息一般与匿名人基因组序列一起公布),然后研究人员利用网上公开记录,USsearch.com,就将范围缩减到了两个人,其中一个就是Craig Vente。
之后他们通过进一步以实验,利用他们的软件搜索DNA序列的志愿者,通过年龄和所在地的匹配对每一个姓氏可能的个人进行了确认,结果确定了大约50名志愿者的身份。Erlich说,“最重要的一点,是一切都公开。我们没有入侵任何数据库,我们也不需要任何特殊的密码。”
虽然要识别某个人的身份的几率依然很低,但是这项研究提出了是否还需更多注意捐赠者意思的问题,不过来自哈佛医学院的遗传学教授George Church(未参与该项试验)表示,这没有多大意义,“可以尝试修改协议”,比如保留参加者年龄等信息,“但是这只是蒙上一层纱布,最终还是很容易找到他们,”他说。(生物谷Bioon.com)
DOI: 10.1126/science.1229566
PMC:
PMID:
Identifying Personal Genomes by Surname Inference
Melissa Gymrek1,2,3,4, Amy L. McGuire5, David Golan6, Eran Halperin7,8,9, Yaniv Erlich1,*
Sharing sequencing data sets without identifiers has become a common practice in genomics. Here, we report that surnames can be recovered from personal genomes by profiling short tandem repeats on the Y chromosome (Y-STRs) and querying recreational genetic genealogy databases. We show that a combination of a surname with other types of metadata, such as age and state, can be used to triangulate the identity of the target. A key feature of this technique is that it entirely relies on free, publicly accessible Internet resources. We quantitatively analyze the probability of identification for U.S. males. We further demonstrate the feasibility of this technique by tracing back with high probability the identities of multiple participants in public sequencing projects.