cell
西元 2003 年,人类的 DNA 序列第一次完整的被研究学者排序且绘制成图,造成当时一阵轰动。近十二年来,科学家以及医生无不用尽心思,希望能够从这些 DNA 序列中解答一个他们百思不得其解的问题──到底是什么样的基因突变会造成疾病的产生?而现在,来自加拿大的研究团队运用了多伦多大学新研发的计算技术后,科学家对于这项问题的解答彷佛见到了一道曙光,从中发现了先前无法预测的疾病决定因素,例如自闭症、遗传性疾病等。
若将 DNA 视为一个新的语言,那么它就是一个极艰涩的语言,拥有 30 亿个字母,不同的排列组合都会有不同的意思需要人类去解读。而 Brendan Frey 教授领军的团队在探索人类活细胞是怎么“读取”DNA 后,排列了所有的基因突变可能性,藉此一解在基因上的各种变动可能会造成某些疾病产生。他并指出,先前的科学家急于想找出各种造成疾病的基因突变,却没有真正理性的想去了解“为什么”基因突变会导致疾病的产生,这也是为什么他们总是卡在特定阶段无法再往前迈进的原因。
各个研究团队已知将 DNA 转换成蛋白质的“RNA 剪接(RNA splicing)”过程中,若有任何的混乱或是中断就会造成疾病的产生,而 Frey 与其他科学家的差别就在于研究的采取对象不一样。通常,其他科学家们只研究在最后转译为蛋白质的外显子(exon)突变,却没有去注意到虽未被转译,但也决定蛋白质生成过程的内含子(intron)。Frey 的团队采取与他人不同的方式,检视并研究由内含子主导的剪接过程。
在这个研究过程中,Frey 使用了新的电脑技术“深度学习(deep learning)”,教导电脑在扫描 DNA 的一部份后,读取它的基因指令,了解蛋白质是怎么被拼贴而成,以及那些特定的蛋白质会被生产出来。“深度学习”能学会解读极度复杂的生物和药理关系,被视为这个世代以来最重要的发展。也正因为有了这项新技术的帮助,由来自不同领域的的高手所组成的 Frey 研究团队才能够顺利的完成这项艰难的研究。