在以前的旅途中,我学习到一句话:“人生何处不相逢。”记得以前我在加州圣塔莫尼卡约翰.韦恩癌症研究所任实验室经理(“实验室经理”听起来比“实验室技术员”好听多了)时,我遇到过一位年轻的科学家Andrew
Conrad,他开办了一家公司,名为国立遗传学研究所(当时是1992年或1993年),他们的目标是开发出快速且便宜的基于PCR的诊断方法。 他们有两点让我记忆犹新:一是他们的办公地点位于我曾经长大的地方——洛杉矶西部,另一是他们使用的技术是重用其他设备组件来构建一个快速的热循环系统。当时他们自制了一个系统,利用其他医疗设备(例如透析机等)和水管设施的泵,使大量热水进入循环系统,然后加入处理液体的机器人(记得当时是90年代初,第一个基于96孔板的系统才刚刚出现)。 转眼20年过去,到了2013年3月,Andrew Conrad的名字又出现在Google X
生命科学项目首席科学家的名单里,并且在随后几个月,他的名字频频曝光:接受华尔街日报采访(配有他的照片,其背景是一台流式细胞仪),接受连线杂志采访(文章标题是“我们有望构建Tricorder(手持科学分析仪,在星际迷航电影中,通过这种仪器扫描并收集某一区域的地理、物理及生物信息,编辑注)”,以及最近接受大西洋月刊视频报道,描述他们模拟人体皮肤的工作进展。 然而,有两大问题需要重视:谷歌独特的竞争力是什么? Google X将做何种类型的研究? 谷歌独特的竞争力 去年10月,美国圣地亚哥举办了美国人类遗传学会年会,在此期间,我们赛默飞团队发布了15篇会议相关的稿件。有一场特邀报告是来自谷歌的David
Glaser做的,我之前没有在博客上提到过。该报告名为“跨界混合的经验:大型测序遇见大数据”。David讲了很多有趣的东西,在这里我与大家简要分享一下。 他说,现在基因组学已变成一场涉及数百万人的活动。事实的确如此,目前已经进行的项目有纽约的西奈山医疗中心Resilience项目(在健康人群中筛查致病突变,总目标是筛查100万人),英国的10万基因组计划,以及美国的精准医疗计划(美国总统奥巴马最近宣布的个性化医疗计划)。这些项目都是从数百万人群中寻找突变、遗传图谱、疾病历史以及其他数据。 然后,这名来自谷歌的演讲者演示了大数据挖掘的简要历史,从2004年MapReduce的出现、2005年的Hadoop、2009年的Apache
Spark,到最近2010年谷歌的Google
Dremel,这些都是大数据分析历史上的里程碑。这些大数据到底有多大?我们可以想象数万亿行数据排列在一起是什么样子。而目前对大数据分析指导的原则是:更大、更快、更标准化。 他以YouTube为例形象地阐释了大数据之“大”。目前YouTube每分钟会有时长300小时的视频上传,谷歌的YouTube搜索覆盖的数据超过了100PB(相当于10万个1T的硬盘)。 他们用Dremel和BigQuery工具分析了取自千人基因组计划的1000个公开可用的全基因组测序结果, 研究他们的算法对 1000多个.vcf
文件的处理能力(要知道,每一个全基因组序列包含3-4万个变异)。首先,他们按照不同人群对变异进行分隔,过10秒钟,系统生成一张与以前分析结果一致的图表,随后,生成一张反映所有1000个样本变异信息的图表,并输出不同人群中的杂合性SNP分布。 他接着通过PCA分析,解决了一个100万×100万的问题。现在你应该知道了——谷歌的工程师都是大数据挖掘、搜索的专家,无论他们要找的是YouTube上一个特定的小猫视频,还是在许多样本中某一给定位点的杂合子基因频率。但是,大数据也有难以逾越的瓶颈,他通过以下一张XKCD卡通总结说明了大数据在当前阶段面临的挑战。 |