GeneOntology 分析
随着后基因组(post-genomics)时代的来临,多种生物genome的相继解码,同时大量ESTs以及gene expression profile date的积累,基因组学的研究重心开始从阐明所有遗传信息转移到在整体分子水平对功能进行研究。这种转变的一个重要标志是产生了功能基因组学(functional genomics)。功能基因组学的主要任务之一是进行基因组功能注释(genome annotation),了解基因的功能,认识基因与疾病的关系,掌握基因的产物及其在生命活动中的作用等。快速有效的基因注释对进一步识别基因,研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,预测和发现蛋白质功能,揭示生命的起源和进化等具有重要的意义。
研究人员已经掌握了大量的全基因组数据,同时关于基因、基因产物以及生物学通路的数据也越来越多,解释生物学实验的结果,尤其从基因组角度,需要系统的方法。目前大多数基因在不同真核生物中拥有共同的主要生物功能,通过在某些物种中获得的基因或者蛋白质(shared protein)的生物学信息,可以用以解释其他物种中对应的基因或蛋白(especially in comparative genomics)。由于这些繁复的功能信息主要是包含在积累的文献之中,如何有效的提取和综合这些信息就是我们面临的核心困难,这也是GO(GeneOntology)所要着力解决的问题。
1、GO简介
基因本体数据库是GO组织(Gene Ontology Consortium)在2000年构建的一个结构化的标准生物学模型,旨在建立基因及其产物知识的标准词汇体系,涵盖了基因的细胞组分(cellular component)、分子功能(molecular function)、生物学过程(biological process)。GO数据库最初收录的基因信息来源于3个模式生物数据库:果蝇、酵母和小鼠,随后相继收录了更多数据,其中包括国际上主要的植物,动物和微生物基因组数据库。同时GO术语在多个合作数据库中的统一使用,促进了各类数据库对基因描述的一致性。
由于GO是一种整合性的分类系统,其下的3类主ontology虽然说是独立的,但是无论是GOC原初的设计还是我们的使用中其实都还是存在一定的流程关系。一个基因/蛋白质或者一个ontology在注解的过程中,首先是考虑涉及在构成细胞内的组分和元件 (cellular component),其次就是此组分/元件在分子水平上所行使的功能 (molecular function),最后能够呈现出该分子功能所直接参与的生物过程(biological process)。由于这是一种存在反馈机制的注释过程,并且整个系统是动态开放实时更新的,因此在某种程度上说它具有纠错的能力。
2、GO富集
对于一列基因或者蛋白质,通过GO分析很容易得到他们的分布趋势,一般可以通过WEGO或者饼图和柱形图等形式展现出来。比如功能A的分布比率高于功能B,但是根据这个比率认为A的比率高于B的结论通常是错误的,这些比率说明不了问题,如果把整个物种的基因或者部分基因的分布做为背景进行考虑的话,可能功能B更有意义一些。这个时候就需要进行富集分析。
富集分析方法通常是分析一组基因在某个功能结点上是否过出现(over-presentation)。这个原理可以由单个基因的注释分析发展到大基因集合的成组分析。由于分析的结论是基于一组相关的基因,而不是根据单个基因,所以富集分析方法增加了研究的可靠性,同时也能够识别出与生物现象最相关的生物过程。
以蛋白质组学为例,差异蛋白的功能富集分析是将差异蛋白列表中的蛋白与参考物种的全部蛋白列表或实验鉴定到的所有蛋白列表根据GO功能的注释结果进行对照比较,通过Fisher精确检验 (Fisher’s Exact Test),得出两者差异的显著性,从而找到这个差异蛋白列表中富集的功能类别条目,找到一个蛋白列表的功能特性。不同于蛋白功能注释以蛋白为单位进行注释,差异蛋白的功能富集分析以GO功能条目为单位,结果可以直接揭示整个差异蛋白列表中蛋白的整体功能富集特征。
3、相关问题
Q1. GO注释之前,为什么要先进行序列比对(BLAST)?
在进行功能注释和通路注释之前,我们会先将差异蛋白与合适的数据库中的蛋白序列进行比对。目的一:很多物种目前研究的程度还很有限,关于这些物种的蛋白注释信息还很不完善。根据相似性原理,具有相似序列的蛋白可能也具有相似的功能,因此,我们可以将BLAST所得的同源蛋白的注释信息转嫁到我们关注的差异蛋白上,来完成对于差异蛋白尤其是研究程度不足的物种的差异蛋白的注释。目的二:我们在查库过程中,为了得到更多的蛋白质鉴定信息,我们大多使用UniProt数据库(含SwissProt和TrEmbl:SwissProt中的蛋白均经过人工校验,数据可靠性高,注释完整;TrEmbl由基因组序列翻译而来,未经人工校验,注释信息不全)或NCBI Protein数据库(用户可任意提交序列,有冗余,信息不完善,质量很难保证),BLAST一方面可以帮我们提高后续的注释效率,另一方面也可以帮助客户大致了解所鉴定的蛋白可能的名称和功能(尤其对于uncharacterized protein,predicted protein,putative protein等)。
Q2. GO注释的意义?
对鉴定到的蛋白或者差异蛋白进行GO注释,其宗旨是为了帮助我们了解这些蛋白。可能的应用包括:
一,例如,某客户对某差异蛋白A非常感兴趣,通过在GO注释的结果中(protein2GO表单)查询蛋白A的注释信息,即可得知蛋白A可能具有的功能、可能参与的生物学过程,以及该蛋白所在的亚细胞定位。
二,根据课题的设计和先验知识,客户可能对某个生物学过程(例如:离子运输)非常感兴趣,可以通过在结果中(BP表单)查询ion transport这个GO term下包含哪些蛋白,并对这些蛋白进行深入研究。
三,客户拿到质谱数据分析结果后,可能对于后续的分析没有方向,这种情况下可以通过在注释结果中查询哪些功能类别包含的蛋白数目较多,可以从这些功能类别和蛋白入手进行重点研究。
四,GO注释可以为课题的设计和实验结果的合理性提供证据。
Q3. GO和GOslim的区别?
GOslim是简化的GO子集,是经过科学家人工筛选的一部分GO term。简单的说,GOslim去除了一些比较细枝末节的GO term,更着重研究level更高、相互关联的GO term,以及与物种更为相关的GO term(Plant,Candida albicans,Schizosaccharomyces pombe,Yeast,Aspergillus,Metagenomics)。GOslim对于大规模组学的研究很有意义(比如全基因组、全蛋白组),不至于相关的功能类别太多反而忽略了重点。通常情况下,我们的分析只针对几十个到几百个差异蛋白进行重点注释,GO和GOslim的结果差别不大。
Q4. 为什么有些蛋白没有GO注释信息?
目前对于蛋白质的功能研究还有限,尤其是非模式生物。为了提高注释率,根据序列相似的蛋白可能具有相似的功能的原则,我们已经在注释前对目标蛋白序列进行了blast,并利用足够相似的比对序列的注释信息对目标序列进行注释。此外,我们还采用了查找InterPro数据库中的保守motif的方法对难以注释的蛋白进行注释。但是仍然有少数蛋白,对于该蛋白,或者同物种中也之相似的蛋白,或者其他物种中的同源蛋白的研究依然十分不足,所以以目前的研究水平难以获得注释信息。