全长转录组测序(Iso-Seq)是基于PacBio Sequl II的单分子实时测序技术。该平台凭借超长读长的优势,无需打断RNA分子,直接对反转录的全长cDNA测序,即可得到从5'末端到3'PolyA尾的高质量全长转录本序列,从而准确鉴定异构体,可实现对可变剪切(Alternative Splicing, AS)、可选择性多聚腺苷酸化(alternative polyadenylation,APA)、可变转录起始位点(Alternative Transcription Start Sites ,ATSS)等多项二代测序所无法实现的分析能力,打开了一扇通往RNA世界的新大门!
技术优势:
1. 三代测序无需组装可获得准确度大于99%的高质量转录本(HQ high-quality isoforms)
2. 使用全新Iso-Seq3分析流程,获取全新分析手段
3. 使用全新的全长转录本的功能分析(FIT Functional Iso-Transcriptomics analysis)
4. 数据分析多种选择,定制分析内容
分析内容
基本分析:
1、 获得高质量全长转录本
2、 全长转录本与基因组比
3、 全长转录本去冗余
4、 转录本结构注释
5、 新转录本预测
6、 融合基因鉴定
7、 剪切位点分析
高级定制分析:
1、AltTP分析
2、功能多样性分析(FDA)
3、差异和异构体差异表达性分析(DE/DIU)
4、富集分析
5、特征差异表达性分析(DFI)
6、polyA差异表达分析(DPA)
7、转录水平功能机制分析
展示与解读
1:Iso-Seq基本分析
(1) 获得高质量全长转录本示意图: 
我们将质控过后的数据ROI,按照是否含有 3´引物和 5´引物,及 3´引物前是否含有 polyA 尾将 ROI 分为全长转录本和非全长转录本;按照序列内部有无测序引物将 ROI 分为嵌合转录本和非嵌合转录本;对 ROI 分类后,取全长非嵌合的转录本进行聚类,去掉一部分冗余的转录本;为了提高序列的准确性,聚类后的全长非嵌合转录本可以用非全长的转录本进行序列矫正,最终获得高质量的全长转录本和低质量的全长转录本。详细的分析流程如下左图:
通常情况下,全长转录本长度分布和数目可以反应cDNA 文库构建的情况以及测序质量的好坏。ROI分类后的全长转录本长度分布应与与建库大小相一致,片段越长的文库获得的全长转录本就越长。此外,全长转录本占 ROI 的比例与文库类型也有关,通常情况下,1-2k 文库中所占的比例在 50%-70%,3-5k 文库中所占的比例在 30%左右。
(2)全长转录本与基因组比对
对于整合的全长转录本,我们与相应的参考基因组比对(Li 2017),获得比对结果如下表:
表3.3.1 与参考基因比信息统计
| sample | Total number | unmapped number | mapped number | Total mapped rate |
| Sample1 | 204889 | 18564 | 186325 | 90.94% |
| Sample2 | 251683 | 24486 | 227197 | 90.27% |
由于全长转录本在聚类过程中会发生同一转录本分配到不同cluster中,以及3‘端不同长度的polyA,5‘端差异同样可能导致同一转录本的分配位置差异,使冗余序列产生。
图3.4.1 去冗余示意图3.5 转录本结构注释
将得到的全长非冗余转录本序列通过 minimap2 软件比对到参考基因组上,进行转录本结构注释。根据转录本和参考注释信息比对,得到如下注释类型:
图3.5.1注释类型示意图 图3.5.2 转录本类型分布图 FSM: 完全匹配上参考序列的转录本ISM:部分匹配上参考序列的转录本NIC: 新型转录本亚型,与参考序列有部分外显子重叠NNC:新型转录本亚型,至少有一个新型剪切位点Genic Intron: 内含子序列Genic Genomic: 部分匹配到外显子和内含子区域序列根据注释类型,NIC和NNC类型转录本即为新转录本,统计如下:表2 新型转录本统计
| ID | Gene | Transcript | Category |
| PB.1.2 | SNCA | ENST0092 | Novel |
| PB.1.3 | SNCA | ENST0093 | Novel |
| PB.2.1 | TP53 | ENST0102 | Novel |
注释: ID: 软件自定义转录本id名称Gene:reads对应基因名称id Transcript:reads对应转录本id Category:鉴定reads类型融合基因是指将两个或多个基因的编码区首尾相连.置于同一套调控序列(包括启动子、增强子、核糖体结合序列、终止子等)控制之下,构成的嵌合基因。融合基因通过染色体变异形成的,包括染色体易位、倒置、大片段缺失和插入等。自从发现周期性融合基因 BCR-ABL1 表达将导致慢性髓细胞性白血病(CML)以来,越来越多的肿瘤的发生都与基因融合相关。因此检测融合基因对应研究肿瘤发生有重要意义。表3 融合基因结果统计
| pbid | length | is_fl | group |
| PBfusion.1.0 | 918 | Y | sample_HQ_transcript/717,sample_HQ_transcript/856 |
| PBfusion.1.1 | 1021 | Y | sample_HQ_transcript/718,sample_HQ_transcript/876 |
| PBfusion.2.0 | 899 | Y | sample_HQ_transcript/838,sample_HQ_transcript/849 |
注释:Pbid:PacBio文库分析软件自定义名称Length:reads碱基长度Is_fl:reads为全长转录本Group:融合基因对应reads可变剪切(Alternative Splicing, AS),是大多数真核生物细胞中普遍的一种基因表达方式。真核细胞的基因序列包含内含子(intron)与外显子(exon),在基因转录成 mRNA 前体后内含子会被 RNA 剪切体移除,而外显子则保留于成熟 mRNA 中。在一条未经剪切的前体RNA中,可以具有多种外显子剪切形式,因此使得一个基因在不同时间、不同环境中可以翻译出不同的蛋白质,进而增加其生理状况下系统的复杂性或适应性。剪切位点的分析可以帮助我们找到新的剪切方式。表3.8.1 可变剪切统计结果
| isoform | chrom | strand | length | exons | structural_category | associated_gene | …… |
| PB.1.1 | 1 | - | 1273 | 7 | full-splice_match | UBE2J2 | …… |
| PB.10.1 | 1 | - | 1019 | 8 | full-splice_match | SDHB | …… |
| PB.100.1 | 1 | + | 1726 | 5 | full-splice_match | PRDX6 | …… |
| PB.100.2 | 1 | + | 856 | 5 | full-splice_match | PRDX6 | …… |
注释:isoform:同种型ID。通常采用PB.X.Y格式。chrom:染色体。strand:股。length:同工型长度。exons:外显子数。structural_category:同工型注释类别associated_gene:参考基因名称。associated_transcript:参考成绩单名称。ref_length:参考成绩单长度。ref_exons:外显子的参考成绩单数量。……图3.8.1可变剪切质控分布 图3.8.2 剪切位点距离可变转录起始位点(TSS)分布图
- 高级生物信息学分析
由于 PacBio 三代测序数据在进行聚类分离出高质量全长转录本的过程中丢失定量信息,结合二代数据可对转录本进行定量,比较不同样品间转录本的差异表达,进行AltTP分析、功能多样性分析(FDA)、Isoform差异表达分析(DE/DIU)、功能富集分析、特征差异分析(DFI)等等,精确转录本水平的功能分析更能揭示细胞转录调控机制。- AltTP分析
AltTP(Alternative Transcript Processing)(de la Fuente, Arzalluz-Luque et al. 2019),是可变剪切位点(AS)、可变聚腺苷酸化位点(APA)和可变转录起始位点(TSS)三者的总称,我们将同时在一条转录本上分析这3个位点的差异和功能,同时对数据整体分布进行概括。
图4.1.1 转录本AltTP注释信息图 功能多样性分析(FDA)是整体分析数据在各个功能原件变化分布的分析,在生物体内,转录后调控机制实现了生物体内的复杂功能,研究转录后调控机制很大程度上取决于转录亚型是否包含功能元件的变异,它们的表达水平的改变可以有效的调节生物体功能的变化,功能多样性分析(FDA)是定量这些功能元件的变化,为找到差异性功能元件而设计的分析过程,FDA分析,结果如下图:图4.2.1 基因水平FDA分析
转录和转录后调控控制总表达水平的变化,转录本差异表达、基因差异表达和CDS差异表达的分析称为DE差异表达分析,同时转录本异构体差异表达分析称为DIU差异表达分析,结合DE和DIU分析,能够发现转录和转录后调控表达水平的变化,如下图:图4.3.1 DIU饼图 图4.3.2 DIU分析图
图4.3.1-2显示了在转录本水平上isoforms表达差异分析结果,图4.3.1显示整体数据上isoforms的差异显著性,而图4.3.2标出具有显著差异isoforms对应的基因名称。为了研究生物体内AltTP对基因表达调控的功能性影响,对DE和DIU分析后的差异表达进行富集功能分析,直接比较两种差异分析机制控制的富集分析,能够找到与转录本调节相关的功能元件和转录控制的触发过程,进而找到具有调节功能的特定亚型,富集分析如下图:图4.4.1 GO富集
特征差异表达性分析(DFI)是指isoform在同种区域下共同表现的特征变化,这些特征变化在生物体内的差异会引起调控水平的变化,研究这些功能元件在异构体和AltTP中的差异变化机制,是揭示转录后调控机制的重要手段如下图所示:图4.5.1 DFI对照组vs实验组
特征差异表达性分析(DFI)实现了分析样本局部特征变化和趋势,图4.5.1实现了对照组和实验组在特征变化中的比较,我们可以清楚看见具有显著变化的特征区域,便于展开更为细致的研究。参考文献
[1] Manuel, Tardaguila, Lorena, et al. Corrigendum: SQANTI: extensive characterization of long-read transcript sequences for quality control in full-length transcriptome identification and quantification.[J]. Genome Research, 2018.
[2] Tian L, Shao Y, Nance S, et al. Long-read sequencing unveils IGH-DUX4 translocation into the silenced IGH allele in B-cell acute lymphoblastic leukemia. Nat Commun. 2019;10(1):2789. Published 2019 Jun 26. doi:10.1038/s41467-019-10637-8
[3] de la Fuente, L., et al. (2019). "tappAS: a comprehensive computational framework for the analysis of the functional impact of differential splicing." 690743.
[4] Li, H. (2017). "Minimap2: fast pairwise alignment for long DNA sequences."