· 上次练习总结了一下smart seq数据前期分析过程,这次我们来看一下基于10x平台的单细胞差热测序分析流程
· 10x技术通过向每个细胞添加barcode(细胞或者凝胶微珠身份证号码)和UMI(每个DNA分子标签为圆的身份证号码)的方式对微滴中的单个细胞进行测序。
· 对于10x数据来说上游分析一般选用10x公司自带的 Cell Ranger ,集成比对定量等很多功能,一步分析即可得到表达矩阵,聚类效果,网页版总结等结果以进行后续分析。后续可视化也可以使用10爱或居任存买x公司的windows软件 Cell 水阻画诗击女极Browser 查看细胞分群以及细胞表达量等情况。
Cell Browser可视化输入文件需要.cloupe文件,而后续分析需要使玉月儿机简下置印众农用barcodes.tsv.gz,features.tsv.gz和matrix.mtx.gz这三个矩阵信息。
· 后续分析使用集成R包 Seurat 可以丝答今差建帝束投采条直接读取10x Cell 同汽血实严春静沿Ranger结果文件喜面茶苏曲迅并进行后续分析。
· 牛津大学的Rahul Satija等开发的 Seura流威整知天响区李巴果t ,最早公布在Nature biotechnology, 2015,文章价世吸项区找论是;Spatial reconstruct胜充明总局远及怀支矿ion of single-cell gene expression data , 在2017年进行了非常大的改动,所以重新在biorxiv发表了文章在Integrated an试祖理整想阳鲁alysis of s击植ingle cell transcriptomic 令存针组续转data across conditions, technologies, and species 。功能涵盖了scRNA-seq的QC、通代司门稳伤乙过滤、标准化、批次效应、PCA、tSNE亚群聚类分析、差异基背庆洲度策鲜企刚爱因分析、
亚群特异性标志物鉴定等等等。
首先使用linux环境下的 Cell Ranger 进行上游分析
首先进行构建索引,我们需要准备相应物种的参考基因组fasta序列,以及基因组注释文件gtf/gff3文件。
CK_S1_L001_R1_001.fastq.g频白端z,CK_S1_L001_R2_001.fastq.gz这里来看一下10x测序文件的命名方式, [sample name] S1_L00 [Lane Number] [Read Type] _001.fastq.gz。这里sample name指的是CK,Read Type有三种,I1代表cell-barcode,I2代表UMI,R2代表reads。
[数据链接fprw] http://pan.baidu.com/s/1NoSPh1lfKsPOnIwdInWmtg
导入相应软件包
对PCA分析结果可以进行一系列的可视化: VizDimReduction, DimPlot, DimHeatmap
对于确定PCA后续分析的维数来说十分重要,我们不能仅仅凭借 DimHeatmap 的结果简单筛选PC, seurat 还设置了碎石图以及肘部图辅助我们筛选PC,通常情况我们应该综合考察情况来决定最终用于后续分析的PC数量。
重要的PC将显示出具有较低的p值(虚线上方的实线)。在这种情况下,在前10到12个PC之后,重要性显着下降。
Seurat提供了几种非线性降维技术,例如 t-SNE 和 UMAP ,以可视化和探索这些数据集。这些算法的目标是学习数据的数据特征,以便将相似的细胞放置在低维空间中。上面确定的基于图的聚类中的亚群应该在这些降维图上共定位。作为UMAP和tSNE的输入,作者建议使用相同的PC作为聚类分析的输入。
官网说 UMAP 聚类效果要好于 t-SNE ,这里需要注意 UMAP 需要安装python
Seurat可以帮助您找到通过差异表达定义聚类的标记。默认情况下,ident.1与所有其他单元格相比,它识别单个簇的正向和负向标记。 FindAllMarkers 自动执行所有亚群的差异分析过程。
min.pct 参数要求在两组亚群中的任何一组中以最小百分比检测特征,而 thresh.test 参数要求特征在两组亚群之间有所差异。您可以将它们都设置为0,但是时间会大大增加,因为这将测试大量可能不太具有生物学意义的基因。max.cells.per.ident可以设置其他加快这些计算速度的选项,这将降低每个亚群的采样率,。
我们可以根据先验知识进行亚群的定义,也可以使用一些软件包例如 singleR 辅助我们进行亚群的定义。