微生物组测序数据如何分析?

您好,欢迎访问我们的网站,我们将竭诚为您服务!

微生物组测序数据如何分析?

时间:2021-06-01 15:09:27 阅读:364
  你知道吗?居住在我们肠道内的细菌数量,是人体细胞总数的10倍之多!我们每天排出的粪便中,50%以上的干重量是由这些细菌及其“尸体”构成的。
  因此有人打趣的说,从数量上来看,我们人类并不应该被称为人类,而应被称作细菌。如此庞大的细菌群体驻扎在肠道内,构成了一个极为复杂的群体,被称作肠道菌群。肠道菌群被认为与人类健康息息相关,据估计,每个人的肠道菌群可包括~500种细菌。
  近年来,随着高通量测序数据分析的发展,16SrRNA基因测序技术在细菌的鉴定与分类研究中发挥着越来越重要的作用。
  16SrRNA基因普遍存在于细菌细胞,在细菌基因组中位于核糖体小亚基(约1540bp),该区域兼顾保守性和高变性,含有10个保守区域(ConservedRegions)和9个高变区域(variableRegions),保守区可用于设计引物进行目的片段的扩增,而通过对高变区的分析可以辨别细菌种类。因此,16SrRNA基因被认为是最适于细菌系统发育学研究和物种分类鉴定。目前用于16SrRNA基因深度测序的区域主要有V4区,V3-V4区、和V4-V5区等。
  16S分析流程
  16S分析流程主要包括:Hiseq/Miseq测序获得的Paired-end(PE)reads拼接成一条序列,测序数据分析对目标序列进行质控过滤,过滤后的序列与参考数据库作比对,去除嵌合体序列得到最终得优化序列。基于优化序列进行OTU聚类分析和物种分类注释,基于OTU聚类结果进行多样性指数分析等等。
  数据质控与优化
  数据质量评估
  根据Fastq文件对测序样品进行数据质量评估(可以参考生信入门:Fasta与Fastq格式文件详解详细了解fastq文件)。单个样品的碱基质量分布如下图所示:
  注:横坐标为reads的碱基位置,纵坐标为单碱基平均Phred值。前250bp为双端测序序列的Read1的碱基质量值分布情况,后250bp为read2的碱基质量值分布情况。
  也可以使用一文搞定细菌基因组DeNovo测序分析中提到的fastqc和fastp进行质控。
  如果想确定拿到手里的序列fastq序列就是16S的一部分,而不是其他的神马鬼,可以在NCBI的blast上比一比(可参考生信入门:序列比对之blast在线和本地使用)。
  OTU聚类及物种注释
  OTU(OperationalTaxonomicUnits,操作分类单元)是在系统发生分析或群体遗传研究中的一个假定的分类单元,通过一定的距离度量方法计算两两不同序列之间的距离度量或相似性,继而设置特定的分类阈值,获得同一阈值下的距离矩阵,进行聚类操作,形成不同的分类单元。
  OTU聚类的目的:
  1.每个OTU(97%)在级别上对应一个种/属;
  2.每个OTU挑选出一个代表序列参与后续分析,节约计算资源;
  3.减少PCR或测序过程中引入的错误(错误序列与其来源序列较为相似,会聚成一个OTU)。
郑重声明:文章内容来自互联网,纯属作者个人观点,仅供参考,并不代表本站立场 ,版权归原作者所有!

上一篇:荣耀成为PC行业创新的最大想象力之一,深受用户喜爱

下一篇:好评如潮!荣耀笔记本轻便,有质感广受认可

相关推荐

返回顶部