OPINION|在基因表达差异的前提下定义细胞的身份
时间:2021-07-11 23:40:54 阅读:275
识别定义细胞身份的基因是表征细胞类型和细胞状态以及预测细胞命运选择的必要步骤。到目前为止,这项任务最广泛使用的方法是基于基因的差异表达(DE),平均表达的变化被用作识别特定于细胞类型和状态的基因转录本的主要统计数据。虽然基于DE的方法对于确定区分细胞类型的基因是有用的,但它们依赖于测量平均表达的差异可能不能反映细胞身份基因的生物学属性。2021年5月1日, 澳大利亚悉尼大学(The University of Sydney)与儿童医学研究所(Children’s Medical Research Institute)的计算系统生物学研究组杨鹏翼(Pengyi Yang)教授在Cell Regeneration上发表论文,他们强调了对非DE方法的探索,并概述了这些方法及其在识别定义细胞身份和功能的基因方面的应用。

基因表达的身份是细胞生物学研究的基础。传统上,细胞的组织学和形态学评估,加上免疫组织化学信息,使我们能够识别细胞类型。利用FACS分选出特定细胞类群和随后的测量这个细胞群体中每一个基因的平均表达水平 (Bulk RNA-seq), 进一步揭示了感兴趣的细胞群体的整体分子特征。然而,这些方法局限于具有已知标记基因的细胞类型,而Bulk RNA-seq掩盖了潜在的细胞异质性。最近在全基因组单细胞分析方面的技术进步使对细胞身份的探索成为可能,允许在单细胞分辨率下发现已知和未知细胞类型。然而,随着单细胞组学数据的广度和深度的不断扩大,为了解细胞身份的复杂性和细微差别提供了前所未有的视角,推测细胞身份已成为一个新的挑战。
对于某些细胞类型,仅根据组学特征来推断细胞身份的计算任务可能相对简单,需要评估已知标记基因的表达。对于罕见或以前未知的细胞类型,在没有任何先验知识的情况下,定义唯一识别该细胞的基因集是一个挑战。这就提出了一个重要的问题: 我们如何选择标记细胞身份的基因 (cell identity genes, CIGs)。
目前已有多种检测CIGs的方法,其中最常用的方法是基于基因差异表达(DE)的方法。目前已经开发了许多工具用于对大量RNA-seq数据进行DE分析,如DESeq2、edgeR和Limma,其中许多工具已成功应用于单细胞数据。最近设计的挖掘单细胞基因表达数据的方法解决了scRNA-seq数据分析的一些混淆方面,如细胞检测率变化引起的技术噪声,并试图捕捉细胞间异质性的更细微差异。然而,这些方法是否能忠实地捕获CIGs仍然是未知的。
目前大多数DE方法的一个共同特点是它们依赖于特定的基因表达模型,这忽视了细胞间基因表达的异质性,通过限制所选基因的分布来限制CIGs的发现。基于T检验的方法和MAST假设基因表达呈高斯分布;泊松分布;泊松分布和负二项分布SCDE。DE方法是基于学生的学习任务他们优先考虑基因稳定表达(即符合高斯分布)感兴趣的细胞类型和其他细胞类型,只要意思表达的变化。这意味着任何基因不遵循这个分布,就会被排除掉,而不管是否这个基因是否是CIGs,这意味着许多标记基因被DE方法只是更感兴趣的细胞类型中高度表达。

基因表达的身份是细胞生物学研究的基础。传统上,细胞的组织学和形态学评估,加上免疫组织化学信息,使我们能够识别细胞类型。利用FACS分选出特定细胞类群和随后的测量这个细胞群体中每一个基因的平均表达水平 (Bulk RNA-seq), 进一步揭示了感兴趣的细胞群体的整体分子特征。然而,这些方法局限于具有已知标记基因的细胞类型,而Bulk RNA-seq掩盖了潜在的细胞异质性。最近在全基因组单细胞分析方面的技术进步使对细胞身份的探索成为可能,允许在单细胞分辨率下发现已知和未知细胞类型。然而,随着单细胞组学数据的广度和深度的不断扩大,为了解细胞身份的复杂性和细微差别提供了前所未有的视角,推测细胞身份已成为一个新的挑战。
对于某些细胞类型,仅根据组学特征来推断细胞身份的计算任务可能相对简单,需要评估已知标记基因的表达。对于罕见或以前未知的细胞类型,在没有任何先验知识的情况下,定义唯一识别该细胞的基因集是一个挑战。这就提出了一个重要的问题: 我们如何选择标记细胞身份的基因 (cell identity genes, CIGs)。
目前已有多种检测CIGs的方法,其中最常用的方法是基于基因差异表达(DE)的方法。目前已经开发了许多工具用于对大量RNA-seq数据进行DE分析,如DESeq2、edgeR和Limma,其中许多工具已成功应用于单细胞数据。最近设计的挖掘单细胞基因表达数据的方法解决了scRNA-seq数据分析的一些混淆方面,如细胞检测率变化引起的技术噪声,并试图捕捉细胞间异质性的更细微差异。然而,这些方法是否能忠实地捕获CIGs仍然是未知的。
目前大多数DE方法的一个共同特点是它们依赖于特定的基因表达模型,这忽视了细胞间基因表达的异质性,通过限制所选基因的分布来限制CIGs的发现。基于T检验的方法和MAST假设基因表达呈高斯分布;泊松分布;泊松分布和负二项分布SCDE。DE方法是基于学生的学习任务他们优先考虑基因稳定表达(即符合高斯分布)感兴趣的细胞类型和其他细胞类型,只要意思表达的变化。这意味着任何基因不遵循这个分布,就会被排除掉,而不管是否这个基因是否是CIGs,这意味着许多标记基因被DE方法只是更感兴趣的细胞类型中高度表达。
郑重声明:文章内容来自互联网,纯属作者个人观点,仅供参考,并不代表本站立场 ,版权归原作者所有!
相关推荐