|
本帖最后由 顾汉现 于 2022-1-3 15:28 编辑
Nature:Rob Knight团队发现血液和组织微生物组可诊断癌症
已有 2922 次阅读 2020-8-14 19:35 |个人分类:读文献|系统分类:科研笔记
Nature:血液和组织中的微生物组分析可作为癌症的诊断方法
Nature [IF: 42.778]
全文链接:https://doi.org/10.1038/s41586-020-2095-1
发表日期:2020-03-11
第一作者:Gregory D. Poore1 & Evguenia Kopylova2
通讯作者:Rob Knight(robknight@ucsd.edu)1,2,3,4
主要单位:
1 美国加州大学圣地亚哥分校生物工程系(Department of Bioengineering, University of California San Diego, La Jolla, CA, USA)
2 美国加州大学圣地亚哥分校儿科(Department of Pediatrics, University of California San Diego, La Jolla, CA, USA)
3 美国加州大学圣地亚哥分校微生物群创新中心(Center for Microbiome Innovation, University of California San Diego, La Jolla, CA, USA)
4 美国加州大学圣地亚哥分校计算机科学与工程系(Department of Computer Science and Engineering, University of California San Diego, La Jolla, CA, USA)
摘要
癌症与全身微生物组的相关性,使得利用微生物衍生分子来诊断人类重大疾病成为可能。最近有证据表明,一些癌症对微生物有较大影响。本研究重新核查了癌症基因组图谱(TCGA)中的33种癌症的全基因组和全转录组测序研究寻找微生物片段(总共18,116个样本)。这些研究均来自未接受治疗的患者,并在大多数主要的癌症类型中和不同癌症类型之间的组织和血液中发现了独特的微生物特征。尽管使用了非常严格的数据清洗方法,舍弃了总序列数据的92.3%的,这些TCGA的血液特征性信息仅对于以下两种患者具有预测性:Ia-IIc期癌症和无任何基因组改变的癌症(目前在两个商业级无细胞肿瘤DNA平台上测量到的)。此外,仅使用血浆来源的无细胞微生物核酸,就可以区分来自健康的、无癌症的个体(n=69)和来自多种癌症(前列腺癌、肺癌和黑色素瘤;总共100个样本)患者的样本。这一基于微生物组的肿瘤学诊断工具值得进一步探索。
背景
癌症通常被认为是一种基因组疾病。然而,最近的研究表明,菌群与某些类型的癌症有很大的关联,特别是粪菌与胃肠道癌症紧密相关。然而,微生物与不同类型癌症的关联的程度和诊断意义尚不清楚。因为在癌症基因组学项目中很少采取程序性控制,样本在采集、处理和测序过程中可能受到污染从而限制了这些研究的开展。使用最近开发的工具能将污染物对微生物特征的影响降到最小(原文引文14-18介绍了一系统微生物污染处理的实验和分析方法),使基于微生物的诊断的研究发展成为可能。
为了表征与癌症相关的微生物,本研究从TCGA全基因组测序数据库(WGS;n = 4831)和全转录组测序(RNA-seq;n = 13,285)研究中重新检查了来自10,481名患者和33种癌症的18,116个样本中的微生物片段。微生物片段以前是在特定分析(包括胃腺癌中的Epstein–Barr virus(EBV)和宫颈癌中的人乳头状瘤病毒(HPV))中确定的,并已在一小部分样本中进行了系统研究(例如,来自19种癌症的4433个TCGA样本的病毒组和9种癌症的1,880个TCGA样本的细菌组)。大多数TCGA测序数据仍未进行微生物分析。在这里,本研究展示了迄今为止最全面的癌症微生物组数据集,使用两种途径进行微生物检测,系统地评估和降低采用技术的差异和测序片段的污染。本研究使用机器学习(ML)来识别区分不同类型癌症的微生物特征,并比较它们的检验效能。
由于TCGA数据处理没有去除污染的微生物片段,也没有排除健康个体,血液样本是TCGA样本中最有可能包含外来微生物污染的样本类型,因此本研究采用微生物分析方法的金标准对血液样本进行再次分析。本研究将血浆来源的微生物DNA信息与临床上应用的无细胞肿瘤DNA(ctDNA)分析进行对应比较。对前列腺癌、肺癌或皮肤癌患者(总共100人)和健康、无癌症和艾滋病对照者(69人)的血浆样本进行的深度宏基因组测序表明,无细胞微生物图谱可以实现健康与癌症以及癌症与癌症的区分。这些发现提出了一种新的基于微生物组的癌症诊断工具,可能会补充现有的用于检测和监测癌症的ctDNA分析方法。
TCGA中癌症相关微生物组及其标准化
TCGA cancer microbiome and its normalization
在TCGA中的6.4×1012个测序读长中,7.2%为非人类基因,其中35.2%(占总读长的2.5%)为细菌、古菌或病毒,这其中12.6%(占总读数的0.9%)采用Kraken解析至属水平,它将短基因组子字符串(k-mers)与参考数据库中的分类单元相匹配(图1a)。在进行了数据质控和筛选之后得到的样本的元数据(图1b),并在同一癌症类型和样本类型内按样本数进行标准转化,全基因组测序(WGS)在以下四种情况提供的微生物读长明显多于转录组测序(RNA-seq)实验:原发性肿瘤(primary tumour)、正常实体组织/癌旁(solid tissue
normal)、转移性的(metastatic)和复发的(recurrent)肿瘤样本。快速的k-mer匹配方法容易出现假阳性结果,所以本研究对四种TCGA类型的癌症(宫颈鳞状细胞癌(CESC)、胃腺癌(STAD)、肺腺癌(LUAD)和卵巢浆液性囊腺癌(OV))具有特异性的Kraken阳性的属水平微生物信息与已知的微生物关系和/或与配对的蛋白质组数据进行比对。结果发现较低的假阳性率1.09%,这表明Kraken数据对下游分析是有效的。
已知TCGA表达和人类基因组数据显示出巨大的的批次效应,这种效应在宏基因组数据中同样存在(图1c)。因此,本研究使用Voom实现了一个聚合分析,将离散分类计数转换为每个样本的百万比对数(log-cpm),并进行有监督的标准转换(SNM)标准化。主方差成分分析表明,标准转换降低了技术差异引起的批次效应,同时增加了包括癌症类型在内的生物信号(图1d,e)。
图1|TCGA癌症微生物组分析的方法和结果
Fig. 1 | Approach and overall findings of the cancer microbiome analysis of TCGA.
a、棒棒糖曲线图,显示微生物检测分析占所总测序读长的百分比,以及由Kraken设置的TCGA数据集中在属水平精度的那些测序读长的百分比。LAML,急性髓性白血病;PAAD,胰腺癌;GBM,多形性胶质母细胞瘤;PRAD,前列腺癌;ESCA,食道癌;TCGT,睾丸生殖细胞肿瘤;BRCA,乳腺浸润性癌;THCA,甲状腺癌;KICH,肾脏嫌色;胸腺瘤;READ,直肠腺癌;SARC,肉瘤;UVM,葡萄膜黑色素瘤;CHOL,胆管癌;ACC,肾上腺。b、显示质量控制过程和剩余样本数量的流程表。FFPE,固定福尔马林石蜡包埋。c、Voom标准化数据的主成分分析(PCA),同一测序中心数据显示为同一种颜色。d、Voom-SNM数据的主成分分析。e,原始分类计数数据、Voom标准化数据和Voom-SNM数据的主方差分量分析。f-h,分类器性能指标的热图(AUROC(ROC)和AuPR(PR))从红色(高)到蓝色(低),用于区分TCGA原发性肿瘤(f)、肿瘤和正常样本(g)以及I期和IV期癌症(h)。
癌症类型与分期的微生物预测模型
Predicting among and within types of cancer
本研究使用标准化数据,训练随机梯度增强的机器学习模型来区分癌症的类型和分期。这些模型在区分 (i)一种癌症类型与所有其他类型(n = 32种癌症);(ii)肿瘤与正常(n = 15种癌症)(图1f,g)方面的性能很强(http://cancermicrobiome.ucsd.edu/CancerMicrobiome_DataBrowser/ 分析结果提供了可查询的网站——癌症微生物组,有利于同行于利用数据)。癌症类型之间敏感性和特异性的差异可能部分是由样本量决定的,因为在一种癌症类型与所有其他类型的比较中,样本量较小的类型与AUROC(ROC曲线下的面积,area under the receiver operating characteristic curve)和AUPR(精确-召回曲线下的面积,area under the precision–recall curve)值之间存在显著的线性关系。尽管这些历史组织样本的空间检查不在本研究的范围之内,但癌症微生物的异质性也可能是不同癌症类型之间差异的另一个原因。基于组织的微生物分类模型在区分结肠腺癌(colon adenocarcinoma,COAD)、STAD和肾透明细胞癌(KIRC,kidney renal clear cell carcinoma)的I期和IV期肿瘤(n = 8种癌症)方面效果较好,但在其他5种被类型的癌症中表现不佳(图1h),而且该模型也不能区分II期和III期。这些结果表明,微生物菌群特点可能与所有类型癌症组织的分期无关。
为了评估该模型在数据集上的通用性,本研究随机将原始TCGA微生物数据分成两批,在每批上独立重复所有过程,在另一半数据上测试每个独立训练的模型,发现性能非常相似(扩展数据图3A)。当检验单一数据类型(WGS或RNA-SEQ)时,或检验测序中心数据,或仅使用基因组比对过滤的Kraken数据时,微生物都表现出明显的特征性差异。
为了进一步验证,本研究应用了一种基于比对分析的微生物分类分析方法SHOGUN,使用了一个基于系统发育的、仅针对细菌的简化数据库,包含13,517个TCGA样本(WGS,n = 3,434;RNAseq,n=10,083),覆盖了基于Kraken分析中的每一种癌症类型(n = 32)、样本类型(n = 7)、测序平台(n = 6)和测序中心(n = 8)。尽管使用了较小的、不同的底层数据库,SHOGUN生成的数据同样存在Kraken数据中存在的批次效应。本研究将这些数据和相应的Kraken数据子集分别输入到标准化和机器学习分析模型中,并发现数据集之间在判别性能方面没有重大差异。因此,这些结果意味着每种癌症类型都对应着独特的微生物群落,仅基于微生物组来区分癌症的标准化和分类模型可以得到更广泛的应用。
图2|TCGA癌症微生物数据集中病毒和细菌片段的生态学验证
Fig. 2 | Ecological validation of viral and bacterial reads within the TCGA
cancer microbiome data set.
a、使用Source Tracker2在HMP2数据集上训练,对COAD患者(n = 70)的组织样本中微生物来源进行分析。b,与梭杆菌属相关的常见胃肠道(gastrointestinal,GI)癌。BDN,血源性正常;STN,实体组织正常;PT,原发性肿瘤。c、肠胃癌组(n = 8:COAD、READ、CHOL、LIHC、PAAD、hNSC、ESCA、STAD)和非胃癌组(n = 24)梭杆菌丰度的差异。d,e,CESC(d)或HNSC(e)HPV感染患者的标准化与临床表现。原位杂交(ISH, in situ hybridization);免疫组化(IHC, immunohistochemistry)。f,LIHC患者的标准化正肝病毒丰度,已判定为临床危险因素包括:HepB,既往乙肝感染;EtOH,酗酒;HepC,既往丙型肝炎感染。g,STAD整合分子亚型的标准化EBV丰度:CIN,染色体不稳定;GS,基因组稳定;MSI,微卫星不稳定;EBV,EBV感染样本。在所有小组中,正常血液样本和/或正常组织数据作为阴性对照;使用双侧Mann-Whitney U检验,当进行两次以上的比较并进行多次检验校正;框图显示中位数(直线)、25%和75%以及1.5倍的四分位数范围(IQR)。蓝色数字表示样本量。
微生物组成的生物学相关性
Biological relevance of microorganism profiles
考虑到微生物特征的巨大差别,本研究使用生态学预测和/或临床测试的结果来分析它们的生物学相关性。为了评估癌症相关微生物是否是共生群落的一部分,本研究训练了一种基于贝叶斯的微生物溯源分析法(Bayesian microbial-source tracking algorithm),该方法基于人类微生物组2(HMP2)项目中8个身体部位的217个样本的数据,这些样本已经通过我们的微生物检测和标准化分析进行处理,以估计其对70个正常组织样本和122个皮肤黑色素瘤(skin cutaneous melanoma,SKCM)原发性肿瘤的影响。目前已知,粪便是COAD微生物组成的主要影响因素(图2a),但与SKCM微生物组成相关性不大,这表明菌群的来源主要为局部相邻部位。
梭杆菌属(Fusobacterium spp.)在胃肠道肿瘤的发生和发展中起重要作用。与正常组织样本,尤其是正常血源性样本(图2b)相比,原发肿瘤中梭杆菌较多。泛癌分析还显示,在原发肿瘤组织和邻近正常组织样本(图2C)中,将所有胃肠道(GI)癌(n = 8)与非GI癌(n = 24)进行比较时,梭杆菌丰富度都是较高的(图2c)。与以前对TCGA中STAD的研究类似,本研究发现原发肿瘤和邻近实体组织正常标本之间的幽门螺杆菌感染没有差异。
然后,本研究证实了TCGA中存在临床研究发现的病毒感染,并将我们的微生物检测分析与使用两种不同的生物信息方法进行TCGA病毒分析的研究进行了比较:(i)从头组装宏基因组方法和(ii)基于读长的方法(PathSeq算法)。在CESC和头颈部鳞状细胞癌(HNSC)样本中,经临床检测为HPV感染“阳性”或“阴性”的个体的原发肿瘤中的甲乳头状瘤病毒属的丰度不同(图2d,e)。以来自CESC患者的正常血样作为阴性对照,在比较所有其他类型的癌症类型和样本类型时,没有统计学上的差异,仅在有些癌症类型中甲乳头状瘤病毒的丰度是过高的。与有饮酒和丙型肝炎病史的肝细胞癌患者相比,有乙型肝炎病史的患者在原发性肿瘤和邻近的实体组织正常标本中均有某种程度乙型肝炎病毒属(OrthoHepadnavirus)的升高(图2f);将正常的血液样本作为阴性对照,则无统计学差异。同样与以前的报告一致,与其他STAD分子亚型的患者相比,EB病毒属(淋巴病毒)在EBV感染的原发肿瘤中选择性升高(图2g)。正常组织样本和血源性正常样本作为阴性对照,两者之间差异无统计学意义。
这些数据与分类模型在一种癌症与其他类型癌症区分的关键特征是一致的。也就是说,癌症与“致病菌”或“共生菌”被初步证实在生态学上是相关的;例如,甲型乳头状瘤病毒属是识别CESC肿瘤的最重要特征;杆状杆菌属对于COAD肿瘤的识别是特异性的;对于LIHC肿瘤,直肝病毒属是第二重要的特征性细菌(仅次于毒性肝微囊藻)。本研究提供原始的和标准化的微生物丰度数据集供大家重复使用,并可能有机会将这些数据与宿主其他数据相结合,以产生其它的假设。总而言之,这些发现为我们的病毒和细菌数据的生物信息学和标准化方法提供了生态学验证,同时将结果扩展到更多的样本和微生物。
质量评估与数据清洗
Measuring and mitigating contamination
为了更好地表征可能与癌症相关的微生物,进一步进行了质量评估和数据清洗。以前的工作基于不同类型癌症中常见的低丰度读长,在TCGA中仅识别出6种污染菌(表皮葡萄球菌、痤疮丙酸杆菌、拉尔斯特氏菌、分枝杆菌、假单胞菌和不动杆菌),但最近的研究表明,外部污染物的检出频率均与样本分析物浓度成反比,可以使用统计框架进行检测。
本研究使用在TCGA样品处理过程中计算的DNA和RNA浓度(n = 17,625)和读长片段(n = 1,993)来识别可能的污染物,并删除了在“阴性空白”试剂(n = 94 个属;见方法)中发现的属。附图6A概述了从外科切除到生物信息处理所采取的方法;本研究还将五种类型的污染物添加到原始数据集中,通过去除污染物、监督标准化和机器学习进行跟踪。考虑到技术差异的存在(图1c-e),本研究通过测序中心(n = 8)分批处理样品,并删除了在任何中心发现的污染细菌。这鉴定了283种可能的污染物,包括19.1%(n = 18个属)的“黑名单”。在合并这两份名单(n = 377属)后,手动审查了文献,以重新纳入致病属或混合证据属(既是致病菌又有常见污染物,例如分枝杆菌)。这导致了两个数据集,一个删除了可能的污染物,另一个删除了所有假定的污染物。我们还创建了第三个“最严格的过滤”数据集,该数据集使用更严格的过滤模式丢弃了大约92%的总读长。最后,除了前面提到的黑名单(总共497个属)外,我们将样本分组到每个中心的单个测序板中,并删除了任何一个“板中心(plate–centre)”批次(n = 351)中确定的所有假定污染物。去除污染物似乎对研究中的样本或癌症的类型没有影响。
本研究强调,这些通过数据去除污染的方法不能替代对癌症样本操作过程中的严格把控,包括无菌处理、使用无菌认证的试剂、从头到尾处理的试剂的阴性空白,以及多样本混合作为“阳性”对照。这里描述的去污操作是最先进的分析技术,但不是用来检测大量的污染物或交叉污染物的。在许多中心和多年收集的癌症类型之间和同一癌症类型不同分级之间不应该对交叉污染物产生统一的偏差,如果不加以控制,可能会限制生物学结论,特别是在小型研究中。
严格去除污染的另一个风险是,反映共生的、特定于组织的微生物群落和伴随的预测癌症的微生物图谱的真实信号可能会被丢弃。为了评估这一问题,我们重新计算了COAD正常组织样本(n = 70)中微生物来自身体各部位的百分比,发现连续严格的去污染可以在伴生组织变得无法识别之前提高它们的识别情况。
本研究重新计算了图1f-h中所示的所有ML模型,并比较了它们在每种去污方法之前和之后的性能。大多数模型不依赖于添加的假污染物,尽管淋巴肿瘤弥漫性大B细胞淋巴瘤(DLBC)和间皮瘤(MESO)模型似乎不可靠。正如预期的那样,组织类型信息丰富的比较(例如,COAD与所有其他癌症类型的比较)在严格的去污染情况下通常表现得不那么好,但组织内的比较(例如,肿瘤与正常)通常表现得同样好或更好。这些结果表明,在某些比较中,严格的过滤可能是可取的,但通用的去污染方法可能会排除含有生物信息的结果。
|
|