Nat:AI增强版“滴血测癌”,准确率高达86%! 微生物DNA诊断癌

邓文龙 · 发表于 2020-3-13 12:05:53

本帖最后由顾汉现于 2022-1-3 15:43 编辑

Nature：AI增强版“滴血测癌”，准确率高达86%！

血液和组织的微生物组分析提示癌症诊断方法

2020-03-12 14:33:31 创事记微博作者：学术头条

　　欢迎关注“创事记”微信订阅号：sinachuangshiji

　　文/学术君

　　来源：学术头条（ID:SciTouTiao）

　　细菌，真菌，病毒…… 这些微生物，它们无处不在，也与人类生活息息相关。在人体的肠道内就储存着大量的微生物，它们不仅能促进食物的消化吸收，调节肠道免疫系统，还与肥胖，糖尿病以及一些肠道疾病有关。更可怕的是，近年来研究显示肠道微生物与许多肿瘤的发生发展有关。

　　今天 Nature 发布的一项研究显示，加州大学圣地亚哥分校研究人员通过分析癌症基因组图谱中 33 中不同类型癌症共 18116 例肿瘤样本后，发现不同类型癌症患者组织和血液内的微生物 DNA 存在差异。

　　为此研究人员开发了一种机器学习模型，该模型通过分析血液中微生物 DNA 的类型就可以识别受试者是否患有癌症以及癌症类型。即便是早期的癌症，血液中的微生物数据仍然可以区分出多种癌症类型。

Nature 论文Nature 论文

　　要知道，癌症之所以可怕，很大一部分原因就是在于我们很难在早期发现它，大量患者确诊时已经进入疾病晚期。那么，究竟有没有一种简单的方法能够在早期准确筛查出肿瘤的发生呢？

　　近年来，许多科学家对肿瘤 “液体活检” 技术产生了浓厚的兴趣，他们企图在血液中寻找肿瘤细胞破碎的 DNA，以达到癌症早期诊断的目的。因此，液体活检技术也被成为 “滴血测癌”。

　　2017 年 Science 上发表了一项研究，显示微生物能侵入大多数胰腺肿瘤，并分解患者服用的化疗药物。这一现象引起了加州大学圣地亚哥分校的博士研究生 Poore 的注意，他猜想，细菌和病毒所代表的信息，或许能够在癌症诊断过程中起到作用。

　　于是，他同微生物组创新中心主任 Knight 教授，以及一个跨学科合作小组一同开展了微生物与癌症诊断的研究。他们首先查看了癌症基因组图谱（The Cancer Genome Atlas），该图谱是美国国家癌症研究所的数据库，包含了来自成千上万名癌症患者的肿瘤基因和其他信息。他们要做的就是在人类测序数据中来筛查出微生物的 DNA。

　　终于，研究人员在 10418 名患者、33 种不同癌症类型的 18116 个肿瘤样本中发现了与特定癌症相关的微生物特征。其中一些与既往研究相同，如甲型乳头瘤病毒属 (Alphapapillomavirus) 和丙型肝炎病毒属（Hepacivirus）与宫颈癌、头颈癌和肝细胞癌有关，梭菌属（Fusobacterium）与胃肠道肿瘤有关。

　　此外，研究人员还发现微生物特征可以区分不同的癌症类型，如粪杆菌属（Faecalibacterium）可将结肠癌与其他癌症区分开来。

近年来科学家们逐渐发现，寄居在人体中的微生物与癌症发生与发展密切相关近年来科学家们逐渐发现，寄居在人体中的微生物与癌症发生与发展密切相关
　　在研究了数千个癌症样本的微生物特征后，他们训练并测试了数千种机器学习模型来将特定微生物类型与特定肿瘤关联起来，随后他们发现这些机器学习模型能够通过患者血液中微生物数据来区分患者的癌症类型。

　　然而，在癌症极难被发现的早期阶段，这些发现是否有效呢？

　　为此，研究人员将晚期癌症（Ⅲ 期和 Ⅳ 期）患者从数据库中剔除出去，发现通过患者血液中的微生物数据，仍然可以将许多早期癌症类型区分开来。当研究团队去除 90% 以上微生物数据以此对样本进行了最严格的生物信息学净化后，结果依然有效。

　　接下来，研究人员着手验证这些机器学习模型是否实现癌症早期诊断。

　　他们分析了来自加州大学圣地亚哥分校摩尔癌症中心的 59 名前列腺癌患者、25 名肺癌患者和 16 名黑色素瘤患者，以及 69 名未确诊癌症个体的血液血浆样品，结果发现这些机器学习模型能够将大多数癌症患者与非癌症患者区分出来。

　　该模型诊断肺癌的敏感性（真阳性，检测出确实患有癌症的能力）是 86%，特异性（真阴性，检测出确实没有患癌的能力）是 100%，此外，该模型也能将不同癌症类型区分开来，如该模型区分前列腺癌和肺癌患者的敏感性是 81%。

　　研究人员表示，这个模型不仅仅是一个诊断癌症的工具，也可以对癌症治疗过程进行长期的监测。如果在今后测试中这些结果依然有效，那么这对于癌症患者治疗和癌症的早期诊断将有重要的意义。

组织和血液中的微生物 DNA组织和血液中的微生物 DNA
　　目前，大多数癌症的确诊需要通过手术将肿瘤取出，随后由病理学家对肿瘤进行分析（即活检）。这种方法不仅会给患者带来巨大的创伤，而且价格昂贵且耗时。

　　现在一些公司试图开展 “液体活检” 技术，试图通过简单的抽血并检测来自肿瘤的循环 DNA 来快速诊断癌症。该方法已经可以用于监测某些确诊癌症患者的疾病进展，但美国食品和药物管理局 (FDA) 尚未将其批准用于癌症的确诊。

　　圣地亚哥精确免疫治疗中心的副主任 Patel 表示，虽然液体活检和癌症早期诊断发展迅速，但目前的液体活检技术还不能区分早期癌症和正常基因突变患者。因此，现在的液体活检技术往往存在假阴性结果。

　　这样一来，与检测血液中循环肿瘤 DNA 相比，检测血液中肿瘤相关微生物 DNA 的优势就显而易见，它不仅能够在癌症早期准确检测癌症的存在和类型，也可以检测到存在正常基因突变的癌症患者。

　　尽管如此，研究人员指出，基于微生物 DNA 来确诊癌症的方法仍可能存在假阴性的结果，但今后他们会使用更多的数据来完善这个机器学习模型，使这个新方法更加准确。

　　研究人员同时表示，即使利用该机器学习模型来确诊癌症，患者仍可能需要进一步的检查来确定肿瘤的阶段及其位置。

　　微生物组创新中心主任 Knight 教授表示，“先前几乎所有的研究都假定肿瘤是一个没有微生物存在的环境，同时忽略了癌细胞可能与人体内细菌、病毒和其他微生物之间复杂的相互作用。事实上，我们体内微生物基因的数量远远超过人类基因数量，因此它们能为我们健康提供重要的线索也就不足为奇。我们希望这项研究能够鼓励科学家能够清醒认识微生物，而癌症诊断可能只是一个开始。”

　　论文原文链接：

　　https://www.nature.com/articles/s41586-020-2095-1

　　同期评论文章链接：

　　https://www.nature.com/articles/d41586-020-00637-w

　　参考资料：

　　https://www.eurekalert.org/emb_r ... /uoc--mdi030920.php

http://tech.sina.com.cn/csj/2020-03-12/doc-iimxxstf8430900.shtml

华成旅行社  欢迎来电咨询：

电话：03-3833-9823  / 03-5688-1863
FAX ：03-3833-9873  / 03-3834-5891

SOFTBANK电话：080-3416-2275 担当：小郭  微信号：08034162275
SOFTBANK电话：090-2172-4325 担当：小于  微信号：TYOSCL4325
SOFTBANK电话：080-3398-4387 担当：小李  微信号：huacheng4387
SOFTBANK电话：080-3523-4388 担当：小何  微信号：huacheng602
SOFTBANK电话：080-3084-4389 担当：小马  微信号：huacheng858

http://www.kaseisyoji.com/forum.php?mod=forumdisplay&fid=10

顾汉现 · 发表于 2022-1-3 15:26:38

本帖最后由顾汉现于 2022-1-3 15:28 编辑

Nature：Rob Knight团队发现血液和组织微生物组可诊断癌症

已有 2922 次阅读 2020-8-14 19:35 |个人分类:读文献|系统分类:科研笔记

Nature：血液和组织中的微生物组分析可作为癌症的诊断方法

Nature [IF: 42.778]

全文链接：https://doi.org/10.1038/s41586-020-2095-1

发表日期：2020-03-11

第一作者：Gregory D. Poore1 & Evguenia Kopylova2

通讯作者：Rob Knight(robknight@ucsd.edu)1,2,3,4

主要单位：

1 美国加州大学圣地亚哥分校生物工程系(Department of Bioengineering, University of California San Diego, La Jolla, CA, USA)

2 美国加州大学圣地亚哥分校儿科（Department of Pediatrics, University of California San Diego, La Jolla, CA, USA）

3 美国加州大学圣地亚哥分校微生物群创新中心（Center for Microbiome Innovation, University of California San Diego, La Jolla, CA, USA）

4 美国加州大学圣地亚哥分校计算机科学与工程系（Department of Computer Science and Engineering, University of California San Diego, La Jolla, CA, USA）

摘要
癌症与全身微生物组的相关性，使得利用微生物衍生分子来诊断人类重大疾病成为可能。最近有证据表明，一些癌症对微生物有较大影响。本研究重新核查了癌症基因组图谱(TCGA)中的33种癌症的全基因组和全转录组测序研究寻找微生物片段(总共18,116个样本)。这些研究均来自未接受治疗的患者，并在大多数主要的癌症类型中和不同癌症类型之间的组织和血液中发现了独特的微生物特征。尽管使用了非常严格的数据清洗方法，舍弃了总序列数据的92.3%的，这些TCGA的血液特征性信息仅对于以下两种患者具有预测性：Ia-IIc期癌症和无任何基因组改变的癌症（目前在两个商业级无细胞肿瘤DNA平台上测量到的）。此外，仅使用血浆来源的无细胞微生物核酸，就可以区分来自健康的、无癌症的个体(n=69)和来自多种癌症(前列腺癌、肺癌和黑色素瘤；总共100个样本)患者的样本。这一基于微生物组的肿瘤学诊断工具值得进一步探索。

背景
癌症通常被认为是一种基因组疾病。然而，最近的研究表明，菌群与某些类型的癌症有很大的关联，特别是粪菌与胃肠道癌症紧密相关。然而，微生物与不同类型癌症的关联的程度和诊断意义尚不清楚。因为在癌症基因组学项目中很少采取程序性控制，样本在采集、处理和测序过程中可能受到污染从而限制了这些研究的开展。使用最近开发的工具能将污染物对微生物特征的影响降到最小(原文引文14-18介绍了一系统微生物污染处理的实验和分析方法)，使基于微生物的诊断的研究发展成为可能。

为了表征与癌症相关的微生物，本研究从TCGA全基因组测序数据库(WGS；n = 4831)和全转录组测序(RNA-seq；n = 13,285)研究中重新检查了来自10,481名患者和33种癌症的18,116个样本中的微生物片段。微生物片段以前是在特定分析(包括胃腺癌中的Epstein–Barr virus(EBV)和宫颈癌中的人乳头状瘤病毒(HPV))中确定的，并已在一小部分样本中进行了系统研究(例如，来自19种癌症的4433个TCGA样本的病毒组和9种癌症的1,880个TCGA样本的细菌组)。大多数TCGA测序数据仍未进行微生物分析。在这里，本研究展示了迄今为止最全面的癌症微生物组数据集，使用两种途径进行微生物检测，系统地评估和降低采用技术的差异和测序片段的污染。本研究使用机器学习(ML)来识别区分不同类型癌症的微生物特征，并比较它们的检验效能。

由于TCGA数据处理没有去除污染的微生物片段，也没有排除健康个体，血液样本是TCGA样本中最有可能包含外来微生物污染的样本类型，因此本研究采用微生物分析方法的金标准对血液样本进行再次分析。本研究将血浆来源的微生物DNA信息与临床上应用的无细胞肿瘤DNA(ctDNA)分析进行对应比较。对前列腺癌、肺癌或皮肤癌患者(总共100人)和健康、无癌症和艾滋病对照者(69人)的血浆样本进行的深度宏基因组测序表明，无细胞微生物图谱可以实现健康与癌症以及癌症与癌症的区分。这些发现提出了一种新的基于微生物组的癌症诊断工具，可能会补充现有的用于检测和监测癌症的ctDNA分析方法。

TCGA中癌症相关微生物组及其标准化
TCGA cancer microbiome and its normalization

在TCGA中的6.4×1012个测序读长中，7.2%为非人类基因，其中35.2%(占总读长的2.5%)为细菌、古菌或病毒，这其中12.6%(占总读数的0.9%)采用Kraken解析至属水平，它将短基因组子字符串(k-mers)与参考数据库中的分类单元相匹配(图1a)。在进行了数据质控和筛选之后得到的样本的元数据(图1b)，并在同一癌症类型和样本类型内按样本数进行标准转化，全基因组测序(WGS)在以下四种情况提供的微生物读长明显多于转录组测序(RNA-seq)实验：原发性肿瘤(primary tumour)、正常实体组织/癌旁(solid tissue
normal)、转移性的(metastatic)和复发的(recurrent)肿瘤样本。快速的k-mer匹配方法容易出现假阳性结果，所以本研究对四种TCGA类型的癌症(宫颈鳞状细胞癌(CESC)、胃腺癌(STAD)、肺腺癌(LUAD)和卵巢浆液性囊腺癌(OV))具有特异性的Kraken阳性的属水平微生物信息与已知的微生物关系和/或与配对的蛋白质组数据进行比对。结果发现较低的假阳性率1.09%，这表明Kraken数据对下游分析是有效的。

已知TCGA表达和人类基因组数据显示出巨大的的批次效应，这种效应在宏基因组数据中同样存在(图1c)。因此，本研究使用Voom实现了一个聚合分析，将离散分类计数转换为每个样本的百万比对数(log-cpm)，并进行有监督的标准转换(SNM)标准化。主方差成分分析表明，标准转换降低了技术差异引起的批次效应，同时增加了包括癌症类型在内的生物信号(图1d，e)。

图1|TCGA癌症微生物组分析的方法和结果
Fig. 1 | Approach and overall findings of the cancer microbiome analysis of TCGA.

a、棒棒糖曲线图，显示微生物检测分析占所总测序读长的百分比，以及由Kraken设置的TCGA数据集中在属水平精度的那些测序读长的百分比。LAML，急性髓性白血病；PAAD，胰腺癌；GBM，多形性胶质母细胞瘤；PRAD，前列腺癌；ESCA，食道癌；TCGT，睾丸生殖细胞肿瘤；BRCA，乳腺浸润性癌；THCA，甲状腺癌；KICH，肾脏嫌色；胸腺瘤；READ，直肠腺癌；SARC，肉瘤；UVM，葡萄膜黑色素瘤；CHOL，胆管癌；ACC，肾上腺。b、显示质量控制过程和剩余样本数量的流程表。FFPE，固定福尔马林石蜡包埋。c、Voom标准化数据的主成分分析(PCA)，同一测序中心数据显示为同一种颜色。d、Voom-SNM数据的主成分分析。e，原始分类计数数据、Voom标准化数据和Voom-SNM数据的主方差分量分析。f-h，分类器性能指标的热图(AUROC(ROC)和AuPR(PR))从红色(高)到蓝色(低)，用于区分TCGA原发性肿瘤(f)、肿瘤和正常样本(g)以及I期和IV期癌症(h)。

癌症类型与分期的微生物预测模型
Predicting among and within types of cancer

本研究使用标准化数据，训练随机梯度增强的机器学习模型来区分癌症的类型和分期。这些模型在区分 (i)一种癌症类型与所有其他类型(n = 32种癌症)；(ii)肿瘤与正常(n = 15种癌症)(图1f，g)方面的性能很强(http://cancermicrobiome.ucsd.edu/CancerMicrobiome_DataBrowser/ 分析结果提供了可查询的网站——癌症微生物组，有利于同行于利用数据)。癌症类型之间敏感性和特异性的差异可能部分是由样本量决定的，因为在一种癌症类型与所有其他类型的比较中，样本量较小的类型与AUROC(ROC曲线下的面积，area under the receiver operating characteristic curve)和AUPR(精确-召回曲线下的面积，area under the precision–recall curve)值之间存在显著的线性关系。尽管这些历史组织样本的空间检查不在本研究的范围之内，但癌症微生物的异质性也可能是不同癌症类型之间差异的另一个原因。基于组织的微生物分类模型在区分结肠腺癌(colon adenocarcinoma，COAD)、STAD和肾透明细胞癌(KIRC，kidney renal clear cell carcinoma)的I期和IV期肿瘤(n = 8种癌症)方面效果较好，但在其他5种被类型的癌症中表现不佳(图1h)，而且该模型也不能区分II期和III期。这些结果表明，微生物菌群特点可能与所有类型癌症组织的分期无关。

为了评估该模型在数据集上的通用性，本研究随机将原始TCGA微生物数据分成两批，在每批上独立重复所有过程，在另一半数据上测试每个独立训练的模型，发现性能非常相似(扩展数据图3A)。当检验单一数据类型(WGS或RNA-SEQ)时，或检验测序中心数据，或仅使用基因组比对过滤的Kraken数据时，微生物都表现出明显的特征性差异。

为了进一步验证，本研究应用了一种基于比对分析的微生物分类分析方法SHOGUN，使用了一个基于系统发育的、仅针对细菌的简化数据库，包含13,517个TCGA样本(WGS，n = 3,434；RNAseq，n=10,083)，覆盖了基于Kraken分析中的每一种癌症类型(n = 32)、样本类型(n = 7)、测序平台(n = 6)和测序中心(n = 8)。尽管使用了较小的、不同的底层数据库，SHOGUN生成的数据同样存在Kraken数据中存在的批次效应。本研究将这些数据和相应的Kraken数据子集分别输入到标准化和机器学习分析模型中，并发现数据集之间在判别性能方面没有重大差异。因此，这些结果意味着每种癌症类型都对应着独特的微生物群落，仅基于微生物组来区分癌症的标准化和分类模型可以得到更广泛的应用。

图2|TCGA癌症微生物数据集中病毒和细菌片段的生态学验证

Fig. 2 | Ecological validation of viral and bacterial reads within the TCGA
cancer microbiome data set.

a、使用Source Tracker2在HMP2数据集上训练，对COAD患者(n = 70)的组织样本中微生物来源进行分析。b，与梭杆菌属相关的常见胃肠道(gastrointestinal，GI)癌。BDN，血源性正常；STN，实体组织正常；PT，原发性肿瘤。c、肠胃癌组(n = 8：COAD、READ、CHOL、LIHC、PAAD、hNSC、ESCA、STAD)和非胃癌组(n = 24)梭杆菌丰度的差异。d，e，CESC(d)或HNSC(e)HPV感染患者的标准化与临床表现。原位杂交(ISH, in situ hybridization)；免疫组化(IHC, immunohistochemistry)。f，LIHC患者的标准化正肝病毒丰度，已判定为临床危险因素包括：HepB，既往乙肝感染；EtOH，酗酒；HepC，既往丙型肝炎感染。g，STAD整合分子亚型的标准化EBV丰度：CIN，染色体不稳定；GS，基因组稳定；MSI，微卫星不稳定；EBV，EBV感染样本。在所有小组中，正常血液样本和/或正常组织数据作为阴性对照；使用双侧Mann-Whitney U检验，当进行两次以上的比较并进行多次检验校正；框图显示中位数(直线)、25%和75%以及1.5倍的四分位数范围(IQR)。蓝色数字表示样本量。

微生物组成的生物学相关性
Biological relevance of microorganism profiles

考虑到微生物特征的巨大差别，本研究使用生态学预测和/或临床测试的结果来分析它们的生物学相关性。为了评估癌症相关微生物是否是共生群落的一部分，本研究训练了一种基于贝叶斯的微生物溯源分析法(Bayesian microbial-source tracking algorithm)，该方法基于人类微生物组2(HMP2)项目中8个身体部位的217个样本的数据，这些样本已经通过我们的微生物检测和标准化分析进行处理，以估计其对70个正常组织样本和122个皮肤黑色素瘤(skin cutaneous melanoma，SKCM)原发性肿瘤的影响。目前已知，粪便是COAD微生物组成的主要影响因素(图2a)，但与SKCM微生物组成相关性不大，这表明菌群的来源主要为局部相邻部位。

梭杆菌属(Fusobacterium spp.)在胃肠道肿瘤的发生和发展中起重要作用。与正常组织样本，尤其是正常血源性样本(图2b)相比，原发肿瘤中梭杆菌较多。泛癌分析还显示，在原发肿瘤组织和邻近正常组织样本(图2C)中，将所有胃肠道(GI)癌(n = 8)与非GI癌(n = 24)进行比较时，梭杆菌丰富度都是较高的(图2c)。与以前对TCGA中STAD的研究类似，本研究发现原发肿瘤和邻近实体组织正常标本之间的幽门螺杆菌感染没有差异。

然后，本研究证实了TCGA中存在临床研究发现的病毒感染，并将我们的微生物检测分析与使用两种不同的生物信息方法进行TCGA病毒分析的研究进行了比较：(i)从头组装宏基因组方法和(ii)基于读长的方法(PathSeq算法)。在CESC和头颈部鳞状细胞癌(HNSC)样本中，经临床检测为HPV感染“阳性”或“阴性”的个体的原发肿瘤中的甲乳头状瘤病毒属的丰度不同(图2d，e)。以来自CESC患者的正常血样作为阴性对照，在比较所有其他类型的癌症类型和样本类型时，没有统计学上的差异，仅在有些癌症类型中甲乳头状瘤病毒的丰度是过高的。与有饮酒和丙型肝炎病史的肝细胞癌患者相比，有乙型肝炎病史的患者在原发性肿瘤和邻近的实体组织正常标本中均有某种程度乙型肝炎病毒属(OrthoHepadnavirus)的升高(图2f)；将正常的血液样本作为阴性对照，则无统计学差异。同样与以前的报告一致，与其他STAD分子亚型的患者相比，EB病毒属(淋巴病毒)在EBV感染的原发肿瘤中选择性升高(图2g)。正常组织样本和血源性正常样本作为阴性对照，两者之间差异无统计学意义。

这些数据与分类模型在一种癌症与其他类型癌症区分的关键特征是一致的。也就是说，癌症与“致病菌”或“共生菌”被初步证实在生态学上是相关的；例如，甲型乳头状瘤病毒属是识别CESC肿瘤的最重要特征；杆状杆菌属对于COAD肿瘤的识别是特异性的；对于LIHC肿瘤，直肝病毒属是第二重要的特征性细菌(仅次于毒性肝微囊藻)。本研究提供原始的和标准化的微生物丰度数据集供大家重复使用，并可能有机会将这些数据与宿主其他数据相结合，以产生其它的假设。总而言之，这些发现为我们的病毒和细菌数据的生物信息学和标准化方法提供了生态学验证，同时将结果扩展到更多的样本和微生物。

质量评估与数据清洗
Measuring and mitigating contamination

为了更好地表征可能与癌症相关的微生物，进一步进行了质量评估和数据清洗。以前的工作基于不同类型癌症中常见的低丰度读长，在TCGA中仅识别出6种污染菌(表皮葡萄球菌、痤疮丙酸杆菌、拉尔斯特氏菌、分枝杆菌、假单胞菌和不动杆菌)，但最近的研究表明，外部污染物的检出频率均与样本分析物浓度成反比，可以使用统计框架进行检测。

本研究使用在TCGA样品处理过程中计算的DNA和RNA浓度(n = 17,625)和读长片段(n = 1,993)来识别可能的污染物，并删除了在“阴性空白”试剂(n = 94 个属；见方法)中发现的属。附图6A概述了从外科切除到生物信息处理所采取的方法；本研究还将五种类型的污染物添加到原始数据集中，通过去除污染物、监督标准化和机器学习进行跟踪。考虑到技术差异的存在(图1c-e)，本研究通过测序中心(n = 8)分批处理样品，并删除了在任何中心发现的污染细菌。这鉴定了283种可能的污染物，包括19.1%(n = 18个属)的“黑名单”。在合并这两份名单(n = 377属)后，手动审查了文献，以重新纳入致病属或混合证据属(既是致病菌又有常见污染物，例如分枝杆菌)。这导致了两个数据集，一个删除了可能的污染物，另一个删除了所有假定的污染物。我们还创建了第三个“最严格的过滤”数据集，该数据集使用更严格的过滤模式丢弃了大约92%的总读长。最后，除了前面提到的黑名单(总共497个属)外，我们将样本分组到每个中心的单个测序板中，并删除了任何一个“板中心(plate–centre)”批次(n = 351)中确定的所有假定污染物。去除污染物似乎对研究中的样本或癌症的类型没有影响。

本研究强调，这些通过数据去除污染的方法不能替代对癌症样本操作过程中的严格把控，包括无菌处理、使用无菌认证的试剂、从头到尾处理的试剂的阴性空白，以及多样本混合作为“阳性”对照。这里描述的去污操作是最先进的分析技术，但不是用来检测大量的污染物或交叉污染物的。在许多中心和多年收集的癌症类型之间和同一癌症类型不同分级之间不应该对交叉污染物产生统一的偏差，如果不加以控制，可能会限制生物学结论，特别是在小型研究中。

严格去除污染的另一个风险是，反映共生的、特定于组织的微生物群落和伴随的预测癌症的微生物图谱的真实信号可能会被丢弃。为了评估这一问题，我们重新计算了COAD正常组织样本(n = 70)中微生物来自身体各部位的百分比，发现连续严格的去污染可以在伴生组织变得无法识别之前提高它们的识别情况。

本研究重新计算了图1f-h中所示的所有ML模型，并比较了它们在每种去污方法之前和之后的性能。大多数模型不依赖于添加的假污染物，尽管淋巴肿瘤弥漫性大B细胞淋巴瘤(DLBC)和间皮瘤(MESO)模型似乎不可靠。正如预期的那样，组织类型信息丰富的比较(例如，COAD与所有其他癌症类型的比较)在严格的去污染情况下通常表现得不那么好，但组织内的比较(例如，肿瘤与正常)通常表现得同样好或更好。这些结果表明，在某些比较中，严格的过滤可能是可取的，但通用的去污染方法可能会排除含有生物信息的结果。

顾汉现 · 发表于 2022-1-3 15:26:56

本帖最后由顾汉现于 2022-1-3 15:32 编辑

图3|使用血液中的mbDNA进行癌症区分的分类器性能，以及作为癌症“液体”活检的补充诊断方法
Fig.3 | Classifier performance for cancer discrimination using mbDNA in blood and as a complementary diagnostic approach for cancer ‘liquid’ biopsies.

a、模型性能热图类似于图1f-h，使用血液mbDNA和右侧带有TCGA研究ID的血液mbDNA来预测一种癌症相对于所有其他癌症的类型；每个ML少数类别分组至少需要20个样本才能进行分析。 b，使用包含癌症Ⅰa–IIc期的血液mbDNA预测一种癌症类型与其他癌症类型的ML模型性能。 c，d，根据Guardant360（c）和FoundationOne Liquid（d）ctDNA分析，使用未检测到原发肿瘤基因组改变的患者血液mbDNA评估ML模型性能。 FD，完整数据； LCR，可能由测序中心去除的污染物； APCR，所有假定的污染物按测序中心去除； PCCR，去除板中心污染物；MSF，按测序中心进行最严格的过滤。可以在 http://cancermicrobiome.ucsd.edu/CancerMicrobiome_ DataBrowser 中找到用来评估每个比较的性能的样本数量。

利用血液中微生物DNA进行预测
Predictions using microbial DNA in blood

越来越多的证据表明，血液微生物DNA(mbDNA)可以在癌症中提供临床信息，包括那些以血液屏障或淋巴破坏为特征的癌症(例如，COAD)，但尚不清楚这一点的适用范围有多广。使用来自TCGA血液样本的WGS数据，将ML策略应用于全部数据集和四个清洗过的数据集，发现血液传播的mbDNA可以区分多种类型的癌症(图3a)，无论用于分类的微生物分类算法和数据库如何，或者当仅使用基因组比对过滤的Kraken数据时。回顾性分析显示，很少有模型包含用于预测的添加的假污染物；而当包含这些假污染物(CESC，肾乳头状细胞癌(KRIP)，LIHC)时，模型可能不那么可信。

在这些发现的刺激下，本研究试图将我们的ML模型与现有的ctDNA分析进行基准比较，重点放在ctDNA分析失败的情况下：Ia-IIc期癌症和没有可检测到基因组改变的肿瘤。在去除了所有患有III或IV期癌症的患者的正常血液样本后，我们建立了新的ML模型，发现它们能够使用血液mbDNA很好地区分癌症类型(图3b)。我们进一步使用Guardant360和FoundationOne液体分析中的基因列表来筛选出具有一个或多个靶向修饰的TCGA患者(约70%)，发现相同的ML方法对大多数剩余的癌症类型显示出良好的区分性(图3c，d)。

这些分析受到以下事实的限制：ctDNA分析使用的是血浆而不是全血，而且mbDNA在血室中的分布尚不清楚。由于无法获得RNA数据，因此无法区分mbDNA来自活的还是死亡的微生物，或者mbDNA是否是无细胞的或宿主白细胞中的mbDNA，因为TCGA标准操作程序(SOP)允许提取全血或棕黄色涂层。如果不检查原始样本和配对的肠道上皮细胞，也不可能知道血液中mbDNA的来源，因为某些类型的癌症可能会以意想不到的方式“泄漏”mbDNA(例如，白血病中的肠道细菌易位)。可能会有一个理想的去污染连续体，因为去污染对模型性能的影响在不同类型的癌症中是不同的，但我们的筛选受到以下限制：(i)无法获得原始样本，iii)属级分类分辨率，以及(iii)不知道哪些非TCGA样本同时被处理。

确定血液中的微生物特征
Validating microbial signatures in blood

为了展示这些结果的应用效果，同时以血浆的ctDNA分析为基准，在验证研究中评估了使用血浆来源的无细胞mbDNA特征来区分健康个体和多种类型的癌症，同时对低生物量研究采用金标准微生物学对照。虽然血浆只是全血的一部分，这限制了其直接可比性，但它在稳定性(例如，冰冻)、生物储存库的可用性和生物学解释(即非生物材料)方面具有重大优势。本队列包括69名没有癌症和艾滋病病毒的个体和100名患有三种高级别(III-IV期)癌症之一的患者：前列腺癌(n = 59；PC)、肺癌(n = 25；LC)和黑色素瘤(n = 16；SKCM)(图4a)。在没有以前的文献来估计效应大小的情况下，我们在Broad研究所和HMS对匹配类型的癌症的TCGA血液样本进行了独立的模拟，以估计最小样本量。从这些具有广泛的对照的血浆样本中提取无细胞DNA，并在一次深度测序运行中，由特定的一组用户使用单一文库制备方法在一次深度测序运行中处理整个宏基因组测序数据。首先去除了人类基因，按Kraken方法对剩余片段进行分类，使用DNA浓度和阴性空白进行严格的去污染，以及Voom-SNM。人口学比较和排列分析显示应当对年龄和性别进行标准化，直接年龄回归表现显示的平均绝对误差类似于肠道微生物。“自举”与TCGA分析中使用的ML方案相同，显示出健康对照个体和癌症分组患者之间明显的区别(图4b)。由于样本量很小，本研究对标准化的数据进行了留一法(leave-one-out，LOO)迭代ML，发现除了最小的SKCM队列外，在健康样本和癌症类型之间的成对和多类比较中具有很高的区分性性能(图4c-k)。因此，本研究迭代地对PC组和LC组进行二次抽样以匹配SKCM队列大小，并对二次抽样的健康对照组对每种类型的癌症进行成对的LOL判别。PC和LC队列在与SKCM相同的队列大小下仍然是具有区分性的；100次迭代)，显示出SKCM性能的普遍缺陷。这一缺陷可能有生物学基础，因为SKCM在TCGA血液鉴别中的五个测试数据集中的四个中是表现第二差的(图3a)，尽管这一点值得进一步证实。为了确保Kraken的微生物指定是有效的，本研究使用SHOGUN及其单独数据库的细菌指定重复了所有生物信息学、标准化和ML步骤，这显示出高度一致的性能。随着微生物数据库的改进，我们预计cfDNA特征的分类效能将会改进。检测到的血浆微生物丰度可以在 http://cancermicrobiome.ucsd.edu/CancerMicrobiome_DataBrowser 上进行搜索。

图4|使用血浆来源的无细胞mbDNA构建的用来区分癌症类型和健康对照的ML模型的预测性能
Fig.4|Performance of ML models to discriminate between types of cancer and healthy controls using plasma-derived, cell-free mbDNA.

a、验证研究中分析的样本的人口统计信息。所有患者均患有多种亚型的高级别（III–IV期）癌症，并被分为PC，LC和SKCM组。 b，用于区分分组癌症样品（n = 100）和非癌症健康对照（n = 69）的自举性能估计。使用不同的训练-测试分割（70％–30％）进行500次迭代的ROC（顶部）和PR（底部）曲线数据的栅格化密度图。 c–h，两类之间的LOO迭代ML性能：PC与对照组（c），LC与对照组（d），SKCM与对照组（e），PC与LC（f），LC与SKCM（g），以及PC与SKCM（h）。 i–k，多类（n = 3或4），LOO迭代ML性能，以区分癌症类型（i）以及混合癌症患者和健康对照个体（j，k）。总体LOO ML性能计算为将一个与所有其他性能进行比较时的性能平均值。

讨论 Discussion
总体而言，本研究的数据表明，不同类型的癌症和特定的微生物菌群之间存在广泛的关联。这些微生物图谱能够区分了大多数类型的癌症，包括在低级别肿瘤阶段使用基于血液的mbDNA，以及在商业ctDNA检测中没有检测到任何可检测到的基因组变化的患者。即使经过广泛的内部验证检查和数据清洗(有时会丢弃总数据的90%以上)，这些结果通常仍然有效。在健康对照者和多种癌症患者中，仅使用血浆中无细胞的mbDNA，同时采用比TCGA更广泛的内部和外部污染控制，微生物分类模型具有很高的区分性，这表明使用广泛可用的样本进行临床相关的回顾性测试是可行的和可推广的。需要更多的工作来确定观察到的核酸是否来自肿瘤微环境和血液中的活微生物、宿主细胞或裂解细菌。值得注意的是，许多技术和生物学因素限制了对低生物量微生物的回顾性癌症测序数据的分析，这一领域的进展将需要癌症生物学家和微生物学家之间的合作。尽管如此，本研究的结果表明，一类新的基于微生物组的癌症诊断工具可能会为患者提供实质性的未来价值。

数据获取
ftp://ftp.microbio.me/pub/cancer_microbiome_analysis/

https://qiita.ucsd.edu/

代码获取 Code availability
https://github.com/biocore/tcga

参考文献
Gregory D. Poore, Evguenia Kopylova, Qiyun Zhu, Carolina Carpenter, Serena Fraraccio, Stephen Wandro, Tomasz Kosciolek, Stefan Janssen, Jessica Metcalf, Se Jin Song, Jad Kanbar, Sandrine Miller-Montgomery, Robert Heaton, Rana McKay, Sandip Pravin Patel, Austin D. Swafford & Rob Knight. (2020). Microbiome analyses of blood and tissues suggest cancer diagnostic approach. Nature 579, 567-574,
doi: https://doi.org/10.1038/s41586-020-2095-1

责编：卢洪叶北京大学

审核：刘永鑫中科院

猜你喜欢
10000+: 菌群分析
宝宝与猫狗提DNA发Nature 实验分析谁对结果影响大  Cell微生物专刊肠道指挥大脑
系列教程：微生物组入门 Biostar 微生物组  宏基因组
专业技能：生信宝典学术图表高分文章不可或缺的人
一文读懂：宏基因组寄生虫益处进化树
必备技能：提问搜索  Endnote
文献阅读热心肠 SemanticScholar Geenmedical
扩增子分析：图表解读分析流程统计绘图
16S功能预测 PICRUSt  FAPROTAX  Bugbase Tax4Fun
在线工具：16S预测培养基生信绘图
科研经验：云笔记  云协作公众号
编程模板: Shell  R Perl
生物科普: 肠道细菌人体上的生命生命大跃进  细胞暗战人体奥秘
写在后面
为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍末解决群内讨论，问题不私聊，帮助同行。
image

学习扩增子、宏基因组科研思路和分析实战，关注“宏基因组”
image

点击阅读原文，跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

转载本文请联系原作者获取授权，同时请注明本文来自刘永鑫科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3334560-1246387.html

https://www.nature.com/articles/s41586-020-2095-1