《微生物组数据分析与可视化实战》专著
本文为样章,211代表目录中的第二章,第一节的第一部分,部分引用格式文字为格式说明。
每节的基本逻辑:背景知识——实例解读——实战代码,三步走
本节作者
刘永鑫中科院遗传发育所
文涛南京农业大学
钱旭波浙江大学
版本1.0,更新日期:2020年6月7日
物种多样性主要从三个层面进行衡量,分别是α多样性、β多样性和γ多样性。每个衡量尺度所呈现的多样性角度不同。Alpha多样性也被称为生境内多样性(within-habitatdiversity),是指一个特定区域或生态系统内的多样性。以医学领域为例,α多样性是指一个样本中物种的多少、丰度和均匀度(图1)。我们用动物园来打个形象的比喻,α多样性是指这个动物园中动物的种类数、每种动物的只数和每种动物数量的平衡关系。β多样性又称生境间多样性(between-habitatdiversity),是指生境群落之间物种组成的相异性或物种沿环境梯度更替的速率。同样以医学领域为例,它主要指样本间物种组成的相异性(图1)。β多样性相当于2个动物园中动物种类的差异情况。γ多样性是指一个区域内总的多样性,由于其在微生物组研究中极少使用,此处不作介绍。
图1.α多样性和β多样性示意图(Qianetal.,2020)。α多样性主要体现样本内物种多少、丰度和/或均匀度,而β多样性指样本间多样性异同。
α多样性的计算主要与3个因素有关:一是物种数目(richness),二是丰度(abundance),三是均匀度(evenness)。物种数目是指一个样本中物种存在的个数,与每个物种量的多寡无关。丰度是指每个物种的多寡,比如一个粪便样本中物种A出现10次,物种B出现1000次;如果将每个样本所有物种求百分比,这样每个样本的物种丰度合计数为1,这种丰度叫相对丰度。均匀度主要考量物种之间的相对比例。α多样性常用的衡量指标有:
观测的特征数(ObservedOTU/ASV):是指每个样本中能够观察到的OTUs或ASVs的数量,与每个OTU或ASV的多寡无关。如果把动物园比喻成一个样本,则“ObservedOTUs”是指这个动物园中动物的种类数,与每种动物具体有几只无关。
Chao1指数:是物种数目的衡量标准之一,它考虑3个因素,一是物种数目,二是只有1条序列的物种数目,三是2条序列的物种数目,计算公式是:Chao1=Sobs+n1(n1-1)/2(n2+1),其中Chao1为估计的OTU数,Sobs为观测到的OTU数,n1为只有1条序列的OTU数目,n2为只有2条序列的OTU数目。Chao1指数越大,表明某群落物种数目较多。注意,从公式可以看出,Chao1指数受1条和2条序列的物种影响较大。
香农指数(Shannon-Wienerindex):香农指数综合考虑了群落的物种数目和均匀度这两个因素。Shannon指数值越高,表明群落的α多样性越高。注意,该指标对于丰度低的物种有较大的权重,即计算时受丰度低的物种影响较大,在解释香农指数时需要注意这点。
辛普森指数(Simpsonindex):用来估算样品中微生物的多样性指数之一,由EdwardHughSimpson(1949)提出。Simpson指数值越大,说明群落多样性越低。辛普森指数在计算时将丰度高的物种设置了较大权重,所以高丰度物种较多时该指数值较大,这与香农指数有明显区别。
Pielou的均匀度指数(Pielou’sEvennessIndex):这是最常用的均匀度指数,它其实就是香农指数与ObservedOTU/ASV对数的比值。很显然,这个指标受ObservedOTU/ASV影响很大,这是这个指标的主要缺点之一。由于香农指数和辛普森指数本身就包含了均匀度信息,实际研究工作中这2个指标很常用。
箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在宏基因组领域,常用于展示样品组中各样品Alpha多样性的分布。
下面两张图参考自斯坦福医学统计课程第一单元第三节,PPT32-33页,中文翻译参考百度百科。直接上图。
第一种情况:最大或最小值没有超过1.5倍箱体范围;
图2.以Alpha多样性最常用的香农指数(Shannonindex)为例
第二种情况:最大或最小值超过1.5倍箱体范围,外位延长线外,即异常值(outliers):
图3.以Alpha多样性丰富度指数(Richnessindex)为例
图4.箱线图展示籼粳稻和土壤的香农多样性指数(Zhangetal.,2019)。箱体上中下线分别为75、50(中位数)和25分位数,轴须线最长不超过1.5x箱体范围。字母用于区分组间是否存在显著区别,不同字母表示组间存在显示差异(P<0.05,ANOVA,Tukey-HSDtest)。图中的样本量如下:地块1:籼稻(n=201),粳稻(n=80),土壤(n=12);地块2,籼稻(n=201),粳稻(n=81),土壤(n=12)。
Shannonindexofthemicrobiotaofrootsfromindica,japonicaandthecorrespondingbulksoilsintwofields.Thehorizontalbarswithinboxesrepresentmedians.Thetopsandbottomsofboxesrepresentthe75thand25thpercentiles,respectively.Theupperandlowerwhiskersextendtodatanomorethan1.5×theinterquartilerangefromtheupperedgeandloweredgeofthebox,respectively.Thenumbersofreplicatedsamplesinthisfigureareasfollows:infieldI,indica(n=201),japonica(n=80),soil(n=12);infieldII,indica(n=201),japonica(n=81),soil(n=12).
图注描述注意事项:
图表标题写法有两类,第一个类写做了什么(如本例),另一类是写发现的结果(如A比B多),以第一类使用较多,第二类更突出发现的规律但有时杂志不允许;
箱线图要对箱体的上、中、下水平线,两端延长线的位置和意义进行描述。虽然是固定套路,但Nature系列杂志要求必须描述清楚;
样本数量要在图注结果详细描述,每个实验组的样本量(n=xxx),其中n要任何,等号两边要有空格;如果n<30,必须在箱线图中添加抖动图(jitter)展示每个样本点的分布位置。
结果:粳稻和籼稻的根系微生物的alpha多样性具有显著差异(图1e和附图4)。两块地中粳稻根系微生物多样性显著高于粳稻(图1e),表明粳稻根系可以招募更多微生物种类。
Measurementofwithin-samplediversity(α-diversity)revealedasignificantdifferencebetweenindicaandjaponicavarieties(Fig.1eandSupplementaryFig.4).Therootmicrobiotaofindicahadhigherdiversitythanthoseofjaponicainbothfields(Fig.1e),indicatingthatindicarootsrecruitedmorebacterialspeciesthanjaponicarice.
结果描述注意事项:
一般提到显著(significant)就必须要描述准确的P值和统计方法,如(P=0.03或P<0.05,ANOVA和TukeyHSDtest等方法),但有时篇幅有限和感觉重复,只在方法部分定义,结果和图注中会省略,注意P要斜体,"<"前后有空格。
结果一般是图中信息的描述、比较和规律总结,有图时且已经发现了规律,写起来是非常容易的,要注意尽量陈述事实而不要过度引深或推断。
图5.基于年龄梯度的α多样性系数分析(Danetal.,2020),包括丰富度估计量指数(H)、香农指数(I)和系统发育多样性指数(1J。
(h),Shannonindex(i),andphylogeneticdiversityindex(j).
Wefoundthattheα-diversityofASDgroupshowednosignificantchangewithage,whiletheTDgroupshowedincreasedα-diversitywithage,whichindicatesthatthecompositionaldevelopmentofthegutmicrobiotainASDvariesatdifferentagesinwaysthatarenotconsistentwithTDgroup.
Wefurtherassessedtheage-relatedchangeofbacteriadiversity.Differentalphadiversityindexreflectsonlyoneaspectofwithin-samplediversity;hence,weusedthreemethodstoestimatetheage-relatedchangeinalphadiversitybetweenthetwogroups.AsshowninFigure1(h),therichnessofspecies(breakawayestimates)showedincreasedin7–11yearsagesubgroupofTDgroupcomparedto2–3yearsagesubgroup;however,theASDgroupshowednochangewithagegrowth.Shannonindexaccountsforbothabundanceandevennessofspeciespresent.AsshowninFigure1(i),theShannonindexatthe4–6yearsagesubgroupshowednosignificantchangecomparedtothe2–3yearsagesubgroup,buttheShannonindexatthesubgroupof7–11yearsageinTDgroupshowedincreasedcomparedtoboth2–3yearsand4–6yearsagesubgroups,respectively.Thephylogeneticdiversity(PD)indexwasusedtomeasurethedegreeofevolutionarydivergencebetweentwogroups.AsshowninFigure1(j),thePDindexofthesubgroupof4–6yearsand7–11yearsinTDgroupwasincreasedcomparedto2–3subgroups,respectively.
Inaddition,theα-diversityofASDchildrenshowednoage-relatedchange,whileTDchildrenshowedincreasedα-diversitywithage.NC-ASDshoweddecreasedα-diversityandalternationofgutmicrobiotacomparedtoTD.However,C-ASDshowedincreasedα-diversitycomparedtoNC-ASD,whichfurtherimplicatedthatconstipationmightaddheterogenouscharacteristicsofgutmicrobiotainASD.
Moreover,theα-diversityinthegutmicrobiotaofASDgroupshowednosignificantchangewithage;however,theTDgroupshowedincreaseddiversity.ThechangedspeciesassociatedwithmetabolitealterationinC-ASDwereidentified.
总结
本图将样本点和统计结果标注在图上,是非常规范的作图方案;同时推荐将各分组的样本量情况写在图注中,参考上图NBT文中的示例;
图6.在门(b)和属(c)水平评估微生物群落丰富度(Danetal.,2020)。
附图注原文:
(b)TheestimateofrichnessindexanalysisbetweentwogroupsatthelevelofPhylum(b)andgenus(c).
结果:与TD组相比,C-ASD组的物种丰富度和多样性显著降低。
Therichnessofspecies(breakawayestimates)atthephylumlevelwassignificantlylowerintheASDgroupthanthatintheTDgroup(Figure1(b)).However,therewerenosignificantdifferencesinrichnessbetweentheASDgroupandTDgroupatthegenuslevel(Figure1(c)).
通常Alpha多样性在ASV和OTU层面分析,测序结果的聚类和去噪也可以比较好的反映多样性的情况;
物种注释常用7级分类法:界、门、纲、目、科、属和种;扩增子测序读长短,通常只在属水平较准确,所以将OTU/ASV归类为属水平再分析多样性也是不错的选择。同时门水平,因为数量有限,人类可读性更好,在分析中也比较常用。本文在门、属水平展示多样性,是比较典型的应用,同时对OTU/ASV层面进一步的证明和补充。
数据和代码下载
为了保证数据和代码的可用性和安全性,我们将结果同步保存于Github、个人服务器和百度云三处(狡兔三窟,这种数据分析人员极其重要)。
通常以下三种方式通过任选其一,可获得原始数据和代码,但三种都会可极大提高数据获取的成功率:
视频教程:Windows下Github、公网和百度云的3种下载方式。
软件和数据库安装
视频教程:Alpha多样性箱线图代码运行和讲解
检查依赖关系是否安装,有则跳过,无则自动安装。
本项目更新较快,建议使用中存在问题,运行install_github行安装最新版。
在amplicon包中有alpha_boxplot函数可以一行命令快速绘制箱线图+统计标记的图
本次绘制使用函数内置数据,进行快速演示;查找命令使用,可打问题()+命令名。
图7.箱线图展示Alpha多样性丰富度(richness)指数在三组内在分布和组间统计。不同字母代表组间存在显著差异(AdjustP<0.05,ANOVA,TukeyHSDtest)。
从图中可以看到KO(基因敲除,knock-out)组与OE(过表达,over-expression)和WT(野生型,wild-type)组存在显著差异(字母不同),即基因的有无可对微生物群落的丰富度引起显著变化。同时观察到丰富度在三组间KO 绘制主要分三步: 读取数据并预览格式; 参数调整和绘图; 保存图片。 原文实验较复杂,这是只截取了3个实验组各6个样品的结果用于演示。数据位于Data/Science2019目录,本次需要元数据(metadata.txt)和Alpha多样性指数(alpha/vegan.txt)两个输入文件。 图8.箱线图展示Alpha多样性香农(shannon)指数在三组内在分布和组间统计。 我们看到与丰富度相似,但又不完全相的结果。在Shannon指数角度,只有KO和WT组存在显著差异。 修改分组顺序 我们经常要按照一定的逻辑指定分组顺序。如图7中发列多样性分布存在一定规律,我们想按多样性由小至大顺序手动重排分组。在R语言中,可以通过设置level来指定顺序 讨论干扰因素是否显著影响多样性 图10.讨论不同地点是否对Alpha多样性存在影响,图中显示无显著影响。 查看函数原代码进一步修改 只输入函数名称,不加后面的括号和任何参数,即显示函数的全部代码。 你可以复制输出的代码,在文档中修改更加个性化的分析结果。 大多数情况下还是推荐箱线图的,但有时觉得箱线图用的太多,审美疲劳。或是数据分布过散,规律不明显时,也可以尝试使用历史更加悠久的柱状图+误差棒 图11.误差柱状图展示Alpha多样性。 如果你使用本教程的代码,请引用: Yong-XinLiu,YuanQin,TongChen,et.al.Apracticalguidetoampliconandmetagenomicanalysisofmicrobiomedata.ProteinCell41,1-16,doi:10.1007/s13238-020-00724-8(2020) JingyingZhang,Yong-XinLiu,et.al.NRT1.1Bisassociatedwithrootmicrobiotacompositionandnitrogenuseinfield-grownrice.NatureBiotechnology37,676-684,doi:10.1038/s41587-019-0104-4(2019). Xu-BoQian,TongChen,Yi-PingXu,LeiChen,Fu-XiangSun,Mei-PingLu&Yong-XinLiu.Aguidetohumanmicrobiomeresearch:studydesign,samplecollection,andbioinformaticsanalysis.Chin.Med.J.,doi:10.1097/CM9.0000000000000871(2020). Shannon,C.E.(1948).Amathematicaltheoryofcommunication.TheBellSystemTechnicalJournal27,379-423. Simpson,E.H.(1949).MeasurementofDiversity.Nature163,688. Chao,A.,andYang,M.C.K.(1993).Stoppingrulesandestimationforrecapturedebuggingwithunequalfailurerates.Biometrika80,193-201. Chao,A.(1984).NonparametricEstimationoftheNumberofClassesinaPopulation.ScandinavianJournalofStatistics11,265-270. ZhouDan,XuhuaMao,QishaLiu,MengchenGuo,YaoyaoZhuang,ZhiLiu,KunChen,JunyuChen,RuiXu,JunmingTang,LianhongQin,BingGu,KangjianLiu,ChuanSu,FamingZhang,YankaiXia,ZhibinHu&XingyinLiu.AlteredgutmicrobialprofileisassociatedwithabnormalmetabolismactivityofAutismSpectrumDisorder.GutMicrobes,1-22,doi:10.1080/19490976.2020.1747329(2020).