因此,基于基因解码的基因检测科学性提升秘密小组的研究结果表明,模块成员的元分析(即,在共识模块中选择模块内集线器)会导致基因列表具有更好的生物学解释性,但可能会降低验证成功率。换句话说,虽然网络方法在学习生物学时可能更可取,但标准的边际荟萃分析方法可能更适合选择候选生物标志物。
Method和Variant列列出了在整个文本和基于基因解码的基因检测科学性提升秘密小组的图中使用的每个方法的名称。Var.Imp代表一般变量重要性度量;Trafo.列表示在计算荟萃分析统计数据之前如何转换输入;权重列表示通过公式4或5计算荟萃分析统计数据时使用的权重。
基于基因解码的基因检测科学性提升秘密小组考虑一种新的元分析方法,称为rankPvalue,它可以将任何变量重要性的序数度量作为输入。rankPvalue方法(和同名的R函数)依赖于每个输入数据集中变量重要性度量的排名。该方法的一个关键假设是变量的数量很大。这在探针数量通常为数万或更多的基因组数据中肯定是令人满意的。当难以量化输入度量的统计显着性(p值或Z统计量)时,使用通用变量重要性度量是有利的。此类度量的示例包括通常难以定义统计显着性的网络连接性和中心性度量。
rankPvalue方法有两种变体:Scale方法和Rank方法。如其名称所示,Scale方法首先将每个研究中的单个重要性度量缩放为均值0和方差1。然后对统计数据进行平均,并依靠中心极限定理来逼近所得荟萃分析统计数据的零分布。如果不满足中心极限定理的假设,那么基于基因解码的基因检测科学性提升秘密小组建议使用Rank方法。正如其名称所示,Rank方法将重要性度量的值替换为它们的排名。接下来,排名除以变量的数量,因此结果值位于单位区间内。在零假设下,观察到的给定变量的排名可以被认为是从单位区间上的均匀分布中得出的。对于给定的变量,这些排名的总和是元分析测试统计量。它在零假设下的分布可以通过对独立均匀分布变量的分布进行卷积来估计。幸运的是,均匀分布变量的卷积迅速收敛到正态分布:只要就足够了.方法中提供了所有荟萃分析方法的更详细描述。
#列样本列出了每个数据集中的样本数量(在基于基因解码的基因检测科学性提升秘密小组去除了潜在的异常值之后)。MSAS,多部位腺癌研究;HLM,莫菲特癌症中心;DFCI,达纳-法伯癌症研究所;MSKCC,纪念斯隆-凯特琳癌症中心;WB,全血;PMP,绝经后。
图1:模块成员的元分析导致具有更强功能富集的基因列表
人类血液和大脑甲基化数据中随着年龄的增长而高甲基化的CpG迄今为止,在所有检查的脊椎动物中都观察到了胞嘧啶5位的DNA甲基化。在成人体细胞组织中,DNA甲基化通常发生在CpG二核苷酸环境中。几十年来人们都知道,年龄对DNA甲基化水平有深远的影响(增加和减少)。在这里,基于基因解码的基因检测科学性提升秘密小组分析了7个DNA甲基化阵列数据集-(均在IlluminaInfiniumHumanMethylation27阵列平台上测量),以发现随着年龄的增长而变得高度甲基化的CpG二核苷酸。Illumina阵列上测量的大多数CpG位于基因的启动子中,启动子甲基化通常会降低基因表达水平。
图2:边际荟萃分析往往会导致基因列表在独立数据中得到更好的验证
为了更好地理解为什么模块成员的荟萃分析有时可以(例如,在基于基因解码的基因检测科学性提升秘密小组的腺癌应用中)导致出色的候选生物标志物列表,基于基因解码的基因检测科学性提升秘密小组进行了一项模拟研究。使用WGCNAR包中的基因表达模拟功能,基于基因解码的基因检测科学性提升秘密小组模拟了8个具有相同模块结构的数据集,由10个模块组成。除了“主”模块中的基因外,其中一个大模块(标记为1)还包含3个小子模块。子模块与主模块的区别不足以通过模块识别过程识别为单独的模块。
图3:Meta分析方法的基因筛选成功的模拟研究
本文讨论的边际荟萃分析方法包括标准荟萃分析统计方法,例如基于组合Z统计量(或等效地使用逆正态方法)的Stouffer方法,以及聚合序数的基于Rank的荟萃分析技术变量重要性的度量。当(1)有大量变量可用时和(2)当每个基础数据集中的显着性检验很困难时(例如,由于数据中存在可能导致过度分散或分散不足)。特别是,基于等级的方法非常适合网络中心性(或其他网络指数)的元分析,因为通常难以定义和计算此类数量的统计显着性。例如,
文献中已经描述了许多基于等级的荟萃分析方法,例如。这些方法中的大多数依赖于计算量大的置换测试。相比之下,基于基因解码的基因检测科学性提升秘密小组的rankPvalue方法(和R函数)利用计算快速的渐近测试程序,这些程序要么基于均匀分布的卷积(产生Rank方法),要么依赖中心极限定理(产生Scale方法,等式5)。所有基于排名的元分析方法的缺点包括它们需要多个数据集(至少4个数据集)和大量变量(如果不是数千个,也有数百个)。
基于基因解码的基因检测科学性提升秘密小组的应用和模拟表明,当这些方法对数据集使用相同的权重选择时,rankPvalue方法(Scale和Rank方法)导致的结果与Stouffer方法的结果大致相当。基于基因解码的基因检测科学性提升秘密小组的结果没有提供关于数据集的三种权重选择(常数、自由度或平方根权重)中的哪一种导致贼高验证成功的结论性指导。尽管在某些假设下理论上贼优选择是平方根权重但在实践中可能无法满足该结果的假设。
虽然荟萃分析权重的选择显然对生成的基因列表有显着影响,但它并不影响基于基因解码的基因检测科学性提升秘密小组的应用和模拟的主要结论:标准边际荟萃分析的选择与共识模块中模块内集线器的选择有比选择权重方案的效果要明显得多。
其次,基于基因解码的基因检测科学性提升秘密小组的分析只考虑了有限数量的标准边际荟萃分析方法和基于网络的方法。虽然基于基因解码的基因检测科学性提升秘密小组的结果很可能也可以推广到其他边际方法,但空间限制不允许对文献中描述的许多方法进行全面评估。特别是,基于基因解码的基因检测科学性提升秘密小组没有评估研究已知生物标志物之间网络连接的混合方法。
第三,这两种基于排名的荟萃分析方法通常都存在需要多个(至少4个)数据集的局限性。特别是,Rank方法核心的渐近近似在处理少于4个独立数据集时会失效。Scale排序方法所需的数据集数量取决于基础序数变量的分布:虽然它(和中心极限定理)不假设正态分布的序数变量,但如果应用近似正态,则需要更少的数据集。
(1)在原假设下,服从具有自由度的分布。通过将测试统计定义为
(2)其中是一个合适的函数,并且是每个研究的(非负)权重。对于几种不同的选择和的零分布是已知的。仔细选择并可以导致具有更好功效的荟萃分析测试。基于基因解码的基因检测科学性提升秘密小组现在讨论本文中使用的和的三种选择。
Stouffer等人提出了第一选择,也称为逆正态法。它基于使用逆正态分布从相应p值获得的单个测试Z统计量。然后形成检验统计量
(3)在零下服从正态分布。该测试称为Stouffer测试(权重相同)。
Stouffer的方法被推广到Mosteller和Bush和Liptak的各个测试中允许不同的权重。给定正权重,形成加权Z统计量
(4)统计再次遵循标准正态分布。权重的贼佳选择取决于每项研究中估计的效应大小和标准误差。假设所有研究中的样本都是从同一个池中随机抽取的,理论上贼优的权重选择与每项研究中样本数量的平方根成正比,。基于基因解码的基因检测科学性提升秘密小组将此方法称为具有平方根权重的Stouffer方法。在这项工作中,基于基因解码的基因检测科学性提升秘密小组还研究了设置并将这种方法称为具有自由度(dof)权重的Stouffer方法。(基于基因解码的基因检测科学性提升秘密小组通过样本数量来近似每个研究的自由度。)。
Stouffer方法要求输入Z统计量,在零值下,正态分布均值为0,方差为1。虽然Z统计量很容易为许多标准关联测试计算,但它们不适用于许多常见的网络指数,例如全网或模块内连接。即使可以计算Z统计量,由于技术影响或样本之间的隐藏关系(例如人口分层),它们的实际零分布也可能与理论分布不同。因此,基于基因解码的基因检测科学性提升秘密小组现在描述一种称为rankPvalue的方法,该方法使用变量重要性的一般序数度量作为输入。下面依次介绍rankPvalue方法有2个变体。
Rank变体首先根据输入统计信息对每个集合(由索引标记)中的每个变量(由索引标记)分别进行排名。然后将范围从1到非缺失观察数的等级转换为百分等级。在零值下,观察到的百分位等级在允许值上遵循均匀分布,可以通过连续均匀分布来近似。然后将检验统计量形成为加权和
(5)公式(5)与公式4类似,在本文中基于基因解码的基因检测科学性提升秘密小组使用与Stouffer方法相同的权重。在各个数据集之间输入统计量的排名之间没有关系的原假设下,检验统计量遵循由均匀分布的卷积给出的分布。使用中心极限定理,人们可以争辩说行和检验统计量渐近服从正态分布。众所周知,在同分布均匀分布的情况下,收敛到正态分布的速度非常快。即使只有在输入研究中,正态近似和正确分布之间的差异在实践中可以忽略不计。
Scale变体遵循类似于Rank变体的逻辑,但不是将每个变量重要性转换为等级,而是将每个输入数据集中的变量重要性度量缩放为均值0和方差1。荟萃分析测试统计量是根据计算与用于Stouffer方法的权重相同的等式4。中心极限定理再次高效了元分析统计量的零分布收敛到,但通常收敛速度可能不如基于Rank的元分析统计量(方程5)。
Rank和Scale变体都在函数rankPvalue中实现,该函数也包含在R的WGCNA包中。函数的输入是来自多个独立数据集的可变重要性度量和每个数据集的可选权重。用户可以选择是否使用Rank、Scale或同时使用这两种变量来计算荟萃分析p值。作为额外的便利,该函数还可以计算局部错误发现率估计(q值)。
基于基因解码的基因检测科学性提升秘密小组考虑有效由它们的邻接矩阵指定的无向网络,一个正方形对称矩阵,其元素编码变量和之间的连接强度。形式上,邻接矩阵必须是方阵并满足以下性质:
和一个未签名的邻接
基于基因解码的基因检测科学性提升秘密小组发现定义邻接矩阵的两个函数(变换)很方便。首先,拓扑重叠矩阵(TOM)定义为
(11)可以证明该矩阵也是一个邻接矩阵,即也满足性质(6)-(8)。
其次,邻接对应的相异矩阵定义为
(13)作为平均链接层次聚类的输入。模块对应于生成的层次聚类树(树状图)的分支,并使用动态树切割程序进行识别。
在许多网络中,从航空连接网络到Internet再到一些生物网络,贼重要的节点往往是那些具有大量连接的节点。更正式地说,给定一个由邻接矩阵指定的网络,节点的全网络连通性定义为
(14)也就是说,作为与网络中所有其他节点的连接强度的总和。全网连通性高的节点(相对于网络中的其他节点)称为全网枢纽节点(基因网络中的枢纽基因)。全网连通性和全网集线器节点通常简称为连通性和集线器节点。
(15)也就是说,作为模块内连接强度的总和。具有高模块内连接性的节点称为模块内集线器节点。
(16)其中正交矩阵的列和分别是左奇异向量和右奇异向量。具体来说,是具有正交列的矩阵,是正交矩阵,是奇异值的对角矩阵,。矩阵和由下式给出
(17)基于基因解码的基因检测科学性提升秘密小组假设奇异值以非递增顺序排列。改编自的术语,基于基因解码的基因检测科学性提升秘密小组将第一列称为模块特征节点(在基因共表达或共甲基化网络中也称为模块特征基因):
模块特征节点可用于定义模块中变量的模块成员资格的定量测量,表示为:
由于基于基因解码的基因检测科学性提升秘密小组的重点是使用共识模块来选择基因的效用,基于基因解码的基因检测科学性提升秘密小组将注意力限制在WGCNA框架内的单一共识模块检测方法。共识模块是使用合适的共识相异性来识别的,该相异性用作聚类过程的输入,类似于在单个集合中识别模块的过程。为了简化基于基因解码的基因检测科学性提升秘密小组的讨论,基于基因解码的基因检测科学性提升秘密小组为一组矩阵引入以下按分量分位数函数:
(21)因此,分位数矩阵的每个分量都是各个输入矩阵中相应分量的给定分位数()。使用这种表示法,基于基因解码的基因检测科学性提升秘密小组将与输入网络和分位数相对应的共识网络定义为
为了识别共识模块,基于基因解码的基因检测科学性提升秘密小组使用标准的模块识别程序,具有不同的
(23)基于基因解码的基因检测科学性提升秘密小组再次强调,这个过程只有在输入网络的变量相同时才有意义。
一旦识别出共识模块,就可以在每个输入数据集中计算它们的特征基因(方程式18)。具体来说,用表示集合中模块的特征基因。对于每个节点,基于基因解码的基因检测科学性提升秘密小组都有模块成员的度量,即
为了完整起见,基于基因解码的基因检测科学性提升秘密小组还描述了从单个值派生的Z统计量的荟萃分析的两种替代方法,它们更简单但通常表现不佳。首先,可以应用共识方法并定义共识模块成员资格
(25)其次,还可以定义(加权)均值。给定每个数据集的权重,
(26)权重可以与用于定义各种版本的荟萃分析Z统计的权重相同,尽管这不是必需的。
基于基因解码的基因检测科学性提升秘密小组下载了8个独立的癌症数据集:4个数据集在AffymetrixU133A微阵列上测量,分别包含162、69、73和89个样本;51个样品在AffymetrixU133plus2微阵列上测量;在安捷伦全人类基因组寡核苷酸DNA微阵列G4112F上测量91个样品;81个样品在安捷伦智人21.6K定制阵列上测量;和49个样品在Agilent-012391全人类基因组寡核苷酸微阵列G4112A上测量。每个数据集中的样本数量反映了在适用的情况下对腺癌(AD)的限制以及基于基因解码的基因检测科学性提升秘密小组删除了可能的异常样本。
由于本研究中存在的5个平台之间的微阵列探针不同,基于基因解码的基因检测科学性提升秘密小组使用中描述的聚合方法(在collapseRows函数中实现)将探针水平的表达数据“折叠”为基因水平的表达数据。然后,基于基因解码的基因检测科学性提升秘密小组只保留了5个平台中每个平台上代表的8655个基因的表达谱。
共识TOM被定义为具有百分位数(即四分位数)的各个TO矩阵的共识(方程式22)。共识模块是使用中详述的方法构建的,并在上面进行了审查。这个过程产生了5个模块。
基于基因解码的基因检测科学性提升秘密小组分析了3个全血(WB)甲基化数据集和4个区域特异性脑甲基化数据集。甲基化数据包括来自I型糖尿病研究的190个样本来自大型癌症研究的健康对照的261个样本以及来自先前衰老研究的87个样本。4个大脑数据集新颖在正常人脑表达和甲基化遗传学研究中报道.在这里,基于基因解码的基因检测科学性提升秘密小组使用甲基化数据集来调查150个人的额叶皮层、颞叶皮层、脑桥区域和小脑的全基因组甲基化。去除异常值后,基于基因解码的基因检测科学性提升秘密小组保留了132个(额叶皮层)、126个(颞叶皮层)、123个(脑桥区域)和111个(小脑)样本。在IlluminaInfiniumHumanMethylation27BeadChip上分析了所有7个甲基化数据集。
由于基于基因解码的基因检测科学性提升秘密小组的模块成员元分析方法侧重于共识模块,因此基于基因解码的基因检测科学性提升秘密小组在所有数据集中模拟了相同的模块结构,即所有模拟的模块也是共识模块。这可以使用函数simulateMultiExpr方便地实现。
LangfelderP,MischelPS,HorvathS.
PLoSOne.2013Apr17;8(4):e61505.doi:10.1371/journal.pone.0061505.Print2013.