加权基因共表达网络分析(WGCNA,Weightedcorrelationnetworkanalysis)是用来描述不同样品之间基因关联模式的系统生物学方法,可以用来鉴定高度协同变化的基因集,并根据基因集的内连性和基因集与表型之间的关联鉴定候补生物标记基因或治疗靶点。
理解WGCNA,需要先理解下面几个术语和它们在WGCNA中的定义。
Connectivity(连接度):类似于网络中“度”(degree)的概念。每个基因的连接度是与其相连的基因的边属性之和。
ModuleeigengeneE:给定模型的第一主成分,代表整个模型的基因表达谱。这个是个很巧妙的梳理,我们之前讲过PCA分析的降维作用,之前主要是拿来做可视化,现在用到这个地方,很好的用一个向量代替了一个矩阵,方便后期计算。(降维除了PCA,还可以看看tSNE)
Intramodularconnectivity:给定基因与给定模型内其他基因的关联度,判断基因所属关系。
Hubgene:关键基因(连接度最多或连接多个模块的基因)。
研究模型之间的关系,从系统层面查看不同模型的互作网络。
从关键模型中选择感兴趣的驱动基因,或根据模型中已知基因的功能推测未知基因的功能。
R包WGCNA是用于计算各种加权关联分析的功能集合,可用于网络构建,基因筛选,基因簇鉴定,拓扑特征计算,数据模拟和可视化等。
基因表达矩阵:常规表达矩阵即可,即基因在行,样品在列,进入分析前做一个转置。RPKM、FPKM或其它标准化方法影响不大,推荐使用Deseq2的varianceStabilizingTransformation或log2(x+1)对标准化后的数据做个转换。如果数据来自不同的批次,需要先移除批次效应(记得上次转录组培训课讲过如何操作)。如果数据存在系统偏移,需要做下quantilenormalization。
性状矩阵:用于关联分析的性状必须是数值型特征(如下面示例中的Height,Weight,Diameter)。如果是区域或分类变量,需要转换为0-1矩阵的形式(1表示属于此组或有此属性,0表示不属于此组或无此属性,如样品分组信息WT,KO,OE)。
IDWTKOOEHeightWeightDiametersamp1100123samp2100246samp3010102050samp4010153080samp5001NA98samp6001487
推荐使用Signednetwork和Robustcorrelation(bicor)。(这个根据自己的需要,看看上面写的每个网络怎么计算的,更知道怎么选择)
无向网络在power小于15或有向网络power小于30内,没有一个power值可以使无标度网络图谱结构R^2达到0.8或平均连接度降到100以下,可能是由于部分样品与其他样品差别太大造成的。这可能由批次效应、样品异质性或实验条件对表达影响太大等造成,可以通过绘制样品聚类查看分组信息、关联批次信息、处理信息和有无异常样品(可以使用之前讲过的热图简化,增加行或列属性)。如果这确实是由有意义的生物变化引起的,也可以使用后面程序中的经验power值。
WGCNA依赖的包比较多,bioconductor上的包需要自己安装,cran上依赖的包可以自动安装。通常在R中运行下面4条语句就可以完成WGCNA的安装。
建议在编译安装R时增加--with-blas--with-lapack提高矩阵运算的速度,具体见R和Rstudio安装。
实战采用的是官方提供的清理后的矩阵,原矩阵信息太多,容易给人误导,后台回复WGCNA获取数据。