R语言是比较常用的统计分析和绘图语言,拥有强大的统计库、绘图库和生信分析的Bioconductor库,是学习生物信息分析的必备语言之一。
Linux下安装
如果使用的是新版的操作系统。直接可以用sudoapt-getinstallr-base或者yuminstallr-base来安装。
#configure是收集系统信息,生成Makefile的过程#--enable-R-shlib需要设置,使得其他程序包括Rstudio可以使用R的动态库#--prefix指定软件安装目录,需使用绝对路径./configure--prefix=/home/ehbio/R/4.0.2--enable-R-shlib#也可以使用这个命令,共享系统的blas库,提高运输速度#./configure--prefix=/home/ehbio/R/4.0.2--enable-R-shlib--with-blas--with-lapack#make是编译的过程make#安装到指定目录的过程makeinstall安装完成之后,在Linux终端输入R即可启动交互式运行界面,ctrl+d退出R运行界面。若提示找不到命令,需要判断有没有加入进环境变量。
Windows下安装
两者都需要考虑环境变量,若有问题,见文后的参考。
Rstudio是编辑、运行R语言的最为理想的工具之一,支持纯R脚本、Rmarkdown(脚本文档混排)、Bookdown(脚本文档混排成书)、Shiny(交互式网络应用)等。
Rsdutio分为桌面版和服务器版,桌面版可以在单机使用,服务器版可以从浏览器访问供多人使用。
服务器版安装好之后,访问地址为<服务器IP:8787>(8787为默认端口号),用户名和密码为Linux用户的用户名和密码。
Linux下安装服务器版
如果该网址不能打开,一般有2个原因:
安装rstudio-server的服务器是内网IP,不可以在外网访问,只能被连接到同一台路由器的电脑访问。这时需要配置外网IP或百度查找下其它IP穿透方式的设置。
确定自己的服务器没有被防火墙限制端口,一般在学校或科研单位会设置防火墙屏蔽大部分端口,这时联系网络管理员开通相应的端口即可。
Windows下安装桌面版
Windows下桌面版直接双击打开即可使用,Linux服务器版访问地址为服务器IP:8787,用户名和密码为Linux用户的用户名和密码。
如果是桌面版,直接就可以访问“我的电脑”去打开之前写过的脚本。如果是服务器版,可直接访问服务器上写过的脚本。Rstudio右下1/4部分可以切换目录,点击more,设置工作目录。可以上传本地的脚本到对应目录打开。
str用来告诉结果的构成方式,对于不少Bioconductor的包,或者复杂的R函数的输出,都是一堆列表的嵌套,str(complex_result)会输出每个列表的名字,方便提取对应的信息。
映射数据到几何形状的属性,如大小
自定义颜色
设置主题属性
放大点,并添加文字作为label
自定义注释
绘制热图
转换坐标系
更改横轴的顺序
箱线图展示
小提琴图加点的连线
假如我们的数据如下形式,如何完成上面的图的绘制?
KO1;KO2;KO3;WT1;WT2;WT3Gene1;1.2;1.2;1.2;3.0;3.0;3.0Gene2;1.4;1.4;1.4;2.0;2.0;2.0Gene3;16.0;16.0;16.0;30.0;30.0;30.0Gene4;10.0;10.0;10.0;25.0;25.0;25.0Gene5;25.0;25.0;25.0;10.0;10.0;10.0Gene6;30.0;30.0;30.0;16.0;16.0;16.0Gene7;2.0;2.0;2.0;1.4;1.4;1.4Gene8;3.0;3.0;3.0;1.2;1.2;1.2读入数据,查看数据格式(注意:read.table中参数与之前的不同地方在哪?为什么?)
首先计算平均值和标准差,使用group_by按Gene,Group分组,对每组做summarize。
采用ggpubr绘制barplot+errorbar
绘制带Error-bar的堆叠柱状图
在柱子中标记百分比值
首先计算百分比,同样是group_by(按照给定的变量分组,然后按组操作)和mutate两个函数(在当前数据表增加新变量)
序列型颜色板适用于从低到高排序明显的数据,浅色数字小,深色数字大。
离散型颜色板适合带“正、负”的,对极值和中间值比较注重的数据。