受试者工作特征曲线(receiveroperatingcharacteristiccurve,简称ROC曲线),又称为感受性曲线(sensitivitycurve)。ROC曲线首先是由二战中的电子工程师和雷达工程师发明的,用来侦测战场上的敌军载具(飞机、船舰),也就是信号检测理论,后面广泛应用于医学、无线电、生物学、犯罪心理学领域中,而且最近在机器学习(machinelearning)和数据挖掘(datamining)领域也得到了很好的发展。ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线,反映了敏感性与特异性之间关系。
②理解ROC曲线
针对一个二分类问题,我们将实例分成正类/阳性(positive)和负类/阴性(negative)两种。在实际分类中,会出现四种情况。如果一个实例是阳性并且也被预测为阳性,即为真阳性(truepositive,TP),如果实例为阴性被预测为阳性,称之为假阴性(falsenegative,FN);相应的,如果实例是阴性被预测为阴性,称之为真阴性(truenegative,TN),如果实例为阴性被预测为阳性,称之为假阳性(falsepositive,FP)。
ROC曲线以假阳性率(Falsepositiverate,FPR)即“1-特异度(1-Specificity)”为横坐标,真阳性率(Truepositiverate,TPR)即“灵敏度(Sensitivity)”为纵坐标,其中:
在ROC曲线中,FPR越大,预测阳性中实际阴性越多,TPR越大,预测阳性类别中实际阳性越多。理想状态下,TPR应该接近1,FPR应该接近0,因此ROC曲线越靠拢(0,1)点,越偏离45度对角线越好,特异度、灵敏度越大效果越好。
③ROC曲线的主要作用
在实际应用中,ROC曲线主要有以下三种作用:
a.判别一个分类其在某个阈值时对样本的识别能力,在实验中即可用于评估试验的诊断价值。这里需要引出一个概念,ROC曲线下面积(AreaUnderCurve,AUC),AUC作为数值可以直观地评价分类器的好坏,值越大越好。一般认为,AUC≈1.0为最理想的检查指标;AUC在0.7-0.9之间表示分类器准确性高;AUC=0.5表示分类器无分类价值。
b.选择出某一诊断方法最佳的诊断界限值。在ROC曲线中,最靠近左上角的那一点为最佳临界点,点上的值即为最佳临界值,因为此点上敏感度与特异度都较高,假阳性与假阴性也最少。
c.比较两种或两种以上不同诊断方法对疾病的识别能力大小。把各试验的ROC曲线绘制在同一坐标中,可以直观地比较哪种诊断更有价值,越是靠近左上角的ROC曲线所代表的诊断方法性能越好。
2GraphPadPrism绘制ROC曲线
打开GraphPadPrism软件,选择柱状图(Column),点击“Creat”创建数据。
导入数据,可从Excel中导入,也可直接复制数据在列表中,本文中以软件内置的实例数据为例进行操作。
数据分为两列,一列为“Controls”组为用于对照的诊断试验结果,一列为“Patients”组为患者。
在软件界面上方工具栏点击“Analyze”按钮对数据进行分析。
在弹出的窗口左侧展开Columnanalysis列表,选择ROCCurve选项,在右侧窗口确认勾选了“Controls”组和“Patients”组,点击“OK”按钮。
在弹出的Parameters:ROCCurve窗口中指定哪些列具有对照结果和患者结果,并选择查看以分数或百分比表示的结果(灵敏度和1-特异性),该设置可在Results参数选项中选择勾选“Fraction”或“Precentage”进行更改,其它参数一般无需更改,点击“OK”来生成ROC曲线。
在Results处可查看统计结果,其中Area即AUC,为曲线下面积,本例中为0.9467。此外,Prism还报告了ROC曲线下面积的标准误差(Std.Error)、95%置信区间(95%confidenceinterval)以及P值(Pvalue)。
切换至Sensitivity&Specificity选项卡可以看到计算获得的Sensitivity及Specificity等数据。
在Graphs处可查看绘制的ROC曲线。
默认获得的ROC曲线并不美观,下面进行一些美化。
鼠标双击坐标轴,选择FrameandOrigin项目卡,修改Framestyle改为"PlainFrame",点击“OK”应用设置。
切换至Xaxis选项卡,对横坐标样式进行修改,取消勾选“Automaticallydeterminetherangeandinterval”选项,在Range选项中设置Maximum为“1”;
在Allticks选项中,设置Tickslength为“Short”;
在Regularlyspacedticks选项中设置Majorticks为“0.2”;
切换至LeftYaxis选项卡,对纵坐标样式做同样的修改。
切换至Titles&Fonts选项卡,取消勾选“ShowGraphTitle”选项,不显示图表标题,点击“OK”应用以上设置。
鼠标双击绘图区域,取消“Showsymbols(显示数据点)”的勾选,在Showconnectingline/curve选项中更改曲线的颜色、粗细、样式等;
在Additionaloptions选项中勾选“Showlegend”来显示图例,点击“OK”应用设置。
点击图例可修改图例的名称,同样的也可对整个图表的字体类型和大小进行修改,整个图表的调整过程大家可根据期刊要求进行调整,本例中获得的最终ROC曲线如下图。
3绘制多组ROC曲线
我们在前文中关于ROC曲线的主要作用中提到:ROC曲线可以比较两种或两种以上不同诊断方法对疾病的识别能力大小。实现该功能的主要方法便是绘制多组ROC曲线。
在GraphpadPrism中,首先将多组数据制备成多个单组ROC,即重复步骤2。
绘制多个单组ROC曲线后,双击ROC1的作图区域,在打开的FormatGraph窗口中,切换至DateSetsonGraph选项卡,点击“Add”将其余的单组ROC曲线添加至ROC1曲线中即可。