粗糙集(RoughSet)理论[1]是波兰数学家Z.Pawlak于1982年提出的,它建立在完善的数学基础之上,是一种新的处理含糊性和不确定性问题的数学工具。其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则[2]。由于粗糙集理论不需要任何预备或额外的有关数据信息,使得粗糙集理论成为研究热点之一,被广泛应用与知识发现、机器学习、决策分析、模式识别、专家系统和数据挖掘等领域。
本文基于数据分析方法[6]的属性简约算法是在保持分类能力不变的前提下,逐个约去冗余的属性,直到不再有冗余的属性,此时得到的属性集是最小属性集,即为约简。该算法简单,能够求出所有约简,不会出现区分矩阵中大
量的重复元素,从而提高了属性约简的效率。
2粗糙集概念
定义2.1设U为所讨论对象的非空有限集合,称为论域;R为建立在U上的一个等价关系族,称二元有序组S=(U,R)为近似空间。
定义2.2令R为等价关系族,设P哿R,且P≠I,则P中所有等价关系的交集称为P上的不可分辨关系,记作IND(P),即有:[x]IND(P)=∩[x]R,显然IND(P)也是等价关系。
定义2.3称4元有序组K=(U,A,V,f)为信息系统,其中U为所考虑对象的非空有限集合,称为论域;A为属性的非空有限集合;V=∪Va,Va为属性a的值域;f:U×AV是一个信息函数,坌x∈U,a∈A,f(x,a)∈Va。对于给定对象x,f(x,a)赋予对象x在属性a下的属性值。信息系统也可简记为K=(U,A)。若A=C∪D且C∩D=I,则S称,为决策表,其中C为条件属性集,D为决策属性集。
显然,信息系统中的属性与近似空间中的等价关系相对应。
定义2.4设K=(U,A,V,f)为信息系统,P哿A且P≠I,定义由属性子集P导出的二元关系如下:
IND(P)={(x,y)|(x,y)∈U×U且坌a∈P有f(x,a)=f(y,a)}
则IND(P)也是等价关系,称其为由属性集P导出的不可分辨关系。
定义2.5称决策表是一致的当且仅当D依赖于C,即IND(C)哿IND(D),否则决策表是不一致的。一致决策表说明:在不同个体的条件属性值相同时,他们的决策属性值也相同。
定义2.6设K=(U,A)为一个信息系统。若P哿A是满足IND(P)=IND(A)的极小属性子集,则称P为A的一个约简,或称为信息系统的一个约简。
定义2.7设K=(U,CUD)为一个决策表,其中C为条件属性集,D为决策属性,若P哿C为满足POSC(D)=POSP(D)的极小属性子集,则称P为决策表K的一个约简。其中POSC(D)表示决策D关于属性集C的正域。
定义2.8数据分析方法对于信息系统K=(U,A),逐个移去A中的属性,每移去一个属性即刻检查新得到的属性子集的不可分辨关系,如果等于IND(A),则该属性可被约去,否则该属性不可被约去;对于决策表K=(U,CUD),逐个移去C中的属性,每移去一个属性即刻检其决策表,如果不出现新的不一致,则该属性可被约去,否则该属性不可被约去。
3基于数据分析方法的属性简约算法
3.1算法思路
利用函数的递归调用,逐个判定信息系K=(U,A)中属性a(a∈A),若IND(A)=ND(A-{a}),则a可以约去,A‘=A-{a},否则a不可以约去,继续检查A‘中的每个属性是否能被约去,此过程一直进行下去,直到出现某一属性子集中的每个属性都不可约去为止,此时该属性子集即为所求的属性简约。对于决策表,每次检查是否增加了不一致的决策规则,作为是否约去属性的依据。
算法如下:
输入:信息系统K=(U,A)。
输出:K的属性约简。
Match(A')//A’=A-{a}//
begin
fori=1to|U|-1//|U|表示U的基数//
forj=i+1to|U|
r=|R|//|R|表示属性个数//
if((f(ui,a1)=f(uj,a1))∧(f(ui,a2)=f(uj,a2))∧….∧(f(ui,ar)=f(uj,ar)))
thena不可被约去,return0
end
a可以被约去return1
Reduce(A)
flag=1
fori=1to|R|//|R|表示属性个数//
a=ai
A'=A-{ai}
ifmatch(A')thenflag=0,reduce(A’)
if(flag且A未被输出)then
输出A中所有元素//flag≠0,说明A中所有元素不可移去,且不会被重复输出//
End
以上给出的函数是求解信息系统的属性约简算法;对于决策表,只要将Match(A’)函数中的if语句的条件换成(f(ui,a1)=f(uj,a1))∧(f(ui,a2)=f(uj,a2))∧….∧(f(ui,ar)=f(uj,ar))∧(f(ui,ag)≠f(uj,ag)),r=|C|是条件属性个数,ag是决策属性。Reduce(A)函数中|R|换成|C|即可。该算法适用于一致决策表,对非一致决策表,算法类似,也就是逐个移去属性并检查决策表是否出现新的不一致,作为约去此属性的依据。
4举例
文献[7]中决策表1,a,b,c,d,e是条件属性,g是决策属性,求出的约简是{a,b,d}
应用本算法,求得的属性约简为{a,e}和{a,b,d},得到决策简化表2和表3。
表1决策表表2简化表表3简化表
如果将决策表表1看作一信息系统,运用本算法,求得的属性约简有{c,d,e,g},{b,e,g},{a,c,d,g},{a,c,d,e},{a,b,g},{a,b,e}h和{a,b,d}
5结束语
本文通过数据分析方法讨论了属性约简问题。该算法是基于不可分辨关系的,具有直观、易于理解和完备性的特点。当属性和对象都较少时,效率较高,但当属性和对象较多时,计算的复杂度较高。实例表明,该算法是有效的。
参考文献:
[1]PAWLAKz.Roughset[J].Internationaljom:uaofcomputerandinformationscience,1982,(11):341―356.
[2]张文修,吴伟志,梁吉业等.粗糙集理论与方法[M].北京:科学出版社,2001.
[3]PawlakZ.SlowinskiR.Roughsetapproachtomuhiattributedecisionanalysis.IvitedReview[J].EuropeanJournalofOperationalResearch.1994,72:443-459
[4]王国胤,于洪,杨大春.基于条件信息熵的决策表约简[J].计算机学报,2002(7):760―765.
[5]SkowronA,RauszerC.TheDiscernibilityMatricesandFunctionsinInformationSystems[A].ISlowinskR.ntelligentDecisionSupport―HandbookofApplicationsandAdvancesoftheRoughSetsTheory[c].1991,331-362.
[6]刘请.Rough集及Rough推理[M].北京:科学出版社,2001.
关键词自组织映射组织特异性基因管家基因基因表达谱
一、SOM算法介绍
由Kohonen提出的自组织映射(SOM)的神经网络是神经网络中适合用于对数据进行分类的有效方法。SOM神经网络包含一个输入层和一个输出层,组织成一个二维的网格结构(图1.1)。该网络能够从任意一个随机选择输入的结点开始最终形成一个拓扑结构的映射,这个映射反映了输入模式的内在的关系。但是运用SOM有一些参数的限制,首先需要指定类别数目,对映射空间结点进行权值的初始化等。如(图1.1)所示,SOM网络是一个的映射,如果这个神经元被安排在一个平面网格上面的话,这个神经网络就称为二维神经网络,因为这个网络将一个高维的输入向量映射到一个二维的平面上面。给定一个网络,输入向量是一个维的向量,相应的第个突触向量的第个元素与输入向量的第个元素相连,这样,一个维的突触向量就和第个神经元实行连接。
图1.1SOM网络的基本结构
SOM算法描述如下:
(1)令网络学习次数,赋予初始化权值向量一个小的随机向量值,对拓扑邻域()、学习率()进行初始化,设置网络总的学习次数()。
(2)当学习次数()小于总的学习次数()时,重复步骤3至步骤6。
(3)随机选一个输入向量进入网络进行训练。
(4)确定获胜神经元,相应的权值向量为与输入向量距离最短的向量,成为获胜神经元,输入向量与获胜神经元的最短距离为,定义如下:
(1.1)
(5)按照下式更新获胜神经元及其邻域内神经元权值向量:
(1.2)
与函数定义如下:(1.3)
(6)令,如果,回到第(3)步继续训练,否则结束训练。
二、数值模拟计算
本文以HUGEindex数据库中人7000多条基因在19个正常组织中的表达情况这19个组织中表达的基因为样本对其进行分析。不同组织下的全基因表达数据构成了一个7070x59的数据矩阵,其中每一个元素表示第个基因在第个组织中的表达水平值,行向量代表基因在19个人组织中的表达水平,成为基因的表达谱,列向量代表某一组织的各基因的表达水平。
(1.4)
本文运用SOM方法对人基因19个组织的59个样本进行聚类,SOM网络的拓扑结构见(图1.2)及参数选择见表(表1.1)。
图1.2样本聚类SOM网络结构图
上图中,根据Genechip得到的人体19个组织的59个微阵列数据所得到的信息,我们采用4x5的二维拓扑结构的SOM网络对人体组织样本进行分类(其中第(4,5)个结点为空),图中每个结点的位置(结点位置用与输入模式维数相同的向权值向量表示,初始权值由系统自动产生)为各个结点权值尺度化之后所得到的位置。
三、结论
通过分类可以将芯片实验的59个样本按照人体组织类别分为19个类别,并且与采用层次聚类法所得结果进行比较,可以看出自组织映射的聚类方法与层次聚类方法比较,可以看出采用SOM网络聚类方法比层次聚类得到的结果更为明确,其分类正确率达到了92.2%,证明了SOM方法是有效的。
[1]孙啸,陆祖宏,谢建明.生物信息学基础[M].北京:清华大学出版社,2005:282-285.
[2]许东,吴铮.基于matlab6.x的神经网络系统分析与设计[M].西安电了科技大学出版社,2002.
[3]阎凡平,张长水.人工神经网络与模拟进化计算[M].北京:清华大学出版社,2005.:11-34,360-395.
作者简介:
【关键词】大数据分析;电网调度能力;方法;应用
0.引言
为了评测区域内电网调度能力,根据调度能力评测结果,调整输变电调度方案,提高变压器等主要设备的可靠运行,合理利用电网中各项资源和设备。本发明的目的是提供一种基于计算机实现的评测电网调度能力的方法,该方法通过对电压、有功功率、无功功率的分析,保持各个变压器都处于最佳工作状态,提高设备使用寿命,降低设备故障率,降低设备运行的电能损耗,提高电网运行的可靠性,提升电网调度水平。
1.大数据分析评测电网的现状
2.大数据分析评测电网调度能力的具体方法
2.1获取两卷变或三卷变高低压侧的监控数据
该方法主要是用根据变压器端的终端设备,来获取的,首先通过各地市部署的调度EMS系统,将变电站中各变压器的运行情况准确的监控,通过变压器内的监控元件,对变压器的的运行情况、采集电压、有功负荷、无功负荷等检测数据,按指定频率采集。然后将采集的数据通过生产区的专用网络进行传输,通过生产区的安全交换机制放置到电力系统信息内网,开始清洗、筛选,去除设备检测的异常数据,保留有效数据用于负载率分析该评测电网调度能力工具通过在信息内网中载入电网运行的监控数据[2]。
2.2得到变压器实际功率与额定功率的比值
2.3计算各个变压器的平均负载率以及平均负载率的平均值
3.大数据分析评测电网调度能力的应用
3.1调度EMS数据采集
在这个过程中还要对数据进行“清洗”。清洗的流程为:(1)使用8个逗号作为数据的分隔符,分别隔开不同字段的数据。如果有多余逗号或缺逗号或两个逗号中间为空的行,则该行数据无效。(2)在计算的过程中除了容量、有功负荷值及无功负荷值外,其他各字段如数据超长,则页面抛出提示错误,结束导入。(3)厂站电压等级为110kV的变压器容量小于等于100MVA(系统用户可以在管理端修改此值大小),否则该行数据无效。
3.2负载率计算
负载率计算有两种情况,分别是近似计算和精确计算,其中近似计算效率高,能够很快得到近似结果。但是在常规检查时可使用本公式计算;精确计算算法相对复杂、比较耗时,但是计算准确,通常用于分析调度情况时使用。
简便公式为:
计算要求:
3、使用意义在于根据负载率大小得出各变压器负载率的最高或最低时点,从而判断当前电网的负荷情况。
精确公式:
计算方法:
4.结语
该发明可及时调整调度方案,从而均衡电网的运行负荷,保持各个变压器都处于最佳工作状态,提高设备使用寿命,降低设备故障率,降低设备运行的电能损耗,提高电网运行的可靠性,提升电网调度水平,对提高大数据分析电网调度能力具有显著的作用。
参考文献
[1]李庚银,罗艳,周明,等.基于数学形态学和网格分形的电能质量扰动检测及定位[J].中国电机工程学报,2012,26(03):25-30.
[2]贺仁睦,王卫国,蒋德斌,等.广东电网动态负荷实测建模及模型有效性研究[J].中国电机工程学报,2015,22(03):78-82.
1传媒行业进入大数据时代
当下我们提及大数据,还指一种解决问题的方法,即通过手机、整理生活中的方方面面的海量数据,并对其进行分析挖掘,从中获得有价值的信息,这种对大数据的应用与实践已经演化出一种新的商业模式,即公司的核心竞争力在于其拥有的数据规模以及它运用这些数据解决问题的能力。这种解决问题的方法在于对各领域情况进行量化分析:信息准确描述,使我们认知不清晰的方面变得清晰,帮助我们去判断现状和趋势、确定未来战略,在记录、表述、分析、重组后让它带来效益。
2借力大数据进行电视受众分析
2.1过去的受众分析方法
2.2利用大数据分析电视受众行为
目前做电视媒体受众详细数据收集与分析的公司是基本上由尼尔森垄断的,中国并没有监管收视率调查的行政机构,做电视媒体受众分析的都是市场调查公司。目前尼尔森、央视索福瑞等调查数据较为权威,虽然价格不菲,但是大多数电视行业数据分析都是这几家做的。尼尔森根据客户的具体需求来定制调查方案,对于一般性的调查需求,尼尔森拥有一套在全球范围内得到认可的专有调查产品和方法,为客户提供最有力的可比性标准化数据。有少量传媒集团着手于专业调查机构合作,深入开发大数据的潜在功能,如2012年2月广东佛山传媒集团与尼尔森公司合作,寄希望于记住尼尔森大数据分析的平台,通过对数据的整合、分析、管理,为他们的转型发展提供战略性的策略依据。
广电行业目前处于三网融合的大环境中,在这个过程中不可避免地相互渗透和交叉,经营上互相合作、互相竞争,内容上出现了融合,内容的融合意味着数据的融合。目前电视媒体对受众调查分析的意识开始增强,但在实践中电视媒体并没有全面应用数据融合带来的海量受众数据信息。而IT、家电等外行将利用技术进入广电领域对电视媒体有一定的警示意义,但是对于拥有优质精心制作的媒资的电视媒体,若能抓住受众行为在大数据时代下的变化,将是大赢家。
[1]王建磊.互联网电视机顶盒发展现状及趋势[J].
[关键词]单核苷酸多态性;聚类分析;基因;数据挖掘
[Abstract]Statisticalmethodscurrentlyusedforsinglenucleotidepolymorphisms(SNPs)dataclusteranalysisareexplained,andselectfivekindsofrepresentativestatisticalmethods,makespecificanalysistoeachmethodseparately.Inthediscussionprocessforeachmethod,alldividedinto5parts:principleofthemethod,calculationmethods,formulas,advantagesanddefects.Inthediscussionsectionofthearticle,allthemethodsaresummarized,andproposefuturedevelopmentdirectionoftheclustermethodforSNPsdata.
[Keywords]Singlenucleotidepolymorphisms;Clusteranalysis;Gene;Datamining
在人类的基因组中存在各种形式的变异,其中,单核苷酸多态性(single-nucleotidepolymorphisms,SNPs),即单个的核苷酸变异所引发的DNA链序列的多态性,是这些变异中最普遍的形式。根据数据统计,在人类含有不低于30亿个含氮碱基对数量的基因组中,SNP出现的概率在1/1000左右[1]。如何利用这些信息,建立数字模型,探索这些基因与位点和疾病的关联,成为了摆在科学家面前的一个富有挑战意义的课题[2]。
科学家们在长期的研究中,根据“物以类聚”的原始思想,衍生出了对复杂数据或者试验对象等进行归类的一种多元统计学分析方法,即现在归属于统计学分支的聚类分析(clusteranalysis),又称其群分析。这种统计方法的核心思想从诞生之日起就未更改,即在没有任何可用来参考的或者依从的规范下(即先验知识准备程度为零),按照被研究对象或者样品本身的特点或者性状,进行最大程度合理的分类。通过聚类分析的计算过程,不仅可以保证在最终所分的类别情况下,同一类别中的对象或者样品,能够具有最大程度的相似性,而且使不同类别中的对象或者样品,拥有最大程度的相异性。以大量相似为基础,对收集数据来分类,成为了聚类分析计算本身的最终目标[3]。从统计学的观点看,聚类分析计算是通过数据建模简化原有数据复杂程度的一种方法,而从实际应用的角度看,聚类分析计算亦是数据挖掘的主要任务之一。高维度高通量SNPs数据聚类分析,是近现代聚类分析中一个非常活跃的领域,同时也是一个非常具有挑战性的工作。
目前用于高维度SNPs数据聚类分析的方法有很多种,常用的几大类有Logistic回归、潜在类别分析(latentclassanalysis,LCA)模型、结构方程模型分析(structuralequationmodeling,SEM)、以决策树为基础的分类回归树(classificationandregressiontrees,CART)和随机森林(randomforest,RF)算法的分析[4]、基于贝叶斯网络(Bayesiannetworks,BNs)模型的分析、基于神经网络(neuralnetworks,NNs)模型的分析和支持向量机(supportvectormachine,SVM)的方法等,上述种类的方法各有其适用性,在聚类计算的效能方面也广泛存在争议。本文从以上几类方法中,遴选出应用较广泛、理论相对成熟的潜在类别分析、分类回归树模型、贝叶斯网络潜变量模型、BP神经网络模型和支持向量机5种具体方法进行比较,阐述其在SNPs数据聚类分析中的意义。
1潜在类别分析
诞生于20世纪50年代的LCA方法,其基本原理是通过引入潜变量概念,建立潜在类别模型(latentclassmodel,LCM),在保证维持各个显变量的数据局部独立性的基础上,力图用少数的潜变量与各个显变量建立关系,然后以数量相对较小的潜变量进行对象关系解释。而争取利用最少数量的且关系上互相排斥的潜变量对各个显变量的概率分布进行最大程度的解释,就是潜在类别分析的基本假设,这种假设的思想倾向于各种显变量对其类别进行解释的潜变量都有反应的选择性[5]。潜在类别分析的统计原理建立在概率分析的基础之上。一个潜在类别模型是由一个(或多个)潜在变量和多个外显变量组成的Bayes网[6]。
完整的LCM分析过程包括数据概率变换参数化、模型参数估计与识别、模型评价指标选择、分类结果解释等[7-10]。
1.1概率参数化
潜在类别概率和条件概率构成了潜在类别模型概率参数化过程中的两种参数。假设某数据集含有三个彼此之间不相互独立的外显变量,以A、B、C表示,而且每一个显变量分别具有的水平数为I、J、K。按照假设,若寻找到合适的潜变量X,则X需满足一下条件:首先,要求合理解释A、B、C的关系;第二,在潜变量的各个类别之中所有显变量维持最大的局部独立性,则为潜在类别分析,如果潜变量X中含有T个潜在类别的话,用数学模型表达就为:
在上式中,LCM的组合概率,用πijkABC表示,相应的,潜在类别概率,以πtX表示,其意义可以解释为:在观察变量处于局部独立的条件下,潜变量X在第t个水平的概率,即从样本中随机选取的观察对象属于潜在类别t的概率。容易证明,各个潜在类别的概率总和永远为100%即1,用公式表达为:
条件概率,用πitAX表示,其意义可以解释成:外显变量A的第i个水平更倾向于划归到第t个潜在类别的个体的概率。由于各个潜变量的各个水平处于相互独立的状态,所以各外显变量的条件概率总和为1,即:
1.2参数估计与模型拟合
在潜在类别模型的参数估计过程中,最大似然法(maximumlikelihood,ML)是被最广泛使用且计算软件中默认的方法。EM(expectation-maximization)、NR(NewtonRapson)算法在计算迭代过程中为最常用的方法,而其中前者更为常用。在潜在类别模型评价方面,AIC评分(akaikeinformationcriterion)和BIC评分(bayesianinformationcriterion)成为使用最为广泛的拟合评价指标。两者共同点为:其计算理论基础都为似然比χ2检验,对于模型对应的参数限制不一致的情况下,也可以用来横向比较,且结果简单直观,都是数值越小表示模型拟合越好。Lin与Dayton曾经指出,当研究的样本数量级达到或者超过千位级时,BIC指标更可靠,否则AIC更佳[11]。
1.3潜在分类
完成最优化模型的确定之后,就可以利用模型进行计算,将每个外显变量的数据值分配到判定的潜在类别之中,通过这个过程,完成数据的后验类别分析,即潜在聚类分析。上述分类的理论依据是著名的贝叶斯理论,分类的计算公式为:
2分类回归树模型
CART[13]不仅可以在已经获得的数据库中通过一定的规则提炼出关联,而且是对隐藏在各种指标中的分类属性进行量化计算成为可能,其作为数据挖掘技术中的经典聚类分析方法,为高通量SNPs数据的聚类分析制造了一个科学而准确的平台。分类回归树的基本原理为:如果对于已经给定的待分类对象X,已知其可以进行Y个不同属性的分类,那么该模型将模拟把X逐级递归的分解为多个数据子集,并且认为Y在子集上的分布状态,是均匀并且连续的,而分解的方法为二叉树分类法。该方法如同自然界中的树木一样,数据集X由根部向叶部逐步分解移动,每一个划分点即树木分叉点的原因,由分支规则(splittingrules)确定,最终端的叶子表示划分出的最终区域,而且每一个预测样本,只能被分类到唯一的一个叶子,同时Y在该点的分布概率也被确定下来。CART的学习样本集结构如下:
L={X1,X2,…,Xm,Y}
其中,X1~Xm可以称之为属性变量,Y可以称之为标签变量。但在样本集中无论是X或是Y,其变量属性可以容许多种形式,有序变量和离散型变量都可以存在。若Y处于有序变量的数值情况时,模型被称为回归树;若情况相反,称之为分类树。
2.1分类回归树的构建
将给定的数据集L转化成与其对应的最大二叉树,这个过程称之为构建树Tmax[14]。为了寻找到对应数据集的最优分支方法,最大杂度削减算法被运用到构建过程之中。在进行分支时,数据中每个值都要纳入计算范围,只有这样才能计算出最佳的分支点进行分叉。CART的构建离不开Gini系数的使用。若数据集L中,含有记录的类别数量为N,Gini系数的表达式就为:
其中,Pj表示T中第N个分类数据的划分频率。对于任意的划分点T,如果该点中所包含的样本量非常集中,那么该点的Gini(T)值越小,从分类图上显示为该节点分叉角度越钝。欲构建最终的Tmax,就要重复操作,将根节点分支为子节点,而这种递归分类的计算,最好利用统筹学中的贪心算法。
2.2树的修剪
当Tmax建造好之后,下一步需要对其进行所谓的修剪操作,就是去掉那些可能对未知的样本分类计算精度上,没有任何帮助的部分,其目标是处理掉对给定数据集中的噪音干扰的问题,以便形成最简单最容易理解的树。通常对树进行修剪的方法是以下两种,先剪枝方法(prepruning)与后剪枝(postpruning)方法,两者都有助于提高已经建成的树,脱离开训练数据集后,能够正确地对未知数据进行分类的能力,而修剪方法都是通过统计计算,将理论上最不可信的分枝去掉。
2.3决策树评估
测试样本评估法(testsampleestimates)与交叉验证评估法(cross-validationestimates)[15]是通常被用来对CART模型进行评估的方法,而前者的使用率更高。该评估方法的原理与多因子降维法有些类似,而且即时效率比较高,在学习数据集囊括的样本量比较大的情况下,该方法的优越性就更加突出,其原理可以解释为:将原始的数据集L随机分成两部分,分别为测试集L2与样本集L1,利用L1生成一系列的Tmax,而且按照序列T1>T2>T3>…>Tn,将测试集L2放到序列中的树模型之中,TK为L2中的每个样本逐个分配类别,因为L2中每个样本的原始分类是事先已经知道的,则树TK在L2上的误分情况可以利用公式(6)计算:
式中,Nij(2)代表L2中j类样本划归至i类的数量,c(i|j)为把j类误分到i类的代价,Rts(TK)表示TK针对L2的误分代价,则最优化树的条件为:Rts(TK0)=minK(Rts(TK)。
作为一种经典的通过数据集进行训练并有监督学习的多元分类统计模型,CART以二元分叉树的形式给出所构建出的分类的形式,这种方式非常容易解释,也非常容易被研究者理解和运用,并且这种方法与传统意义上的统计学聚类分析的方法构建完全不一样[16]。
但是CART方法对主效应的依赖程度很高,无论是每个分支的根节点还是后续内部的子节点,其预测因子都是在主效应的驱动下进行,并且每个节点都依赖于上一级的母节点分支的情况。而且CART方法对结果预测的稳定性上也有缺陷,具体表现在,如果所给数据集中的样本有小范围的更改,那么所产生的蝴蝶效应就会导致最终所构建的模型与原始模型的差别很大,当然分类结果也就难以一致。
3贝叶斯网络潜变量模型
BNs是一种概率网络,它用图形的形式来对各种变量间的依赖概率联系做描述,经典的图形中,每一个随机变量利用节点的方式表达,而变量之间的概率依存关系则利用直线表达,直线的粗细表示依赖的强度。在BNs中,任何数据,当然也可以是高通量SNPs数据,都能够成为被分析的变量。BNs这种分析工具的提出,其原始动力是为了分析不完整性和概率性的事件,它可以从表达不是很精准的数据或信息中推理出概率结果。
网络的拓扑结构和条件概率分布作为构成BNs的两大核心组件,如果再将潜变量概念引入BNs,则成为了BNs潜变量模型。被包含在BNs中的潜变量数量,决定着这个模型的复杂程度,因为一般来讲,在实际工作中,研究者常常利用潜变量来进行聚类计算,所以BNs潜变量模型也成为了一个经典的潜结构模型(latentstructuremodel)或潜类模型(latentclassmodel)。
3.1模型参数
在满足一定的假定条件下,才能对BNs模型进行参数学习的过程。根据文献记载,这些条件分别为:所有的样本处于独立状态;无论全局和局部,均处于独立状态;变量不能为连续变量,只能是分类变量。在上述条件得到满足的情况下,该模型可以利用数据,计算出网络拓扑结构中各个节点的条件概率θ,且服务于制订的BNs模型结构η和数据集D。计算的方法有最大似然估计法等[17]。
3.2模型选择
与LCA方法类似,BNs模型也利用函数来对模型的拟合优劣程度进行评价,衡量标准也是BIC、AIC、BICe等的评分,一般来说,分数低的模型更加优化。
3.3模型优化
在通过评分的方法来确定BNs潜变量模型后(需综合考量BIC、AIC、BICe三者的得分),该模型下一步就转化成了如何去搜索符合所给数据集的最优模型的过程。由于该网络的拓扑结构,使得该模型结构的数目的增长速度非常快,与纳入模型的变量数的增长呈指数级别比例,能够适应这种数量级的搜索算法是启发式的,其过程是比较不同的模型的评分,其中最常被使用的是爬山算法(hillclimbing)[18]。
利用BNs模型进行高通量SNPs数据聚类,其优点之一就是在该模型中,所有遗传的模式都可以被忽略,无论是对SNPs的二分类变异赋值,还是三分类变异赋值,只要纳入模型中,就转变成纯粹的数学问题。正是由于这种优势的存在,使得该方法对原始数据的类型容许程度很高,由此扩展了此种模型的使用范围。BNs模型计算的过程虽然复杂,但是结果解读起来却是十分的简单直观。只要将各个类别的概率直方图呈现出来,那所有重要的且有意义的高维度SNPs的整体效应,就能直观的展现出来。BNs模型一旦被建立起来,就可以被用来对新纳入的患者进行分类,其过程如下:输入新加入样本的SNPs的状况,并且将这些状况进行数学化处理即赋予其数据值,并带入模型开始运行。模型会通过新加入样本的SNPs的状况,根据概率理论,将其归入相应类别。
但是BNs模型的理论比较抽象,公式比较复杂,如果让医学工作者去理解其中的数学机制,可能不太现实,若再要求对模型进行深刻解释,则更困难。该模型在优化过程中的搜索算法也有硬伤,爬山算法从出现开始,就一直受到一定程度的诟病,因为其有使模型偏离到局部最优的倾向。
4BP神经网络模型
BP(backpropagation)神经网络在所有的神经网络模型系列中,是被使用最多的模型之一,其核心原理为按照误差逆传播算法,对所给数据集进行多层的正向的反馈拟合,而这些层则包括输入层(inputlayer)、隐层(hidelayer)和输出层(outputlayer)。
BP神经网络模型对于已经给定的数据集的训练过程可以解释为:各种数据由输入层负责接收,并且向内层进行传递,传递过程中需经过一定的中间层级,信息在隐层部分进行计算处理,处理完毕后向输出层传递,输出层的神经元接收到后,即完成了一次完整的训练信息的传播,其结果由输出层向外面释放。如果输出的结果与期望值差距没有达到要求,则进入信息的反方向运动过程,将误差信息通过输出层、隐层、输入层的顺序反向传递。在上述正向和反向的两种信息传递过程中,为了使整个BP神经网络模型的误差的平方和达到最小,就需要对各个层级的权重和反应阈进行相应调整,在一定次数的迭代过程中达到符合设定的要求范围内[19]。
BP神经网络模型建立流程:①建立高通量SNPs足够而可靠的数据信息样本数据库。②把SNPs样本数据进行处理,变成BP神经网络模型可以纳入的形式。③建造BP神经网络初级雏形,进行数据训练。首先确定神经网络所需层的数量,还有隐藏节点的数量,接下来完成各连接权值的初始化过程,将样本数据代入。④开始BP神经网络的迭代过程,按照误差逆传播算法,对所给数据集进行多层的正向的反馈拟合,最终确定各个层的权重。⑤利用训练好的BP神经网络测试样本。将样本输入训练好的BP神经网络,并输出结果[20]。
非线性问题的解决能力是BP神经网络模型区别于其他的能够自我学习、自我训练的模型的特点之一,该模型以简单的结构模仿神经组织的构成和信号传导通路,根据提供的数据进行学习和自适应,最后可以对复杂的问题求解[21]。该模型的运行模式也很简单,一旦模型建立,则直接将数据带入,BP神经网络就可以对诸多影响因素和结果之间的复杂关系进行统计,超越传统聚类模型,也有能力提供更多的信息量[22]。
但是BP神经网络模型的缺陷也十分明显,首先该种聚类方法迭代次数比较多,计算收敛的速度比较慢;标准的BP神经网络算法各个层的权重值的确定是完全随机性的,容易形成局部最优化;在模型建立的初始阶段,各个节点的确定也没有确凿的理论支持[23]。
5支持向量机
1995年Comes等[24]提出了一种新型机器学习方法,该方法的数学理论基础雄厚,被称之为SVM。这种方法问世之后,就以其在小样本、高维度数据方面处理的独特优势,被迅速推广到数据聚类分析领域的各个方面[25]。SVM的基本原理如下:利用非线性映射的方法φ(x):RnH,将待聚类数据集首先映射到高维空间H中,试图在高维空间中寻找最优化的一个超平面,此超平面的作用为对数据进行分类。达到最优超平面的要求为:对于数据来说,要求分类的间隔最大而且置信区间最窄;达到最少的数据样本错分数量,以上两条的原则为分类风险最低。
SVM的计算流程为:
在高维空间中,如果被映射数据具有二维线性且可分时,则一定存在一个分类超平面:
其中αi≥0称为拉格朗日系数,该函数对?X和b最小化,对αi最大化。将该问题转化为其对偶形式,求得最优分类函数为:
其中,K(x,xi)=φ(xi)φ(xj)被称之为核函数,其作用是将原始数据集映射到高维H空间。而核函数有很多种形式,多项式形式、径向基形式等等。但是如果原始数据集经过转换后,确实为线性不可分时,方法会不可避免的产生错分点,此时非负松弛变量ξi≤1,i=1,…,l被引入,而式(8)、(9)合并为:
在上述条件下,求下式目标函数的最小值:
在式(13)中,用C来作为惩罚因子,对错分点来进行一定程度的惩罚,当然是人工定义的,其主要作用是在限制数据集偏差和该方法的推广范围两者间,维持一个平衡。
但是SVM一样存在短处,由于其分类过程是基于对原始数据集的再次规划来寻找超平面,而再次规划的计算就有n阶矩阵(n为样本个数),如果n的数量很大,则电脑的内存将难以承受巨大的矩阵信息。而且原始的SVM模型只能对数据集进行二分类计算,有一定的局限性,由于在实际工作中,很多情况下分类数量要大于二,为了解决这个问题,只能去在其他方面想相应的解决方法。
6讨论
[参考文献]
[1]JakobssonM,ScholzSW,ScheetP,etal.Genotype,haplotypeandcopy-numbervariationinworldwidehumanpopulation[J].Nature,2012,451:998-1003.
[2]马靖,张韶凯,张岩波.基于贝叶斯网潜类模型的高维SNPs分析[J].生物信息学,2012,10(2):120-124.
[3]张家宝.聚类分析在医院设备管理中应用研究[J].中国农村卫生事业管理,2014,34(5):510-513.
[4]袁芳,刘盼盼,徐进,等.基因-基因(环境)交互作用分析方法的比较[J].宁波大学学报:理工版,2012,25(4):115-119.
[5]张洁婷,焦璨,张敏强.潜在类别分析技术在心理学研究中的应用[J].心理科学进展,2011,18(12):1991-1998.
[6]曾宪华,肖琳,张岩波.潜在类别分析原理及实例分析[J].中国卫生统计,2013,30(6):815-817.
[7]KaufmanL,RousseeuwPJ.Findinggroupsindata:anintroductiontoclusteranalysis[M].NewYork:Wiley,2015.
[8]HagenaarsJA.McCutcheonAL.Appliedlatentclassanalysis[M].NewYork:CambridgeUniversityPress,2012.
[9]邱皓政.潜在类别模型的原理与技术[M].北京:教育科学出版社,2011.
[10]张岩波.潜变量分析[M].北京:高等教育出版社,2011.
[11]LinTH,DaytonCM.Modelselectioninformationcriteriafornon-nestedlatentclassmodels[J].JEducBehavStat,2012,22(3):249-264.
[12]裴磊磊,郭小玲,张岩波,等.抑郁症患者单核苷酸多态性(SNPs)分布特征的潜在类别分析[J].中国卫生统计,2010,27(1):7-10.
[13]邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2013.
[14]王立柱,赵大宇.用分类与回归树算法进行人才识别[J].沈阳师范大学学报:自然科学版,2014,23(1):44-47.
[15]温小霓,蔡汝骏.分类与回归树及其应用研究[J].统计与决策,2010,(23):14-16
[16]符保龙,陈如云.分类回归树在高校计算机联考数据分析中的应用[J].计算机时代,2011,(1):33-34.
[17]DempsterAP,LairdNM,RubinDB.MaximumlikelihoodfromincompletedataviatheEmalgorithm(withdiscussion)[J].JRoyalStat,2012,39(1):1-38.
[18]JoséA,Gámez,JuanL,etal.LearningBayesiannetworksbyhillclimbing:efficientmethodsbasedonprogressiverestrictionoftheneighborhood[J].DataMinKnowlDisc,2012,22:106-148.
[19]张凡,齐平,倪春梅.基于POS的BP神经网络在腮腺炎发病率预测中的应用[J].现代预防医学,2014,41(11):1924-1927.
[20]张晶.BP神经网络在图书馆信息处理中的应用研究[J].图书情报,2014,(9):132-133.
[21]徐学琴,孙宁,徐玉芳.基于BP神经网络的河南省甲乙类法定报告传染病预测研究[J].中华疾病控制杂志,2014,18(6):561-563.
[22]马晓梅,隋美丽,段广才,等.手足口病重症化危险因素BP神经网络模型预测分析[J].中国公共卫生,2014,30(6):758-761.
[23]任方,马尚才.基于条件对数似然的BP神经网络多类分类器[J].计算机系统应用,2014,23(6):183-186.
[24]ComesC,VapnikV.Supportvectornetworks[J].MachLearn,1995,20:273-297.
[25]张学工.关于统计学习理论与支持向量机[J].自动化学报,2011,26(1):32-42.
[26]解合川,任钦,曾海燕,等.支持向量机在传染病发病率预测中的应用[J].现代预防医学,2012,40(22):4105-4112.
[28]张俊辉,潘晓平,潘惊萍,等.基于支持向量回归的5岁以下儿童死亡率预测模型[J].现代预防医学,2014,36(24):4601-4603,4605.
[29]陈诗一.非参数支持向量回归和分类理论及其在金融市场预测中的应用[M].北京:北京大学出版社,2014:104-106.
[30]LiP,TanZX,YanLL,etal.TimeseriespredictionofminingsubsidencebasedonaSVM[J].MinScienceTechnol,2014,21(4):557-562.
[31]董国君,哈力木拉提.基于随机退火的神经网络算法及其应用[J].计算机工程与应用,2013,46(19):39-42.
[32]胡洁,曾祥金.一种快速且全局收敛的BP神经网络学习算法[J].系统科学与数学,2014,30(5):604-610.
关键词:牛顿环;逐差法;线性回归法;加权平均法
中图分类号:Q4361;TP274文献标识码:A
AnalysisofDataProcessinginLensCurvatureRadiusMeasuredbyNewton′sRing
LIXiao-li
(SchoolofScience,Xi’anShiyouUniversity,Xi’an710065,China)
Abstract:Themethodsandproceduresofusinginterativedifferentialmethod,linearrecursiveanalysis,andweightedaveragemethodtoprocessthedataoflenscurvatureofNewton′sRingsareintroducedindetail,threeexperimentaldadaprocessingmethodsarecompared.Theweightedaveragemethodcanovercometheexperimentalsystematicdistortions,andmakeanonprecisionmeasurementaccordingtoprocessingpriuciple,andbuildonthebasisofmathematicalstatisticaltheory.Thismethodmainlycomparedthecorrespondingrights,andthenfoundouttheweightedaverage,usedMatlabsoftwareprocessing.Itisprovedthattheweightedaveragemethodisoptimalforthisexperimentbytheoreticanalysis.
Keywords:Newton′srings;interativedifferentialmethod;linearrecursiveanalysis;weightedaveragemethod
0引言
“牛顿环”是牛顿在1675年制作天文望远镜时,偶然把一个望远镜的物镜放在平板玻璃上发现的。牛顿环属于用分振幅法产生干涉现象,亦是典型的等厚干涉条纹。它为光的波动提供了重要的实验证据。光的干涉现象广泛地应用于科学研究、工业生产和检验技术中,如利用光的干涉法进行薄膜等厚、微小角度、曲面的曲率半径等几何量的精密测量,也普遍应用检测加工工件表面的光洁度和平整度及机械零件的内力分布等。
为了获得真实可靠的数据,需要对实验的全过程进行误差控制。如果实验原理、方法和采用的实验装置不同,实验结果的精度也不同,这是因为采用了不同的物理模型和实验条件[1]。即使当实验原理、方法和采用的实验装置相同,如果采用不同的数据处理方法(如最小二乘法、逐差法等),也会带来精度不同的结果,这是因为采用了不同的数学模型。甚至对同一组实验数据采用同一种数据处理方法,如果处理方式不同,其精度也会有很大的不同,这是因为采用了不同的算法。因此,如何利用有限的测量数据,发挥其最大效用,选择适当的数据处理方法和算法,有效地减少误差,在实验结果的分析中就显得非常重要。
牛顿环属于用分振幅法产生干涉现象,它是典型的等厚干涉条纹。下面以牛顿环干涉实验为例,对实验数据分别用逐差法、线性回归法、加权平均法三种方法进行分析,然后比较三种方法的优劣,并对结果进行讨论。
1实验部分
1.1实验原理
最常见的牛顿环干涉结构如图1所示\,把一块曲率半径相当大的平凸镜放在一块平板玻璃片上,在单色光的垂直照射下,用读数显微镜可观察到以接触点为中心的一系列干涉圆环。其中亮暗环纹交替出现,随着半径增大而由稀变密,直至模糊一片。
设入射单色光的波长为λ,第k级干涉条纹的半径为rk,该处空气膜的厚度为e,通过数学推导,产生明暗环的干涉条件为[3]:
明条纹:
И
δk=2ek+λ/2=kλ,k=1,2,3,…(1)
暗条纹:
δk=2ek+λ/2=(2k+1)λ,k=1,2,3,…(2)
根据图1的几何关系可知,R2=r2k+(R-ek)2,则r2k=2ekR-e2k,R为透镜的曲率半径。由于Rek,上式近似表示为:
ek=r2k/(2R)(3)
将式(3)代入式(1)、式(2)中,则:
明环半径:
r2k=(2k-1)R(λ/2),k=1,2,3,…(4)
暗环半径:
r2k=kλR,k=1,2,3,…(5)
若用两个暗环或明环半径和的平方差进行计算,可以消除因附加光程差产生的误差,д馐钡m环暗环半径为r2m=mλR,第n环明环半径为r2n=nλR,Я绞较嗉醯们率半径为:
R=r2m-r2n(m-n)λ=D2m-D2n4(m-n)λ(6)
式中:D为牛顿环直径。所以实验中只要测量出第m环和第n环的直径,根据上式就可以算出透镜的曲率半径R。
图1牛顿环装置
1.2实验数据分析
实验中测量牛顿环干涉条纹的数据记录如表1所示。
表1牛顿环干涉条纹的原始测量数据
k
51015202530
D左/mm30.52231.27831.88032.38532.83233.240
D右/mm26.32125.55724.96224.46924.01923.612
下面分别用逐差法、线性回归法和加权平均法对实验中测量牛顿环干涉条纹的数据进行分析。
1.2.1逐差法
由于牛顿环装置中玻璃接触处的弹性形变会引起系统误差,因而不能直接用牛顿环的直径D(k)计算平凸透镜的曲率半径。可以假设干涉条纹为均匀分布,采用逐差法,在计算机上利用Matlab软件中的数值插值法处理实验数据,处理结果如表2所示。
表2采用逐差法分析实验数据
kD左/mmD右/mmkD左/mmD右/mmD2(k+15)-D2(k)/mm2
130.52226.3211432.19224.65945.015
230.68826.1521532.29024.56345.058
330.84725.9911632.38524.46945.056
430.99825.8391732.47824.37645.058
531.14125.6941832.56924.28545.056
631.27825.5571932.65924.19545.026
731.40925.4262032.74624.10644.984
831.53425.3022132.83224.01944.939
931.65425.1842232.91623.93444.899
1031.76925.0712332.99923.85044.869
1131.88024.9622433.08123.76944.850
1231.98724.8582533.16123.68944.843
1332.09124.7572633.24023.61244.840
注:光源为钠光灯λ=589.3nm
算术平均值的标准偏差为:
σ[D2(k+15)-D2(k)]=0.019mm2
则曲率半径的平均值为:
R1=D2(k+15)-D2(k)4mλ=1271.0mm
相对标准偏差为:
σR1R1=σ[D2(k+m)-D2(m)]D2(k+m)-D2(m)=0.04%,
平凸透镜的曲率半径的标准偏差为:
σR1=0.5mm
所以实验结果为:
R1=R1±σR1=(1271.0±0.5)mm
1.2.2线性回归法
根据牛顿环实验的基本原理,设第m条暗纹的干涉级次为(m+j),则D2k=4Rλ(m+j),可以看出D2k与m成线性关系,只要测量得到各m级(自变量x)所对应的D2k(应变量y),用最小二乘法拟合线性函数(直线)可以得到[4]:y=A+Bx。
所以要确定R,只需要确定系数B即可,依据最小二乘法处理实验数据,数据整理后用Matlab软件计算线性拟合系数B为[5]:
B=n∑i(xiyi)-∑ixi∑iyin∑ix2i-(∑ixi)2=2.9990mm
式中:xi=m,yi=D2m。
r=xy-xy(x2-x2)(y2-y2)=0.99998457
平凸透镜的曲率半径为:
R2=B/(4mλ)=1272.7mm
相对不确定度为:
ur(R2)=u(R2)R2=u(B)B=1/r2-1n-2=0.0008
平凸透镜的曲率半径的不确定度为:
u(R2)=0.0008×1272.7=1.0mm
R2=R2±u(R2)=(1272.7±1.0)mm
1.2.3加权平均法
实验中,牛顿环的直径为D(k)=D左(k)-D右(k),其中D左(k),D右(k)是第k级牛顿环左、右两端位置坐标。由于D左(k),D右(k)只做单次测量,其精度为仪器精度,而读数装置最小刻度为0.01mm,则有σ=0.01mm=D左(k)=D右(k),в晌蟛畲递知牛顿环直径的测量精度为[7]:
σ2D(k)=σD2左(k)+D2右(k)=2σ2(7)
从而m个相邻牛顿环直径平方差的测量精度为:
σ2[D2(k+m)-D2(k)]=[σD2(k+m)]2+[σD2(k)]
=σ2D2(k+m)+σ2D2(k)
=4D2(k+m)σ2D(k+11)+4D2(k)σ2D(k)
=8σ2\(8)
所以:
σ2[D2(k+m)-D2(k)]=0.0008[D2(k+m)+D2(k)](9)
令yk=D2(k+m)-D2(k),相应的权\为ωk=1σ2(yk),Р捎眉尤ㄆ骄法分析测量数据如表3所示。
表3加权平均法分析实验数据
kyk/mm2精度/mm2权ωk/mm-2ωkyky-yk/mm2ωk(y-yk)2/mm2
145.0150.064215.56700.62-0.07120.0789
245.0580.069014.50653.21-0.11480.1909
345.0560.073813.56610.75-0.11230.1711
445.0260.078612.72572.84-0.08260.0868
544.9840.083511.98539.01-0.04090.0200
644.9390.088311.32508.830.00430.0002
744.8990.093210.73481.860.04490.0216
844.8690.098010.20457.730.07450.0566
944.8500.10299.72436.050.09340.0849
1044.8430.10779.29416.510.10080.0944
1144.8400.11248.89398.770.10380.0958
计算可得加权平均值为:
y=∑11i=1ωiyi/∑11i=1ωi=44.957mm2
标准偏差为:
σy=∑11i=1(y-yi)2〗/(n-1)∑11i=1ωi=0.078mm2
从而得曲率半径的平均值为:
R3=y/(4mλ)=1271.1mm
σR3R3=σyy=0.02%
则实验结果的测量精度为:
σR3=0.2mm
R3=R3±σR3=(1271.1±0.2)mm
1.3实验结果与讨论
对于实验数据分别用逐差法、线性回归法和加权平均法进行处理后,实验结果可分别表示为:
逐差法:
线性回归法:
R2=R2±σR2=(1272.7±1.0)mm
加权平均法:
下面对这三种数据处理方法进行检验,选择最优的数据处理方法,检验方法较多,现选择采用t分布检验[9]:
t=x1-x2(n1-1)σ21+(n2-1)σ22ν(1/n1+1/n2)(10)
式中:n1和n2分别为凸透镜球面的上、下两面的折射率,由于凸透镜球面周围都为空气薄膜,故n1=n2,则令ν=n1+n2-2=2(n-1),Т佣有:
t=\-R2)\〗/(σ2R1+σ2R2)(11)
方法1与方法2比较计算,可得:t1=0.350;方法2与方法3比较计算,可得:t2=0.340。
若取显著水平σ=10%,则置信率p=90%,ν=18,查t分布表可得[10]tζ=1.734,则|t1|=0.354
若取σ=50%,则p=50%,ν=18,查表得tζ=0.688,则|t1|=0.354
通过上面分析可以看出三种数据处理方法有如下特点:
(1)逐差法主要是围绕如何克服实验的系统误差来进行的,是建立在算术计算的基础上,但并不满足非等精度测量实验数据处理的条件,而牛顿环干涉实验是非等精度测量,故逐差法对于牛顿环实验来说并不是一种理想的数据处理方法。
(2)线性回归法主要是为了避免非等精度测量的困难,但未考虑该次实验中的系统误差,所以线性回归法对于牛顿环实验来说也不是理想的数据处理方法。
(3)加权平均法既考虑了如何克服实验的系统误差,又能按照处理原则去对待非等精度测量,且建立在数理统计理论基础上,所以加权平均法是处理牛顿环实验数据的最佳方法。
2结语
[1]刘才明,许毓敏.对牛顿环干涉实验中若干问题的研究[J].实验室研究与探索,2003(6):1314.
[2]王德新.牛顿环实验非等精度分析之我见\.物理实验,1993,13(4):184-185.
[3]王纪龙.大学物理[M].北京:科学出版社,2002.
[4]沈元华,陆申龙.基础物理实验[M].北京:高等教育出版社,2001.
[5]张德启,李新乡.物理实验教学研究[M].北京:科学出版社,2005.
[6]邹进和.应用“逐差法”处理实验数据[J].大学物理实验,2003(3):51-52.
[7]滕坚.牛顿环实验数据处理方法分析[J].物理通报,2006(6):3436.
[8]虞仲博,屠全良.牛顿环实验等精度测量及其不确定度的评定与表示[J].物理实验,2000,20(5):1719.
[9]刘智敏.不确定度与分布合成[J].物理实验,1999,19(5):5860.