数据分析的方法汇总十篇

所谓对比分析法,是指将两个或两组以上的数据进行比较,分析它们的差异性,从而揭示这些数据所代表的事物的发展变化情况和规律性。对比分析法是比较研究的一种方法,在企业数据分析中的应用十分普遍。它的特点是,通过比较分析,可以非常直观地看出企业某方面工作的变化或差距,并且可以准确、量化地表示出这种变化或差距是多少。

在实际应用中,企业数据的对比分析,一般有以下几种具体情况:

一是将企业当年的数据与历年(去年或前几年)的数据进行对比分析,目的是为了搞清楚与去年或前几年相比,企业某一方面或某些方面的发展变化情况。比如,某公司2006年利润100万元,2007年利润115万元,年增长率为15%。通过这种对比,我们就可以公司利润的变化情况有一个更直观、更清楚的认识。当然,在许多时候,这种对比分析不会局限在某一个数据,而是一组数据。比如,在对企业当年的利润与去年利润进行对比分析的同时,还可以将产量、销售量、销售额、成本、税金、市场占有量、占有率等指标进行对比分析,从而更全面了解掌握企业的发展现状。

为了一目了然地看出数据对比的直观效果,对比分析一般可用柱式图表表示。

趋势分析法

所谓趋势分析法,是指通过对某一个或几个数据在一定阶段的变化情况进行分析,从而发现该数据所代表事物的发展趋势和规律,并可进一步分析形成这种趋势的原因,为企业领导决策提供依据和参考。趋势分析法实际上是一种历史研究的方法,在企业数据分析的编写中,主要用来表示企业某一方面或某些方面的工作在一定时期内的发展趋势和规律。其特点是对某一时期的某一数据进行持续性考察,进而得出趋势性的结论。

一般说来,对数据进行趋势分析的结果不外乎以下四种情况:

一是某项数据的变化呈逐年加大的趋势,称为上升趋势。比如某企业利润额:2001年为150万元、2002年173万元、2003年220万元、2004年360万元、2005年500万元。从对这组数据的分析中可以得出结论:该企业的利润呈逐年上升的趋势。

二是某项数据的变化呈逐年减小的趋势,称为下降趋势。例某企业产品的市场占有率:2001年为30%、2002年24%、2003年15%、2004年9%、2005年6%。从对这组数据的分析中可以得出结论:该企业产品的市场占有率呈逐年下降的趋势,说明该产品的市场竞争力正在下降,企业应该对该产品进行升级换代,或者开发生产新的产品。

三是某项数据或上升或下降,每年都有较大变化,称为震荡趋势。比如某企业的经营成本:2001年为50万元、2002年83万元、2003年61万元、2004年46万元、2005年103万元。从对这组数据的分析中可以得出结论:该企业每年的经营成本变化较大,呈震荡趋势,说明企业在控制经营成本方面还要进一步采取措施。

四是某项数据几年来基本不变,或变化很小,称为稳定趋势。例如某企业的人均产值:2001年为60万元、2002年63万元、2003年61万元、2004年62万元、2005年63万元。从对这组数据的分析中可以得出结论:该企业的人均产值每年变化不大,呈稳定趋势。

为了更形象地看出数据在一定时期内的变化轨迹,对数据的趋势分析一般可以用曲线图表表示。

结构分析法

所谓结构分析法,就是通过分析数据的构成情况,即分析构成某一数据的各子数据的情况和权重,从而揭示构成某一事物的各方面因素在其中的作用大小和变化情况。结构分析法也是常用的企业数据分析方法,通过这一分析方法,有利于我们发现和把握事物的主要矛盾和矛盾的主要方面,对企业而言,可以据此确定工作重点或经营的主攻方向。

在实际工作中,当我们需要对企业的某一数据作深入分析时,常常需要用到结构分析法。例如我们分析某供电局利润的结构情况:2007年,企业利润为1000万元,其中主业占80%、三产占20%。这就是结构分析的方法,从中我们就可以清楚地知道,主业和三产对企业利润的贡献比例。在这个基础上,我们还可以作进一步的分析,在200万元的三产利润中:火电建设公司占35%、电力设计院占30%、电缆厂占15%、电表厂占10%、电杆厂占5%、宾馆占5%。从而我们可以看出火电建设公司和电力设计院两家对三产利润的贡献率达到了65%,是发展三产的主力军。从供电局的角度而言,抓好三产工作,重点是要抓好火电建设公司和电力设计院的工作。

为了直观地反映某一数据的构成情况,结构分析法一般采用圆饼图表来表示分析的结果。

综合分析法

在编写企业数据分析时,往往不是单一地使用一种数据分析方法,为了使数据分析更透彻、更深入,更多时候我们都需要采用综合分析的方法。所谓综合分析法,就是将以上两种或两种以上的分析方法结合起来使用,从而多角度、多层次地分析揭示数据的变化、趋势和结构情况,以增加数据分析的深度。

综合分析法在具体应用中,有以下几种情况:

一是对比分析与趋势分析相结合的方法。就是通过对两个或两组以上的数据在一定阶段的变化情况进行比较分析,从而发现数据所代表事物的发展趋势、差别和关系,并可进一步分析原因,为企业领导决策提供依据和参考。比如,我们可以使用这一方法来分析一定阶段企业利润和成本的变化和相互关系。再如,我们将“十五”期间本企业的利润指标与其他企业的利润指标进行比较分析,所应用的也就是对比分析与趋势分析相结合的方法。

二是对比分析与结构分析相结合的方法。就是对两个或两组以上的数据的构成情况进行分析比较,从而可以看出构成这两个或两组以上的数据的各种因素的差异性,以此剖析产生这种差异的原因,并提出相应的对策措施。比如,2006年,A供电局利润500万元,B供电局利润700万元。如果只采取对比分析的方法,我们获得的结论就是:“B供电局利润比A供电局多200万元”。结合结构分析:A供电局利润500万元中,主业为450万元,三产为50万元;B供电局利润700万元中,主业为560万元,三产为140万元。由此看出,A、B供电局在主业利润差距并不大,差距主要在三产上。因此,发展三产应成为A供电局利润增长的主要着力点。

1引言

粗糙集(RoughSet)理论[1]是波兰数学家Z.Pawlak于1982年提出的,它建立在完善的数学基础之上,是一种新的处理含糊性和不确定性问题的数学工具。其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则[2]。由于粗糙集理论不需要任何预备或额外的有关数据信息,使得粗糙集理论成为研究热点之一,被广泛应用与知识发现、机器学习、决策分析、模式识别、专家系统和数据挖掘等领域。

本文基于数据分析方法[6]的属性简约算法是在保持分类能力不变的前提下,逐个约去冗余的属性,直到不再有冗余的属性,此时得到的属性集是最小属性集,即为约简。该算法简单,能够求出所有约简,不会出现区分矩阵中大

量的重复元素,从而提高了属性约简的效率。

2粗糙集概念

定义2.1设U为所讨论对象的非空有限集合,称为论域;R为建立在U上的一个等价关系族,称二元有序组S=(U,R)为近似空间。

定义2.2令R为等价关系族,设P哿R,且P≠I,则P中所有等价关系的交集称为P上的不可分辨关系,记作IND(P),即有:[x]IND(P)=∩[x]R,显然IND(P)也是等价关系。

定义2.3称4元有序组K=(U,A,V,f)为信息系统,其中U为所考虑对象的非空有限集合,称为论域;A为属性的非空有限集合;V=∪Va,Va为属性a的值域;f:U×AV是一个信息函数,坌x∈U,a∈A,f(x,a)∈Va。对于给定对象x,f(x,a)赋予对象x在属性a下的属性值。信息系统也可简记为K=(U,A)。若A=C∪D且C∩D=I,则S称,为决策表,其中C为条件属性集,D为决策属性集。

显然,信息系统中的属性与近似空间中的等价关系相对应。

定义2.4设K=(U,A,V,f)为信息系统,P哿A且P≠I,定义由属性子集P导出的二元关系如下:

IND(P)={(x,y)|(x,y)∈U×U且坌a∈P有f(x,a)=f(y,a)}

则IND(P)也是等价关系,称其为由属性集P导出的不可分辨关系。

定义2.5称决策表是一致的当且仅当D依赖于C,即IND(C)哿IND(D),否则决策表是不一致的。一致决策表说明:在不同个体的条件属性值相同时,他们的决策属性值也相同。

定义2.6设K=(U,A)为一个信息系统。若P哿A是满足IND(P)=IND(A)的极小属性子集,则称P为A的一个约简,或称为信息系统的一个约简。

定义2.7设K=(U,CUD)为一个决策表,其中C为条件属性集,D为决策属性,若P哿C为满足POSC(D)=POSP(D)的极小属性子集,则称P为决策表K的一个约简。其中POSC(D)表示决策D关于属性集C的正域。

定义2.8数据分析方法对于信息系统K=(U,A),逐个移去A中的属性,每移去一个属性即刻检查新得到的属性子集的不可分辨关系,如果等于IND(A),则该属性可被约去,否则该属性不可被约去;对于决策表K=(U,CUD),逐个移去C中的属性,每移去一个属性即刻检其决策表,如果不出现新的不一致,则该属性可被约去,否则该属性不可被约去。

3基于数据分析方法的属性简约算法

3.1算法思路

利用函数的递归调用,逐个判定信息系K=(U,A)中属性a(a∈A),若IND(A)=ND(A-{a}),则a可以约去,A‘=A-{a},否则a不可以约去,继续检查A‘中的每个属性是否能被约去,此过程一直进行下去,直到出现某一属性子集中的每个属性都不可约去为止,此时该属性子集即为所求的属性简约。对于决策表,每次检查是否增加了不一致的决策规则,作为是否约去属性的依据。

算法如下:

输入:信息系统K=(U,A)。

输出:K的属性约简。

Match(A')//A’=A-{a}//

begin

fori=1to|U|-1//|U|表示U的基数//

forj=i+1to|U|

r=|R|//|R|表示属性个数//

if((f(ui,a1)=f(uj,a1))∧(f(ui,a2)=f(uj,a2))∧….∧(f(ui,ar)=f(uj,ar)))

thena不可被约去,return0

end

a可以被约去return1

Reduce(A)

flag=1

fori=1to|R|//|R|表示属性个数//

a=ai

A'=A-{ai}

ifmatch(A')thenflag=0,reduce(A’)

if(flag且A未被输出)then

输出A中所有元素//flag≠0,说明A中所有元素不可移去,且不会被重复输出//

End

以上给出的函数是求解信息系统的属性约简算法;对于决策表,只要将Match(A’)函数中的if语句的条件换成(f(ui,a1)=f(uj,a1))∧(f(ui,a2)=f(uj,a2))∧….∧(f(ui,ar)=f(uj,ar))∧(f(ui,ag)≠f(uj,ag)),r=|C|是条件属性个数,ag是决策属性。Reduce(A)函数中|R|换成|C|即可。该算法适用于一致决策表,对非一致决策表,算法类似,也就是逐个移去属性并检查决策表是否出现新的不一致,作为约去此属性的依据。

4举例

文献[7]中决策表1,a,b,c,d,e是条件属性,g是决策属性,求出的约简是{a,b,d}

应用本算法,求得的属性约简为{a,e}和{a,b,d},得到决策简化表2和表3。

表1决策表表2简化表表3简化表

如果将决策表表1看作一信息系统,运用本算法,求得的属性约简有{c,d,e,g},{b,e,g},{a,c,d,g},{a,c,d,e},{a,b,g},{a,b,e}h和{a,b,d}

5结束语

本文通过数据分析方法讨论了属性约简问题。该算法是基于不可分辨关系的,具有直观、易于理解和完备性的特点。当属性和对象都较少时,效率较高,但当属性和对象较多时,计算的复杂度较高。实例表明,该算法是有效的。

参考文献:

[1]PAWLAKz.Roughset[J].Internationaljom:uaofcomputerandinformationscience,1982,(11):341―356.

[2]张文修,吴伟志,梁吉业等.粗糙集理论与方法[M].北京:科学出版社,2001.

[3]PawlakZ.SlowinskiR.Roughsetapproachtomuhiattributedecisionanalysis.IvitedReview[J].EuropeanJournalofOperationalResearch.1994,72:443-459

[4]王国胤,于洪,杨大春.基于条件信息熵的决策表约简[J].计算机学报,2002(7):760―765.

[5]SkowronA,RauszerC.TheDiscernibilityMatricesandFunctionsinInformationSystems[A].ISlowinskR.ntelligentDecisionSupport―HandbookofApplicationsandAdvancesoftheRoughSetsTheory[c].1991,331-362.

分析网站流量这是首要工作,如果是网站建设初期,那么此时的流量分析就只要记住网站登陆搜索引擎后的流量基数即可。如果是网站建设中期的话,就要记录网站流量一周的平均值,如果是网站建设后期的话,就要记录网站流量的阶段性波动值!记录好了流量值之后,就可以很好的计划出下一步优化推广的流量值了。

网站优化数据分析方法二:关键词分析

TheResearchContentAndDataAnalysisMethodsOntheGeneRegulatoryNetworks

GUOZhi-long1,2,JIZhao-hua1,3,TUHua-wei1,LIANGYan-chun1

(1.CollegeofComputerScienceandTechnology,JilinUniversity,Changchun130012,China;2.DalianHuaxinSoftwareCorporation,DaLian116000,China;3.InnerMongoliaXing'anVocationalandTechnicalCollege,Wulanhaote137400,China)

Abstract:Generegulatorynetworks,whichrevealsthecomplexphenomenaoflifefromtheviewofthecomplexinteractionsofgenes,isveryimportanttounderstandthefunctionalgenomicsforresearchers.Thearticlefocusesontheresearchcontentanddataanalysismethodsaboutgeneregulatorynetworks.

Keywords:generegulatorynetworks;Self-organizingMap;machinelearning

基因调控网络是计算机科学、数学、信息学向分子生物学渗透形成的交叉点,是运用生物信息学的方法和技术通过数据采集、分析、建模、模拟和推断等手段研究复杂的基因网络关系。作为一种系统的、定量的研究方法建立在包括分子生物学,非线性数学和程序算法设计等知识等基础上,运用生物信息学的方法和技术通过数据采集、分析、建模、模拟和推断等手段,整合已有的实验数据和知识,构建生物基因调控网络,从整体的层次,了解细胞的功能;从整体的角度,阐述基因参与的生物调控过程,在全基因组水平上以系统的、全局的观点研究生命现象及其本质,是后基因组时代研究的重要内容。

1基因调控网络概念

基因调控网络本质上是一个连续而复杂的动态系统,即复杂的动力系统网络。

1.1基因调控网络的定义

1.2基因调控网络的特性:

基因调控网络是连续的多层次动力系统模型,具有稳定姓、层次性、复杂性、动态性等。

1.2.1复杂性

生物具有大量的基因,诸多基因组成各个模块,不同的基因网络模块可以在不同层次上发生相互作用,同一个基因可能参与各种不同的分子机理,使得基因网络有着高度的复杂性。

1.2.2层次性

基因调控网络具有一定层次结构,按照调控元件、motif、模块和整个网络的四层结构,将各个节点有规律的来接在一起。调控元件分为顺式(cis-)和反式(trans-)两种类型,分别表示受调控基因的结合位点DNA序列和结合在该序列上对基因起激活或者抑制作用的转录因子。Motif和模块都是由基因集合构成的调控模式,是分析网络局部特征和网络构成以及研究调控机理的重要结构。

1.2.3动态性

1.2.4稳定性

基因调控网络的稳定性体现在生物体缓解突变的影响方面,功能上无关基因之间的相互作用可以抵抗系统突变;一个基因在突变中丧失的功能,有另外一个或更多具有相似功能的基因所补偿,以减弱该突变对表型造成的影响,保持生物进化中的稳定性。

1.2.5功能模块性

1.3基因调控网络研究的目的

通过对基因调控网络的研究,识别和推断基因网络的结构、特性和调控关系,认识复杂的分子调控过程,理解支配基因表达和功能的基本规则,揭示基因表达过程中的信息传输规律,清楚整体的框架下研究基因的功能。

2基因调控网络研究内容

基因调控网络的研究是假设两个基因列谱相似,则这两个基因协作调控,并可能功能相近,有同样表达模式的基因可能有同样的表达过程。基因调控网络主要在三个水平上进行:DNA水平、转录水平、翻译水平。DNA水平主要是研究基因在空间上的关系影响基因的表达;转录水平主要研究代谢或者是信号转导过程决定转录因子浓度的调控过程;翻译水平主要研究蛋白质翻译后修饰,从而影响基因产物的活性和种类的过程。基因转录调控信息隐藏在基因组序列中,基因表达数据代表基因转录调控的结果,是转录调控信息的实际体现。

一、SOM算法介绍

由Kohonen提出的自组织映射(SOM)的神经网络是神经网络中适合用于对数据进行分类的有效方法。SOM神经网络包含一个输入层和一个输出层,组织成一个二维的网格结构(图1.1)。该网络能够从任意一个随机选择输入的结点开始最终形成一个拓扑结构的映射,这个映射反映了输入模式的内在的关系。但是运用SOM有一些参数的限制,首先需要指定类别数目,对映射空间结点进行权值的初始化等。如(图1.1)所示,SOM网络是一个的映射,如果这个神经元被安排在一个平面网格上面的话,这个神经网络就称为二维神经网络,因为这个网络将一个高维的输入向量映射到一个二维的平面上面。给定一个网络,输入向量是一个维的向量,相应的第个突触向量的第个元素与输入向量的第个元素相连,这样,一个维的突触向量就和第个神经元实行连接。

图1.1SOM网络的基本结构

SOM算法描述如下:

(1)令网络学习次数,赋予初始化权值向量一个小的随机向量值,对拓扑邻域()、学习率()进行初始化,设置网络总的学习次数()。

(2)当学习次数()小于总的学习次数()时,重复步骤3至步骤6。

(3)随机选一个输入向量进入网络进行训练。

(4)确定获胜神经元,相应的权值向量为与输入向量距离最短的向量,成为获胜神经元,输入向量与获胜神经元的最短距离为,定义如下:

(1.1)

(5)按照下式更新获胜神经元及其邻域内神经元权值向量:

(1.2)

与函数定义如下:(1.3)

(6)令,如果,回到第(3)步继续训练,否则结束训练。

二、数值模拟计算

本文以HUGEindex数据库中人7000多条基因在19个正常组织中的表达情况这19个组织中表达的基因为样本对其进行分析。不同组织下的全基因表达数据构成了一个7070x59的数据矩阵,其中每一个元素表示第个基因在第个组织中的表达水平值,行向量代表基因在19个人组织中的表达水平,成为基因的表达谱,列向量代表某一组织的各基因的表达水平。

(1.4)

本文运用SOM方法对人基因19个组织的59个样本进行聚类,SOM网络的拓扑结构见(图1.2)及参数选择见表(表1.1)。

图1.2样本聚类SOM网络结构图

上图中,根据Genechip得到的人体19个组织的59个微阵列数据所得到的信息,我们采用4x5的二维拓扑结构的SOM网络对人体组织样本进行分类(其中第(4,5)个结点为空),图中每个结点的位置(结点位置用与输入模式维数相同的向权值向量表示,初始权值由系统自动产生)为各个结点权值尺度化之后所得到的位置。

三、结论

通过分类可以将芯片实验的59个样本按照人体组织类别分为19个类别,并且与采用层次聚类法所得结果进行比较,可以看出自组织映射的聚类方法与层次聚类方法比较,可以看出采用SOM网络聚类方法比层次聚类得到的结果更为明确,其分类正确率达到了92.2%,证明了SOM方法是有效的。

[1]孙啸,陆祖宏,谢建明.生物信息学基础[M].北京:清华大学出版社,2005:282-285.

[2]许东,吴铮.基于matlab6.x的神经网络系统分析与设计[M].西安电了科技大学出版社,2002.

[3]阎凡平,张长水.人工神经网络与模拟进化计算[M].北京:清华大学出版社,2005.:11-34,360-395.

一、数据统计分析的内涵

数据分析是指运用一定的分析方法对数据进行处理,从而获得解决管理决策或营销研究问题所需信息的过程。所谓的数据统计分析就是运用统计学的方法对数据进行处理。在实际的市场调研工作中,数据统计分析能使我们挖掘出数据中隐藏的信息,并以恰当的形式表现出来,并最终指导决策的制定。

二、数据统计分析的原则

(1)科学性。科学方法的显著特征是数据的收集、分析和解释的客观性,数据统计分析作为市场调研的重要组成部分也要具有同其他科学方法一样的客观标准。(2)系统性。市场调研是一个周密策划、精心组织、科学实施,并由一系列工作环节、步骤、活动和成果组成的过程,而不是单个资料的记录、整理或分析活动。(3)针对性。就不同的数据统计分析方法而言,无论是基础的分析方法还是高级的分析方法,都会有它的适用领域和局限性。(4)趋势性。市场所处的环境是在不断的变化过程中的,我们要以一种发展的眼光看待问题。(5)实用性。市场调研说到底是为企业决策服务的,而数据统计分析也同样服务于此,在保证其专业性和科学性的同时也不能忽略其现实意义。

三、推论性统计分析方法

(1)方差分析。方差分析是检验多个总体均值是否相等的一种统计方法,它可以看作是t检验的一种扩展。它所研究的是分类型自变量对数值型因变量的影响,比如它们之间有没有关联性、关联性的程度等,所采用的方法就是通过检验各个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。(2)回归分析。在数据统计分析中,存在着大量的一种变量随着另一种变量的变化而变化的情况,这种对应的因果变化往往无法用精确的数学公式来描述,只有通过大量观察数据的统计工作才能找到他们之间的关系和规律,解决这一问题的常用方法是回归分析。回归分析是从定量的角度对观察数据进行分析、计算和归纳。

四、多元统计分析方法

参考文献

引用格式:李梅,杜翠凤,沈文明.基于大数据分析的移动通信网络规划方法[J].移动通信,2015,39(10):22-27.

传统的移动通信网络规划需要借助海量的测试,分析总结网络存在的问题,再基于对市场和业务的经验预测,制定规划方案。该过程中,测试结果的普遍性和业务预测的准确性制约了规划方案的合理性,高昂的测试成本和冗长的测试工期影响了规划效率。

2基于大数据分析的移动通信网络规划

体系

2.1大数据数据层

2.2大数据管理层

该层基于Hadoop管理平台建立特定的数据预处理脚本和算法模型,实现对用户价值和用户感知数据的分析管理。

数据的预处理主要包括确实数据处理以及噪音数据处理。为分析用户价值和用户感知,本系统用到的大数据分析算法模型主要有层次分析法和聚类阈值法。

2.3大数据业务层

该层是对用户价值和用户感知业务实施梳理与管理,对影响用户价值和感知业务的各维度进行分析并找出其关联关系。例如:用户价值与收入、终端、业务、套餐的各维度关联关系的梳理;用户感知与回落之间的关系梳理等。

2.4大数据展示层

3用户价值与感知评价分析方法构建

3.1用户价值评价体系构建

(1)建立用户价值评价体系结构模型――AHP分析法

采用AHP法评价用户价值时,首先是把用户价值进行梳理,建立出以业务为基础的层次结构模型,然后将用户价值分解成收入、套餐、业务和终端4部分。具体如图2所示:

用户价值评价模型的层次一般分为:

最高层:用户价值。

中间层:用户潜力和消费能力。

最底层:用户潜力包括用户的套餐指标与终端指标;消费能力包括用户的收入指标与业务指标。

基于以上的维度进行评分,可将评分落到各基站扇区,根据评分做出扇区化的图层,并将网络的价值扇区进行地理化呈现。

(2)确定用户价值评价模型各指标权重

以AHP法确定用户价值评价模型各指标的权重分为以下两步:

首先,构建递阶层次结构。如图2所示,目标层是用户价值,该层是建立评价模型的目的和追求的最终结果。一级指标层为{用户潜力,消费能力};二级指标层包括套餐、终端、收入、业务等。

(3)综合权重计算用户价值

针对移动通信系统,服从一定社会(地理和逻辑)分布的具有不同消费能力、行为和移动特征的客户群体,在通信过程中形成的具有运营价值的业务活动区域叫做价值区域。

价值区域可以采用收入、终端、用户、业务(数据和语音)“四维度”,基于各自评分标准进行评分;将评分落到各基站扇区,再根据评分做出扇区化的图层,就可以将网络的价值扇区进行地理化呈现。

根据AHP法得出的权重以及各维度的评分标准,可以算出各小区的综合评分;再根据综合评分,可定义TOP30%为高价值扇区,TOP30%~TOP50%为中价值扇区,TOP50%~TOP80%为一般价值扇区,TOP80%以上为低价值扇区;最后,根据高低价值区域的评定,可以将网络的价值扇区进行地理化呈现。

该价值分析结果在规划中可进一步拓展到区域层面、微网格层面,从而实现网络建设目标精准定位,以更好地指导网络资源投放。

3.2用户感知分析方法

(1)建立用户感知评价体系结构模型

如图3所示,与用户价值评价体系结构模型建立的方法相似,仍采用AHP分析法,用户感知评价模型可分为:

最高层:用户感知。

中间层:网络覆盖和网络质量。

最底层:网络覆盖主要为MR(MeasurementReport,测量报告)覆盖指标;网络质量包括HSDPA(HighSpeedDownlinkPacketAccess,高速下行分组接入)用户速率与3G回落指标。

(2)确定用户感知评价模型各指标权重

与用户价值评价模型各指标权重计算方法相似。

首先,构建递阶层次结构。如图3所示,目标层是用户感知,该层是建立用户感知评价模型的目的和追求的最终结果。一级指标层为{网络覆盖,网络质量};二级指标层包括MR覆盖指标、HSDPA用户速率、3G回落指标等。

其次,建立判断矩阵。由专家根据经验确定权重。

(3)综合权重计算用户感知

用户感知可以采用MR覆盖指标、HSDPA用户速率、3G回落指标“三维度”,按照评分标准进行评分,再将评分结果落到各基站扇区,做出扇区化图层实现网络感知的地理化呈现。

3.3价值与感知联合评估

为了更好地指导网络规划建设,可将用户价值分析方法和用户感知分析方法联合起来,建立4×3的价值与感知联合评估矩阵,针对不同矩阵中的网格分别制定对应的资源投放策略。

价值与感知联合评估矩阵中,不同网格的资源投放策略建议如表1所示(红色、绿色区域为重点投资区域)。

4应用案例

在某运营商本地网的无线网络规划中,运用上述的分析方法对2014年6月的7000万条语音原始详单、5亿条数据原始详单、238万条用户原始信息详单进行了大数据分析。

4.1价值区域分析

(1)终端分布分析

网上现有用户约110万户,其中支持3G业务的终端56万户,占比50.7%,仅支持2G业务的终端54万户,占比49.3%;约一半用户终端不支持3G业务,3G终端使用者中有一半终端使用的是2G套餐。

(2)业务分布分析

现网用户的业务分布统计情况是:语音业务63%承载在2G网络上,37%承载在3G网络上;数据流量2G承载24%,3G承载76%。考虑到3G网络的业务体验更好,且网络资源更为丰富,应通过各种措施加快业务的迁移,促进2G/3G网络的融合发展。

(3)套餐分布分析

现有用户的套餐数据统计结果如图4所示:

从图4统计分布可知,低端用户贡献了61%的收入,但占用了73%的流量资源和65%的语音资源。低端用户单位收入消耗的网络资源更高,说明高流量不一定带来高收入;市场营销策略是影响用户规模、用户行为以及网络资源使用的主要因素,为此,建议规划与市场应紧密结合,以计划为先、网络先行,市场与建设互相配合、逐步推进。

(4)用户收入分布分析

从用户收入角度分析,结果如表2所示:

从表2统计分析可知,使用2G套餐2G终端ARPU(AverageRevenuePerUser,每用户平均收入)值低于2G套餐3G终端,3G套餐2G终端ARPU值低于3G套餐3G终端,3G套餐ARPU值整体高于2G套餐,3G终端ARPU值整体高于2G终端。

从以上“收入、套餐、终端、业务”四维度进行扇区化统计,各扇区统计结果如图5所示:

从图5统计分布可知,高价值小区数占比为30%,收入占比达到72%;中价值小区数占比为20%,收入占比达到16%;高/中价值全网小区数占比为50%,收入占比达到88%,高价值小区各维度占比均接近70%,各维度评估合理。

4.2用户感知分析

(1)用户速率分析

网络单用户下载速率统计分布如图6所示:

(2)3G用户回落分析

3G用户回落指标统计分布如图7所示:

(3)用户感知MR覆盖分析

对MR数据中扇区级的RSCP(ReceivedSignalCodePower,接收信号码功率)进行统计,其分布如图8所示:

4.3价值与感知联合分析

综合以上价值区域及用户感知分析,按照专家法取定的权重对各维度指标进行综合评分,得到全网各小区的综合评估分析结果,统计各类小区占比如图9所示:

从图9统计分布可知,全网综合评估高/中价值扇区中感知中/差的扇区占比为34%,这部分区域将是本次规划中需要重点投入网络资源的区域。具体分布如图10所示:

综上所述,通过对现网用户的收入分布、终端分布、套餐、业务、用户感知等多维度分析,可精准定位高价值扇区及高价值区域,以进一步指导网络的精准化规划设计,引导投资的精准投放。除此之外,基于用户价值和用户感知的多维度分析还可以应用于市场营销、渠道规划等领域。

基于大数据的价值分析对运营商而言,是市场驱动、精细化管理的重要途径,有利于改变传统的经营模式,改善用户感知、增强自身竞争力,从而能够有效应对来自于虚拟运营和OTT业务的冲击。

[1]黄勇军,冯明,丁圣勇,等.电信运营商大数据发展策略探讨[J].电信科学,2013(3):6-11.

[2]刘旭峰,耿庆鹏,许立群.运营商获取移动互联网用户价值的策略研究[J].邮电设计技术,2012(8):9-12.

[3]袁首.多网协同下的电信无线网络规划方法研究[D].北京:北京邮电大学,2012.

[4]曹艳艳.3G无线网络规划[D].济南:山东大学,2005.

[5]李勇辉.大数据概念辨析及应对措施[J].互联网天地,2014(1):11-14.

[6]龙青良,李巍,吕非彼.基于用户感知的WCDMA无线资源效能评估方法研究[J].邮电设计技术,2014(9):33-39.

[7]朱强.3G无线网络规划和优化的探讨[J].通信世界,2005(30):57.

[8]任毅.3G无线网络规划流程[J].电信工程技术与标准化,2005(11):15-18.

0.引言

为了评测区域内电网调度能力,根据调度能力评测结果,调整输变电调度方案,提高变压器等主要设备的可靠运行,合理利用电网中各项资源和设备。本发明的目的是提供一种基于计算机实现的评测电网调度能力的方法,该方法通过对电压、有功功率、无功功率的分析,保持各个变压器都处于最佳工作状态,提高设备使用寿命,降低设备故障率,降低设备运行的电能损耗,提高电网运行的可靠性,提升电网调度水平。

1.大数据分析评测电网的现状

2.大数据分析评测电网调度能力的具体方法

2.1获取两卷变或三卷变高低压侧的监控数据

该方法主要是用根据变压器端的终端设备,来获取的,首先通过各地市部署的调度EMS系统,将变电站中各变压器的运行情况准确的监控,通过变压器内的监控元件,对变压器的的运行情况、采集电压、有功负荷、无功负荷等检测数据,按指定频率采集。然后将采集的数据通过生产区的专用网络进行传输,通过生产区的安全交换机制放置到电力系统信息内网,开始清洗、筛选,去除设备检测的异常数据,保留有效数据用于负载率分析该评测电网调度能力工具通过在信息内网中载入电网运行的监控数据[2]。

2.2得到变压器实际功率与额定功率的比值

2.3计算各个变压器的平均负载率以及平均负载率的平均值

3.大数据分析评测电网调度能力的应用

3.1调度EMS数据采集

在这个过程中还要对数据进行“清洗”。清洗的流程为:(1)使用8个逗号作为数据的分隔符,分别隔开不同字段的数据。如果有多余逗号或缺逗号或两个逗号中间为空的行,则该行数据无效。(2)在计算的过程中除了容量、有功负荷值及无功负荷值外,其他各字段如数据超长,则页面抛出提示错误,结束导入。(3)厂站电压等级为110kV的变压器容量小于等于100MVA(系统用户可以在管理端修改此值大小),否则该行数据无效。

3.2负载率计算

负载率计算有两种情况,分别是近似计算和精确计算,其中近似计算效率高,能够很快得到近似结果。但是在常规检查时可使用本公式计算;精确计算算法相对复杂、比较耗时,但是计算准确,通常用于分析调度情况时使用。

简便公式为:

计算要求:

3、使用意义在于根据负载率大小得出各变压器负载率的最高或最低时点,从而判断当前电网的负荷情况。

精确公式:

计算方法:

4.结语

该发明可及时调整调度方案,从而均衡电网的运行负荷,保持各个变压器都处于最佳工作状态,提高设备使用寿命,降低设备故障率,降低设备运行的电能损耗,提高电网运行的可靠性,提升电网调度水平,对提高大数据分析电网调度能力具有显著的作用。

[1]李庚银,罗艳,周明,等.基于数学形态学和网格分形的电能质量扰动检测及定位[J].中国电机工程学报,2012,26(03):25-30.

1交通事故预测思想

交通事故对人类造成的危害相对较大,对人类产生严重的威胁。从我国发展实践中可知,交通事故在一定程度上制约我国经济的发展进程,尤其对人类社会福利、医疗保险等方面的影响较大。据不完全统计,2015年全年间,我国交通事故约为10597358起,死亡人数约为68432人,财产损失高达10亿元以上。可见,交通事故威胁隐患相对较大。交通事故预测能够根据已发生交通事故进行统计、分析、处理,在遵循规律的基础上,对未来可能发生的交通事故作出科学合理的预测,该预测结果以科学逻辑推断为基础。就交通事故原因而言,道路环境、交通条件、车辆、驾驶员等都是影响因素。通过交通事故预测,我国交通部门人员能够对交通事故作出科学合理的判断和制定有效的预防策略,以最大限度降低和消除交通事故隐患。

2交通事故主要预测方法

2.1回归分析预测法

回归分析预测法在交通事故预测中的有效应用,主要分为线性回归和非线性回归两种方法。首先,背景交通工程研究所人员提出线性回归分析预测法,通过对自变量和因变量之间关系问题的探讨,对因变量趋势加以预测,其模型为:

Y=3577.79+93.3028lgX1+824.921lgX3+326.777lgX4+800.454lgX5-1149.051lgX6-224.902lgX8-45.0499lgX9-152.6081lgX10-287.191lgX11。

其中X1-X11分别表示临时人口、常住人口、机动车辆、自行车、道路长度、道路面积、灯控路口、交通标志、交通标线、失控部位、交警人数。

其次,英国伦敦大学SemeedR.J教授对欧洲国家十余载的交通事故资料进行研究,提出非线性回归分析预测法。对此,他建立幂函数曲线事故模型,

即:D=0.0003。其中D为交通事故死亡人数;N是机动车保有量;P为人口数量。

回归分析预测法能够对交通事故影响因素间的因果关系加以反应,以达到预测结果的目的,但对变化趋势的反应可能较为迟钝。该预测方法适用于样本量较大、数据波动小和极具规律性的预测实践中。

Ft+1=αxt+(1-α)Ft

2.3灰色马尔科夫链预测法

灰色预测以短期预测为主,马尔科夫链预测以长期预测为主,通过二者结合,可提高预测精度,但如若数据变化大,则灰色模型的吻合度和精度下降。借助该预测方法,能够对状态下的转移规律加以预测,并揭示交通事故时序变化总趋势。

2.4贝叶斯预测法

2.5灰关联分析及神经网络预测法

就灰关联分析及神经网络预测法而言,哈尔滨工业大学交通研究所和中国城市规划设计研究院的裴玉龙与张宇提出该方法,旨在通过交通事故影响因素分析,对事故进行进一步解析,并建立合理的模型理论和确定预测指标,对未来交通事故发展趋势加以预测。该预测方法的适应性较强,在我国交通事故预测工作实践中有着较为有效的运用,可解决传统预测方法难以解决的问题,建立在BP网络基础之上,并利用计算机开展辅计算活动。

2.6多层递阶预测方法

多层递阶预测方法能够规避传统统计预测方法的缺陷,以现代控制理论“系统辨识”为重要基础,对对象的未来状态做科学的预测。动态系统数学模型为:y(k)=。在交通事故预测中,多层递阶预测方法是大数据时代背景下的重要处理方式,有利于增强预测效果。

3结论

[1]李景文,高桂清.交通事故预测分析[J].中国安全科学学报,2015,6(01):20-23.

[2]刘志强.道路交通事故预测方法比较研究[J].交通与计算机,2013,19(05):7-10.

0引言

Web技术的飞速发展产生了海量的用户生成内容,大量信息蕴藏其中,是潜在用户决策支持的有价值资源。如何挖掘海量用户生成内容催生了数据分析人才的市场需求。麦肯锡全球研究院报告预计,美国在2018年数据分析人才缺口将达到50%~60%,甚至可能更大。我国政府提出的“互联网+”行动计划,使得数据几乎渗透到每一个行业和业务职能领域。在大数据时代,具有丰富经验的数据分析人才需求倍增。

1数据分析人才必备的重要素质

2计算思维能力培养现状

自2002年以来,我国计算机教育专家将计算思维能力归结为计算机专业人才必备的4大专业基本能力,并且强调计算思维能力是其他3项能力(算法设计与分析、程序设计与实现以及系统能力)的基石。那么,如何在大数据时代背景下,依托应用型本科软件工程试点专业建设,培养软件工程专业学生的计算思维能力,为社会输送高质量数据分析人才?计算思维能力的强弱主要表现为学生能否正确运用抽象与分解、递归、启发式等方法解决计算求解问题。训练学生的计算思维能力可在算法与数据结构以及算法设计与分析课程(以下简称算法类课程)的教学中进行,因而算法类课程是本科阶段培养数据分析人才的重要课程。

然而,在算法类课程的实际教学过程中,存在两个较为常见的问题:

(1)学生理论联系实际的能力薄弱。学生要达到灵活运用算法解决实际问题,必须掌握算法的核心思想,但由于算法类课程中许多概念抽象,一些经典算法较为复杂,在这两门课程的学习和实践中,能体会到理论学习意义和动手实践乐趣的学生很少。

由此可见,在算法类课程的现有教学环节中,训练学生计算思维能力的机会较少,必须结合当前数据分析人才市场需求的发展趋势,重新审视算法类课程的定位和内容,以达到夯实学生计算思维能力的目的。

3在算法类课程教学中培养学生计算思维能力的方法

从整体上,一个较高层次的数据分析人才应该掌握7大版块的知识结构,分别是数据采集、数据存储、数据提取、数据挖掘、数据分析、数据展现以及数据应用。以数据分析人才驱动为导向,培养软件工程专业学生计算思维能力的算法类教学方法主要是把算法类课程中算法分析与设计的思想融入数据分析中,用数据分析中的实际需求驱动学生学习书本上抽象的理论知识。以7大版块中最重要的数据挖掘版块作为载体,在算法类课程教学中培养学生的计算思维能力。

3.1基于实际数据分析任务的实验项目设计

目前,国际权威学术组织IEEEInternationalConferenceonDataMining(ICDM)已评选出数据挖掘的10大经典算法:C4.5、k-means、SVM、Apriori、EM、PageRank、AdaBoost、kNN、NavieBayes和CART。在教学过程中,可以根据不同类型的应用问题,结合这些经典数据挖掘算法布置实验任务,对每一实验任务制定实现该任务的实验目的、实验要求、实验内容、实验步骤和预期实验结果,让学生清晰地理解并实现这些实验任务。

以2013级软件工程专业学生参加中国好创意的“互联网情绪指标和生猪价格的关联关系挖掘和预测”为例,说明实验项目的设计。

(1)实验目的:针对来自国内互联网的生猪历年消费者情绪数据,挖掘消费者情绪指标和生猪价格之间的关联关系。

(2)实验要求:采用Apriori算法,对近期国内五花肉价格及生猪价格进行预测。

(4)预期实验结果:解读最终得到的频繁项集,将挖掘的结果反馈到生猪养殖户,让其掌握生猪市场的供求关系。

实验任务的编码完成后,还要求学生从软件开发的角度撰写规范的项目报告,内容包括项目的需求分析、总体设计、详细设计、编码与测试等。教师可通过报告清楚了解学生是否有良好的计算思维能力。针对计算思维能力薄弱的学生,教师可以再布置另外的实验项目让其训练。例如,在“互联网情绪指标和生猪价格的关联关系挖掘和预测”实践项目中,要求项目报告中有目标场景、需求理解、方案创意说明、模型数据选取、数据分析、算法设计、实验设计、结果分析、原型系统介绍等。

3.2算法类课程教学内容拓展

3.3计算思维能力培养的跟踪

为了改进软件工程学生计算思维能力培养中可能存在的问题,收集应用于13级软件工程专业学生的实验项目、授课计划、项目报告、算法类课程的理论成绩与实践成绩。通过跟踪他们毕业设计的完成情况,分析曾在算法类课程上得到较好计算思维能力培养的学生的毕业设计情况,检验提出的方法。由于本研究的对象还没有进入毕业设计环节,故只进行算法类课程的理论成绩与基于实际数据分析任务的实验项目完成情况的分析。通过两门课程期末考试成绩可以看出,认真完成实验项目的学生理论考试成绩普遍高于不认真的学生,这充分说明基于实际数据分析任务的实验项目能有效改进目前算法类教学课程中存在的问题。

此外,还准备通过学院学生管理部门跟踪2013级软件工程专业学生的就业情况和用人单位的反馈意见,了解学生的专业能力,及时修改计算思维能力的培养方法,为探索应用型本科软件工程试点专业建设提供有力支撑。

THE END
1.久远银海:首次公开发行股票招股意向书股票频道行人股票总数(包括有限售条件和 持股份的流通限制 无限售条件的股份)的比例不超过 和自愿锁定股份的 50%。 承诺 50 名核心骨干和核心技术人员: 童晓峰、张巍、杜斌、唐世杰、 施铮、徐仑峰、王刚、张波、周 自发行 人上 市之 日 起三十 六 个月 凯、尹昌睿、韩志华、王文昭、 内,不转让或者委托他人管理其...https://stock.stockstar.com/notice/JC2015062500000023_44.shtml
2.质性数据分析工具在中国社会科学研究的应用——以Nvivo为例随着质性数据分析工具的不断开发及其应用推广,如何有效运用质性数据分析工具处理非结构化数据开展科学的质性研究引起国内外学者的广泛关注。一些学者首肯质性数据分析工具优势显著,指出其具有超越人工局限(beyond the feasible manual limits)的数据编码能力,可以更加高效精准地检索、分析与编码数据,有助于在质性研究中构建...https://www.jianshu.com/p/8c79092e1998
1.数据分析概述了解数据分析。https://docs.microsoft.com/zh-cn/learn/modules/data-analytics-microsoft/2-data-analysis
2.大数据分析与应用:掌握数据分析基础与数据挖掘的艺术文章浏览阅读421次,点赞6次,收藏6次。在这个数字化时代,大数据已成为企业决策、科学研究和社会管理的重要基石。大数据分析和应用的核心在于数据分析基础与数据挖掘技术的掌握。本文将带你深入了解数据分析的基础知识,探索数据挖掘的奥秘,为你的大数据之旅打下坚实的基https://blog.csdn.net/2401_84589901/article/details/143721219
3.数据分析都有哪些数据分析主要有:一、描述性统计分析;二、探索性数据分析;三、预测性数据分析;四、统计推断分析;五、决策树分析;六、聚类分析;七、关联规则分析;八、文本分析;九、回归分析;十、时间序列分析。上述数据分析方法可应用于商业、科研、金融等多个领域。https://www.linkflowtech.com/news/1806
4.水利计算机应用现状分析论文(通用12篇)1.2 在工程方案设计的前期,应用地理信息系统GIS 在水利工程设计的前期,需要掌握工程的地理信息,这时可以应用地理信息系统GIS,全面地了解水利工程的情况,运用这一技术,还可以进行数据的采集和存储。在此基础上,分析地表面的特征和本区域的具体情况,这项技术比较可靠,不仅可以分析地质地域的情况,还可以分析水利工程的静态...https://www.wenshubang.com/jisuanjiyingyonglunwen/785581.html
5....管理厅关于印发《安徽省危险化学品企业双重预防机制数字化应用...(2)应急管理部危化监管一司关于印发《关于做好危险化学品企业双重预防机制数字化系统功能优化和数据质量提升工作的函》的通知(2023年5月22日)。 3术语及定义 下列术语和定义适用于本文件。 3.1安全风险分析对象 安全风险伴随的生产、储存设施、部位、场所、区域等。 https://yjt.ah.gov.cn/public/9377745/148604821.html
6.实用的调查方案7篇(三)居民一日出行记录数据 这里的数据是选择一天作为调查日,调查抽样居民的一天出行记录,主要包括出行方式、出行目的、出行地址、出行时间、到达目的地地址及其用地性质、到达时间,这些数据要具有连续性,确保居民的出行有始有终。 四、Access在居民出行调查中的应用 ...https://www.oh100.com/a/202210/5472629.html
7.统计学常用的数据分析方法大总结,推荐收藏描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。 集中趋势分析 集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。例如被试的平均成绩多少?是正偏分布还是负...https://cloud.tencent.com/developer/article/1504683
8.2015系统架构师复习资料眈眈探求主要功能(任务):自动预测趋势和行为、关联分析、聚类、概念描述、偏差检测。 挖掘技术:关联分析、序列分析、分类分析、聚类分析、预测、时间序列分析。 挖掘流程:确定挖掘对象、准备数据、建立模型、数据挖掘、结果分析、知识应用。 多媒体技术标准(P42) 静态图像压缩编码标准:JPEG 运动图像压缩标准:MPEG MPEG-1:应用于...https://exp-blog.com/arch/2015-xi-tong-jia-gou-shi-fu-xi-zi-liao/
9.网络营销全部A.确定调查目标B.拟定调查问卷C.撰写调查报告D.数据分析与处理【注释】:第四章第二节第125页,撰写调查报告是整个调查活动中最后一个阶段。 65.下列属于消费者网络购买时信息收集特点的是()。 A.信息主要来自线下B.信息收集量增加C.信息收集成本提升D.信息搜索便捷性降低【注释】:第五章第四节第146页,网络购买...https://www.wjx.cn/xz/261160017.aspx
10.天津市公安局联合作战指挥平台建设及应用天津市公安局联合作战中心是集全局数据资源汇聚、情报分析研判、联合指挥处置、服务支撑实战等功能于一体,对全局警务工作实施联合作战指挥的最高权威机构,联合作战指挥平台是天津市公安局信息化建设的重要成果,也是信息化实战应用的重要平台。从天津市公安局联合作战指挥体系出发,论述联合作战指挥平台的整体架构和应用设计。https://www.secrss.com/articles/3899
11.2019级电子商务专业人才培养方案(4)能够熟练应用办公软件,进行文档排版、方案演示、简单的数据分析等。 3、方法能力 (1)具有较强的自我学习能力。 (2)具有独立解决问题的能力。 (3)具有较强的逻辑思维与分析问题的能力。 (4)具有信息检索、信息处理及网络应用能力。 (5)具有较强的创业意识和开拓创新能力。 https://www.hnwmxy.com/jiaoxuekeyan/jiaoxuebiaozhunfabu/rencaipeiyangfangan/2019_r/2020/0703/6462.html