聚类分析论文精品(七篇)|保险数据分析案例范文_宠物保险

序论：写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感，挖掘那些隐藏在内心深处的真相，好投稿为您带来了七篇聚类分析论文范文，愿它们成为您写作过程中的灵感催化剂，助力您的创作。

1建立综合评价指标体系

全国大学生数学建模竞赛现状的一个重要方面就是全国大学生数学建模竞赛获奖情况。依据全国大学生数学建模竞赛设置的奖项，遵循可比性原则，参考文献［4－5］，选取x1－x7共七项评价指标，具体如下:x1:本科组高教社杯、MATLAB创新奖和IBMSPSS创新奖获奖情况;x2:本科组一等奖获奖数;x3:本科组二等奖获奖数;x4:专科组高教社杯、MATLAB创新奖和IBMSPSS创新奖获奖情况;x5:专科组一等奖获奖数;x6:专科组二等奖获奖数;x7:年度竞赛优秀组织工作奖获得情况。说明:鉴于本科组与专科组的高教社杯、MAT-LAB创新奖和IBMSPSS创新奖三类奖项每年只有一个队获奖，且基本不可重复获得(参见历年大学生数学建模竞赛获奖名单)故将其合并作为一类。

2数据资料依据

2013年全国大学生数学建模竞赛获奖名单，按指标对各个赛区的获奖情况统计如表1所示。

4Q型聚类分析

4.1选取5个指标的分类从R型聚类分析分出的5类指标中各选一个，即选取5个指标体系，对33个参赛地区进行聚类分析。首先对变量数据进行标准化处理，采用欧氏距离度量样本间相似性，选用类平均法计算类间距离。在MATLAB命令窗口输入下列程序:＞＞symsxy;＞＞x=xlsread(’shuju．xls’);%将上表中的数据保存到MATLAB中WORK文件夹excel文件shu-ju．xls中，并将其赋于x＞＞x(:，［3，5］)=［］;%删除数据矩阵的3，5两列，即使用变量1，2，4，6，7＞＞x=zscore(x);%将数据标准化＞＞s=pdist(x);%每一行是一个对象，求对象间的欧式距离＞＞z=linkage(s，’average’);%按类平均法聚类＞＞h=dendrogram(z);%画聚类图(如图2所示)＞＞T=cluster(z，’maxclust’，3);%把样本点划分成3类＞＞fori=1:3;tm=find(T==i);%求i类的对象tm=reshape(tm，1，length(tm));%变成行向量＞＞fprintf(’第%d类的有%s\n’，i，int2str(tm));%现实分类结果＞＞end程序输出:第1类的有11318第2类的有2345678910111216171920212224252627282930313233第3类的有141523即:第一类:北京，福建，湖南;第三类:江西，山东，四川;第二类:其它地区。

5结束语

关键词：聚类分析人口区划数据挖掘

1前言

随着中国信息化进程的加速，各行各业每天都产生大量的数据，如何充分利用这些数据，更好地为人类生产和生活更好地服务？数据挖掘是一种不错的方法，数据挖掘又称数据库中的知识发现，是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。知识发现过程由以下三个阶段组成：（1）数据准备；（2）数据挖掘；（3）结果表达和解释。

聚类分析（ClusterAnalysis）是一种数据挖掘方法，是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统计分析方法，它们讨论的对象是大量的样品或数据，要求能合理按各自的特性来进行合理的分类，没有任何模式可供参考或依循，即是在没有先验知识的情况下进行的。目前在文献中存在大量的聚类算法，算法的选择取决于数据的类型、聚类的目的和应用。大体上聚类分析主要的算法可以分为：（1）划分方法；（2）层次的方法；（3）基于密度的方法；（4）基于网格的方法；（5）基于模型的方法。如果聚类分析被用作描述或者探查的工具，可以对同样的数据尝试多种算法，以发现数据可能揭示的结果。聚类方法广泛应用于各行各业。

人口是基础数据，是制定各项政策的依据。人口区划根据自然、经济、人口特征及相应的指标体系，对全国人口分布状况分区划片，并提出各区人口发展合理目标及相应的人口政策和措施，为全国和分区人口发展规划提供科学依据，并为国民经济计划和经济区划服务。20世纪80年代初，中国学者胡焕庸根据自然地理特征、人口密度、人口自然增长、人口迁移、耕地、粮食产量、劳动力等指标，将中国划分为人口区，即：黄河下游区，辽吉黑区，长江中下游区，东南沿海区，晋陕甘宁区，川黔滇区，蒙新区，青藏区。随着中国经济的迅猛发展人口分布呈现出许多新的特征，为了适应新的趋势，有必要重新定位和再研究。

2数据与方法

2.2聚类分析原理

3.2二维聚类

以人均GDP和人口自然增长率进行聚类，数据进行标准化处理后，得到的结果有五类，如表5如示。

从以上聚类结果看，第一类是沿海地区，经济较为发达，人口增长正常；而第二类内陆地区，人均GDP较低，人口自然增长优率较为正常；第三类为东北三省，人均GDP中等，人口增长率低；第四类为人均GDP高，为三个直辖市；第五类为人均GDP低，而且人口增长快的区域。

3.3多维聚类

多维聚类时，采用K均值法进行聚类，得到的聚类结果如表6。

根据多维数据聚类，共分为六类，其中第一类属于人口少，但较为富裕的北京和上海，而第六类为天津，自成一类，主要是流动人口及可支配收入较第一类差一些；第四类为经济发达的广东、江苏和浙江；第二类为经济较好，人均收入中等，流动人口较少的地区；第五类为经济欠发达，人口保持较高增长率的省份；第三类则是大部分的内陆地区。

4结论与讨论

本文通过采用聚类分析的手段分析全国31个省市人口的发展规律，揭示了不同省市在人口发展之间的相似性和差异性，研究得出合理聚类结果，为政府和各职能部门在制定人口及各项地方性经济发展政策提供依据。

聚类分析结果表明，一维、二维和多维聚类分析方法有各自的典型特征有用途。一维聚类分析简洁地表明各省人口自然分布规律，可为国家对不同各省份的人口政策提供科学依据；二维聚类分析直接反应了不同省份人口与经济等指标的相互关系，如论文中对人均GDP和人口自然增长率的二维聚类分析，分类结果合理的体现了当前我国各省经济发展与人口特征。多维聚类分析方法适用于对各省综合分类，论文中采用了与人口有关的5个指标进行的多维聚类分析，分类结果有较强的综合性，与当前各省公众认识的综合分类一致。

解决了传统的经验分类方法导致的客观性缺乏等问题。为人口的分类管理实践提供了理论依据和技术手段。

（本论文为院级大学生实践创新训练计划项目2011XYCXXL14资助项目）

参考文献：

[1]JiaweiHan，MichelineKambe.数据挖掘概念与技术[M].北京：机械工业出版社，2012.

[2]陈志泊.数据仓库与数据挖[M].北京：清华大学出版社，2009.

[3]陆学艺.可持续发展实验区发展历程回顾与建议[J].中国人口资源与环境，2007，17（3）：1-2.

[4]张文彤，董伟.SPSS统计分析高级教程[M].北京：高等教育出版社，2004：236-237.

[关键词]专利引证技术热点耦合聚类分析

[分类号]G353.1

1引言

2基于专利引证的技术热点监测方法

2.1专利引文的技术情报价值

2.2基于专利引证进行技术热点监测方面的实践应用

借助专利与专利间的引用与被引用关系，不仅可以揭示出专利的理论、技术起源，而且可以对技术领域中的技术前沿和技术热点进行追踪。Mogee等利用专利同被引(patentco-cltation)对2808条EliLilly公司的专利数据进行聚类分析，识别该公司的核心专利技术和技术热点群组，发现主要的技术热点(teehnolo-gyfronts)。孙涛涛等基于专利耦合关系，指出同时引用相同基础技术专利簇的另一个专利簇(basetech-nology)可以构成技术热点。尹丽春等将文献计量学中的共被引方法应用到专利文献的研究中，对在我国申请的数字信息传输领域中的专利技术前沿问题进行探讨。

目前市场上各种专业的商业化专利分析软件(如法国IMCS的MatheoAnalyzer、美国汤森路透旗下的Aureka、Innovation和Delphion、中国恒和顿的HIT-恒库等)几乎都有绘制引证网络图的功能，利于追溯目标技术的起源和发展。但是这些软件工具无法利用专利文献中的同被引或耦合技术，借助可视化关系揭示技术前沿或者技术热点。

2.3基于专利引证的技术热点监测方法设计

研究首先通过基于“关键词+专利引文”的检索策略，从专利数据库中检索、下载研究主题范围内的原始专利数据，构建本地专利专题数据库；其次，按照分析需要对本地原始专利数据进行拙取，将专利号、题名、发明人等专利著录项从专利文献中抽取出来，完成数据预处理；再次，分别利用专利耦合聚类和具体概念词聚类，实现由浅至深、由粗到细的技术热点监测。具体实施流程如图l所示：

值得注意的是，为了构建准确、有效的专题数据集-进行分析，专利数据检索至关重要。在专利数据采集的过程中，首先采用关键词试检，从试检结果中寻找相

应表达的同义或近义词，扩充、调整检索策略，力求保证关键词的全面性与准确性，构建初始专利数据集。然后对初始专利数据集中的专利进行被引频次排序，遴选25-50个高被引专利作为种子专利，并请领域专家对种子专利进行判读。如果专家认为研究领域的种子专利不准确，则需要重新回到第一步，调整检索策略进行数据检索。

此外，在利用专利耦合进行技术监测的过程中，要注意设定合适的专利耦合阈值，阈值过大或过小都会影响耦合矩阵的构建，从而影响耦合技术热点的聚类。同时，那些低于耦合阈值的专利内容相对分散，较难形成热点，应该予以舍弃。

通过上述步骤，构建待分析的技术专题数据集，其专利引证关系如图2所示：

2.3.2技术热点监测方法文献中的间接关联包括文献耦合和同被引两种，都能用来确定研究热点(re-searchfronts)。正如Persson和Morris。所言，耦合论文可以反映“研究热点”的知识结构，同被引论文则提供了一种知识基础(intellectualbase)的知识结构。Glanzel指出论文从发表到被引用期问有一个明显的时滞，用同被引来映射学科结构存在时差，而耦合分析则可以实时地反映学科最新的动态变化。VandenBesselaarP等也指出，耦合测度的是源文献之间的关系，同被引测度的是被引文献之间的关系。前者是基于有意识的行为，即著者有意地将两篇文献联系起来，而后者仅是两篇文献出现之后的偶然关联。因此，文献耦合更适于最新研究主题的揭示。

3实证研究

3.1数据集的构建

本文采川基于专利引证的方法构建技术领域专题数据集。研究以DVD领域激光头技术为例，经与领域专家讨论，将opticalhead、pickup和pickup确定为检索关键词，从美国专利商标局(USPTO)文摘库中检索1995-2004年1O年间的专利数据，检索出1934个专利构建DVD激光头技术领域初始专利数据集。从巾遴选TOP25高被引专利作为该技术领域的种子专利。从USPT0数据库中检索出种子专利的729个施引专利(citingpatent)，去重后得到515个。上述515个专利又引用了3397个(去重后)被引专利(citedpatent)。分别将上述数据下载到本地，构建专题数据库，作为本次研究的分析对象。

3.2基于专利耦合的技术热点分析

最后，绘制各技术热点的发展演变图，考察技术热点在10年间的发展变化。从DVD激光头技术各个子技术主题在10年间(1995-2004年)的发展趋势来看，大部分子技术主题在1997-2002年处于上升阶段，随后缩量发展，从一个侧面说明激光头技术整体而言已经相对成熟，自2003年始发明创新逐渐减少。其中，生命力最为旺盛的是技术热点4――光记录设备，从1997年至2004年不断有新技术发明问世。DVD激光头技术10个热点的发展演变如图3所示：

3.3基于词聚类的技术热点分析

为了考察光记录设备这一技术热点的具体情况，随后将光记录设备的87条专利数据导入Patentics专利检索分析平台，进行概念聚类分析，得到10组概念索引词，表征光记录设备的详细技术热点，见表1。

其中，关于物镜的专利占了该技术热点的1／4，其次为光度头和激光束。在这些子技术热点中，日立、松下电工、富士施乐、日本电气等日本企业在光度头中表现突出，日立、富士施乐、希捷等企业在激光束中有较大的技术优势。

4研究结论

基于专利引证的技术热点监测方法在技术领域数据集的构建和热点监测过程中，有针对性地对专利引文所承载的技术关联信息进行获取和关联挖掘，使得数据分析的目标更加明确，通过专利耦合寻找微观技术热点群获得的技术热点更为凝练、精确。此外，在凝练的微观技术热点群中利用技术特征词汇进行聚类监测，词或短语的专指度更高，能有效避免出现词或短语的高峰区域内个别专利不属于此技术领域的分析误差现象。因此，无论在理论上还是实际操作中，基于技术特征词汇的技术热点监测更具有效性和可靠性，是对以往单纯基于IPC分类号或基于词处理技术获得技术热点的有效补充和参考。

关键词：聚类分析；数据挖掘

ClusterAnlaysisMethodsofDataMining

HUANGLi-wen

(SchoolofScience,QuanzhouNormalUniversity,Quanzhou362000,China)

Abstract:Clusteranalysisisoneoftheimportantmethodsofmultivariatestatisticalanalysis,andthismethodhasawiderangeofapplicationsinmanyfields.Inthispaper,theclassificationoftheclusterisintroducedbriefly,andthengivessomecommonmethodsofclusteranalysisandtheadvantagesanddisadvantagesofthesemethods,andtheseclusteringmethodwerecomparedandanslyzedsothatpeoplecanchosesuitableclusteringmethodsaccordingtotheactualissues.

Keywords:ClusterAnalysis;DataMining

聚类分析是数据挖掘中的重要方法之一，它把一个没有类别标记的样本集按某种准则划分成若干个子类，使相似的样品尽可能归为一类，而不相似的样品尽量划分到不同的类中。目前，该方法已经被广泛地应用于生物、气候学、经济学和遥感等许多领域，其目的在于区别不同事物并认识事物间的相似性。因此，聚类分析的研究具有重要的意义。

本文主要介绍常用的一些聚类方法，并从聚类的可伸缩性、类的形状识别、抗“噪声”能力、处理高维能力和算法效率五个方面对其进行比较分析，以便人们根据实际的问题选择合适的聚类方法。

2聚类的分类

聚类分析给人们提供了丰富多彩的分类方法，这些方法大致可归纳为以下几种[1,2,3,4]：划分方法、层次方法、基于密度的聚类方法、基于网格的聚类方法和基于模型的聚类方法。

2.1划分法(partitiongingmethods)

给定一个含有n个对象（或元组）的数据库，采用一个划分方法构建数据的k个划分，每个划分表示一个聚簇，且k≤n。在聚类的过程中，需预先给定划分的数目k，并初始化k个划分,然后采用迭代的方法进行改进划分,使得在同一类中的对象之间尽可能地相似，而不同类的中的对象之间尽可能地相异。这种聚类方法适用于中小数据集，对大规模的数据集进行聚类时需要作进一步的改进。

2.2层次法(hietarchicalmethods)

层次法对给定数据对象集合按层次进行分解，分解的结果形成一颗以数据子集为节点的聚类树，它表明类与类之间的相互关系。根据层次分解是自低向上还是自顶向下，可分为凝聚聚类法和分解聚类法：凝聚聚类法的主要思想是将每个对象作为一个单独的一个类，然后相继地合并相近的对象和类，直到所有的类合并为一个，或者符合预先给定的终止条件；分裂聚类法的主要思想是将所有的对象置于一个簇中，在迭代的每一步中，一个簇被分裂为更小的簇，直到最终每个对象在单独的一个簇中，或者符合预先给定的终止条件。在层次聚类法中，当数据对象集很大，且划分的类别数较少时，其速度较快，但是，该方法常常有这样的缺点：一个步骤（合并或分裂）完成，它就不能被取消，也就是说，开始错分的对象，以后无法再改变，从而使错分的对象不断增加，影响聚类的精度，此外，其抗“噪声”的能力也较弱，但是若把层次聚类和其他的聚类技术集成，形成多阶段聚类，聚类的效果有很大的提高。

2.3基于密度的方法(density-basedmethods)

该方法的主要思想是只要临近区域的密度（对象或数据点的数目）超过某个阈值，就继续聚类。也就是说，对于给定的每个数据点，在一个给定范围的区域中必须至少包含某个数目的点。这样的方法就可以用来滤处＂噪声＂孤立点数据，发现任意形状的簇。

2.4基于网格的方法(grid-basedmethods)

2.5基于模型的方法(model-basedmethod)

基于模型的方法为每个簇假定一个模型，寻找数据对给定模型的最佳拟合。该方法经常基于这样的假设：数据是根据潜在的概率分布生成的。该方法主要有两类：统计学方法和神经网络方法。

3常用的聚类算法

目前，已经提出的聚类算法很多，常用的聚类算法主要有以下几种：系统聚类法、动态聚类法、CLARANS、CURE、DBSCAN、STING和模糊聚类法（FCM）。

3.1系统聚类法

系统聚类法[5]是将n个样品看成n类，即一类包含一个样品；然后将性质最接近的两类合并成一个新类，这样就得到n-1类，再从这n-1类中找出性质最接近的两类加以合并，成了n-2类；如此下去，最后所有的样品均成一类；将上述类的合并过程画成一张图（这图常称为聚类图），这样便可决定分多少类，每类各有什么样品。

系统聚类法的计算简单，而且其聚类结果给出一个谱系图，因此，可以根据该图选择所需要的聚类结果。但是，它也有不足之处，其主要表现在以下几个方面：1）当样品数量很多时，而且只需要划分为较少的类别时，这种聚类方法的重复计算量很大；2）当某一样品划归某一个类后，其属性不变，若分类方法的选择不当，对聚类的精度影响很大；3）对大数据量进行处理时，计算机内存开销很大，有时，计算机受此限制而无法进行聚类分析，而且其速度很慢；4）抗干扰的能力很弱。

3.2动态聚类算法

动态聚类法[5]就是在开始时先建立一批初始中心，而让待分的各个样品依据某种判别准则向初始中心凝聚，然后再逐步修改调整中心，重新分类；并根据各类离散性统计量（如均方差）和两类间可分离性的统计量（如类间标准化距离、J-M距离等）再进行合并和分裂。此后在修改调整中心，这样不断继续下去，直到分类比较合适为止。

动态聚类法使用随机方式选择作为初始聚类中心，按照算法的迭代执行，整个算法的结束条件是类的重心（或凝聚点）不再改变,它的计算复杂性是O(nkt)，其中，n为样本数量，k为聚类数，t为迭代次数。与系统聚类法相比，动态聚类法明显的优势是运算量小，能用于处理庞大的样本数据，也为实时处理提供了一定的可能性，但其也存在一些缺点，主要表现在以下几个方面:（1）动态聚类法要求用户必须事先给出聚类的数目，选择初始划分的最佳方向、更新分区和停止准则，且其结果与数据输入顺序有关，不同的初始值可能会导致不同的结果；（2）对于噪声和孤立点敏感，很容易受例外情况的影响，适用于发现球状类，但不适合发现非凸面状的簇，不适合大小差别较大的簇；（3）一个对象只能属于一个类中，不能多维揭示其多重属性。

3.3CLARANS算法

CLARANS[2,6,9]也叫随机搜索聚类算法，是一种分割聚类方法。该算法是基于CLARA算法的改进，与CLARA算法不同的是：CLARA算法在每个阶段都选取一个固定样本,而CLARANS在搜索的每一步都带一定的随机性选取一个样本，在替换了一个中心点后得到的聚类结果被称为当前聚类结果的邻居，搜索的邻居点数目被用户定义的一个参数加以限制。如果找到一个比它更好的邻居，则把中心点移到该邻居节点上，否则把该点作为局部最小量，然后再随机选择一个点来寻找另一个局部最小量。

该算法能够探测孤立点，并适用于大型数据库，但其计算复杂度复杂度较高，大约为O(n2)；此外，该算法对数据输入的顺序敏感，适用于凸形或球形数据。

3.4CURE算法

CURE[6,7,8]算法是一种使用代表点的聚类算法。该方法首先把每个数据点看成一簇,然后再以一个特定的收缩因子向中心“收缩”，即合并两个距离最近的代表点的簇，直至达到预先给定的聚类个数为止。它回避了用所有点或单个质心来表示一个簇的传统方法，将一个簇用多个代表点来表示，使CURE可以适应非球形的几何形状。另外，收缩因子降底了噪音对聚类的影响，从而使CURE对孤立点的处理更加健壮，而且能识别非球形和大小变化比较大的簇。

该算法采用随机抽样与分割相结合的方法来提高聚类效率，对于大型数据库，它也具有良好的伸缩性，运行速度很快，而且有较好的聚类效果，其计算复杂度为O(n)。

3.5DBSCAN算法

DBSCAN算法[6,7,8,9]是一种基于高密度连接区域密度的聚类算法。该方法将密度足够高的区域划分为簇，并可以在带有“噪声”的空间数据库中发现任意形状的聚类。其主要的思想是通过检查数据库中每个点的ε-邻域来寻找聚类。如果第一个点p的ε-邻域包含多于MinPts个点,则创建一个以P作为核心对象的新簇，否则先把它暂时标为噪声点，跳到下一个点，并判断它是否为核心点。然后反复地寻找从这些核心点直接密度可达的对象,当没有新的点可以被添加到任何簇时，该过程结束。

该算法可以数据集中的所有簇和噪声，但其不对数据集进行预处理而直接进行聚类操作，当数据集很大时，占用内存很大，而且I/O消耗也很大，如果采用空间索引,其计算复杂度为O(nlogn)，否则，其计算复杂度为O(n2)。

3.6STING算法

该算法主要优点是效率高,有利于并行处理和增量更新；它通过扫描数据库一次来计算单元的统计信息，因而其计算复杂度为O(n)。在层次结构建立后，其查询处理的计算复杂度为O(m)，其中m为最低层网格单元的数目。其缺点是聚类质量取决于网格结构最低层的粒度，粒度的大小会明显影响处理代价，特别是当数据集的维数较高时，由于生成网格层次及每一层的单元数较多，算法的效率会降低。

3.7模糊聚类算法（FCM）

传统的聚类分析是一种硬划分，它把每个待识别的对象严格地划分到某类中，具有“非此即彼”的性质；而在实际中，大多数对象并没有严格的属性，它们在性态和类属方面存在着中介性，具有“亦此亦彼”的性质；鉴于此，人们开始用模糊的方法来处理这类问题，从而产生了模糊聚类的方法，也就是说，模糊聚类法[5]是将模糊数学的思想观点用到聚类分析中产生的方法，其关键是隶属函数的确定。该方法多用于定性变量的分类。其主要算法如下：

（1）选择一个初始模糊分类方案，将n个样本分成k个模糊类，得到一个模糊隶属度矩阵U={uij,i=1,2,…,n;j=1,2,…,k}，其中uij表示样本Xi对模糊集Cj的隶属度，uij∈[0,1]；

（2）利用矩阵计算模糊评判函数的值，模糊评判函数通常是一个与对应的分类相联系的加权平方误差和

是第k个模糊集的中心，重新分配样本到各模糊集以减少评判函数的值并重新计算U；

（3）重复（2），直到矩阵U不再有较大的变动。

模糊聚类解决了一些混合对象的归类问题，同时，当样本数较少的时候，应用该方法的优越性也比较明显，另外，其抗干扰的能力也较强；但是，它对一些隐含类的提取能力还有待于进一步的改进，除此之外，预定的分类数目一般也是人为决定的，同动态聚类一样，就可能出现人为预定的分类数与实际存在的类数不相符这种情况，从而影响分类的结果。

4聚类的性能比较

基于上述的分析，现从可伸缩性、类的形状识别、抗噪声能力、处理高维能力和算法效率五个方面对常用聚类算法的性能进行了比较，结果如下表。通过这些比较，可以给聚类算法研究和应用的选择提供参考。

目前，已经提出的聚类算法很多，每种方法都有其优缺点和不同的适用领域，可以根据上述的分析，选择适合特定问题的聚类方法；但是，在实际应用中，由于数据的复杂性，往往用某种聚类算法进行聚类划分得到的效果不佳，可能要综合多种聚类方法才能得到较好的聚类效果。因此，在将来的研究中，需要做好对现有聚类算法的改进和融合，以便得到更好的聚类方法。

[1]孙孝萍.基于聚类分析的数据挖掘算法研究[D].硕士学位论文,2002.4.

[2]覃拥军,刘先锋.数据挖掘中的聚类研究[J].科技咨询导报,2007(16):28-30.

[3]梁志荣.数据挖掘中聚类分析的技术方法[J].电脑开发与应用,2007,20(6):37-39.

[4]谷淑化,吕维先,马于涛.关于数据挖掘中聚类分析算法的比较[J].现代计算机,2005(3):26-29.

[5]黄利文.基于几何概率的聚类分析[D].硕士学位论文,2006(1).

[6]张红云,刘向东,段晓东等.数据挖掘中聚类算法比较[J].计算机应用与软件,2003(2):5-6.

[7]王劲波,翁伟,许华荣.数据挖掘中基于密度的聚类分析方法[J].统计与决策,2005(10):139-141.

[8]刘泉凤,陆蓓.数据挖掘中聚类算法的比较研究[J].浙江水利水电专科学校学报,2005,17(2):55-58.

[9]丁学钧,杨克俭,李虹等.数据挖掘中聚类算法的比较研究[J].河北建筑工程学院学报,2004,22(3):125-127.

收稿日期：2008-02-17

Space软件对项目管理硕士学位论文数据进行科学计量，在较为深入地了解我国项目管理发

展现状的基础上，通过关键词共现网络和聚类分析，探究我国项目管理理论现有研究热点领

域和新兴领域的研究主题，并对我国项目管理理论研究特点进行总结，以推动我国项目管理

理论的进一步发展与完善

〔关键词〕项目管理；硕士学位论

文；科学计量；信息可视化

DOI：10.3969/j

.issn.1008-0821.2014.01.024

〕1008-0821（2014）01-0110-05

AnalysisoftheTopicsofCh

inaProjectManagementTheoryResearch

——BasedontheViewofScientometricAnalysisofMasterDegree

Thesis

ZhuFangwei1SongHaoyang1HouJianhua2

（1.FacultyofManagementandEconomics，DalianUniversityofTechnology，Dali

an116024；

2.HumanitiesDepartment，DalianUniversity，Dalian116024，China）HT〗

〔Abstract〕”BZ〗UseCiteSpacesoftwaretoanalyzetheMasterdegreethesisofprojectma

nagementinChinainScientometricsmethod.Basedonanin-depthunderstandingof

thedevelopmentofprojectmanagementinChina，thispaperexploredthethemeso

ftheexistinghotandemergingfieldprojectmanagementtheorythroughkeywords

co-occurrencenetworkandclusteranalysis.ThensummarizedthefeaturesofChin

asprojectmanagementresearchingandproposedsomeadvisesaboutthefutured

evelopmentofprojectmanagementtheorytopromotethefurtherdevelopmentandi

mprovementofChinasprojectmanagementtheory.

〔Keywords〕projectmanageme

nt；masterdissertation；scientometrics；informationvisualization

我国项目管理理论的学习与研究始于20世纪60年代1960年，华罗庚最早将项目管理的

主要方法之一网络计划技术引进国内，并命名为“统筹法”，自此拉开了我国项目管理研究

与应用的序幕1965年6月，《人民日报》发表了华罗庚的《统筹方法平话》，进一步促进

了网络计划技术在我国的推广与应用[1]这一时期，我国的项目管理主要处于理

论方法学习与推广阶段

20世纪80年代末，现代项目管理理论在国内工程实践领域得到广泛的应用其中，利用世界

银行贷款所建设的云南鲁布格水电站饮水导流工程，首次采用了国际招标和项目管理方法，

并取得了很好的效果[2]随后，一些大型工程建设项目如二滩水电站三峡水利

枢纽建设相继采用了项目管理的方法和模式

我国第一个项目管理专业学术性组织，中国项目管理研究委员会截至2000年，委员会总共

开过3次学术年会和两次国际研讨会[3]由该委员会组织构建的《中国项目管理

知识体系》内部发行的《项目管理》刊物以及《国际项目管理专业资质认证标准》，对我

国项目管理理论的研究和人才的培养起到了积极的促进作用

近年来，我国项目管理理论研究和人才培养得到了快速的发展和广泛的应用，而国内高等院

管理专业，将其作为管理科学与工程一级学科下的自主设置二级学科，培养硕士博士等各

层次专业人才截至2012年，全国具有项目管理专业学位授予权的院校和机构共有133所，

其中，具有博士学位授予权的院校和机构有97所高层次人才的培养大大推动了我国项目管

理理论研究的发展，学位论文的研究成果在很大程度上体现了我国学者对项目管理前沿探索

的最新成就[4]

目前，已有一些学者通过对我国项目管理的发展过程特点以及未来的发展趋势进行不同程

度的研究分析，以期指导该领域未来的发展[5-7]但多数研究都是从个人的视

角出发，带有较强的主观性相比之下，陆绍凯统计了《国际项目管理学报》和中国优秀博

硕士论文数据库中有关项目管理的研究性论文，分析了从1999-2003年间我国项目管理研究

主题和应用行业领域情况，具有一定程度的客观性

本文使用CiteSpace软件对项目管理硕士学位论文数据进行科学计量与可视化分析，并绘制

可视化网络图谱，在保证客观性和有效性的基础上，对项目管理理论研究热点领域和新兴领

域及其主要主题进行分析较为客观地反映了我国项目管理理论研究现状及发展趋势，借此

为未来项目管理理论研究提供一定的指导

1我国项目管理学位论文的基本情况

在中国博士学位论文全文数据库（CDFD）全国高校学位论文文摘数据库（CALIS）中国

2012年”为条件进行数据检索，经去重处理后共获得博士论文37篇，硕士论文7344篇

尽管存在数据库数据不全的情况，但现有数据能够代表项目管理研究学位论文整体数量分布

情况和研究方向其中，项目管理专业博士学位论文数量较少，说明该专业博士人才的培养

工作尚处于起步阶段，硕士学位论文对项目管理理论研究起到主要的推动作用

从各年论文数量的分布状况看，2005年的论文数量最少，2006-2009年间论文数量出现骤增

，于2009年达到最大量，随后几年论文数量出现小幅下降，具体数据如图1所示由此，可

以判断，自2005年开始项目管理硕士研究生培养及理论研究得到快速发展，整体呈现上升态

势

按各院校论文总数对学位论文的产出单位进行统计排序，排名前20的高产院校论文数量共占

文献数据总量的90.1%，具体数据如图2所示结合各院校背景和发展实际来看，论文产量

较高的院校通常开设了项目管理工程硕士学位，如北京邮电大学的项目管理教育

中心和中国海洋大学的在职研究生培养，这在一定程度上也反映了对专业项目管理人才的旺

盛需求但需要注意的是项目管理硕士学位论文的数量并不能完全代表理论研究水平，学术

型项目管理硕士学位论文对于项目管理理论的发展与完善有着重要的作用此外，在20所院

校中理工科院校占14所，其论文数量占20所院校总量的65.9%，说明项目管理虽然属于管理

科学，但与IT科技建筑等理工科项目实践联系紧密

2研究分析

学术论文中的关键词，对于揭示论文主题有着重要的作用[8]因此，本文以项目

管理专业硕士学位论文的关键词为对象，使用CiteSpace软件进行关键词共现网络和聚类分

析，在探究项目管理理论研究主要领域及其主要研究主题的基础上，揭示我国项目管理理论

研究现状及发展趋势

2.1热点领域概况分析

运用CiteSpace软件构建项目管理硕士学位论文的关键词共现网络图谱，共现频次在100以上

的关键词共有15个其中“项目管理”的共现频次虽然最高（1431次），但对于揭示

本专业的研究主题作用较小，因此以下主要对其余14个关键词进行分析，具体频次如图3所示

14个关键词共现频次合计2540次，占除“项目管理”以外关键词总共现频次（6298

次）的40.33%，表明这14个关键词所反映的研究领域可代表当前项目管理硕士学位论文

中主要包括“项目质量管理”“项目进度管理”“项目成本管理”“可行性研究”和

“项目风险管理”5个关键词共现网络群组，即5个热点领域其中，“项目风险管理”群组

在选定的阈值下，关键词共现网络图及热点领域分布，如图4所示对关键词共现网络各节

点的中心度指标进行分析，中心度数值在0.07以上的关键词包括：“成本控制（0.1）”

“可行性分析（0.09）”“房地产项目（0.09）”“项目管理（0.07）”“风

险分析（0.07）”和“经济评价（0.07）”结合各群组间网络关系分析发现，6个高中

心度共现关键词相互联结，形成以“风险分析——可行性分析——经济评价——房地产项目

——成本控制——项目管理”依次排序的连接链，将“项目风险管理”“可行性研究”

“项目成本管理”和“项目管理”4个群组联系在一起而“项目质量管理”和“项目进度

管理”群组分别通过“可行性研究”和“项目成本管理”两群组与其他群组联结这表明不

同热点领域间存在着不同程度的联系，而项目管理专业硕士学位论文的研究主题通常涵盖了

项目管理中某几个领域的问题，具有一定程度的综合性

2.2项目管理研究主题分析

取每个聚类的主题标识词[9]对各热点主题进行初步分析整理，得到可反映论文

研究主题的聚类17个其中，9个聚类的热点主题包含于5个热点领域中，另有8个聚类属于

近年来新兴的研究主题，反映了项目管理理论研究的新兴领域，具体数据如表1所示

2.2.1热点领域主题分析

关键词聚类分析再次证实了关键词共现网络分析的结果，即“项目风险管理”“项目质量

管理”“项目成本管理”“项目进度管理”和“可行性研究”是项目管理硕士学位论文

热点研究领域结合高频共现关键词和聚类结果，探究五个热点领域的热点主题，具体内容

如表1所示

表1基于聚类分析的热点和新兴领域及

①有关“项目风险管理”的高频共现关键词包括“风险分析”“风险识别”“风险

”以及“层次分析法”，共现频次共计548次，这说明对风险的有效识别和分析成了项目风

险管理的热点主题同时，聚类结果显示国际项目成为风险管理新的研究对象，这体现了项

目管理的国际化趋势[10]在经济全球化的推动下，我国境内开展的国际项目逐

渐增加这些国际项目通常面临着更加复杂的环境，需要的技术更加多样化，更多地采用国

际化标准和规范项目实施者不仅要应对较为传统的项目风险，还要考虑许多新的风险因素

，如政治环境等，这给项目活动的开展造成了更大的困难因此，对国际项目来说，项目

风险的有效识别评估及应对等工作的重要性和必要性更加显著；

②“质量控制”的共现频次为173次，说明“项目质量管理”领域以质量的监控为研究热点

通过聚类分析发现，近年来，项目成果的可持续发展逐渐引起人们的重视，尽管项目是一

的可持续性对于之后的运营管理成本控制环境保护等方面都有着重要影响，尤其是在自

然资源开发与利用和生态发展的项目中，可持续性成为影响项目能否开展的关键因素因此

价体系和方法，来衡量项目成果的可持续性，在确保项目成果质量的基础上，实现项目的可

持续发展，成为项目质量管理的一个热点主题；

③高频共现关键词统计显示，项目进度的监控问题受到“项目进度管理”领域的重视聚类

分析则发现，近年来建筑工程类项目的进度控制成为该领域的研究热点这一现象与我国经

济发展有着紧密的联系2008年的世界金融危机后，为促进我国经济的稳步发展，政府加大

了国内基础建设投资，各地纷纷筹备并实施大中型建筑工程类项目而在建筑工程类项目实

素的影响，普遍存在着进度失控问题[11]，这对项目成本质量收益等方面都

产生了不利影响因此，建立并完善建筑工程项目进度控制的理论工具和方法有着重要的

实践意义；

④“项目成本管理”领域以“成本控制”（共现频次182）为热点，尤其是有关项目成本控

制方法的改进与完善问题在项目实践过程中，传统的成本控制方法面对复杂性不断提高的

项目及环境，自身的局限性不断暴露单纯的以目标利润为导向，强调目标成本，往往无法

有效满足项目的多方面需求为了弥补传统控制方法的不足，“项目成本管理”领域引入了

“价值工程”理念价值工程能够综合考虑功能与经济要求，在保证达成项目必要目标的同

时，实现成本的降低如何将价值工程的理念和方法有效的应用于项目成本管理，以最低的

成本达成项目的必要目标，实现成本降低与功能最佳的统一，成为该领域的热点问题；

⑤“可行性研究”领域以清洁能源项目的“可行性分析”，尤其是“经济评价”为主要研究

的需求，更不利于环境的保护与有效利用为了改变能源结构改善环境状态，清洁能源项

目在国家政策的扶持下得到快速发展而此类项目通常具有规模和资金需求量大，建设周期

和投资回收期长等特征，在项目投产后能否获得足够的利润以保证项目成果的持续运营成为

该类项目可行性研究的重要议题

2.2.2新兴领域主题分析

关键词聚类分析表明，近年来项目管理理论研究中出现了4个新兴领域，即“项目团队管理

”“项目知识管理”“多项目管理”和“项目管理模式”由于这些理论的研究处于起

领域对我国项目管理理论发展与完善有着积极的促进作用

①为应对竞争日益激烈的市场环境，现代企业广泛采用团队运作方式来灵活应对内外部变化

项目活动的复杂性要求团队成员能够彼此协作，共同完成任务而项目团队成员通常是来

自不同领域的专业人员，具有成就动机强自主性和创造性高工作难以监控和评价等特征

，这给项目团队的组建及管理带来了新的挑战，有关团队建设成员管理等“项目团队管理

②“项目知识管理”是在项目管理与知识管理相互交叉融合的过程中产生的在项目活动的

展开过程中，不仅需要输入专业性的知识以支持项目，同时还会创造出大量新知识，这些知

知识的积累转化重视不足知识在项目团队中没有进行完整的传递等[12]，这阻

碍了员工工作效率的提升，同时也增加了知识流失的风险因此，培养项目团队学习创新

研究内容；

③“多项目管理”领域主要涉及企业的项目群和项目组合管理在企业实践中，往往需要同

时开展多个项目由于财力人力等资源的有限性，为了满足各项目不同的需求，需要对各

种资源进行合理的安排与利用通过多个项目间资源的合理分配和有效协调，不仅能达成各

项目自身的目标，还有助于企业整体绩效的最优因此，多个项目间的协调问题成为该领域

的主要研究主题；

④“项目管理模式”领域主要探讨项目管理模式的应用与优化问题传统的项目管理模式，

如设计——招标——建造建造——运营——移交项目承包和设计——采购——建造等，

通常被应用于大型复杂的工程建设项目，以期应对此类项目建设周期长，资金需求量大，风

险高等不利因素但在实践应用的过程中，传统项目管理模式也暴露出自身的不足，如缺乏

敏捷性过分强调技术性对项目过程的割裂等为了实现项目管理模式的优化，“动态联

盟”的思想被引入项目管理领域企业间的动态联盟可以充分利用联盟各方的核心竞争优势

，共同应对环境变化，提升竞争力，抵御风险，实现资源的共享因此，动态联盟项目管理

模式的构建管理与应用成为该领域的新兴主题

3研究结论

通过对项目管理硕士学位论文数据的计量与可视化分析，本文探究了我国项目管理理论研究

的热点和新兴领域现状，对目前我国项目管理理论研究的特征总结如下

3.1选题方向较为多元，研究内容丰富

关键词共现网络分析显示，项目管理专业硕士学位论文主要以5个项目管理问题为热点研究

领域，并通过融入新的视角和理念来促进各热点领域发展与完善从风险管理的国际化趋势

，到质量管理的可持续发展，再到价值工程理念的引入，以及进度管理和可行性研究对象的

转变，都表明了5个热点领域研究主题的丰富与多样性

3.2新兴领域初步形成，有待进一步深入研究

通过关键词聚类分析发现主要形成了4个新兴领域其中，在与其他研究领域的交叉融合过

程中，形成了“项目知识管理”；“项目团队管理”则体现了项目管理从硬因素转向对软因

果较少且缺少系统性，需要进一步的完善与发展

3.3与实践的紧密结合是项目管理理论研究的重要特征

国际项目的风险管理建筑工程项目的质量监控以及清洁能源项目的可行性研究等，都表明

项目管理专业硕士学位论文的选题及研究内容紧跟时展，具有很强的实践性

参考文献

[1]蔚林巍.项目管理的最新进展[J].管理工程学报，2000，（3）：65-69

[2]骆，马红霞.项目管理发展综述[J].现代管理科学，2005，（5）：28-29.

[3]李波.项目管理理论综述与前沿问题研究[J].经济研究导刊，2012，（31）：212-21

[4]陆绍凯.项目管理的研究前沿[J].技术经济与管理研究，2005，（1）：36-38.

[6]应尚军，王炎.项目管理的研究现状与研究前景[J].科技进步与对策，2005，（11）

：131-133.

[7]刘莉.论现代项目管理的四大转变[J].深圳大学学报：人文社会科学版，2003，（1

）.

[8]朱彩萍.学术论文中关键词的规范[J].图书与情报，2005，（4）：51-53.

[9]ChenC，IbekweSanJuanF，HouJ.Thestructureanddynamicsofcocitationclu

sters：Amultiple-perspectivecocitationanalysis[J].JournaloftheAmericanS

ocietyforInformationScienceandTechnology，2010，61（7）：1386-1409.

[10]刘凤楼.我国的项目管理及其发展展望[J].商场现代化，2006，（5）：59-60.

[11]倪祥如.新海发电公司2×330MW扩建工程进度控制研究[D].南京：南京理工大学，

2011.

[12]朱方伟，王昭.基于流程导向的创意服务企业知识管理个案研究[J].管理案例研

[关键词]环渤海区域金融成长差异因子分析聚类分析

一、区域银行业成长差异分析

1.研究方法

(1)因子分析

(2)聚类分析

这里的聚类分析主要用到的是K―均值法，它是一种特殊的非谱系过程，是麦克奎因(McQueen)于1967年提出的。它的基本思想是预先把样品分类，之后进行修改，逐个分派样品到其最近均值的类中去。

2.评价指标及原始数据

由于数据的可得性，本部分拟采用存款总量、存款增长率、贷款总量、贷款增长率、外资银行数量、票据贴现余额、盈利额、优良贷款率、银行机构与人口数量比、银行资产与国内生产总值比这十个指标对环渤海区域的银行业进行评估。这十个指标中存贷款及票据贴现是银行业务的基本反映，外资银行数量在某种意义上体现了该区域的信用程度，盈利额体现了银行的经营状况，优良贷款率体现了该区域的金融风险，银行机构与人口数量比和银行资产与国内生产总值比则基本反映了该区域银行业的结构和规模。

评价指标使用的数据年份为2005年，除存款增长率和贷款增长率外，所有数据均来自中国人民银行公布的各区域2005年的《区域金融运行报告》，存款增长率和贷款增长率则根据2004年及2005年的数据计算得出。增长率=（本期平均余额/上期平均余额）-1。

3.因子及聚类分析

通过聚类分析，可以进一步认清环渤海区域银行业发展现状的格局。从聚类结果看，北京位于第一梯队，处于绝对领先；山东为第二梯队；天津、辽宁和河北则位于第三梯队，表明银行业的发展相对滞后。

二、区域证券市场成长差异分析

1.指标建立及研究方法

根据数据的可得性并且充分借鉴金融地理学的研究思想，本部分拟采用国内生产总值、人均国内生产总值、人均可支配收入、相对人均可支配收入、上市公司数量、证券营业部数量、证券市场总交易量、沪深两市A股开户数量、上市公司与证券营业部数量比、总交易量与国内生产总值比、人口与证券营业部数量比和开户数量与人口比共十二个指标。这十二个指标可以分为六个绝对指标和六个相对指标，每个绝对指标都对应着一个相对指标。

为减少单年度数据波动的影响，本部分采用2004年到2005年的平均数据进行分析，这些数据中，涉及上市公司数量、证券营业部数量、证券市场交易额以及开户数量的数据来自《中国证券期货统计年鉴2005》和《中国证券期货统计年鉴2006》；人口数据、人均可支配收入数据以及国内生产总值数据来自《中国统计年鉴2005》和《中国统计年鉴2006》。

3.数据标准化结果及得分

从表3中我们可以看出，北京市证券业发展的最好，无论是绝对指标还是相对指标都领先于其他省份。河北省证券业发展的最为落后，无论是绝对指标还是相对指标都排名最后。山东省的绝对指标得分很高为404.76分，很接近于北京市的450.49分。天津市的相对指标得分很高，仅次于北京市，但由于它的绝对指标得分过低因此总得分靠后。

通过聚类分析，可以进一步认清环渤海区域证券业发展现状的格局。从聚类结果看，北京位于第一梯队，处于绝对领先；山东、辽宁省位于第二梯队；天津市、河北省则位于第三梯队，表明这两个区域的证券业的发展相对滞后。

三、区域保险市场成长差异分析

在本部分对区域保险市场成长差异的研究中，将继续延用分析银行业成长差异时所用到的因子分析方法和聚类方法，研究方法的具体内容就不在赘述了。

1.评价指标及原始数据

考虑到数据的可得性，本部分拟采用居民储蓄余额、固定资产投资额、实际利用外资额、人均地区生产总值、人均可支配收入、保费收入、保险市场主体数量及保险密度这八个指标来对环渤海区域的保险市场发展现状进行评估。这八个评价指标既考虑到了保险市场所涉及的一些常见指标如保费收入等，又考虑到了实体经济的一些重要的且会对保险市场带来重要影响的指标如人均可支配收入等，因此这八个评价指标的选取是合理的。

为减少单年度数据波动的影响，本部分采用2003年～2005年共三年指标数据的平均值来进行分析。这些数据中，除保险市场主体数量及保险密度这两个指标外，其余指标数据来自于2003年～2005年的各地区的国民经济和社会发展统计公报，保险市场主体数量的数据来自于2003年～2005年的各地区的保险统计年鉴，保险密度则是根据保费收入和人口计算得出。

2.因子及聚类分析

通过表4可以看出，当主成分的个数为2时，不仅特征根大于1，而且所选主成分保持信息总量的比重超过85%，达到90.799%。因此可以将前两个公因子作为评价区域保险业发展现状的综合指标。再通过Promax方法进行因子旋转，得到因子载荷矩阵（表5）。通过表5我们可以看出，第一个因子主要集中了保险密度、人均可支配收入、保险市场主体数量以及人均GDP这四个变量，概括的反映了保险业发展情况及潜力，因此可以称为发展因子；第二个因子主要集中了居民储蓄、固定资产投资额、实际利用外资额以及保费收入这四个变量，概括的反映了该区域的经济规模，因此可以称为规模因子。通过统计软件SPSS，可以分别得到这两个因子的得分情况，之后，将各因子得分以其方差贡献率占两个因子总方差贡献率的比重作为权重将两个因子各自得分进行加权之和从而得到总得分。

总得分的结果表明，北京市保险业发展的最好，而天津市在环渤海区域的保险业中排名最后。从各个因子的得分看，北京市在发展因子上的得分最高，而山东省在规模因子上的得分最高。天津市在两个因子中的得分均为负数，尤其是因子2的得分在所有城市中排名最后，直接影响了最后的总分数，这反映出天津市保险业发展较为落后。

通过聚类分析，可以进一步认清环渤海区域保险业发展现状的格局。从聚类看，北京位于第一梯队，处于绝对领先；山东、辽宁为第二梯队；河北、天津则位于第三梯队，表明这两个区域的保险业的发展相对滞后。

四、小结

通过对环渤海区域各金融行业的统计分析，我们能够看到，北京市无论在银行业、证券业还是保险业都处于绝对领先地位，表明其在这一区域的金融发展是最好的；山东省和辽宁省基本上在各金融行业的排名和聚类中位居中游，而山东省的发展情况还要相对更好一些，成为在这一区域仅次于北京市的金融发展强省；天津市和河北省基本上在各金融行业的排名和聚类中位居下游，尤其是河北省的发展最为滞后，在金融业的三大领域中，有两个领域的排名都是最后，充分说明河北省在环渤海区域金融业的发展中已落在其他省市的后面。

参考文献:

[1]金学军田霖:《金融地理学视角下的区域金融成长差异研究》，浙江大学博士论文，2004

[2]卢丹:《我国经济体制转轨过程中的区域金融差异化》，浙江大学硕士论文，2004

[3]张杰:《经济的区域差异与金融成长》，金融与经济，1994(6）

[4]金学军田霖:《我国区域金融成长差异的态势：1978-2003年》,经济理论与经济管理，2004(8）

李国霞毕业于郑州大学物理系半导体专业，毕业留校后一直在郑州大学任教，她长期工作在教学第一线，分别主讲过9门研究生、本科生和成教生的基础课和专业课。1993年前，她主要参加物理系原副系主任宁振环教授的项目组，从事智能仪器系统软件设计方面的研究工作，该系列项目分别于1991年和1997年通过河南省科委组织的成果鉴定，分别被专家鉴定为国内首创和国内领先。

1996年后，李国霞参加物理系原系主任高正耀教授的项目组，根据高正耀教授的要求和项目研究的需要，主持设计了《古陶瓷动态模糊聚类分析系统》，系统采用信息视窗自动识别，智能数据接口、智能图形处理等新技术和手段。系统人机界面集成环境清晰直观，使用方便。数据输入部分为用户提供三种方式：一、电子表格人工录入；二、从Excel数据文件导入；三、从vlsuaIBASIC数据文件转换。

数据处理部分设置8种模糊聚类分析方法，用户可根据需要选择其中一种方法进行数据处理，数据处理速度快，精度高。绘图部分采用多级链表方法记录样品分类情况，自动生成动态模糊聚类分析图和位图文件。系统还提供了甄别指纹元素，统计着色元素含量比，合并数据文件，并支持多文档、多视图，分页打印等操作。该系统于2002年通过河南省科技厅组织的成果鉴定，专家认为系统设计合理，模糊聚类分析功能较齐全，技术上处于古陶瓷研究的国内领先和国际先进水平，该系统在古陶瓷研究中发挥了良好的作用。

THE END

聚类分析论文精品(七篇)

保险调研报告范文（通用28篇）

保险学术前沿经典论文推荐：2022年与保险监管相关的重大案例摘要财富号

财产保险案例及分析(精选5篇)

保险业风险事件范文

跨境电商风险及防范样例十一篇

前端设计论文

数据分析工作总结(汇总10篇)

2015互联网+大数据应用案例Top100

保险学专业论文[财经游戏知识分享论文]

法规文件

内控制度执行情况的报告范文（精选15篇）

聚类分析论文精品(七篇)

获奖论文，公布！

建设投资估算方法范文

建设投资估算方法范文

保险调研报告（30篇）

项目案例之决策树在保险行业的应用

车险理赔数据分析报告(车险赔付率分析报告).pdf

保险大数据分析案例了解如何利用大数据来优化保险业务

2021上半年中国互联网保险行业核心数据及典型案例分析保险业