开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇聚类分析论文,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
1.1城郊农户此种类型的农户主要是对其生活、农业种植、畜禽养殖、乡村旅游进行污染区分。①污染源区分:农家乐是目前乡村旅游的重要形式,其污染源包括污水、人类尿便等,乡村旅游污染和旅游人数之间有着直接的关系。所以,这一类污染的产污单元可以看做是每一位乡村游客。②污染强度的划分:生活污水(包括垃圾、人类尿)排放强度=每户游客污水日排放量/每户游客数。
1.2种养结合户此种类型农户的污染源划分主要是根据农户种植污染、畜禽养殖污染、农户生活污染等进行划分。其中,畜禽养殖污染源的划分同典型养殖户;农户生活、农户农业种植污染源识别同典型种植户。
2农村环境污染物排放的核算
3污染程度的区分
首先确定环境污染中的主要污染物、总污染负荷,然后与区域相结合确定重点污染区域,进而确定其污染程度。
3.1水质系数和排放浓度要想全面的反映出区域污染的状况,要从排污总量和排污浓度两方面上来进行考虑,水质系数反映评价标准和污染物浓度之间的关系,其中:污染物水质指数=该污染物排放浓度/该地环境质量标准
3.2聚类分析进行聚类分析要运用SPSS软件,采用Q型聚类,通过对农村环境污染源等标污染的负荷率进行综合的聚类分析,然后来区分不同区域的主要污染类型,比如种植污染型、养殖污染型、综合污染型、生活污染型等。
4结语
摘要对北京体育大学2003-2012年体操方向硕士学位论文的关键词词频统计与分析,研究高频词之间的结构关系,探究北京体育大学体操方向硕士学位论文的选题方向、研究内容及其不同的特点,分析热点的形成原因与未来发展趋势。
关键词北京体育大学硕士学位论文研究热点
一、研究方法与对象
研究方法主要采用词频统计法与共词聚类分析法。词频统计法能够揭示或表达文献核心内容的关键词或主题词在某一研究领域中出现的频次高低来确定该领域研究热点和发展动向的文献计量法。共词聚类分析法是一种内容分析方法,通过对一组词两两统计它们在同一片文献中出现的频率,以此为基础对这些词进行聚类分析,从而反映出词与词之间的亲疏关系,进而分析这些词所代表的学科和主题的研究结构。
二、研究生学位论文的共词聚类分析
(一)关键词词频统计与分析
本文利用《CNKI中国优秀硕士学位论文全文数据库》,搜索出2003―2012年北京体育大学体操方向硕士学位论文共73篇,以73篇学位论文中的关键词为调研对象,通过共词分析法中的聚类分析探索各高频关键词之间的内在关系,归纳出北京体育大学体操硕士学位论文研究的热点,以及各个不同研究方向的亲疏性。本研究利用Excel对前期检索出的学位论文进行关键词统计,共得到硕士学位论文关键词283个,平均每篇硕士学位论文含关键词3.9个。然后对统计结果进行以下处理:去除对反应主题没有积极意义的词,如“展望”、“问题”等,对表达同一个意思的关键词进行标准化处理,如“高职院校”、“职业技术院校”、“职技高校”等标准化为“高职院校”,“高等院校”、“高等学校”、“高校”、“大学”等标准化为“高校”。
表1硕士学位论文高频关键词表
序号关键词词频
1体育教育专业12
2分析10
3普通高校8
4竞技体操8
5北京市7
6教学理念7
7现状7
8发展对策6
(二)构造词篇矩阵、相似矩阵
表2硕士学位论文高频关键词的相似矩阵(部分)
体育教育专业分析普通高校竞技体操北京市教学理念现状发展对策
体育教育专业1.0000.0600.2860.0040.1920.3210.3340.215
分析0.0601.0000.0300.1210.0180.0060.0760.023
普通高校0.0280.0301.0000.1500.0300.0680.1190.029
竞技体操0.0040.1210.1501.0000.0080.1920.0430.020
北京市0.1920.0180.0300.0081.0000.1920.0350.078
教学理念0.3210.0060.0680.1920.1921.0000.0870.186
现状0.3340.0760.1190.0430.0350.0871.0000.100
发展对策0.2150.0230.0290.0200.0780.1860.1001.000
(三)北京体育大学体操方向硕士学位论文的研究热点可以概括为以下几类:
1.竞技体操的发展对策。包括关键词:竞技体操、发展对策、后备人才。
2.北京市普通高校体育教育专业教学理念。包括关键词:北京市、普通高校、体育教育专业、教学理念。
3.体育教育专业与教学能力。包括关键词:体育教育专业、教学能力。
三、研究热点的特点分析
(一)北京体育大学体操方向硕士学位论文的研究热点比较宽泛,选取对象比较广泛,包括普通高校、体育院校、竞技体操、体操普修课、教学理念等。
(二)硕士学位论文注重对教学理念及竞技体操发展状况的研究,旨在通过现状研究,探寻发展的脉络与经验。
(三)硕士学位论文注重对基本理论研究,研究内容宽泛。在理论分析上显得薄弱、创新能力欠缺。
参考文献:
[1]高宝立,刘小强.高等教育研究热点分析:两个维度、四项指标――以现代大学制度研究为例[J].教育研究.2008(09).
[2]迟景明,吴琳.近十年我国高等教育学学科研究热点和趋势――基于研究生学位论文的共词聚类分析[J].中国高教研究.2011(9):20-24.
[3]马费成,张勤.国内外知识管理研究热点――基于词频的统计分析[J].情报学报,2006.25(02).
论文关键词:聚类分系,网络营销,策略,客户关系
0前言
现代科学技术的迅猛发展,特别是在互联网的应用和开发上更加的迅速,企业必须通过网络对自己的产品加强宣传以增强自己的竞争力。客户是一个非常重要的、有价值的重要资源,现在如何更好地从数据库中挖掘出客户中有价值的信息,更好的培植和经营与有价值客户的关系,抛弃那些无利可图没有发展前景而且营销费用高的客户,并且可以针对不同价值的客户给与不同的政策同时制定出个性化的营销策略,这些才能够保证企业的生存发展。对于这一切数据挖掘无疑是行之有效的好方法之一。本文以一个网络营销公司为例,提出了一套可操作性的对客户价值评价方法,然后使用数据挖掘技术中比较常见和常用的聚类分析算法对客户信息进行聚类从而达到非常重要的信息并为企业在网络营销中提供决策依据。
1聚类分析
聚类(clustering)是对于数据挖掘技术是非常重要的一部分,现在也是数据挖掘技术中关键的一种。聚类的意义就是针对物理或逻辑上的数据对象的进行自动分类,最后将数据对象分为多个类或簇的过程。对于聚类结果要使得数据对象在同一个分类中具有最大的相似度,而在不同的类中具有最小相似度。聚类的现实意义就是在于可以将数据按照一定得关系进行自动的分类,事先不知道所有的数据对象共有多少类,通过算法的处理最后得到一个分类结果进行应用。譬如在市场研究领域中,特别是针对网络营销的企业或网站,从大量的网络数据进行分析聚类,可以讲客户分成不同的类别,针对这些类别不同的购买力和兴趣爱好来进行个性化的营销手段,提高企业的经济效益。目前研究人员大多针对于聚类分析算法的改进和完善进行研究,进而提高聚类分析的工作效率。著名的算法有:CLARANS,BRICH,DBSCAN,CURE,STING,CLIGUE和WaveCluster等。
2聚类分析应用于企业客户资源管理
现针对某电子商务公司进行分析,该电子商务公司的客户分布在全国各地以及国外一些地区,现仅列出具有代表性的10个大客户:吉林,黑龙江,山东,江苏,浙江,安徽,湖南,缅甸,印度,南非等。在数据挖掘的目的就是从客户中找到一些共同点,在对这些客户数据进行处理前要使用聚类分析的方法进行研究看看这10个客户能否有一些共同之处以便企业针对不同类型的客户给与不同的对策,首先对该公司采用专家打分的方法,而且还有通过网上问卷调查和访谈的方式,收集各地销售专员的意见等方式,然后对数据加以综合,最后聚类分析法确定各项指标的权重。
那么在具体实施聚类分析法的时候可分为5个步骤进行:
第1步:首先对各项指数构建层次结构,其中被评定的10个大客户作为方案层,客户价值放在目标层中进行处理,各项指标是准则层,按照这样的分层结构来构造客户关系评价系统中个指数的结构图,见图2-1所示;
表2-1指标权重值表
指标
V
权重
0.0378
0.0401
0.0135
0.0161
0.0251
0.0060
0.0038
0.0091
0.0192
0.0381
0.1498
0.1721
0.0021
0.0201
0.0085
0.0053
0.0231
0.0701
E
0.0212
0.0312
0.0754
0.1841
0.0145
0.0510
0.0078
0.0684
从数据可以看出有两种情形:一是缅甸和南非,从数据中可看出这类客户的当前价值很小,但是具有很大的隐含价值,势必会有一天他们的成长给企业会带来丰厚的物质利益,这样具有发展潜能的客户应该采取措施激发潜能;二是安徽和印度这类客户,虽然从数据中看出这类客户当前价值很小,但是就这两个省份的地理位置和经济状况来分析他们隐含着较大的价值。对于这一类的客户,企业就应该采取灵活的措施,激发他们的购买能力促使该类型的客户不断地向前发展;
第3类“淘汰型”客户,这类用户就如同鸡肋了,对于企业的现在和将来都意义不大,目前的销售份额较小,企业对他们营销的成本还很高,年利润率很低,根据分析这类客户包括浙江、湖南和吉林,他们没有长期的发展的趋势,所以企业采取的策略就是应充分挖掘他们给企业带来的当前价值后逐渐地放弃他们;
关键词:洞庭湖区生态经济区划生态经济建设
洞庭湖位于长江中游荆江河段南岸,地处湖南省北部和湖北省南部间,是我国第二大淡水湖泊。本文中的洞庭湖区仅指的是洞庭湖湖南省部分(未包括湖北省的公安、石首、松滋等),范围包括岳阳市、常德市、益阳市三个市,共24个县(市、区),土地面积为45363km,占到湖南省土地总面积的21.4%(具体见图1)。在经济上取得巨大成就的同时,洞庭湖区的生态环境却令人担忧,湖区生态经济建设更显得刻不容缓。
1.湖区区划指标的建立
由于生态经济区划的复杂性、综合性,强调自然和人文的有机耦合,因此在指标的选取上就必须做到全面,指标必须包含生态、经济、社会等多方面的因素。本文在参照前人指标体系选择的基础上,结合湖南洞庭湖区的实际情况,分别从社会、经济和生态方面选取了24个指标来构建本文生态经济区划的指标体系①。(见表1)
2.SPSS指标数据分析处理
2.1主成分分析
2.1.1将原始数据进行标准化处理
本文选取了20个行政单位,选取2004年的指标24个,这样就组成一个20×24的原始数据矩阵。其中对原始数据矩阵X用以下公式进行标准化处理。公式如下:
2.1.3因子提取
2.1.4因子旋转
为便于对主因子进行解释,知道每个主因子的意义,本文对因子载荷矩阵进行了旋转。本文用的是最常用的最大方差旋转法(Varimax)。(旋转后的主成分特征值、贡献率和累计贡献率见表3)
2.1.5主成分的确定
计算5个主成分的得分。由20个区域5个主成分的因子得分组成一个新的数据矩阵S;由这个数据矩阵S组成下一步聚类分析的原始数据,根据主成分得分及方差贡献确定权重(见表4),根据权重值,算出各区域综合因子得分,并进行排序(见表5)。
2.2聚类分析
本文采用了系统聚类法(HierarchicalCluster),定义各样本点之间距离采用的是平方欧氏距离(Euclideandistance),接着计算出每2个样本间的欧氏距离系数D,其公式为:
式中:D―i,j两点的距离系数;X―第i点第k因子的值;X―第j点第k因子的值;m―因子的个数;q―指数。(公式:3)
然后根据距离系数,按照最短距离法,从矩阵表中选择距离系数相似的样本归并为一类,将其组成新的序列,继续计算新类同其它样本之间的距离,如此反复,每进行一次缩小一类,直到得到所需的结果为止。通过系统聚类,可以得到树状谱系图(图2所示)。
从以上的聚类结果来看,在取欧氏距离为2.3时,可以将湖区分为7类,从综合聚类结果来看,由于生态经济区划的划分首先强调的连片性和相似性,故为了综合考虑起见,本文又对三类指标分别进行了主成分分析,并得到了各自的主成分综合得分表,在初步聚类结果的基础上,结合生态和经济、社会单类指标主成分综合得分,并参照湖区的实际情况,最终可得中心城市生态经济区、北部沿湖平原生态经济区、中部丘岗综合生态经济区、环湖山地丘陵生态经济区四个区域(区划图见图3,分区结果和特点见表6和表7)。
注释:
[1]张丽珍,孟令尧等.平泉县生态经济特征及其分区开发整治模式[J].1999.16,(2):12-16.
[2]胡月明,冯艳芬,江华,徐剑波,李强,陈飞香.中山市国家级生态示范区生态经济评价及可持续发展对策研究[J].2001.22,(3):13-15.
[3]左长清.关于建设江西生态经济区的思考[J].2002,(11):13-14.
[4]李红岩.洞庭湖区生态经济区划与建设初步研究:[硕士学位论文].长沙:湖南师范大学,2007.
[5]王克英.洞庭湖治理与开发[M].长沙:湖南人民出版社,1998:3-4.
[6]金相灿等.中国湖泊富营养化[M].北京:中国环境出版社,1990:234.
[7]张小红.生态经济区区划模型与建设研究――以华容县为例.[硕士学位论文].长沙.湖南师范大学,2006.
[8]王丽.生态经济区划理论与实践初步研究――以黄山市为例.[硕士学位论文].芜湖:安徽师范大学,2005.
作者:潘虹地赵亚茹汪永娟梁萃陶旭炜李雪宁单位:中国医科大学附属盛京医院发育儿科
关键词:Web;挖掘;PSO
随着Internet的迅速发展,WorldWideWeb已深入到社会生活的方方面面。Web可以说是目前最大的信息系统,其数据具有海量、多样、异构、动态变化等特性。人们使用Web,一般有如下需求[1]:
从Web信息中发现新的知识;
提供个性化服务:不同的用户对信息、服务有不同的要求。
为了解决上述问题,人们迫切需要能自动地从Web上发现、抽取和过虑信息的工具,由此产生了Web挖掘。
Web挖掘就是从Web文档和Web活动中发现和抽取潜在的、用户感兴趣的有用模式和隐藏的知识[2]。
1.Web挖掘
WEB挖掘可以认为包括以下四个子任务[3,4]:资源发现、信息选择和预处理、概括和泛化、分析。
资源发现是一个从Web上的联机资源中检索数据的过程。信息选择和预处理是一个信息转变的过程。它可以是除去停用词,词干处理,发现训练集中的短语,以及得到关系或逻辑表示等。概括过程是应用数据采掘技术获得知识。最后的分析是对采掘结果的验证和解释,在此过程中应该发挥人的作用。
Web文本信息的特征获取是指自动地从Web文本信息中抽取出代表其内容主题的特征词条形成特征矢量来表示Web文本。它影响到下一步Web文本分类的质量。文本挖掘问题的一个主要难点是特征矢量的维数过高,对于大多数学习算法来说都难以承受。目前已有多种方法被用于特征抽取,比如文档频次门限方法、信息增益方法、χ2分布方法、互信息熵方法、基于奇异值分解的潜在语义索引方法(LSI)以及基于遗传算法的特征提取算法等。
聚类技术是对符合某一访问规律特征的用户进行用户特征挖掘。Web使用挖掘中存在两种类型的聚类:使用聚类(用户聚类)和页面聚类。根据聚类的结果聚类方法可分为层次聚类与非层次聚类。在不同的方法中,人们研究了获得较高的计算效率的问题。
在Web使用挖掘过程中,对用户、Web页面等Web对象进行聚类时,存在明显的模糊性,模糊聚类也因此成为目前Web聚类分析研究的主流。
2.Web挖掘中存在的问题
为处理Web数据特征,克服目前现有的Web挖掘方法的局限,软计算方法是一个很好的方法。软计算是一组协同的方法,它提供一种处理现实中模糊状态信息灵活处理能力。它们的目标是通过探索不精确、不确定、近似推理和局部正确的最大可能限度,达到易理解的、健壮的和低代价的解决方案,类似人的决策过程。软计算技术包括模糊逻辑(fuzzylogic,FL)、粗糙集(roughset,RS)、人工神经网络(artificialneuralnetwork,ANN)和遗传算法(geneticalgorithm,GA)[5-8]。
3.粒子群优化算法
由于PSO中粒子向自身历史最佳位置和邻域或群体历史最佳位置聚集,形成粒子种群的快速趋同效应,容易出现陷入局部极值、早熟收敛或停滞现象。同时,PSO的性能也依赖于算法参数。为了克服上述不足,国内外学者相继提出了各种改进措施。主要有粒子群初始化、邻域拓扑、参数选择和混合策略四类。
4.结论
由此可见,由于Web信息的独特性,和传统的数据挖掘相比,Web挖掘还有很多需要解决的难题需要我们针对实际应用加以解决。
[1]吉林大学博士学位论文Web挖掘中若干问题的研究许建潮2005.6.10.
[2]RaymondKosala,HendrikBlockeel,WebMiningResearch:ASurvey,SIGKDDExplorations,2(1),pages1-15,July2000.
[3]中国科学院博士学位论文WEB信息检索与分类中的数据采掘研究李晓黎2001.5.21.
[4]周龙镶,阳小华.基于用户访问模式的WWW浏览路径优化[J].软件学报,2001,12(6),846~850.
[5]JianhanZhu,JunHong,JohnGHughes.UsingMarkovModelsforWebSiteLinkPrediction.In:ProceedingsofthethirteenthACMconferenceonHypertextandhypermedia.Maryland(USA),2002,169~170.
[6]浙江大学博士毕业论文Web访问信息挖掘若干关键技术的研究余轶军2006.4.1.
一、数据统计分析的内涵
数据分析是指运用一定的分析方法对数据进行处理,从而获得解决管理决策或营销研究问题所需信息的过程。所谓的数据统计分析就是运用统计学的方法对数据进行处理。在实际的市场调研工作中,数据统计分析能使我们挖掘出数据中隐藏的信息,并以恰当的形式表现出来,并最终指导决策的制定。
二、数据统计分析的原则
(1)科学性。科学方法的显著特征是数据的收集、分析和解释的客观性,数据统计分析作为市场调研的重要组成部分也要具有同其他科学方法一样的客观标准。(2)系统性。市场调研是一个周密策划、精心组织、科学实施,并由一系列工作环节、步骤、活动和成果组成的过程,而不是单个资料的记录、整理或分析活动。(3)针对性。就不同的数据统计分析方法而言,无论是基础的分析方法还是高级的分析方法,都会有它的适用领域和局限性。(4)趋势性。市场所处的环境是在不断的变化过程中的,我们要以一种发展的眼光看待问题。(5)实用性。市场调研说到底是为企业决策服务的,而数据统计分析也同样服务于此,在保证其专业性和科学性的同时也不能忽略其现实意义。
三、推论性统计分析方法
(1)方差分析。方差分析是检验多个总体均值是否相等的一种统计方法,它可以看作是t检验的一种扩展。它所研究的是分类型自变量对数值型因变量的影响,比如它们之间有没有关联性、关联性的程度等,所采用的方法就是通过检验各个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。(2)回归分析。在数据统计分析中,存在着大量的一种变量随着另一种变量的变化而变化的情况,这种对应的因果变化往往无法用精确的数学公式来描述,只有通过大量观察数据的统计工作才能找到他们之间的关系和规律,解决这一问题的常用方法是回归分析。回归分析是从定量的角度对观察数据进行分析、计算和归纳。
四、多元统计分析方法
关键词:管理科学;工程领域;热点;分析;数据
根据不同时期的对外政策和社会发展特点,我国的管理科学与工程曾经出现过几个不同的阶段,包括建国初的计划管理阶段、之后的重建管理阶段以及当今的管理科学繁荣发展阶段。每个时期内都有学者通过各种不同的方法对当下管理科学与工程领域的热点问题进行过分析,比较普遍的方法是借鉴权威期刊和论文中的数据,通过对收集到的关键词进行对比分析,得出管理科学与工程领域的热点。我国市场经济的发展和社会环境的变化为管理科学与工程带来了变化,也为其带来了良好的发展契机,要进一步完善管理科学与工程工作,将挑战变为机遇,就必须对管理科学与工程领域的热点进行全方面详细的研究,对其发展趋势做预测,做到时刻掌握有效信息,促进管理科学与工程行业的全面发展。
1以往的数据研究与文献分析
2管理科学与工程领域热点数据的研究方法
2.2绘制战略坐标图。战略坐标图是由二维坐标演化而来的一种直观表示因素之间内在联系表现形式,最早由Law等人提出。在战略坐标图上,同样分为X轴(向心度)和Y轴(密度),代表不同的主题要素。向心度表示一个因素与其他多因素相互联系的程度高低,密度表示各因素之间内在联系的强度高低,一般情况下,密度与向心度的计算都是采用取平均值的方法。
3分析研究结果并得出结论
3.2多维尺度分析法。通过对观测个体之间的距离进行准确的测定来发现个体之间存在的结构关系和数据联系,是多维尺度分析法的运行原理。多维尺度分析法旨在用二维或三维的空间距离形式表现出个体之间的关系,并根据相似度将个聚合为不同的类别,接近中心的个体则越接近核心。这时引用SPSS软件,将绘制好的矩阵导入并根据多维尺度分析功能对矩阵进行分析,最终得出直观效果图。通过效果图就可以看出每一个类别中的核心词语,距离核心较远的关键词则依旧不够成熟,无法成为管理科学与工程领域的热点和发展趋势,而那些越接近核心的关键词则为管理科学与工程领域的热点。
综上所述,通过采用共词分析法、共词矩阵与相异矩阵的构建以及战略坐标图的绘制等方法对管理科学与工程领域热点进行分析,我们可以得出,近年来,管理科学与工程领域的热点从以前的“信息技术”“知识管理”等词汇,转变为现在的“博弈”“激励机制”“委托”“电子商务”“信用风险”等多个新的关键词。除此之外,单靠关键词频数来判断热点仍旧存在单一性和局限性,对共词分析法进行改造和完善也是大家义不容辞的责任。
[1]张永安.管理科学学术规范体系构成的分析框架与应用性分析[J].科学学与科学技术管理,2009(08).
[2]彭学君.国内外管理科学与工程学科研究热点比较[J].衡水学院学报,2008(05).
关键词:汽车后市场;用户聚类;智能推荐算法
项目资助:国家科技支撑(2013BAH13F01)资助
1.引言
进入新世纪以来,我国就进入了汽车产业高速发展的时代,已成为全球最大的汽车生产国与最大的汽车消费市场。从我国宏观经济发展水平和当前的人均汽车保有量来看,我国汽车市场仍然孕育着巨大的发展潜力。
目前在我国的汽车产业高速发展的同时显现出汽车后市场服务的缺位,即汽车后市场服务缺乏品牌意识,服务的理念和服务质量、服务的可信度、服务的标准化、服务的人性化均十分淡漠。在汽车服务业企业,提供的服务和产品大同小异,较难提出差异化的项目来构建企业独特性,客户粘度低,具有较高的话语权。传统的汽车服务推荐只是针对车型、车主职业等信息来对客户进行一个粗略的归类,由具体的接待人员来进行推荐,通常无法取得很好的效果。对客户偏好的深度挖掘,以及更加个性化、人性化的推荐服务,提供更好的客户体验是提高服务业企业的市场竞争力的有力工具。
2.汽车后市场服务业发展现状
3.数据挖掘在汽车售后服务中的应用
数据挖掘作为数据库知识发现的核心部分,目前存在很多数据挖掘方法和算法。根据挖掘任务分,有如下几种知识发现任务:分类知识发现、数据总结、数据聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常发现和趋势预测等。运用最多的是分类知识发现和数据聚类算法。
客户偏好挖掘和推荐的基本流程是:根据客户历史消费记录对客户进行偏好挖掘,并对客户进行聚类分析;根据两种以上的服务或者产品同时被消费的频度,利用关联规则将服务或产品进行聚类;利用关联规则算法将用户和服务产品进行匹配,推出针对性的智能化的推荐。
3.1对客户进行偏好挖掘
从用户行为信息中挖掘出用户偏好并构建偏好文档是进行商品特征与用偏好匹配推荐的基础。消费者细分的方法很多。有依据人口统计指标的细分、消费者心理细分、生活习惯细分、购买动机细分等等。在现实中对单个消费者个体的研究是不可能的。通过使用数据挖掘,可以根据所拥有的数据特征挖掘划分不同的消费者群,“分群”意味着把有相似特征的消费者归为同一组,即建立用户群,同时把不同用户群之间的差异最大化。
消费者行为特征挖掘的技术是聚类。聚类是探索型数据挖掘技术。可以使用许多种不同类型的聚类技术。聚类数据挖掘能够根据已测度的变量将相似消费者归到一起,同时使不同类型的消费者群组之间的差异最大化。本质相同的群组具有特定的消费者行为描述,所有聚类技术只要正确使用,都能产生恰当的分组。
3.2服务产品的聚类分析
关联规则挖掘过程主要包含两个阶段:
【一】:必须先从资料集合中找出所有的高频项目组(FrequentItemsets)【若支持度大于等于所设定的最小支持度(MinimumSupport)门槛值时,则{A,B}称为高频项目组】
【二】:再由这些高频项目组中产生关联规则(AssociationRules)【在最小信赖度(MinimumConfidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则】。
在汽车售后服务中,就是要通过关联规则运算,形成服务和商品的一个组合产品,这些强关联的组合产品,在客户选择了组合中的任意一种产品或服务之后,都会依据算法向他推荐另一个与前者有着强关联关系的产品或服务。
3.3客户类型和产品服务类型进行匹配
利用匹配算法,将消费者的类型与产品服务的类型进行匹配,分析出不同的客户群体最有可能进行那种类型的消费。以及不同消费群体的偏好认知程度不同,对推荐的接受程度差异也很大。
从汽车质量等级、汽车燃油和机油等级、汽车行驶道路环境、汽车外部环境、客户驾驶技术、汽车修理频率和汽车行驶里程,提取客户的这七个因素数据对客户行为进行数据挖掘分析,对汽车用户进行划分,分析出不同的驾驶习惯、经历、环境的不同,进行汽车维修的项目和频率也是不同的。
与汽车前市场相比,汽车后市场领域具有更大的发展空间和发展潜力。但是汽车后市场的现状是,服务与产品的差异化程度低,服务人员的整体水平参差不齐,客户体验成为留住客户的关键。深入分析汽车消费者的偏好特征,对不同类型的客户,尽可能的做出贴近其需求和偏好的产品或服务推荐,只有这样才可以增强客户的忠诚度,提高客户粘度,进而为培养客户、发展客户、留住客户打好基础。智能化推荐,改善客户体验,也是汽车服务业取得进一步突破的一种有效的途径。
参考文献
[1]黄武汉,孟祥武,王立才.移动通信网中基于用户社会化关系挖掘的协同过滤算法[J].电子与信息学报,2011,33(12):3002—3007.
[2]张璇.汽车售后服务业客户驾驶偏好分析研究(D).武汉理工大学硕士论文,2012,5.
关键词:聚类分析;福建省;港口物流;竞争力
中图分类号:U691文献标识码:A
Abstract:Asastartingpointofmaritimesilkroad,thedegreeofdevelopmentofportlogisticsinFujianissociallysignificant.ThispaperbasedonthemajorportsinFujianprovince,design11keyindicatorsfromtheperspectiveofportlogisticsinharborandcitydimensions.Thengatherthecountry's18majorportsdatain2014,useclusteranalysistoanalysisandclassifythedata,getconclusionofthethreemajorportsinFujianprovinceattheposteriorsegmentinthenationalrankings.Thensummarizesthemainissues,proposedtoimprovethecollectionanddistributionsystem,improvethelevelofintensiveport,harborandaccuratepositioningoftargetedpolicyrecommendations.
Keywords:clusteranalysis;Fujianprovince;portlogistics;competitiveness
0引言
本文以2014年全国18个主要港口数据为基础,结合城市和港口物流方面的主要指标,通过系统聚类分析法得出福建三大主要港口在全国港口中的发展地位,进而提出针对性的发展建议。
1聚类指标及港口选择
聚类分析是一种多元统计分析方法,通过设立合理指标对观测对象间的相似程度进行分类,达到“物以类聚”的目的[3],聚类分析需先构建聚类分析指标体系,有效的指标体系设计需要遵循科学性、系统性、动态性等多重原则[4]。福建省港口物流对于福建省经济的进一步发展影响巨大,为了进一步发挥海上丝绸之路的优势,本文在系统分析近几年来港口物流主要文献基础上,立足福建省港口物流情况,主要设计港口指标(货物吞吐量、外贸吞吐量、内贸吞吐量、集装箱吞吐量)和城市指标(GDP、第一产业产值、第二产业产值、第三产业产值、进出口总额、人口、面积)两类共11个。
货物吞吐量指标显示福建三大港口均排在中后部,与上海港、天津港、广州港等港口相比差距较大。在集装箱吞吐量方面,厦门港要稍好,处于中游,福州港与湄洲湾港属于垫底层次。
城市方面,由于福建港口进行了一系列的资源整合,因此本文采用的城市指标数据分别是厦门和漳州总和、福州和宁德总和、泉州和莆田总和。GDP指标显示,福建三大港口所在城市的GDP处于中游偏下的位置,上海遥遥领先,天津、广州、深圳、重庆等市紧随其后。上海和深圳两地的进出口总额独占鳌头,而厦门港所在城市的GDP在中游偏上位置,福州港和湄洲湾港所在城市的GDP则在中游偏下的位置。
2聚分析过程及结果
2.1聚类指标数据标准化处理
本文选取的指标数据单位和变异程度有一定差异性,比如城市GDP是以亿元为单位的,但面积的单位却是平方公里。因此需要对这些数据进行标准化处理,本文采取SPSS22.0求变量Z分数,它能真实地反映出变量之间的相对距离,经过SPSS的无量纲化之后,这些变量值的平均值和标准差分别为0和1[5-6]。
在SPSS软件的数据试图中,输入标准化后的数据,在菜单栏中选择系统聚类选项。并将港口名称标注成个案,可以更方便地观察聚类结果。在聚类方法中选择“组之间的链接”选项,样本与小类、小类与小类的距离测量方法选择“欧式距离平方”选项,经过SPSS软件的运算之后,得到的输出结果如图1所示。
2.2聚类分析结果
3福建省港口物流问题总结及发展建议
通过聚类分析结果可知,福建三大主要港口在选取的18个港口中表现差强人意,处于中后段位置,特别是与上海港、深圳港等国际大港相比有较大差距[7],集疏运体系的不完善、临港产业不发达、港口集约化程度低、港口整合有待进一步加强等问题制约着福建省港口物流的进一步发展。
福建省港口要进一步提升竞争地位,在全国港口中脱颖而出,为海上丝绸之路做更好的贡献,需要结合自身特点,不断改善软硬件环境,完善集疏运体系、提升集约化水平。
首先,不断完善集疏运体系。福建省应以整合后的福建三大港口为重点,加快集疏运体系建设,打造集公路、铁路、水路运输结合的综合集疏运体系。应加大投资,建立港口专用铁路支线,形成水铁无缝衔接,并积极落实部分干线快速铁路的客货兼运模式,提高铁路货运能力。同时,福建省需要提升现有疏港公路等级,实现沿海港口与干线公路、国省道、工业区之间的顺畅连接。
其次,提升港口集约化水平。集约化水平的提升可以很好地解决港口分散、规模化和专业化不足的问题。加快大型港区与周边小港区的整合,整合现有资源打造“两集两散两液”:即厦门港海沧港区和福州港江阴港区重点发展集装箱运输,罗源湾可门港区和湄洲湾北岸港区致力打造大宗散货运输中心,湄洲湾南岸港区、漳州古雷港区则重点发展以临港工业为依托、液体散货运输,以减少资金分散使用,发展几个重要港口,实现以点带面。
第四,深入整合各港区。继续深化福建港口管理体制改革,积极学习借鉴国内外先进做法,将福建沿海港口资源和功能进行大整合,统一运营。实现分层建设:第一层重点建设厦门东南国际航运中心和福州集装箱和大宗散货运输相协调的国际航运主枢纽港,形成大码头大城市;第二层服务于主枢纽港的辅助港口的建设,可将泉州湾港口建设成辅助厦门东南国际航运中心和福州国际航运主枢纽港的支线港;第三层是离中心城市较远且经济增长活力不足地区的港口建设,如宁德港、漳州港,实现有主有辅,各有侧重。
4结论
海洋经济是21世纪各国经济新增长点,作为海洋大国,古代海上丝绸之路从福建泉州起源,延伸多个国家。如今,我国重启海上丝绸之路大计,作为起源的福建省迎来进一步发展海洋经济及港口物流的契机。本文主要通过搜集国内18个主要港口数据,运用系统聚类分析福建省三大主要港口在全国的地位,通过对其排名中后段的现状分析,总结出问题,并提出不断完善集疏运体系、提升港口集约化水平、大力发展临港经济等政策建议。
[1]陈梦.港口物流核心文献综述(2010-2015)[J].物流科技,2016(4):86-87,101.
[2]陈梦.港口物流文献分析(2010-2015)[J].物流科技,2016(3):77-80.
[3]黄顺泉,曲林迟,余思勤.中国港口功能的聚类和判别[J].交通运输工程学报,2011(4):76-83.
[4]陈继红,郑师禹,罗萍,等.基于模糊聚类的长三角港口物流服务功能归类与对策[J].北京交通大学学报(社会科学版),2015(10):89-98.
[5]曾倩琳,王莹.海峡西岸经济区无水港群的网络布局――基于模糊聚分析法和SPSS17.0软件[J].科技和产业,2010(10):1
-4.
【关键词】会计学;共词分析;知识图谱;研究热点
会计是经济的组成部分,会计学科在社会科学领域占据着重要的位置。随着社会和经济的发展,我国会计也发生了巨大的变化。回顾过去,改革开放的30年,是我国会计弃旧扬新、逐步发展和变革的30年,尤其是进入21世纪后的近5年,我国会计的发展更是迅速。那么会计学现在的研究现状如何,研究热点有哪些,未来有潜力的研究方向是什么等等一系列的问题吸引着越来越多的学者。有关会计研究的文献迅速增长,给广大研究人员从浩瀚的研究论文中把握会计学的研究热点和研究前沿等问题带来了挑战,而科学知识图谱方法可以作为研究人员应对这一挑战的有效工具。本文将基于词频分析和共词分析法,借助科学知识图谱技术对我国会计学论文进行可视化分析,指出我国会计学主流学术领域和研究热点。
(一)数据采集
在知识群3中,管理会计、会计信息质量、注册会计师、审计质量、会计盈余等高频关键词聚集在一起,表明知识群3的中心是会计信息质量。盈余管理、会计稳健性和会计盈余影响会计信息质量;会计制度、会计准则、国际会计准则会影响会计信息披露的质量;公司内部治理状况(公司治理)和外部监督(会计师事务所)也是影响会计信息披露的质量的重要因素。这一知识群中的研究热点有3个:(1)管理会计。以企业现在和未来的资金运动为对象,以提高经济效益为目的,为企业内部管理提供经营管理决策的科学依据为目标而进行的经济管理活动。对成本控制问题是研究的热点。(2)会计盈余。会计盈余和现金流量直接的矛盾一直是现在财务会计理论争论的焦点,新会计准则下上市公司的会计盈余问题和新会计准则对盈余管理空间的遏制作用等问题都是研究的热点。(3)注册会计师的审计质量。加强我国注册会计师审计质量的控制是研究的热点。
三、结论
从对关键词的词频分析可以看出,会计学研究里最常出现的关键词是会计准则,其次是与会计信息质量有关的内容。从共词知识图谱可以看出,会计学论文主要集中在三个知识群,第一个知识群的研究热点都是围绕着新会计准则,第二个知识群是以会计政策和形式的选择为中心,第三个知识群是对会计信息质量的热点研究。会计准则给予了会计政策的选择空间,会计政策的选择影响了信息质量。所以第二个知识群是第一个知识群和第三个知识群的连接和过度。
上述研究大致勾勒出我国会计学论文的研究热点,揭示出知识群的内部结构。我们可以发现,会计学研究里最关心的是会计信息问题,从信息的披露到信息的形式和质量,由于信息的复杂性和无穷性,未来仍然可以做出更深层次的研究;其次,会计的研究紧紧围绕会计实践,这从围绕准则的研究可以看出,有理由推测以后的会计研究仍然会遵循这一原则;最后,对前沿的课题诸如环境会计、人力资源会计所做的研究仍不全面,这意味着未来有很大的研究空间。
当然由于cssci并未能全面搜集我国会计学的论文,以及与国外会计学论文的研究热点相比,我国会计学的热点是否紧跟前沿,都是今后仍需研究的地方。
【参考文献】
[1]陈超美.citespaceⅱ:科学文献中新趋势与新动态的识别与可视化[j].情报学报,2009(3).
[2]刘则渊,王贤文,陈超美.科学知识图谱方法及其在科技情报中的应用[j].数字图书馆论坛,2009(10).
[3]李长玲,翟雪梅.我国情报学硕士学位论文的共词聚类分析[j].情报科学,2008.
印度黄檀是一种喜光落叶大乔木,属于豆科蝶形花亚科。它起源于印度干旱地区,具有速生、耐旱和耐瘠薄等优良特性。一年生印度黄檀幼苗的树高可达3m,胸径可接近10cm。在印度的分布区域内其绝对最高温度39qc~49℃,绝对最低温度4oC~6oC,年降雨量760~4570mm。印度黄檀能在瘠薄、疏松或低盐土中生长,但在干硬的粘土中,容易受到病害,成活率低J。印度黄檀具有多种的用途。它的叶子可以作饲料和药材,主干可以被加工制成世界上名贵的红木家具。在印度,除了柚木之外,印度黄檀是最重要的栽培树种。由于它的速生、耐旱和耐瘠薄等优良特性,无论在印度还是美国都被认为是一种理想的城市和园林绿化树种引。
2印度黄檀适生陛区划方法的研究现状
树种的适生性区划是林业区划的一种表现形式。林业区划是指根据林业的特点,在研究有关自然、经济和技术条件的基础上,分析、评价林业生产的特点与潜力,按照地域分异的规律进行分区划片。中国在1950年以后,为了大力发展农业,提高农业的经济效益,借鉴前苏联的农业科学技术,开展了农业区划工作。当时林业区划从属于农业区划。随着国民经济的发展,国家对林产品的需求量越来越大,而由于受林业本身生长周期长、见效慢等特点以及中国复杂的地理环境的影响,合理的林业区划对降低林业生产的风险、提高林业工作的效率和质量具有重要的作用。
目前,常用的林业区划方法可分为与计算机结合的数量定量区划方法和基于地理信息系统技术的区划方法7.引。在树种适生性区划研究当中,用得比较多的数量定量区划方法为传统的聚类分析方法、主成分分析法、模糊数学法和灰色关联度法。基于地理信息系统技术的区划方法是利用ArcGIS或ArcView等软件的空间分析和制图功能,结合由数量定量方法所建立的数学模型进行区划。
树种的区域性试验为数学建模提供了基础数据。显然,区域性试验数据的正确性是保证区划结果正确的前提。因此,对树种区域性试验方法的研究是适生性区划研究的一个重要部分。
2.1印度黄檀的区域性试验研究
由于印度黄檀对环境的适应能力比较强,许多国外学者对其进行了深入的研究,其中大多数的研究都从微观的角度来分析印度黄檀的生理特征,而对印度黄檀的区域性研究较少。国内对印度黄檀的专项研究仅见于中国林业科学研究院资源昆虫研究所对印度黄檀木材解剖构造及物理力学和化学性质的初步研究’加J,而对其区域性试验和适生性区划尚未见报道。印度黄檀的区域性研究主要体现在不同试验方法下印度黄檀与其它树种在适生性方面的比较研究。
IanHUNTER在印度的卡纳塔克邦对一年生的印度黄檀、赤桉和大桉幼苗分别做了4种不同的灌溉水平和9种不同的施肥量的研究。最后发现充足的水分和N肥量是印度黄檀快速生长的关键因素。PSMINHAS等用咸水和正常的沟渠水分别对印度黄檀和埃及树胶进行灌溉,得出咸水灌溉使得印度黄檀的生长量比用灌溉时少了53%。BSINGHandGSINGH在焦特布尔对4个月生的印度黄檀的繁殖苗做了5种不同灌溉水平的试验,证明了水分是影响印度黄檀生长的关键因子¨。由于印度黄檀属于喜光树种,在一定的水肥条件下,它的存活率跟种植密度大致成反比的关系。
在印度黄檀的区域性试验中,许多学者主要考虑了水分、土壤性质和种植密度的问题,而忽视了温度因子。在同一气候类型的区域内,由于地形起伏造成局部温度的差异也反映在同种植物生长的差异性上。
在印度黄檀的区域性试验中,应该重点考虑温度、水分、土壤性质和种植密度与生长量、保存率和结实率的关系,并对这些因素做出详细的数据记录,为适生数学建模提供准确的数据。
2.2数量定量区划方法
从2O世纪80年代末开始,数量定量的区划方法应用到林业区划当中,逐步取代传统的带有很大主观臆断性的林业区划方法’。康志雄等应用谱系图聚类分析方法,划分了长江流域以南的杨梅适生性分布区。谱系图聚类分析方法应用简单,但最大的缺点是聚类图不直观,而由星座图聚类分析方法得出的聚类图的效果显然是比较好的。陈建新等运用了主成分分析方法,突出了广东秃杉区划中贡献率较大的因子和优化了各因子在区划中的综合贡献率,取得了良好的区划效果。主成分分析法对多个变量起降维的作用,减少了计算量,但存在丢失有效信息的现象,并且不同统计软件下的主成分分析结果有一定的差别。
在区划过程中,有些个体是介于两个或两个以上的类别之间,带有模糊性。利用模糊数学进行区划更加符合实际。朱斌等对安徽省栽培苹果的生态气候条件进行了模糊聚类分析,初步划出了安徽苹果经济栽培南线引。宋于洋等将层次分析法和模糊数学综合评价法相结合,对新疆天然甜型葡萄酒原料种植区域进行了区划研究,得出了各个地区的适生性评分¨。模糊函数在确定适生性阀值水平时带有主观性,结合其它方法可以提高区划的准确度。
从系统论的角度看,林业生产系统是一个典型的本征灰色系统。树种适生性区划可以用灰色系统理论和方法来解决。张志刚等运用灰色关联度法分析了l0个杂种棉后代在不同生态点的主要农艺及经济现状进行了分析。为了更加客观地进行分类,李宝根在福建省森林景观资源等级区划中,先用灰色关联度法确定各因子的关联度值,再用聚类分析法进行分类,取得了满意的效果。灰色关联度法的计算比模糊数学法要简单,但是容易丢失区域间的边界信息。
利用数量定量方法进行区划,主成分分析法和聚类分析法忽略了引种地与种源产地之间的关系,模糊数学方法虽然较为合理,但计算量比较大。灰色关联度法相对模糊数学方法来说,虽然计算要简单,效果相似,但是与其它数量定量区划方法一样,模型需要大量的原始数据,并且区划结果难以保持区块的空间连续性和行政界线的完整性。
2.3基于地理信息系统技术的区划方法
应用地理信息系统技术进行树种适生性的区划,是目前比较流行的林业区划方法。相对于数量定量方法而言,它具有节省大量外业和内业的工作量以及制图效果好等优点。地理信息系统技术的区划一般先确定区划需要考虑的环境因子,利用DEM图、行政区划图等生成数据底图,再通过数量定量的方法建立各因子对区划的综合评价模型,得出各因子的评分,通过空间叠加分析生成区划图。
朱琳等采用模糊数学的综合评判方法,计算出各要素的隶属度,建立了单因子栅格图层。张超等先用逐步聚类的方法对福建永安县森林资源进行了预分类,然后用ArcGIS得出了以林班和以村为单位的永安市林业区划图引。数量定量方法得出的区划图往往忽视了地域之间的连续性。数量定量的方法与ArcGIS软件结合,能较好地保留地域间的连续性和快速有效地取得区划结果。数学模型是地理信息系统技术进行区划的基础。
ArcGIS在区划中的一个突出特点是可以通过空间插值的方法,根据已知点的数值来生成一些未知点的值J。姚圣贤等在樱桃气候的区划中运用ArcGIS的三角网距离加权平均法对光、温和水三要素进行内插J。为了达到空间插值的目的,在ArcGIS中建立环境因子数据库,利用现有的数据建立一个函数关系式,使这个关系式最大限度地逼近已知空间点的数据,通过ArcGIS的空间分析功能求出某一环境因子或综合的环境因子在某个地区的空间分布规律。ArcGIS的空间插值和分析功能节省了区划工作中大量的外业工作,提高了区划的精度。
3存在的问题及发展方向
印度黄檀是一种抗旱、抗瘠薄的喜光树种。在热带或亚热带地区,水分和土壤性质对其生长起重要的作用。许多研究针对其生长状况与水分、土壤肥力和种植密度之间的关系进行研究。对于区域性试验来说,目前的研究还不能全面反映综合的环境因子对印度黄檀生长状况的影响。
传统的林业区划方法与统计软件和分类绘图软件相结合,大大减少了计算量和提高了制图的效率。其应用简单、数量关系明确等优点仍然使它广泛应用于林业区划工作当中。但是,传统的林业区划方法需要大量的外业数据,而中国地形复杂多样,很多山头地块的数据难以从气象台站或外业调查中获取,区划图精度较低,效果粗糙,只能勉强满足大尺度范围内的区划要求。
利用地理信息系统技术进行区划,克服了传统林业区划中的缺陷,既节省了大量的外业工作,又提高了区划图的精度和效果。基于地理信息系统技术的区划结果,其准确性与选择的数学模型有很大的关系。数学模型的建立只是根据某一时段的环境值建立的,而且区划的效果也因不同的数学模型而有所差异。因此,如何选择和建立合适的数学模型以及如何开发出一个相对通用的区划系统必然是以后研究的方向。
在印度黄檀的适生性区划中,根据研究区域地形和气候的复杂性,可以把整个研究区域分成若干小区,实行分区建模,克服用一个模型推算整个区域环境因子空间分布情况的缺陷,提高区划的精度。