聚类分析论文8篇

时间：2023-03-20 16:13:52

聚类分析论文

聚类分析论文篇1

摘要：基于因子分析和聚类分析法，对重庆市40个区、县的经济发展状况进行了定量化综合评价。在分析重庆市经济发展不平衡的特点和原因的基础上，探讨了经济全面协调发展的对策和思路。 论文关键词：重庆市；因子分析；聚类分析；经济发展状况 重庆是典型的大城市、大农村，其经济发展仍然处于非均衡发展的历史进程，各区县经济发展水平具有明显的地域差异。随着城乡综合配套改革试验区这一重大战略决策的实施，重庆的发展迎来了千载难逢的机遇。重庆各区、县只有对当前的经济发展状况有一个客观、全面的了解，才能更好地实现有效的区域整合。 近年来，社会统计分析软件在社会经济统计、工程技术以及教学科研等领域的研究已取得广泛应用。本文以重庆市内40个区县为研究对象，结合重庆市地域特点，综合运用多元统计中的因子分析和聚类分析，较大限度地避免人为因素所产生的偏差，对全市经济发展状况进行了定量化综合评价。在分析重庆市经济发展不平衡的特点和原因的基础上，探讨了经济发展的对策和思路，以期对未来经济发展状况的改善起参考作用。 1 经济发展状况评价指标体系的构建 国内外学者对城市经济发展状况的评价指标体系进行了不少研究，但由于城市经济系统本身的复杂性，以及城市经济发展状况评价指标体系的理论尚有待深入，所以目前还没有一种公认的、可靠的评价方法。本文在遵循科学性、全面性、可操作性原则的基础上，参阅相关文献并结合重庆市现状，构建了以下影响城市经济发展状况的8项指标作为评价指标体系：地区生产总值（万元），工业总产值(万元)、公路货运量(万吨)、建设与改造投资(万元)、社会消费品零售总额指数(上年＝100)、城乡居民储蓄(万元)、城镇居民最低生活保障人数（人）、专业教师数（人）作为分析样本，数据来源——重庆统计年鉴［2006］。所采用的分析软件是SPSS13.0。 2 模型方法概述 2.1 因子分析 因子分析属于多元分析中处理降维的一种统计方法，它是主成分分析的推广和发展，它也是将错综复杂关系的变量（或样品）综合为数量较少的几个因子，以再现原始变量与因子之间的相互关系，同时根据不同因子还可以对变量进行分类。 Z因子分析的数学模型。 通常针对变量作因子分析，称为R型因子分析，另一种对样品作因子分析，称为Q型因子分析。R型因子分析写成数学的形式，就是下面的模型：假定随机向量X满足: X=A•F+ε 其中A是p×m的常数矩阵，称为因子载荷矩阵；F=(F1，…，Fm)是不可观测的向量，F称为X的公共因子；ε称为X的特殊因子，通常理论上要求ε的协方差阵是对角阵，ε中包括了随机误差，且 ⅱ）Cov(F，s)=0 即F和ε是不相关的； ⅲ）D(F)=Im即不相关且方差皆为1。 因子分析的目的就是通过模型X=AF+ε以F代替X，由于m 2.2 聚类分析 聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法，在统计分析的应用领域已经得到了极为广泛的应用。 聚类分析至今，有许多种不同的聚类方法，其中应用得最多、最成熟的方法为系统聚类法，也是本文将采用的方法。其思路为：首先将每个数据对象各视为一类，根据类与类之间的距离或相似程度将最相似的类加以合并，再计算新类与其它类之间的相似程度，并选择最相似的类加以合并，这样每合并一次就减少一类，不断继续这一过程，直到所有数据对象合并为一类为止。 3 实证分析 3.1 因子分析结果 运用因子分析法，借助SPSS对以上数据进行分析处理，在处理过程中采取以下步骤：（1）遵循系统性、科学性、可操作性的原则，对所有指标的原始数据进行标准化，消除量纲的影响。由标准化后的数据求协方差矩阵，即原始数据的相关矩阵，判断能否进行因子分析；（2）根据公共因子在变量总方差中所占的累计百分比例，一般为大于85%规则，确定描述数据所需要的公共因子数；（3）公共因子的命名和意义解释。运行结果如下： 在表2中，按照提取原则即特征值大于1，选入3个主成分，其方差累计贡献率达 88.08%，即反映了原始信息的88.08%，这三个因子就可以解释原始数据的大部分信息了。我们将这3个主成分作为评价重庆市40个区、县经济发展状况的综合参量。 从表3可以看出，地区生产总值、工业总产值、城乡居民储蓄、公路货运量等四个指标与第一主成分的相关系数较高，主要反映了经济总量状况及其环境状况；专任教师数在第二主成分上的载荷较大，即与第二主成分相关程度较高；消费总额指数在第三主成分上的载荷较大，即相关系数较高。因此我们可将主成分命名如下： 第一主成分：产出主成分； 第二主成分：教育主成分； 第三主成分：消费主成分。 把我市40个区、县的经过标准化的数据(X1，X2，…，X8)代入对应的线性模型，可以得到各地区的主成分值，并以各主成分的方差贡献率为权重进行加权汇总，得到综合得分F(其中F=0.0113×F1＋0.1412×F2＋0.7821×F3)。 3.2 聚类分析结果 运用SPSS的系统聚类法，根据各个地区的综合得分值进行分类，共将重庆市40个区、县划分为三类：第一类渝中、九龙坡、江北、双桥、沙坪坝、大渡口、南岸、渝北、万盛、长寿；第二类巴南、北碚、梁平、永川、黔江、大足、铜梁、合川、荣昌、南川、潼南、江津、酉阳、武隆；第三类壁山、万州、巫溪、巫山、忠县、丰都、开县、秀山、綦江、石柱、涪陵、奉节、彭水、云阳、垫江、城口。 4 结论和对策 通过上述分析，不难看出： （1）重庆市40个地区社会经济发展存在着明显的差异：第一类区县大部分分布在都市发达经济圈，第二、三类区县几乎均处于渝西经济走廊与三峡库区生态经济区。 （2）渝中区综合经济实力得分远远高于其他9个，这说明渝中区已成为整个重庆经济的发展极。其中江北、沙坪坝、九龙坡、南岸、渝北五区在地理位置上和渝中区相临，受经济辐射作用应影响，经济综合实力较强；巴南区、北碚区虽然位于都市发达经济圈，有着特殊的区位优势，但是由于受周边江北、沙坪坝等五区的经济回波效应影响，抵消了经济的辐射作用，所以综合实力得分较第一类地区低；壁山、万州等l6个区县大多为边远山区和少数民族地区，由于这些地区的交通不发达，这些地区的专业优秀人才大多流向一、二类地区，因此使得这些地区与第一、二类地区间经济发展差距有扩大的趋势。 （3）基于较大地区间经济发展的差距，重庆市要对以往三大经济圈的发展战略加以完善、发展和提升，切实贯彻并实施“一圈两翼”的新战略。努力增强一小时经济圈的带动辐射能力，加快以交通和水利为重点的基础设施建设，增加区域发展潜力。积极发展特色产业，加快区域经济社会发展，逐步缩小市域的城乡差距和区域差距，形成大城市带大农村的整体推进格局。 参考文献 ［1］陈道平，刘伟．基于微小型汽车市场的影响消费者购买行为的消费者特性分析［J］．消费经济，2005，(6)． ［2］唐敏，陈道平．上证A股与B股协整关系的实证研究［J］．当代经济，2008，(2)． ［3］赵喜仓，吴梦云．江苏城市社会经济发展状况实证分析［J］．统计研究，2003，(3)

聚类分析论文篇2

[摘要]文章以CNKI《中国优秀硕士学位论文全文数据库》中收录的2588篇高等教育学硕士学位论文为数据源，利用BICOMB、Excel2010和spss20.0软件进行数据提取和共词聚类分析，研究了各高频关键词之间的关系，探索了我国高等教育学硕士学位论文的研究热点，并在此基础上进行了一系列深度思考和趋势预测。

聚类分析论文篇3

近年来，全国大学生数学建模竞赛迅速发展，为国家培养了大批应用型人才。但由于各地区教育水平不同、相关部门对竞赛的重视程度不同，导致各地区组织学生参加大学数学建模竞赛的规模不同，在该项赛事中取得的成绩差异比较显著。2013年全国大学生数学建模竞赛评选出的奖项有:赛区优秀组织工作奖9个，本科组高教社杯奖1个，专科高教社杯奖1个，本科组MATLAB创新奖1个，专科组MATLAB创新奖1个，本科组IBMSPSS创新奖1个，专科组IBMSPSS创新奖1个，本科组一等奖共273名，本科组二等奖共1292名，专科组一等奖共44名，专科组二等奖共211名［1］，但成绩相对于参赛区分布不太均匀。分析各地区在2013年全国大学生数学建模竞赛中取得的成绩，明确各地区数学建模发展状况的差异和特点，将有利于相关部门从宏观上了解我国大学生数学建模竞赛的整体发展现状，分类制定相关政策［2－3］，从而充分发挥数学建模的重要作用。

1建立综合评价指标体系

全国大学生数学建模竞赛现状的一个重要方面就是全国大学生数学建模竞赛获奖情况。依据全国大学生数学建模竞赛设置的奖项，遵循可比性原则，参考文献［4－5］，选取x1－x7共七项评价指标，具体如下:x1:本科组高教社杯、MATLAB创新奖和IBMSPSS创新奖获奖情况;x2:本科组一等奖获奖数;x3:本科组二等奖获奖数;x4:专科组高教社杯、MATLAB创新奖和IBMSPSS创新奖获奖情况;x5:专科组一等奖获奖数;x6:专科组二等奖获奖数;x7:年度竞赛优秀组织工作奖获得情况。说明:鉴于本科组与专科组的高教社杯、MAT-LAB创新奖和IBMSPSS创新奖三类奖项每年只有一个队获奖，且基本不可重复获得(参见历年大学生数学建模竞赛获奖名单)故将其合并作为一类。

2数据资料依据

2013年全国大学生数学建模竞赛获奖名单，按指标对各个赛区的获奖情况统计如表1所示。

3R型聚类分析定性分析

七项指标之间的相关性。编写MAT-LAB程序如下:＞＞clc，clear＞＞symxy;＞＞x=xlsread(‘shuju．xls’);%将上表中的数据保存到MATLAB中WORK文件夹excel文件shu-ju．xls中，并将其赋于x＞＞y=corr(x)%输出七项指标间的相关系数矩阵(如表2所示)＞＞d=pdist(y，’correlation’);%计算相关系数导出的距离＞＞z=linkage(d，’average’);%按类平均法聚类＞＞h=dendrogram(z);%画聚类图(如图1所示)＞＞T=cluster(z，’maxclust'，5);%把变量划分为5类＞＞fori=1:5tm=find(T==i);tm=reshape(tm，1，length(tm));＞＞fprintf(’第%d类的有%s\n’，i，int2str(tm));＞＞end程序输出:第1类的有4;第2类的有56;第3类的有7;第4类的有23;第5类的有1。即:若将指标分为5类，则指标1、4、7各为一类，指标2、3为一类，指标4、5为一类。

4Q型聚类分析

4.1选取5个指标的分类从R型聚类分析分出的5类指标中各选一个，即选取5个指标体系，对33个参赛地区进行聚类分析。首先对变量数据进行标准化处理，采用欧氏距离度量样本间相似性，选用类平均法计算类间距离。在MATLAB命令窗口输入下列程序:＞＞symsxy;＞＞x=xlsread(’shuju．xls’);%将上表中的数据保存到MATLAB中WORK文件夹excel文件shu-ju．xls中，并将其赋于x＞＞x(:，［3，5］)=［］;%删除数据矩阵的3，5两列，即使用变量1，2，4，6，7＞＞x=zscore(x);%将数据标准化＞＞s=pdist(x);%每一行是一个对象，求对象间的欧式距离＞＞z=linkage(s，’average’);%按类平均法聚类＞＞h=dendrogram(z);%画聚类图(如图2所示)＞＞T=cluster(z，’maxclust’，3);%把样本点划分成3类＞＞fori=1:3;tm=find(T==i);%求i类的对象tm=reshape(tm，1，length(tm));%变成行向量＞＞fprintf(’第%d类的有%s\n’，i，int2str(tm));%现实分类结果＞＞end程序输出:第1类的有11318第2类的有2345678910111216171920212224252627282930313233第3类的有141523即:第一类:北京，福建，湖南;第三类:江西，山东，四川;第二类:其它地区。

4.2选取7个指标的分类考虑到指标2与指标3，指标5与指标6具有一定的独立性，若七个指标体系全部取用，将33个地区分为4类，程序输入如下:＞＞symsxy;＞＞x=xlsread(’shuju．xls’);＞＞s=pdist(x);＞＞z=linkage(s，’average’);＞＞h=dendrogram(z);%画聚类图(如图3所示)＞＞T=cluster(z，’maxclust’，4);＞＞fori=1:4tm=find(T==i);tm=reshape(tm，1，length(tm));＞＞fprintf(’第%d类的有%s\n’，i，int2str(tm));＞＞end程序输出:第1类的有116第2类的有6710151927第3类的有23489111213141718202223242528第4类的有521262930313233即:第一类:北京，河南;第二类:辽宁，吉林，江苏，山东，广东，陕西;第四类:内蒙古，海南，，青海，宁夏，新疆，香港，澳门。4.3选取本科层次指标的分类只考虑本科层次取得的成绩，即选用指标1，2，3，对33个参赛地区进行聚类分析，从而明确掌握其本科阶段的差异，则有:输入程序:＞＞symsxy;＞＞x=xlsread(’shuju．xls’);＞＞x(:，［4，5，6，7］)=［］;＞＞x=zscore(x);＞＞s=pdist(x);＞＞z=linkage(s，’average’);＞＞h=dendrogram(z);%画聚类图(如图4所示)＞＞T=cluster(z，’maxclust’，3);＞＞fori=1:3;tm=find(T==i);tm=reshape(tm，1，length(tm));＞＞fprintf(’第%d类的有%s\n’，i，int2str(tm));＞＞end程序输出:第1类的有11318第2类的有101115161719222327第3类的有2345678912142021242526282930313233即:第一类:北京，福建，湖南;第二类:江苏，浙江，山东，河南，湖北，广东，重庆，四川，陕西;第三类:其它地区。4.4选取专科层次指标的分类只考虑专科层次取得的成绩，即选用指标4，5，6，对33个参赛地区进行聚类分析，从而明确掌握其专科阶段的差异，则有:输入程序:＞＞symsxy;＞＞x=xlsread(’shuju．xls’);＞＞x(:，［1:3，7］)=［］;＞＞x=zscore(x);＞＞s=pdist(x);＞＞z=linkage(s，’average’);%画聚类图(如图5所示)＞＞h=dendrogram(z);＞＞T=cluster(z，’maxclust'，4);＞＞fori=1:4;tm=find(T==i);tm=reshape(tm，1，length(tm));＞＞fprintf(’第%d类的有%s\n’，i，int2str(tm));＞＞end程序输出:第1类的有14第2类的有1523第3类的有41927第4类的有1235678910111213161718202122242526282930313233即:第一类:江西;第二类:山东，四川;第三类:山西，广东，陕西;第四类:其余各地区。

5结束语

聚类分析论文篇4

[关键词]学术期刊　评价指标分类因子分析　聚类分析

[分类号]G304

1　引言

学术期刊是国家科技发展水平的重要窗口，是知识创新、科技成果转化为生产力的重要桥梁，在推动社会科技进步方面发挥着不可替代的作用。期刊评价是文献计量学研究的重要组成部分，它通过对学术期刊的发展规律和增长趋势进行量化分析，揭示学科文献数量在期刊中的分布规律，为优化学术期刊的使用提供重要参考，同时可以提高学术期刊的内在质量，促进学术期刊的健康成长和发展。对期刊评价指标进行分类是期刊评价的基础和前提，目前期刊评价方法有几十种，有些评价方法不需要对期刊评价指标进行分类，如主成分分析、灰色关联、TOPSIS等方法，但是有些评价方法必须建立在期刊评价指标分类的基础上，包括层次分析法、专家打分法、突变理论等。层次分析法是根据子指标对父指标的重要性程度进行两两判断，指标分类尤为重要。专家打分赋权类评价方法是在指标众多的情况下进行的，更需要分类。

Weiping Yue、Concepcion s.Wilson(2004)利用结构方程的原理建立了一个期刊影响力的分析框架，并对期刊评价指标进行了系统的分类。苏新宁(2008)在构建人文社会科学期刊评价指标体系时，将一级指标分为期刊学术含量(篇均引文、基金论文比、机构标注、地区分布数)、被引数量(总被引频次、学科论文引用数量、他引率)、被引速率(总被引速率、学科引用速率、它刊引用速率)、影响因子(总影响因子、学科影响因子、他引影响因子)、被引广度等。盖红波(2006)将期刊评价指标分为定量评价指标(被引量、被索量、载文量、被摘量、影响因子)、定性评价指标(双高、双效、双奖、双百)、质量考核指标(政治、学术、编辑出版、效益)、同行评议指标。赵惠祥、张弘等(2008)将科技期刊评价一级指标分为影响力指标(总被引频次、影响因子、5年影响因子、相对影响因子、即年指标、他引率、引用刊数、扩散因子、学科影响指标、学科扩散指标、被引半衰期、h指数)、文献指标(载文量、参考文献量、平均引文量、平均作者数、地区分布数、机构分布数、基金论文比、海外论文比等)、载体指标(文献书目信息完整率、编排规范化、差错率、装帧质量、印刷质量、网络通畅率、平均发表周期、平均出版时限等)、管理指标(期刊社体制、编委会状况、管理规章完备性、版权制度、发行体制、信息平台、人员状况、营业总额、资产总额、利润总额)。邱均平、张荣等(2004)将期刊评价指标分为技术性指标(影响因子、总被引频次、即年指标)、效益指标(直接效益、间接效益、社会效益)、标准规范化指标(编校质量、装印质量、现代化建设)。黄河胜(2000)将期刊内涵指标分为引文参数(影响因子、总被引频次、自引率、被引半衰期、外文引文率、SCI文献引用率)、稿件特征参数(基金论文比、学位稿)、稿流特征参数(平均时滞量、平均载文量)。潘云涛(2007)”将期刊一级指标分为学术质量指标、国际竞争力力指标、可持续发展潜力指标。庞景安、张玉华等(2000)将科技期刊评价指标分为经营管理水平指标、学术水平、编辑水平三大类。

由于评价目的不同，期刊评价的指标选取不同，当然分类也不一样。对于大多数评价指标而言，不同学者的分类基本相同，但由于学术期刊评价指标的特点，对于少数指标，不同学者分类截然不同，如基金论文比指标有的作为学术质量指标，而有的作为文献特征指标；即年指标有的被作为时效性指标，有的被作为影响力指标。这些难以分类的指标主要有基金论文比、地区分布数、海外论文比、即年指标等。此外，目前学者主要采用主观分类法进行分类，没有采用客观分类法。

本文以中国科学技术信息研究所的医学期刊评价为例，采用聚类分析与因子分析等客观分类法进行分类和比较，试图确定学术期刊评价指标的分类方法，从而为进一步的期刊评价打下基础。

2　方法

2.1 聚类分析(Cluster Analysis)

聚类分析是多元统计分析的一种，它把一个没有类别标记的样本集按某种标准分成若干个子集(类)，使相似的样本尽可能归为一类，而不相似的样本尽量划分到不同的类中。聚类分析被广泛地应用于模式识别、数据挖掘和知识发现的许多领域。聚类的目的是要使各类之间的距离尽可能地远，而类中点的距离尽可能地近。并且分类结果还要有令人信服的解释。在聚类分析中，人们一般事先并不知道应该分成几类及哪几类，全根据数据确定。

对一组数据，既可以对变量(指标)进行分类，也可以对观测值(事件，样品)来分类，对变量的聚类称为R型聚类，而对观测值聚类称为Q型聚类，它们在数学上是无区别的。在学术期刊评价中，可以应用R型聚类分析来进行学术期刊评价指标的分类。

2.2 因子分析(Factor Analysis)

因子分析是从多个变量指标中选择出少数几个综合变量指标的一种降维的多元统计方法。该方法的基本思想是通过变量的相关系数矩阵或协方差矩阵内部结构的研究，找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系。然后根据相关性大小把变量分组，使得同组内的变量之间相关性较高，不同组的变量之间相关性较低。每组变量代表一个基本结构，这个基本结构称为公共因子。对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。

建立因子分析模型的目的是找出主因子，解释每个主因子的实际意义，以便对实际问题进行分析。由因子模型矩阵得到的初始因子载荷矩阵，如果因子负荷的大小相差不大，对因子的解释可能有困难，因此，为得出较明确的分析结果，往往要对因子载荷矩阵进行正交旋转或斜交旋转。通过旋转坐标轴，使每个因子负荷在新的坐标系中能按列向0或1两极分化，同时也包含按行向两极分化。如果不对因子载荷矩阵进行旋转，就是主成分分析，因此，主成分分析实际上是因子分析的一种特殊情况。主成分分析只要求所提取出的主成分能包含主要信息即可，不需对其含义作准确解释；因子分析要求所提取出的因子有实际含义，因此采用因子分析进行变量的分类较好。

因子分析是根据现有的指标寻找公共因子，因此，可以借用因子分析进行指标的分类，与主观分类不同的是，由于因子分析是完全根据数据进行的客观分析，

因此不能首先确定一级指标的名称，而应该根据因子分析的结果对公共因子进行命名。

3　数据

本文数据来自于中国科学技术信息研究所CSTPC数据库，以医学类期刊为例进行分析。中国科学技术信息研究所从1987年开始对中国科技人员在国内外数量和被引情况进行统计分析，并利用统计数据建立了中国科技论文与引文数据库，同时出版《中国学术期刊引证报告》。本文数据是2006年的医学学术期刊数据，共518种医学期刊，如表1所示：

由于要对期刊进行评价，所以必须对数据进行标准化处理，每项指标最大值设为100，然后按比例进行调整。此外，被引半衰期和引用半衰期是两个反向指标，必须进行适当处理，方法是用100减去其标准化后的结果后再做标准化，这种处理方式是线性处理方式，比反向指标取倒数的非线性处理方式要科学一些。

4　指标分类结果

4.1　聚类分析

采用层次(hierarchical method)R聚类，第一步把最近的两个指标合并成一类；度量剩余的指标和小类间的亲疏程度，并将当前最接近的指标或小类再聚成一类；再度量剩余的指标和小类间的亲疏程度，并将当前最接近的指标或小类再聚成一类，如此循环，每次都少一类，直到最后只有一大类为止。越是后来合并的类，距离就越远。采用SPSS 15.0进行数据处理，选择组内联系最大法(within-groups linkage)，结果见图1。总被引频次(x1)与学科扩散因子(X5)被划为一类，都是期刊影响力的指标；影响因子(x7)与即年指标(X8)被划为一类，还是期刊影响力的指标。在此基础上将以上4个指标划为一类，是可以解释的。然后以此为基础，依次增加平均引文数(X11)、海外论文比(X14)、基金论文比(X9)、学科影响指标(X4)，关联性相对较弱，如平均引文数与期刊的影响力关系并不是很大，海外论文比和基金论文比与期刊影响力有一定关系，但基于聚类分析的角度，似乎又比较远。

平均作者数(10)和引用半衰期(12)被分为一类，几乎无法从理论上找到这种关系，在此基础上又和扩散因子()(3)聚类，更是无法解释。

被引半衰期(x6)和地区分布数(X13)被分为一类，从理论上也无法解释，在此基础上和他引率(x2)聚类，也无法解释。

由于期刊评价指标的特殊性，如果采用聚类分析对指标进行分类，结果可能是不能令人信服的，本文是基于大量数据分析得出的结论，应该是比较可靠的。

4.2　因子分析分类

同样采用SPSS 15.0进行因子分析，首先进行KMO与Bartlett检验。KMO是对样本充分度进行检验的指标，一般要大于0.5。本文采用SPSS进行数据处理，KMO值为0.680，也就是说，符合因子分析的条件；Bartlett值为3319.828，P

第一因子是总被引频次(x1)、学科影响指标(x4)、学科扩散因子(x5)、影响因子(x7)、地区分布数(X13)，前4个指标都是与被引相关的指标，可以用影响力加以概括，地区分布数也是影响力的一种体现，影响力越大，论文地区分布越广。

第二因子包括基金论文比(X9)、平均作者数(XIO)、平均引文数(X11)、海外论文比(X14)、即年指标(x8)、前4个指标都是期刊特征指标，即年指标比较特殊，在第一因子中的系数为0.34，说明它也是影响力指标；在第四因子中的系数为0.424，第四因子包括引用半衰期和被引半衰期，也与引用相关，但第二因子系数最大，为0.531，所以认为其是期刊特征指标。

第三因子包括他引率(x2)和扩散因子(x3)，也与被引相关，是影响力的体现，因此可以将第三因子和第一因子合并。

第四因子包括被引半衰期(x6)和引用半衰期(X12)，它其实主要反映的是期刊的时效性情况，因为引用半衰期较短的论文，一般比较新，其参考文献也相对较新

因此，根据以上分析，可以将学术期刊指标分类如下：①影响力指标：总被引频次(x1)、他引率(x2)、扩散因子(x3)、学科影响指标(X4)、学科扩散因子(x5)、影响因子(x7)、地区分布数(X13)；②期刊特征指标：即年指标(x8)、基金论文比(x9)、平均作者数(XIO)、平均引文数(x11)、海外论文比(X14)；③时效性指怀：被引半哀期(x6)和引用半衰期(X12)。

聚类分析论文篇5

【关键词】山西省物流聚类分析

一、导论及相关文献综述

经济全球化催生了许多新事物的出现和繁荣，加强了世界上不同国家及地区之间的经济往来和专业化分工，一件商品从设计、生产到最后的销售，有可能都会在不同的国家和地区，同时生产所需的原材料也往往是集中在某一地区，因此生产要素和商品都需要在不同的地区进行自由流通，在这种大背景下，物流越来越深入到生产的各个环节中，他已经成为经济运行的一个重要环节，其发展的进度已经是一个衡量国家综合国力和现代化的一个标志，有学者将物流誉为是企业的“第三利润源”。中国的物流行业起步较晚，但随着中国经济的不断发展，我国的物流行业保持着高速的增长，物流业的运行也日益规范与成熟，相关的物流体系不断完善。在《中共中央关于制定“十二五”规划的建议》的主要内容中，有一部分是要大力发展服务业，让服务业的发展成为我国目前产业结构优化战略的重中之重。然而，现代物流业作为我国国民经济的加速器，必将引来全新的发展机会。

季模模（2010）在硕士论文中运用主成分分析和聚类分析法，从物流规模、效益、结构、需求、环境五个方面对浙江省的物流竞争力做出了综合评价和分析。孙祖斌（2010）采用的研究方法是波特五力模型，他通过定性分析，提出生产要素，需求条件，相关支持性产业，企业战略和市场竞争影响是影响快递业发展的四个比较重要的方面，本文在构建指标体系中考虑到了需求条件和相关支持性产业。徐晓妹（2010）在硕士论文中运用主成分分析和聚类分析方法，从经济发展水平、市场供需状况、交通支撑条件和其他支撑条件四个方面对安徽省各城市的物流竞争力做出了综合评价。朱中华（2010）在自己的硕士论文中，对江西省内11个城市的物流发展水平进行了主成分聚类分析。研究方式选择了定性与定量相结合，使用组合预测的方法，对江西省11个城市的物流需求量进行了预测。

二、聚类分析基本思想及计算步骤

古语说的好“物以类聚，人以群分”。分类问题在科学研究中是最常见的。聚类分析就是研究分类问题的一种多元统计方法，聚类分析的目的是把相似的或相近的对象量化归并成类，通常分为Q型聚类和R型聚类。其中对样本进行分类处理的是Q型聚类，对变量进行分类处理的是R型聚类，文中选用的是Q型聚类。

系统聚类分析的基本思想是：根据一定的方法计算样本之间的距离，然后先把彼此之间离得较近的样本归为一类，把离得较远的样本后聚成类，反复进行此过程，最后将每一个样本都归到合适的类别中。

系统聚类过程是：假设总共有n个样品，

⑴将我们所选取的样本单个聚成一类，这样下来，一共聚成n类；

⑵根据距离公式计算每一个样本彼此之间的距离值，将距离较近的两个样本聚成一类，其他的分类不变，共聚成n-1类；

⑶再继续将距离相近的两类聚成一类，共聚成n-2类；

不断的进行此过程，直到将所有的样品聚成一类，这一聚类过程可以用树形图来形象的表示出来。

三、聚类分析及结论

对山西省各个地区的物流发展水平梳理和分析，可以用所选取的11个指标进行聚类，这样一来变量比较多，计算过程烦复并且出错率高，本文在前面通过主成分分析，已经得出了2个能够反映原始变量绝大多数信息的综合主成分指标，并且彼此之间互不相关，所以本文直接采用了这2个主成分指标，用系统聚类分析对山西省各个地区的物流水平进行了分析，得到树形图4-2，这样可以大大简化研究过程。

聚类分析论文篇6

关键词：区域创新能力；聚类分析；主成分分析；面板数据；层级划分

基金项目：国家社会科学基金项目（11BTJ001）；国家自然科学基金青年项目（710201139）；全国统计科学研究计划重大项目（2012LD001）。

作者简介：王德青（1983-），男，山东青岛人，博士，主要从事统计理论与方法，数据挖掘研究；朱建平（1962-），男，河南浚县人，教授，博士生导师，主要从事数理统计与数据挖掘研究。

中图分类号：F061.5；C81文献标识码：A文章编号：1006-1096（2014）01-0008-06收稿日期：2013-01-15

一、问题的提出

随着世界经济全球化的不断发展和科技进步的日新月异，区域创新能力已成为区域综合竞争力的主要标志和提升地区经济国际竞争力的必然途径。与发达国家创新协调发展的格局相比，我国的创新能力存在悬殊的不平衡区域化特征。技术创新是政府、企业、科研机构等多主体参与、多要素互动的复杂系统工程。作为国家创新系统的子系统之一，区域创新的运行状态和对经济的驱动机制直接影响到国家创新总系统的质量和效率。有鉴于此，如何审视区域之间技术创新能力的不平衡发展状态？如何深层次剖析导致创新差异的原因？如何制定针对性的创新激励政策以缩小区域之间创新的巨大差异？这些问题的回答，对于促进区域之间、国家创新子系统之间的协调发展具有重要的理论价值和现实意义。

针对区域创新能力的评价与分析，国内外学者和机构做了诸多有益的探讨。Freeman（1987）、梁小珍等（2011）理论层面构建了创新的评价指标体系，并采用熵权法、灰色关联度法、主成分分析法对比分析了区域经济发展与自主创新能力之间的协同机制；柳卸林等（2002）、周立等（2006）基于《中国区域创新能力报告》的数据，集成因子分析与聚类分析定量评估了31个省级区域的创新能力地区差异；魏守华等（2010）、王锐淇等（2012）沿袭我国按东中西三大地带的划分习惯，基于省级面板数据实证检验了创新能力地区差异扩大化的影响因素。综观近年来关于区域创新能力的研究成果，存在一些明显的共有缺陷，主要表现在：（1）宏观理论层面的研究结论难以满足地区差异化的要求；（2）现有方法论框架下的创新能力层级划分研究，直接套用现成模型进行静态排序和定性评价则缺乏系统的动态作用机制研究，对创新能力区域性差异形成原因挖掘的不够；（3）不加验证地沿袭东中西三大地带的划分习惯，忽略了创新过程的相对特殊性和空间依赖性，依此制定的政策建议缺乏针对性。

为了对中国的创新能力科学划分以深层次挖掘区域之间创新能力的有机联系，本文在综合剖析现有层级划分方法优点与不足的基础上，融合多种经典统计分类模型的优点，提出创新能力静态层级划分的加权主成分聚类模型，拓展用于创新能力动态层级划分的面板聚类模型，并从理论上论证上述两模型的合理性和有效性。最后，应用拓展的聚类模型对中国省际创新能力进行静态与动态层级划分，对比分类结果的差异，依据实证结论给出提升区域创新能力的初步政策建议。

二、模型拓展与研究框架

创新水平的科学划分是挖掘创新能力区域差异的关键环节，也是制定针对性创新战略的先决条件。现有的东中西部划分，一是缺乏科学的定量分析基础，二是存在同类地区内部创新能力差异较大的问题。如果就每个省（区）市分别进行研究，结果只能反映单个省（区）市的个例特征，难以从总体上把握区域之间创新发展的不平衡分布状态，同时也忽略了相关省（区）市之间创新能力的有机联系。尽管也有一些关于我国创新能力定量层级划分的研究成果，但多是对现成统计分类模型的直接应用，或是机械地集成不同种统计分类方法，其合理性和有效性缺乏理论论证。因此，本文首先在梳理现有层级划分方法优点与不足的基础上进行模型拓展。

（一）加权主成分聚类模型

其中：q为距离参数，要求dij（q）满足正定性、对称性和三角不等式（张尧庭等，2006）。样本之间的亲疏关系不仅取决于聚类统计量中指标之间的远近程度，还依赖于指标间重要性的内在差异。不难发现，（1）式定义的相似性统计量要求指标之间相互独立，并且指标的重要程度相同。然而，系统层次结构的指标体系中各指标重要性相差悬殊，指标之间也不可避免地重叠信息。如果忽略上述两个问题直接聚类，（1）式定义的距离将同类指标重复计算，过于放大共线性指标的作用而淹没独立性指标的贡献。为了避免上述问题，通常是定性分析指标之间的关系，力图在指标筛选过程中达到增加指标独立性的目的，同时通过专家打分赋予不同指标相应的权重以体现指标重要性的差异。显然，定性地筛选指标和主观赋权需要对数据的实际意义有深入的了解，并且要求分析者具有相关的领域知识，这在实际应用中难以保证。由于主成分分析能在基本不损失原始指标信息的基础上，提取出彼此信息不重叠的主成分，因此可以先对原始指标体系进行主成分分析，然后将主成分代替原始指标进行聚类（柳卸林等，2002；周立等，2006）。需要注意的是，主成分聚类克服了传统聚类分析不能处理指标高度共线性的缺点，但是当各主成分的方差贡献率相差悬殊时，忽略不同主成分重要程度（方差贡献率）的差异，则必然会影响主成分聚类分析的准确性（王德青等，2012）。

指标之间的高度共线性和重要性的客观差异是限制经典聚类模型广泛应用的两个方面，对经典聚类模型的改进必须综合考虑以上两个缺点。本文定义加权主成分距离为聚类统计量对主成分聚类分析聚类模型进一步拓展。

（二）面板数据动态聚类模型

面板数据兼具空间和时间两个维度，横截面上是由若干个体在某一时刻的静态截面数据，纵剖面上是多个指标时间序列的动态数据。传统的聚类分析多是基于固定时期的截面数据，不能满足面板数据时序动态分类问题的需要。针对如何对面板数据进行聚类分析，国内外学者做了诸多探索（朱建平等，2013）。综合来看，现有面板数据聚类分析文献多是直接从面板数据指标值出发，探讨优化的聚类算法（Bonzo et al，2002），或是在相似性的测度中未考察面板数据的动态数字特征（郑兵云，2008；肖泽磊等，2009），或是只能处理单指标面板数据的聚类问题（朱建平等，2007），或是相似性的定义存在主观随意性（李因果等，2010），实际上并未达到面板数据有效聚类的目的。

（三）研究框架

目前尚未建立统一的区域创新分析框架，理论基础和研究视角的不同对创新指标体系构建和创新水平层级划分具有重要的参考价值，在不产生实质性影响的前提下，本文以中国科技发展战略研究小组公布的《中国区域创新能力报告》（下文称《报告》）为理论研究和实证分析的基础。该《报告》将创新界定为将知识转化为新产品、新工艺和新服务的过程，在参考美国《创新指标》、瑞士《国际竞争力报告》以及世界经济论坛《全球竞争力报告》基础上，从知识创造、知识获取、企业创新、创新环境和创新绩效5个方面表征地区的整体创新能力。

需要说明的是，不同于《报告》中专家打分人为设定权重的主观评价和定性分类方法，本文仅以《报告》的创新综合数据为研究支撑平台，应用加权主成分聚类模型对区域创新能力进行静态层级划分，应用拓展的面板聚类模型对区域创新能力进行动态层级划分。选择上述层级划分模型主要基于以下考虑：（1）衡量区域创新能力的指标共100余项，指标之间重要性相差悬殊且不可避免地重叠信息，经典聚类模型处理上述分类问题失效；（2）创新是动态的发展过程，面板聚类模型综合考虑数据截面的静态特征和时序的动态特征，层级划分更全面细致。最后，对分类结果的显著性进行统计检验，对比分析不同地区创新发展模式的差异，并依据实证结论为进一步提升区域能力提供针对性的政策建议。

三、实证结果与分析

（一）数据来源及预处理

本文采用的数据为31个省（区）市2002年～2011年的相关数据，原始数据来自相关年份的《中国统计年鉴》、《中国科技统计年鉴》和地方统计年鉴，部分数据由国家科技部政策法规司和研究中心政策部的官方资料换算求得。由于上述指标数据均已统计在2002年～2011年的《中国区域创新能力报告》中，本文直接调用上述原始数据。依据表1中数据资料主成分分析的适用性检验结果可知，10年截面数据的KMO值均大于0.7，Bartlett球形检验统计量对应的P值均小于0.05，说明创新指标体系之间存有高度的信息重叠，满足主成分因子分析的前提条件。表2报告了主成分分析及距离权重的计算结果，由表2可知，各截面数据的前两个主成分累计方差贡献均超过85%，已能够代表原始数据的核心信息，故为简化数据结构，下文提取前两个主成分因子展开计算与分析。依据表3的方差分析值及公式（7），计算“绝对量”距离和“增长速度”距离的权重分别为0.553和0.447，以式（2）、式（7）为相似性测度便可有效地对创新能力进行静态与动态层级划分。

（二）层级划分结果的对比分析

理论上和实践中的最佳聚类数目没有明确定论（张尧庭等，2006；李因果等，2010），借鉴《报告》和现有研究文献（周立等，2006；毕亮亮等，2008）将31个省（区）市的创新能力划分为5类的思路，本文选取q=2的欧氏距离为相似性测度，采用离差平方和法（Ward）将静态截面和动态面板的31个省（区）市统一聚为5类，结果如表4所示。

由于没有预先定义的类别标准来表明数据集中哪种期望关系是有效的，聚类模型的分类质量必须要经过定量分析的统计检验。显然，如果模型分类效果显著，则同一类内样本之间的指标离差较小，而类与类之间样本的指标离差较大。考虑到面板数据受截面和时序两个维度因素的影响，其聚类结果的稳定性波动更大，本文以面板数据的聚类结果为方差分析基准，以10年的各项指标均值为分析对象，结果如表5所示。

表5的结果显示，在0.01的显著性水平下，5类省（区）市之间创新指标的差异显著，说明本文拓展的面板聚类模型切实有效，依此所做的结论建议更客观可信。对比表4中静态与动态的层级划分结果可以发现，除了江苏、广东和北京的类属结果始终保持一致外，其他省（区）市的所属类别10年中相差较大。出现上述情况的原因在于：江苏、广东和北京三省市不仅初始的创新水平领先于其他省（区）市，而且后期的科技创新投入也远远高于其他省（区）市（中国科技发展研究战略小组，2002年～2011）。初始的“绝对量”领先和后期“相对量”投入的优势使得上述三省市的创新水平始终遥遥领先，与其他省（区）市创新水平的类别界限明显。反观其他28个省（区）市的初始创新水平和后期的创新投入并无明显的规律，表现在静态截面聚类结果的类别差距大，所属类别稳定性差。综合考虑静态截面和动态面板的聚类结果可以发现，我国的区域创新能力大致呈现长江三角洲、珠江三角洲和京津地区极化竞争的格局，表明创新能力与经济发展存在显著的正向反馈机制。

表4区域创新能力静态与动态层级划分结果

四、结论与建议

本文的研究结果验证了我国省域创新能力的不平衡性。尽管集群创新的区域多元化竞争格局已基本形成，但创新能力东强西弱的阶梯分布格局仍存在。由此得到的政策建议为：进一步增强我国整体的创新能力，必须分集团而不是整齐划一的制定和实施创新政策。一方面，采取适宜措施强化创新能力较强的领先型区域，把提高原始性创新能力和培育战略性新兴产业作为创新建设的重点，鼓励市场化的高新技术企业参与全球的创新竞争；另一方面适度加大创新能力相对较弱地区的科技教育投资，有效整合内外科技资源，加强技术创新的外溢扩散效应，构建功能定位明确、优势互补的集成创新体系。需要强调的是，由于第一主成分的方差贡献最大，体现了创新能力水平的主要方面，在条件受限的情况下，落后区域应该集中精力优先发展第一主成分的影响因素方面，从而带动其它方面的发展，这也是抓住了工作的重心。

参考文献：

毕亮亮，施祖麟.2008.长三角城市科技创新能力评价及“区域科技创新圈”的构建[J].经济地理（6）：946-951.

李因果，何晓群.2010，面板数据聚类方法及应用[J].统计研究（9）：73一78.

梁小珍.2011.基于城市金融竞争力评价的我国多层次金融中心体系[J].系统工程理论与实践（10）：1847-1857.

柳卸林，胡志坚.2002.中国区域创新能力的分布与成因[J].科学学研究（5）：550-556.

王德青，朱建平，谢邦昌.2012.主成分聚类分析有效性的思考[J].统计研究（11）： 84-87

王锐淇.2012.我国区域技术创新能力空间相关性及扩散效应实证分析――基于1997-2008空间面板数据[J]. 系统工程理论实践（11）： 2419-2432.

魏守华，吴贵生，吕新雷. 2010. 区域创新能力的影响因素[J].中国软科学（9）：76-85.

肖泽磊，李帮义，刘思峰.2009.基于多维面板数据的聚类方法探析及实证研究[J].数理统计与管理（5）：831-838.

杨屹，薛惠娟. 2010. 产业技术自主创新能力的区域差异性研究[J].中国工业经济（11）：68-76.

张尧庭，方开泰.2006. 多元统计分析引论[M].北京：科学出版社.

郑兵云. 2008，多指标面板数据的聚类分析及其应用[J].数理统计与管理（3）：265-270.

周立，吴玉明.2006.中国区域创新能力：因素分析与聚类研究-兼论区域创新能力综合评价的因素分析替代方法[J].中国软科学（8）：96-103.

朱建平，陈民恳. 2007，面板数据的聚类分析及其应用[J].统计研究（4）：11-14.

朱建平，王德青，方匡南.2013.中国区域创新能力静态分析――基于自适应赋权主成分聚类模型[J].数理统计与管理（5）：761-768.

BONZO D.C， HERMOSILLA A.Y.2002. Clustering panel data via perturbed adaptive simulated annealing and genetic algorithms [J]. Advances in Complex Systems 5（4）：339-360.

聚类分析论文篇7

关键词：通话行为；数据挖掘；模糊聚类；模糊C均值（FCM）聚类

中图分类号：TP301文献标识码：A文章编号：1009-3044(2008)14-20926-03

1 引言

近年来电信事业蓬勃发展，随着市场竞争的充分展开和电信资费的不断下降，对于客户的消费行为分析显得越来越重要。对用户呼叫行为进行有效分析和辨识，是对客户分群及市场细分的必要手段。本研究希望能应用模糊数学理论和数据挖掘领域中的聚类技术，对客户呼叫行为进行分析，为电信市场细分和营销策略计划的制订提供有效工具。

要分析电信用户的呼叫行为，需要从用户通话记录中找出使用电话多和少，或是电信消费高和低的用户分群。本研究采用模糊集理论[4]作为技术基础，只关心如何能够从用户的通话记录中剖析出有意义的信息，尚有其他许多种分类方法不在我们讨论范围之内。某些通话行为特别怪异的电信用户，需要在后续研究中加以调整改进其分类。

2 相关研究

在本章节中，我们将针对本论文研究范围的相关领域进行探讨，第一部分为聚类技术介绍；第二部分为本文采用的模糊C均值（FCM）聚类算法的原理介绍。

2.1 模糊聚类技术（Fuzzy Clustering）

2.1.1 聚类分析的基本概念

聚类就是将数据对象分组成多个类或簇，使得在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大[1] 。聚类与分类不同，前者是一种无指导的学习，而后者是一种有指导的学习。在分类时对于目标数据中存在哪些类，事先已知，只需将每个数据点属于哪一个类识别出来；而聚类事先未知有多少类，以某种度量为标准，将具有相似特征的数据对象划分为一类，同时分离具有不同特征的数据对象。聚类需要考察所有的个体才能决定类的划分，并由算法自动确定。

大多数对象没有严格的属性，他们在性态和类属方面存在着中介性，具有亦此亦彼的性质，因此适合进行软化分。模糊集理论的提出为这种软划分提供了有力的分析工具，即模糊聚类分析。

2.1.2 聚类分析的分类

从实现方法上分，模糊聚类分析方法可大致分为四种类型：谱系聚类法、基于等价关系的聚类方法、图论聚类法和基于目标函数的聚类方法等。前三种方法不适用于大数据量的情况，难以满足实时性要求较高的场合，因此在实际中应用并不广泛。受到普遍欢迎的是第四种方法――基于目标函数的聚类方法，该方法把聚类分析归结成一个带约束的非线性规划问题，通过优化求解获得数据集的最有模糊划分和聚类。设计简单、解决问题的范围广，还可以转化为优化问题而借助经典数学的非线性规划理论求解，易于计算机实现。因此，基于目标函数的模糊聚类算法成为新的研究热点。

2.2 模糊C均值（Fuzzy C-Means,FCM）聚类算法

模糊C均值（FCM）聚类算法首先由Dunn于1974年提出，并由Bezdek于1981年改进。这种算法能自动对数据对象进行分类并求出聚类中心和每个数据点的隶属度，使得非相似性指标的目标函数达到最小，从而决定每个数据点的归属。

初始化：给定聚类类别数c，2≤c≤n，n是数据个数，设定迭代停止阈值ε，指定加权指数m；用值在[0,1]区间的随机数初始化隶属矩阵U，使其满足约束条件式(1)；

步骤一：计算c个聚类中心ci，i=1,…,c；

步骤二：计算目标函数式(2)。如果J小于ε，或相对于上一次J值的改变量小于ε，则停止；

步骤三：重新计算隶属矩阵U，返回步骤一。

整个计算过程就是反复修改聚类中心和分类矩阵的过程。该算法的收敛性已经得以证明[3]：FCM算法能从任意给定初始点开始沿一个迭代子序列收敛到其目标函数Jm(U,P)的局部极小点或鞍点。

2.2.2 聚类有效性控制

利用Matlab 2006a提供的模糊逻辑工具箱（Fuzzy Logic Toolbox）中的fcm函数对通话记录进行聚类，只需要输入一个初始变量，即分类数c，就可以很快得出结果。但是，关于初始变量c的给定，不同的c值，会产生不同的聚类结果；即使是同一c值，有时也会产生不同聚类结果。这是由于算法结果一般地依赖于初始值，而初始值的给定在计算过程中是随机的，有时候会不可避免地陷入局部最优而非达到全局最优，关于这方面的研究，可以参考文献[2]。聚类有效性问题一般通过建立有效性函数来解决。这种函数用于衡量聚类的紧密度和分离度，以此来判定聚类的有效性。

其中，n为样本数，中的下标表示FCM算法中的加权指数为2，dij表示样本i与第j类聚类中心的距离。XIE-BENI指标可以解释为(U,V)的总方差与V的分离性指标的比值。分类效果好时，各类中心间的距离应该最大，即分离性指标比较大。由此当对应最佳类数n*时，应该最小。

根据函数确定最佳类数n*的步骤如下：

(1) 给定c的范围是。这是根据很多研究者的使用经验和一些理论依据给出的；

(2) 计算当2≤c≤时每个整数c所对应的V值；

(3) 比较各V的值，取V最小时所对应的c值即为所求。

3 研究设计

3.1 分析数据构成

对电信用户通话行为进行分析，可以利用大量的通话清单记录经过整理出分析特征维度，采用FCM聚类进行分析。分析特征的选择确定工作可以由专家凭经验完成，也可以由散布矩阵迹、J-M(Jeffries-Matusita)距离和变换散度等参量为类别可分性准则的最佳特征子集的选取方法[2]。一般情况下特征数目多了会产生维数灾难，但太少的特征将反映不出分析模式的总体信息。为便于实施，本研究采用专家选定的方式确定分析特征。

本文采用的聚类数据是随机选择了某地电信2006年6月至8月三个月共120个电话的通话特征数据，考虑到客户的隐私权，将客户的姓名及电话号码略去，赋以识别号ID代之。

这是一个六维的高维度数据空间（客户识别号ID非分析特征，不列为分析维度），特征属性分别为长途呼叫总次数、长途呼叫不同被叫号码个数、长途平均单次呼叫时长、市话呼叫总次数、市话被叫次数以及市话被叫不同主叫号码数，如表1所示：

3.2 程序及结果

本文使用Matlab 2006a版中的矩阵运算判定聚类有效性，并用FCM函数对以上数据进行聚类，部分源代码如下：

load analysisdata.dat

[center,U,obj_fcn] = fcm(analysisdata,4);

maxU = max(U);

index1 = find(U(1,:)==maxU);

……

line(analysisdata(index1, 1), analysisdata(index1, 2), 'linestyle','none','marker', 'o','color','g');

……

plot(center(1,1),center(1,2),'ko','markersize',15,'LineWidth',2)

plot(center(2,1),center(2,2),'kx','markersize',15,'LineWidth',2)

……

运算后得到以下结果：

对聚类有效性函数式(3)，确定类数c。

一般地，取m=2，分母权值均为1，当类数2≤c≤10时，有效性函数V取得如下结果：c=4，V=3765.7414。

可以确定，当c=4时V取得最小值，因此可分为4类，聚类中心矩阵为：

聚类结果投影在维度“市话呼叫总次数”、“市话被叫总次数”上的示意图如图1。

聚类中心点在各维的取值表征了该类的特征，因此客户分类如表2所示。

3.3 简单的模式识别

聚类完成后，可以用以下方法进行模式识别验证：

(1) 按与中心距离的识别

算出聚类中心center后，新样本可根据距离判定属于哪一类，对于一个新样本xk，如果，则xk属于cj类。

(2) 按最大隶属度原则来识别

如果，则xk属于cj类。

由前面程序输出可以得到隶属度矩阵U，U为一个4×120的矩阵，表示120个样本的在四类的隶属度。

由于样本数较多，截取一段结果图示如图2：

可以看到，矩阵U每一列之和为1，即是每一样本的各类隶属度之和为1。取每一列的最大值，最大值在第几行，该样本就属于第几种类型。

在此简单抽取两个样本查看确认分类是否正确，如样本：

样本16属于第一类“主叫活跃，被叫少”，而样本89属于第二类“主叫不活跃，被叫活跃”。经过查核某地电信IBSS系统及计费帐务系统，样本16登记的属性为“个体商铺”；样本89登记的属性为“住宅”。客户属性的使用习惯与聚类结果相符。

4 结束语

电信用户呼叫行为分析中聚类分析是一个新的研究领域，与之相似的研究可以追溯到市场营销中的市场细分，市场细分与客户聚类功能相同，都是将产品或服务的销售对象进行分类。但两者是有区别的，市场细分的分析数据来自企业外部，比如消费者的人口特征、区域特征、行业性质等等，用的只是一种“普遍适用”的策略，很难真正做到个性化服务。而客户通话行为聚类分析的数据源自于企业内部掌握的通话记录，根据客户本身的使用行为、消费倾向，保证每个客户的消费行为的连续性与一致性，有利于对现有客户进行管理，如发现优质客户，对不良客户进行预警等。因此，对企业有很重要的意义。

应用模糊C均值聚类算法得到比较满意的客户聚类结果，主要体现在：区分出了优质客户和普通客户；找到了每一类客户的特征。本文提出用FCM算法作为客户通话行为（消费行为）聚类的方法，为企业提供分析的量化依据。

参考文献：

[1] HSU T H. An application of fuzzy clustering in group-positioning analysis[J]. Proc Natl Sci, Counc ROC(C),2000,10(2):157-167.

[2] 高新波. 模糊聚类分析及其应用. 西安：西安电子科技大学出版社，2004,1:37-54.

[3] Bezdek J C. A convergence theorem for the fuzzy ISODATA clustering algorithm. IEEE Trans. PAMI, 1980, 1(2):1-8.

[4] Zadeh L A. Fuzzy logic. IEEE Trans. On Control System Magazine, 1988. 83-93.

聚类分析论文篇8

关键字:创业板灰色聚类股票投资分析

中图分类号:F830.91 文献标识码:A

文章编号:1004-4914(2010)08-107-03

一、引言

中国创业板市场自2009年10月30日启动以来,其基本面的变化与市场表现受到了社会各界的极大关注。在中国发展创业板,为那些具有发展前景的创新高科技型公司提供了一个不可多得的融资渠道。截至到2010年3月10日,已有58家公司在创业板上市。这些公司的共性是:成立时间短,规模小,具有较高的成长性。但是,由于上市门槛低,这些公司的投资资质良莠不齐,有些公司实力强劲,有些公司实力较弱。如何从创业板的众多公司中,选择出具有投资价值的公司股票,对发展完善股票投资价值的理论研究、帮助投资者做出合理的投资决策,都具有重要意义。

在对股票投资价值研究的诸多方法中,聚类分析以其重要的理论与应用价值受到了众多学者的青睐。学者们对应用聚类理论进行股票投资价值研究进行了广泛而深入的探讨。通过文献梳理,笔者发现目前利用聚类分析对股票投资价值的研究存在以下倾向:一是研究对象,偏重于对主板市场和中小企业板市场的股票研究。二是研究方法,多采用传统聚类分析方法,如系统聚类法、分解法、动态聚类法。三是研究思路,通常以大样本面板数据或大样本横截面数据展开实证分析。

然而,创业板市场作为资本市场的新生力量,具有以下特点:可供交易的股票个数少;企业披露的财务信息不完备。此时如果继续用经典的聚类方法作为分析工具,其分析结果的科学性将无法保证。

对此,本文将灰色系统理论的“小样本”、“贫信息”思想引入创业板股票投资价值的评价研究中。采用灰色系统理论中的灰色聚类方法,尝试对创业板中的11支股票按照6项聚类指标进行灰色聚类,通过计算不同指标的灰色聚类系数,最后以聚类类型来定性评价股票的投资价值,从而为投资者提供理性的投资参考数据。鉴于灰色理论在股票投资价值方面的研究应用较少,本文对股票价值的灰聚类研究是一个有益的探索。

二、灰色聚类理论概述

灰色系统理论以“部分信息已知,部分信息未知”的不确定性系统为研究对象,是一种处理“小样本”“贫信息”数据、解决灰类问题的有效方法。近年来,灰色系统理论不仅在理论上迅速发展、日臻完善,而且在实践中得到日益深入和广泛的应用。其中,灰色聚类理论是灰色系统理论的一个重要分支。

灰色聚类是根据灰数的白化函数将观测对象聚集成若干个可以定义类别的方法。灰色聚类通过将聚类对象对于不同聚类指标所拥有的白化数,按几个灰类进行归并,经过计算所有指标的综合效果,判断聚类对象所属灰类。灰色聚类的分析过程通过以下步骤完成:

1.设有n个聚类对象,m个聚类指标,s个灰类;dij为第i个聚类对象对于第j个聚类指标的样本值,其中1≤i≤n,1≤j≤m。则样本指标矩阵为D=(dij)n×m。

2.将n个对象关于指标j的取值相应地分为s个灰类,称之为j指标子类。j指标k子类的白化权函数记为fkj(dij)。白化权函数的表达式为:

上限测度白化权函数

三、指标体系的建立与样本选取

1.指标体系。通过梳理前人研究的成果,结合创业板上市公司股本规模小、成长潜力大的特点,本文选取每股收益(di1)、净资产收益率(di2)、每股现金流(di3)、主营收入增长率(di4)、净利润增长率(di5)、每股净资产(di6)这6项财务指标组成灰聚类财务指标评判体系,从盈利能力、成长能力和扩张能力三个大的方面对股票的投资价值进行考察。

2.样本的选取。本文选取在创业板上市,并于2010年3月10前已经披露2009年年报的11家公司组成样本集。本文的数据均来自于国泰君安经济数据资料库。

四、实证分析

1.指标数据标准化。为消除原始指标数据量纲和数量级的差异所带来的影响,本文按照下式对指标数据进行标准化:

dij=dij/max(dj)(6)

其中,dij为i公司第j个指标的样本,max(dj)表示第j项指标的最大值。采用此式对数据进行标准化的优点是,同一指标内部相对差距不变,且解决了不同指标间的相对差距不确定的问题,同时保证了标准化后极大值都为1。

2.确定指标灰类的白化权函数。本文将每项聚类指标分为3个灰类(k=3),并设定灰类1(k=1)最好,灰类2(k=2)次之,灰类3(k=3)最差。灰类1的白化权函数表达式依据公式(1)写出,灰类2的白化权函数表达式依据公式(2)写出,以此类推。

同理,写出净资产收益率、每股现金流、主营收入增长率、净利润增长率、每股净资产的优、中、差灰类的白化权函数。将对象i关于j指标的样本值dij带入j指标的k类白话权函数,计算出dij关于k灰类的白话权函数值。

3.确定j指标k子类的临界值λkj。根据λkj=X1,写出j指标k子类的临界值λkj。临界值是区别不同灰类的数值标志,反映了由某一灰类过渡到另一灰类界限。

表3说明,聚类指标优等灰类的临界值λ1j在0.6至0.8之间,当样本值dij超过λ1j时,便离开中等灰类区间,进入优等灰类;聚类指标差等灰类的临界值λ3j在0.15至0.3之间,当样本值dij低于λ3j时,便离开中等灰类区间,进入差等灰类。在优等灰类和差等灰类的临界值之间,属于中等灰类的范围。样本值dij越接近λ2j,其隶属于中等灰类的可能性越大。

4.计算j指标关于k子类的权重ηkj。按照公式(4),计算出j指标关于k子类的权重ηkj,为进一步求得灰色聚类系数σkj做准备。权重系数刻画了指标在整体评价中的相对重要程度。由表4可以看出,在3类权重系数列向量中,每股收益指标的权重系数ηk1数值最大,依次为0.2、0.21、0.33。这说明每股收益指标在本文的指标评价体系中是最重要、最能有效甄别股票投资价值大小的财务指标。位列第二的是每股净资产这一指标,其余4项指标对股票投资大小的影响则较为平均。

5.确定灰色聚类系数σkj。按照公式(5),计算灰色聚类系数,σki表示了对象i属于灰类k的程度,σki越大,对象i属于k类的程度越深。经计算,灰色聚类系数如下表所示。

由表6可知,11支样本股票可以分为3类。属于最优类的股票有,机器人,宝通带业,新宙邦,中元化电,万邦达。这类股票的总体特征是每股收益高,每股现金流充沛,净利润成长率显得尤为引人注目。这表明,这类公司正处在大力开拓市场范围的高速成长阶段,是快成长、高盈利、扩张力强的“潜力股”。这应是投资者首选的一类股票。在这类股票中,表现最为突出的是。其每股现金流净利润增长率为14.36元和94.9%,远远超过综合实力排名第二的机器人。

属于第二类的股票有特锐德、硅宝科技、汉威电子。这类股票的特点是净资产收益率较高,净利润增长率保持在一个比较平稳的水平,但成长能力稍显逊色。这表明,第二类公司已经进入稳步发展的阶段,投资这类股票的风险较小。

第三类股票属于低收益、低成长股票。虽然从单项指标来看,钢研高纳的每股现金流和每股净资产都不低,福瑞股份的净资产收益率更是高达33.32%,但是从综合实力来看,这两只股票的各项指标值相差悬殊,远不如其他股票的投资价值高,投资者应谨慎观察其表现,再作出定夺。

五、结论和展望

本文将灰色聚类理论引入股票投资价值的评价当中,为聚类分析股票的投资价值开辟了新途径。本文在介绍灰色聚类理论的基础上,首先建立股票投资价值的指标体系,然后通过计算不同指标的灰色聚类系数,最后以聚类类型来定性评价股票的投资价值。实证结果表明,灰色聚类方法不仅降低了对数据量和信息量的要求,而且能有效区分出具备不同投资价值的股票。

本研究下一步的工作重心是引入行业概念和公司的核心竞争能力这两项新的指标因子,扩大样本集,对创业板股票的投资价值作更深一步的研究。

参考文献:

1.张迎春,陈洁,张晨希,万忠,张燕平.聚类在股票研究中的应用[J].计算机技术与发展,2006,16(4)

2.陶冶,马健.基于聚类分析和判别分析方法的股票投资价值分析―关于中小企业板的初步研究[J].财经理论与实践,2005(26)

3.于华.上市公司子综合评估的聚类与主成分分析[J].西南金融,2007(9)

4.刘思峰,郭天榜,党耀国.灰色系统理论及其应用[M].北京:科学出版社,1999

5.俞立平,潘云涛,武夷山.学术期刊综合评价数据标准化方法研究[J].图书情报工作,2009(53)

(作者单位:刘益平.南京航空航天大学经济与管理学院副院长.会计学教授;王琼瑶.南京航空航天大学经济与管理学院会计学硕士研究生;吉朝阳.长庆油田兴庆路综合服务处办公室主任;朱超余.南京航空航天大学经济与管理学院硕士研究生)

推荐范文

聚类分析论文

推荐期刊

人类居住

刊号：11-3083/TU

级别：部级期刊