研究聚类分析的甘肃省工业行业结构

毕业论文
关注：2.53W次

关键词：因子分析;聚类分析;甘肃省;工业行业结构

摘要：一般的聚类分析方法的应用，在确定指标体系的同时，忽视了指标间相关性及权重问题的存在，论文拟结合因子分析法来进行聚类分析，以解决相关性和权重分配的问题。同时，本文利用基于因子分析的层次聚类分析法来对甘肃省工业行业结构进行研究，将甘肃省工业行业划分为4类，并根据4类行业的指标数据得分指出其行业结构存在的特点及相应问题。

一、引言

聚类分析是研究指标(或样品)分类问题的一类多元统计分析方法的总称，其中心思想是将一些相似度较大的指标(或样品)聚合为一类，同时把另外一些相似度较大的指标(或样品)聚合为其他的类，然后再将这些小类依据其相似度聚合为一个大类，直至所有的指标(或样品)都聚合完毕，以更直观的显示出研究对象的差异和联系。

作为一种常用的多元统计方法，聚类分析从数据分析的角度，使同一分类过程中有了一个统一性的定量标准，避免了一般定性分类中的主观性和随意性的弊端，从而在经济学研究中也得到了广泛的应用。例如，聚类分析法曾用于区域经济结构的分析(王强 2004)，也曾有学者将聚类分析应用于城市竞争力的研究与比较(倪鹏飞 2003，吴庆军 2005)，也有一些学者将聚类分析应用于可持续发展模式研究(张德平 2003)，在产业结构方面，许多学者也曾经应用聚类分析法做了很多富有成效的研究工作，如：有学者应用聚类分析法研究了重庆市的产业结构(张春勋 2004)，而灰色聚类分析法曾用于确定区域工业支柱产业(李胜 2000)，在工业结构方面也有人应用聚类分析方法得过一定的研究成果(吴海建 2004)，这些聚类方法的应用为分析研究对象提供了一个良好的途径。

传统的聚类方法的应用，一般要对所选用的原始数据首先进行定性分析，然后将原始数据进行无量纲化的处理，而后再利用具体的方法对相似性进行测度。如果采用层次聚类法我们还面临着求取新类相似性的问题，计算新类与其它类之间的相似性，然后依相似程度远近逐次进行合并，最终得出聚类结果。我们在传统聚类方法中虽然解决了原始数据的量纲和量级问题，但是单一的聚类分析法也存在着一定的缺点，由于聚类分析首先是一种定量的分析方法，而我们所选定的指标又有可能存在着相互关联的问题，即相关性问题，而采用这种具有相关性的指标就可能使分析结果产生偏差;从另一个方面来看，这种定量方法也忽略了指标间权重的问题，所以，如何减少各个指标之间的相关度，并分配给各个指标以科学合理的权重，同时又不损害聚类结构的精确度就成为聚类方法应用的一个亟待解决的问题。

因子分析起源于20世纪早期，其基本思想是通过研究众多变量之间的内部依赖关系，需求这些数据的基本结构，并用少数几个公因子来表示基本数据结构，使其既能够反映原来众多指标变量所代表的主要信息，同时又能够简化数据结构(侯景新 2004)，使简化后的数据之间的相关性问题得以解决，从而达到方便研究的目的，因此，在聚类分析中结合因子分析就可以有效地减少各个指标之间的相关性问题。本文拟在聚类分析法中应用因子分析法以祛除指标之间的相关性，主要结合对甘肃省工业行业结构实证研究来探讨对这一方法的应用。

二、甘肃工业行业结构实证研究

甘肃省工业体系主要形成于前两个“五年”计划及国家“三线”建设时期，半个多世纪以来，甘肃工业取得了长足的进步，2005年实现工业增加值685.80亿元，工业贡献率达到42.21%。与此同时，甘肃省工业发展中也存在着严重的缺憾和扭曲，其中最突出的表现就是工业结构的不合理。党的十六大提出要“坚持以信息化带动工业化，以信息化促进工业化，走出一条科技含量高、经济效益好、资源消耗低、环境污染少、人力资源优势得到充分发挥的新型工业化道路。”因此，要完成新型工业化的任务，就要对甘肃省目前不合理的工业结构进行改善和优化，使工业对甘肃省经济发展发挥更大的作用，就成为甘肃经济发展中一个紧迫的问题。工业行业结构是工业结构中的主体部分，优化工业结构的重点就是对工业行业结构进行优化和升级，在这种情况下，对工业行业结构的特征进行认识、分析和研究就显得尤为重要，全面而准确的认识到甘肃省工业行业结构的特征，才能够有的'放矢，有针对性地提出优化和升级甘肃省工业结构的具体方法。多年来，省内外许多学者也对甘肃省工业行业结构进行了分析，提出了不少有建设性的建议，如从产业技术战略和产权制度等方面来对工业行业结构进行优化(张克让 2001);从行业的区域布局结构来对工业行业结构进行调整(倪国良 2002);提出发挥情报信息对调整工业行业结构的推动作用(白蒲英 2005)等等。但是综观这些研究成果可以发现，他们对甘肃省工业行业结构的分析大多数是基于定性的观察和思考，而这种分析往往容易产生主观性的偏差，缺乏对研究对象的定量认识，因此，有必要采用一种合理的定量分析方法来分析和研究甘肃省的工业行业结构。

本文在应用聚类分析的时候加入了因子分析方法以驱除各指标之间的相关性及权重问题，总的原则是在选取指标进行聚类分析前，首先对指标运用因子分析方法进行处理，并运用处理过的公因子指标进行聚类分析，其过程如下：

1. 指标选取

指标的选择是一个至关重要的前提性工作，既要结合研究目的，也要考虑指标数据的可得性，同时也要满足科学性和全面性的要求。按照这一要求，我们选取了2006年《甘肃年鉴》中除“其他采矿业”、“化学纤维制造业”、“橡胶制造业”、“废弃资源和废旧材料回收加工业” 以外的甘肃省全部国有及限额以上非国有工业企业的以下指标构成指标体系：X1工业增加值、X2全部从业人员年平均人数、X3年末资产合计、X4产品销售收入、X5产品销售费用、X6利税总额、X7总资产贡献率、X8资产负债率、X9流动资产周转次数、X10工业成本费用利润率、X11全员劳动生产率、X12产品销售率等12项指标组成指标体系。所选取的指标包括了工业行业规模、效益、就业等主要方面，能够反映甘肃省工业行业的基本信息。

2.因子分析过程

因子分析的基本思路为：

(1) 根据相关数据建立原始矩阵，并对原始数据的标准化处理;

(2) 对数据间的相关性进行计算，确定是否可以运用因子分析;

(3) 运用主成分法对经标准化处理后得矩阵进行初始因子求解，确定公因子数目;

(4) 运用Varimax旋转法对初始因子进行旋转，给予明确得因子解释;

(5) 计算因子得分。

运行spss13.0 for windows，标准化数据(系统自动进行)后选择KMO and Bartlett’s test of sphericity 计算相关性，随后选择Principal components(主成分分析)进行初始因子求解, Varimax(正交旋转)进行因子旋转。

经计算，原始矩阵的KMO值为0.628，说明该指标矩阵适合于进行因子分析。对经过处理后的数据进行因子分析共提取了3个公因子，其特征值、贡献率、累积贡献率及旋转后的因子载荷矩阵如表1、表2所示：

表1：公因子相关数据表

公因子特征值贡献率% 累积贡献率

F1 5.075 37.542 37.542

F2 3.734 35.353 72.895

F3 1.159 10.180 83.075

表2：旋转后因子载荷矩阵

F1 F2 F3

X1 0.966 0.188 -0.009

X2 0.980 -0.030 -0.001

X3 0.948 0.119 -0.057

X4 0.968 0.094 0.022

X5 0.766 -0.022 -0.161

X6 0.354 0.768 -0.105

X7 -0.093 0.922 0.000

X8 0.071 -0.565 -0.594

X9 0.205 0.855 0.098

X10 -0.031 0.930 0.053

X11 0.055 0.903 -0.026

X12 -0.074 -0.106 0.903

通过分析可以看出，3个公因子的累积贡献率已经达到83.075%，可以较为全面的反映整体情况，因此，我们就可以用这3个公因子来取代上述的12个指标来对甘肃省工业行业结构进行分析。从表2可以看出，公因子F1在X1、 X2、 X3、 X4、 X5上承担了较大的载荷，它们主要是行业规模方面的指标，因此，公因子F1可以定义为规模因子;公因子F2在X6、X7、X9、X10、X11上承担了较大的载荷，它们主要是行业效益方面的指标，因此，公因子F2可以定义为效益因子;公因子F3所承担的载荷主要集中于X12即产品销售率，反映了行业风险方面的信息，因此，公因子F3可以定义为风险因子;同时，根据表2中的数据，就可以分别求出甘肃省35个工业行业的4个公因子的得分数值，如F1的计算公式如下：

F1=0.966X1+0.980X2+0.948X3+0.968X4+0.766X5+0.354X6-0.098X7+0.071X8+0.205 X9-0.031 X10+0.055 X11-0.074 X12

3.聚类分析过程

标签：聚类分析行业甘肃省

文章版权属于文章作者所有，转载请注明 https://www.moshuiwu.com/bylwjy/x0dgyr.html

当前位置：墨水屋 >

学习经验 >毕业论文 >

研究聚类分析的甘肃省工业行业结构

相关内容

热门文章

猜你喜欢