R语言主成分PCA、因子阐发、聚类对地域经济研究阐发重庆市经济|附代码数据
全文下载链接:
比来我们被客户要求撰写关于重庆市经济目标的研究陈述,包罗一些图形和统计输出。
成立重庆市经济目标开展系统,以重庆市一小时经济圈做为样本,运用因子阐发办法停止实证阐发,在借鉴了相关评判理论和评判办法的根底上,本文提取出经济规模、人均开展程度、经济开展潜力、3个主因子,从重庆市统计年鉴拔取8个目标构成的目标系统数据对重庆市38个区县经济开展根本情状的八项目标停止阐发,并基于主因子得分矩阵对重庆市38个区县停止聚类阐发
成果表白:根据综合得分,能够看出各区县社会经济开展程度排前三的是渝中区、渝北区、九龙坡区,得分更低的三个是巫山县、巫溪县、城口县,连系总体的阐发能够看出渝中区、九龙坡区在经济总体规模和建筑业方面较好,而重庆周边的地域经济实力较差,投资情况欠好,特殊是在建筑方面的欠缺,以致于经济开展相对而言单薄的地域,不管从哪方面来说重庆各区县中渝中区的经济实力是更好的。
评判目标的成立
评判地域的之间的经济开展程度,必需成立恰当的目标系统。考虑到地域经济目标的复杂性、多样性和可操做性,本文在此根底上成立了一套较为完全的易于定量阐发的地域经济评判目标系统,别离从差别的角度反映地域经济开展特征。
本文所成立的目标系统共包罗8个目标,别离从经济规模、人均开展程度、经济开展潜力等方面来反映地域经济开展特征。详细目标如下:
地域消费总值(万元)(X1)
社会消费品零售总额(万元)(X2)
工业总产值(万元)(X3)
建筑业总产值(万元)(X4)
高手艺消费总值(万元)(X5)
全社会固定资产投资(万元)(X6)
人均可收配收进(元)(X7)
人均地域消费总值(元)(X8)
因子阐发在地域经济研究中的利用
因子阐发模子及其步调
因子阐发是一种数据简化的手艺。它通过研究浩瀚变量之间的内部依靠关系,根究看测数据中的根本构造,并用少数几个设想变量来表达其根本的数据构造。那几个设想变量可以反映本来浩瀚变量的次要信息。原始的变量是可看测的显在变量,而设想变量是不成看测的潜在变量,称为因子。设p个变量,则因子阐发的数学模子可表达为:
展开全文
称为公共因子,是不成看测的变量,他们的系数称为因子载荷。是特殊因子,是不克不及被前m个公共因子包罗的部门。因子阐发步调如下:
(1)将原始数据原则化,仍记为X;(2)成立相关系数矩阵R;(3)解特征方程,计算特征值和特征向量,当累计奉献率不低于85%时,提取k个主成分取代本来的m个目标,计算因子载荷矩阵A;(4)对A停止更大正交扭转交换;(5)对主因子停止定名和阐明。如需停止排序,则计算各个主因子的得分,以奉献率为权重,对加权计算综合因子得分。
样本拔取及数据来源
本文拔取了重庆市38个区县做为样本停止阐发,目标在于摸索若何基于R统计软件的因子阐发和聚类阐发办法研究地域经济开展。详细数据如下:
数据阐发过程
将原始数据录进R软件中,拔取地域消费总值(万元)(X1)、社会消费品零售总额(万元)(X2)、工业总产值(万元)(X3)、建筑业总产值(万元)(X4)、高手艺消费总值(万元)(X5)、全社会固定资产投资(万元)(X6)、人均可收配收进(元)(X7)、人均地域消费总值(元)(X8)。
在停止因子阐发之前,我们通过看察相关系数矩阵,并用KMO and Bartlett’s Test查验一下数据能否适协做因子阐发。再做描述性阐发Analysis-factor-description得到初始公因子方差、因子、特征值以及由每个因子阐明的百分比和累计百分比。阐发成果如下:
coebaltt(COR,)#Bartlett球形检
Bartlett 的球形度查验的p值(显著性概率值sig)0.05,表白通过查验,散布能够近似为正态散布,由此则能够停止因子阐发。
sreeot(PCA,type="lines")
点击题目查阅往期内容
数据分享|R语言用主成分PCA、 逻辑回回、决策树、随机丛林阐发心脏病数据并高维可视化
摆布滑动查看更多
01
02
03
04
从表能够得出,提取3个因子的累计方差奉献率已经到达89.854%86%,信息缺失仅为10.146%,从第4个因子起头方差奉献率都低于5%,因而拔取3个公因子停止因子阐发效果较为抱负;从图的碎石图能够看出从第4个因子起头,特征值差别改变很小,综上所述:在特征值大于0.5的前提下,所提取的三个因子能通过查验并能很好的描述8个目标,所以提取前3个特征值成立因子载荷矩阵。
表中为初始因子载荷矩阵表, F1、F2、F3别离做为第一、第二、第三公共因子。成立了因子阐发数学目标不单单要找出公共因子以及对变量停止分组,更重要的要晓得每个公共因子的意义,以便停止进一步的阐发,假设每个公共因子的含义不清,则未便于停止现实布景的阐明。因为因子载荷阵是不惟一的,所以应该对因子载荷阵停止扭转。目标是使因子载荷阵的构造简化,使载荷矩阵每列或行的元素平方值向0和1两极分化。有三种次要的正交扭转法。四次方更大法、方差更大法和等量更大法。
因而需求停止因子扭转,使得因子对变量的奉献到达极化的效果。为此摘用方差更大化的正交扭转体例,使各变量在某个因子上产生较高载荷,而其余因子上载荷较小,从而得到扭转后的因子载荷矩阵,如下表所示:
由表和扭转后的因子图能够看出,通过扭转后的公共因子的阐明原始数据的才能进步了,表示为公共因子F1在X1(地域消费总值),X6(全社会固定资产投资)和X8(人均地域消费总值)上的载荷值都很大。因而我们能够把第一公共因子确立为综合经济实力因子,宏看上反映了地域经济开展规模的总体情状,在那个因子上的得分越高,阐明城市经济开展的总体情状越好。
操纵各公共因子方差奉献率计算综合得分,并计算综合得分=因子1的方差奉献率因子1的得分+因子2的方差奉献率因子2的得分+因子3的方差奉献率*因子3的得分。将数据按综合得分降序摆列,得到部门因子得分和综合得分情状如下图所示:
成果讨论
基于上述因子得分,能够得出2012年重庆38个区县的经济开展情况如下:
1、根据经济实力因子F1得分大于1的依次有渝中区、渝北区、九龙坡区、江北区和万州区,分数别离为4.4211、1.8967、1.7808、1.201、1.2804。阐明在经济总体规模和建筑业方面,渝中区、渝北区、九龙坡、江北区和万州区在重庆市的38个区县中是更好的,规模较大,经济实力最强,开展前景很好,经济开展实力雄厚的地域。
2、根据经济开展潜力因子F2得分大于1的有沙坪坝区和渝北区,分数别离为3.7052、3.4396。阐明在高手艺科技和工业方面比力兴旺,固定资产投资更大,那两个地域都在主城,对外开放水平高,科技立异方面比力好,有本身的工业开展,已根本构成了本身的财产构造,足够发扬了本身的天文优势和资本情况优势,开展潜力较大。
基于主因子得分的聚类阐发
系统聚类阐发
聚类阐发又称群阐发,就是将数据分构成为多个类。在统一个类内对象之间具有较高的类似度,差别类之间的对象区别较大。在社会经济范畴中存在着大量分类问题,好比若对某些大城市的物价指数停止察看,而物价指数良多,有农用消费物价指数、办事项目价指数、食物消费物价指数、建材零售价格指数等等。因为要察看的物价指数良多,凡是先对那些物价指数停止分类。总之,需要分类的问题良多,因而聚类阐发那个有用的东西越来越遭到人们的重视,它在许多范畴中都得到了普遍的利用。
聚类阐发内容十分丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预告法等;最常用最胜利的聚类阐发为系统聚类法,系统聚类法的根本思惟为先将n个样品各自看成一类,然后规定样品之间的“间隔”和类与类之间的间隔。抉择间隔比来的两类合并成一个新类,计算新类和其他类(各当前类)的间隔,再将间隔比来的两类合并。如许,每次合并削减一类,曲至所有的样品都回成一类为行。
系统聚类法的根本步调:
1、计算n个样品两两间的间隔。
2、构造n个类,每个类只包罗一个样品。
3、合并间隔比来的两类为一新类。
4、计算新类与各当前类的间隔。
5、反复步调3、4,合并间隔比来的两类为新类,曲到所有的类并为一类为行。
6、画聚类谱系图。
7、决定类的个数和类。
系统聚类办法:1、最短间隔法;2、最长间隔法;3、中间间隔法;4、重心法;5、类均匀法;6、离差平方和法(Ward法)。
基于主因子得分对重庆市38个区县经济开展阐发,摘用聚类办法抉择组间链接法,计算间隔抉择平方欧式间隔,原则化数据才用原则正太数据化处置。得到如下成果:
rct.st(hc,k = 6, border = "red")
由树状图可知,能够将重庆各区县按经济中和实力现实情状分为六类:
第一类只包罗渝中区,渝中区是重庆市的中心城市,是重庆市的政治经济文化中心、根底教导高地、具有特殊的区位优势和凸起的战术地位。财产构造的现状特征是第三财产占绝对优势,此中金融业、商贸业以及中介办事业为主导行业,属于经济开展实力雄厚的地域。
第二类只包罗渝北区,渝北区先后启动了总体规划近65平方公里的重庆科技财产园、重庆现代农业园区、渝东开发区等项目,被市政府定名为"重庆农业科技园区",所以该地域在高手艺消费总值奉献很大,并且投资情况优胜,且大部门地域有个本身中心贸易地带,对外开放水平高,区位优势很明显,财产构造合理,属于经济开展较强的地域。
点击文末 “阅读原文”
获取全文完全材料。
本文选自《R语言主成分PCA、因子阐发、聚类对地域经济研究阐发重庆市经济目标》。
点击题目查阅往期内容
数据分享|R语言用主成分PCA、 逻辑回回、决策树、随机丛林阐发心脏病数据并高维可视化
R语言逻辑回回logistic模子阐发泰坦尼克titanic数据集揣测生还情状R语言能否对二分持续变量施行逻辑回回
R语言用lme4多条理(混合效应)广义线性模子(GLM),逻辑回回阐发教导留级查询拜访数据
R语言随机丛林RandomForest、逻辑回回Logisitc揣测心脏病数据和可视化阐发
R语言基于Bagging分类的逻辑回回(Logistic Regression)、决策树、丛林阐发心脏病患者
R语言逻辑回回(Logistic回回)模子分类揣测病人冠心病风险
R语言用部分加权回回(Lowess)对logistic逻辑回回诊断和残差阐发R语言用主成分PCA、 逻辑回回、决策树、随机丛林阐发心脏病数据并高维可视化
R语言用线性模子停止臭氧揣测:加权泊松回回,通俗最小二乘,加权负二项式模子,多重插补缺失值R语言Bootstrap的岭回回和自适应LASSO回回可视化
R语言中回回和分类模子抉择的性能目标
R语言多元时间序列滚动揣测:ARIMA、回回、ARIMAX模子阐发
R语言用lme4多条理(混合效应)广义线性模子(GLM),逻辑回回阐发教导留级查询拜访数据
R语言计量经济学:虚拟变量(哑变量)在线性回回模子中的利用
R语言 线性混合效应模子实战案例
R语言混合效应逻辑回回(mixed effects logistic)模子阐发肺癌数据
R语言若何用潜类别混合效应模子(LCMM)阐发抑郁症状
R语言基于copula的贝叶斯分层混合模子的诊断准确性研究
R语言成立和可视化混合效应模子mixed effect model
R语言LME4混合效应模子研究教师的受欢送水平
R语言 线性混合效应模子实战案例
R语言用Rshiny摸索lme4广义线性混合模子(GLMM)和线性混合模子(LMM)
R语言基于copula的贝叶斯分层混合模子的诊断准确性研究
R语言若何处理线性混合模子中畸形拟合(Singular fit)的问题
基于R语言的lmer混合线性回回模子
R语言用WinBUGS 软件对学术才能检验成立条理(分层)贝叶斯模子
R语言分层线性模子案例
R语言用WinBUGS 软件对学术才能检验(SAT)成立分层模子
利用SAS,Stata,HLM,R,SPSS和Mplus的分层线性模子HLM
R语言用WinBUGS 软件对学术才能检验成立条理(分层)贝叶斯模子
SPSS中的多层(品级)线性模子Multilevel linear models研究整容手术数据
用SPSS估量HLM多层(条理)线性模子模子R语言高维数据的主成分pca、 t-SNE算法降维与可视化阐发案例陈述
R语言赏罚logistic逻辑回回(LASSO,岭回回)高维变量抉择的分类模子案例
R语言有RStan的多维验证性因子阐发(CFA)
主成分阐发(PCA)原理及R语言实现及阐发实例
R语言无监视进修:PCA主成分阐发可视化
R语言利用Metropolis- Hasting抽样算法停止逻辑回回
R语言多元Logistic逻辑回回 利用案例
R语言自适应LASSO 多项式回回、二元逻辑回回和岭回回利用阐发
R语言用逻辑回回、决策树和随机丛林对信贷数据集停止分类揣测
R语言基于树的办法:决策树,随机丛林,Bagging,加强树
spss modeler用决策树神经收集揣测ST的股票
R语言中自编基尼系数的CART回回决策树的实现
python在Scikit-learn顶用决策树和随机丛林揣测NBA获胜者
matlab利用分位数随机丛林(QRF)回回树检测反常值
基于随机丛林、svm、CNN机器进修的风控欺诈识别模子
R语言赏罚logistic逻辑回回(LASSO,岭回回)高维变量抉择的分类模子案例
R语言用原则最小二乘OLS,广义相加模子GAM ,样条函数停止逻辑回回LOGISTIC分