• 1.13 MB
  • 2022-04-22 13:37:20 发布

多元线性回归分析及模型修正毕业论文.doc

  • 27页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'河北工程大学本科毕业设计(论文)多元线性回归分析及模型修正毕业论文目录摘要.............................................................................................................................................1Abstract.......................................................................................................................................21绪论42多元线性回归分析基础52.1多元线性回归定义52.2多元线性回归模型........................................................................................................62.2.1模型的建立及矩阵表示.....................................................................................62.2.2模型的假设72.3多元线性回归参数估计72.3.1最小二乘估计和正规方程组72.3.2最小二乘估计的矩阵形式82.4回归拟合度评价和决定系数92.4.1离差分解和决定系数92.4.2决定系数的性质及修正可决系数102.5统计检验112.5.1回归参数的显著性检验(检验)112.5.2回归方程的显著性检验(F检验)122.5.3多重共线性检验122.5.4异方差检验.......................................................................................................133中国经济现状153.1中国经济现状153.2工业生产总值的概述154工业生产总值的多因素模型分析164.1建立多因素分析模型164.2数据收集1627 河北工程大学本科毕业设计(论文)4.3统计检验194.4计量经济学检验及模型修正204.4.1异方差检验214.4.2自相关检验215结论.......................................................................................................................................26致谢...................................................................................................................................27参考文献281绪论在各个方面,变量之间的关系一般来说可分为确定性的与非确定性的两种。确定性关系是指变量之间的关系可以用函数关系来表达的。另一种非确定性的即所谓的相关关系。例如人的身高与体重之间存在着关系,一般来说,人高一些,体重也要重一些,但同样高度的人,体重往往不相同。人的血压与年龄之间也存在着关系,但同年龄的人的血压往往不相同。气象中的温度与湿度之间的关系也是这样的。这是因为我们涉及的变量(如体重、血压、适度)是随机变量,上面所说的变量关系是非确定性的。此时,便可以用到回归分析。回归分析能帮助我们从一个变量取得的值去估计另一个变量所取的值。工业生产总值从数值上反应一个地区的工业生产规模,是衡量一个地区的经济繁荣程度的重要指标。研究研究工业总产值与格工业产出指标之间的关系具有非常重要的现实意义,对于做好一个地区的的工业产值预测以及制定国民经济发展规划都有的非常重要的作用。工业总产值是指以货币表现的工业企业在一定时期内生产的已出售或可供出售的工业的产品的总量。它是反映一定时间内工业生产总规模和,总水平的重要指标,是计算工业生产发展速度和主要比例关系,计算工业产品销售率和其他经济指标的重要依据。工业总产值包括成品价值、工业性作业价值和自制半成品、在产品期末期初差额价值。工业,总产值采用“工厂法”计算,即以工业企业作为一个整体,按企业工业生产活动的最终成果来计算。但各企业之间、行业之间、地区之间存在着重复计算。其计算公式为:报告期工业总产值=报告期全部产品的成品价值+报告期工业性作业价值+(报告期自制半成品和在产品期末余额-报告期自制半成品和在产品期初余额)27 河北工程大学本科毕业设计(论文)计算工业总产值采用的价格有不变价格和现行价格。即,工业生产总值收多个因素影响,此时便需要多个影响因素来分析工业生产总值的变化。而这些变量之间的关系是线性的,这样在分析工业生产总值是用到的回归分析方法便是多元线性回归。2多元线性回归分析基础2.1多元线性回归定义在客观世界中普遍存在着变量之间的关系。变量之间的关系一般来说可分为确定性的与非确定性的两种。确定性关系是指变量之间的关系可以用函数关系来表达的。另一种非确定性的即所谓的相关关系。例如人的身高与体重之间存在着关系,一般来说,人高一些,体重也要重一些,但同样高度的人,体重往往不相同。人的血压与年龄之间也存在着关系,但同年龄的人的血压往往不相同。气象中的温度与湿度之间的关系也是这样的。这是因为我们涉及的变量(如体重、血压、适度)是随机变量,上面所说的变量关系是非确定性的。此时,便可以用到回归分析。回归分析能帮助我们从一个变量取得的值去估计另一个变量所取的值。在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。在研究问题是,我们考虑一个变量受其他变量的影响时,把这变量称为因变量,记为,其他变量称为自变量,记为,这时相关系数可记作其中为当时,因变量的均值,即.称为对的回归函数,为与的偏差,它是随机变量,并假定。回归函数可以是一元函数,也可以是多元函数,即其中为元回归函数,统称为多元回归函数。2.2多元线性回归模型2.2.1模型的建立及矩阵表示27 河北工程大学本科毕业设计(论文)多元线性回归模型的一般形式是:(2.1)其中是回归系数,Y是被解释变量,,,是k个对Y有显著影响的解释变量(k2),是反映各种误差扰动综合影响的随机项,下标i表示第i期观察值(,,,),。假设多元样本回归函数为:回归残差为:。由于有n期的观察值,这一模型实际上包含个方程写成矩阵形式:(2.2)其中2.2.2模型的假设因为多元线性模型的建立或选择过程包含相当的主观性,所依据的理论和经验也可能不正确,因此并不能保证模型符合变量的实际关系。而如果模型本身有问题,那么分析的有效性和价值就很难有保证,为了保证所分析的变量关系符合多元线性回归分析的基本规定性,明确分析对象,保证回归分析的有效性和性质,也为了检验判断的依据,需要对多元线性回归模型作一些架设,共包括下列六条:(1)变量和,,,(=1,2...n)之间,存在线性随机函数关系,其中是随机误差项。(2)对应每组观测数据的误差项,都为零均值的随机变量,即27 河北工程大学本科毕业设计(论文)的数学期望E()=0对=1,2...n都成立。(3)误差项的方差为常数,即对=1,2...n都成立(假设(2)成立为前提)。(4)对应不同观测数据的误差项不相关,即对任意的都成立(假设(1)成立为前提)。(5)解释变量是确定性变量而非随机变量。当存在多个解释变量(r>1)时假设不同解释变量之间不存在线性关系,包括严格的线性关系和强的近似线性关系。(6)误差项服从正态分布[7]。2.3多元线性回归参数估计2.3.1最小二乘估计和正规方程组这里直接根据回归残差平方和最小的准则,推导多元线性回归模型参数的最小二乘估计量。对于多元线性回归模型,如果用,…,分别表示模型参数,…,的估计,那么样本回归方程就是回归残差平方和为:(2.3)当V对,…,的一阶偏导数都等于0,即下列方程组:,,同时成立时,有最小值。对这个方程组整理,可得到如下的正规方程组:其中,27 河北工程大学本科毕业设计(论文)上述正规方程组有K+1个方程,未知数也是K+1个。只要系数矩阵非奇异即满足解释变量矩阵列满秩:。此时,有,可逆。可以解出,…,的唯一的一组解,就是,…,的最小二乘估计[8]。2.3.2最小二乘估计的矩阵形式引进参数估计量,解释变量回归值和回归残差的下列向量表示:,,(2.4)把样本数据分别带入样本回归方程,得到回归方程组为:,(2.5)写成等价的向量方程,则为:这样回归残差向量为:在利用向量,矩阵的运算法则,可以得到残差平方和为=求对,…,的偏导数,等价于对向量求梯度,因此最小二乘估计的正规方程组为:整理得到矩阵形式:当可逆,也就是是满秩矩阵,在上述向量方程两端左乘的逆矩阵,得到:(2.6)这就是多元线性回归模型最小二乘估计的矩阵一般形式。2.3.3最小二乘估计量的性质(1)线性性:多元线性回归模型参数的最小二乘估计向量为:27 河北工程大学本科毕业设计(论文),各个参数的最小二乘估计向量为,其中的是矩阵的+1行元素构成的行向量,上式对=1,…,K都成立,正是被解释变量观测值的线性组合,也就是多元线性回归参数的最小二乘估计是线性估计。(2)无偏性:多元线性回归的最小二乘估计也是无偏估计,即参数最小二乘估计量的数学期望都等于相应参数的真实值,最小二乘估计向量的数学期望等于参数真实值的向量,参数真实值是参数估计量的概率分布中心。(3)最小方差性:根据最小二乘估计公式和模型假设,可以直接导出包含各个参数估计量方差和不同参数估计量协方差的,参数估计向量的协方差矩阵为:(2.7)2.4回归拟合度评价和决定系数2.4.1离差分解和决定系数判断回归结果好坏基本标准,是回归直线对样本数据的逆合程度,称为“拟合度”。回归直线的逆合度一方面取决于回归直线的选择,这就是由参数估计方法决定的,另一方面则取决于样本数据的分布。当参数估计方法固定时,主要取决于样本数据的分布。样本数据的分布在本质上是由变量关系决定的。因此回归拟合度也是检验模型变量关系真实性,判断模型假设是否成立的重要方法。拟合度较好是对模型的支持,否则,可能意味着必须对模型进行修改。首先需要从Y的离差中分离出由解释变量决定的部分,因变量的实际观测值与其样本均值的离差即总离差()可以分解为两部分:一部分是因变量的理论回归值与其样本均值的离差(),它可以看成是能够由回归直线解释的部分,称为可解释离差;另一部分是实际观测值与理论回归值的离差(),它是不能由回归直线加以解释的残差。对任一实际观测值Y总有:(2.8)27 河北工程大学本科毕业设计(论文)对公式(2.8)两边平方并求和并计算,可得到:根据最小二乘估计和回归残差的相关公式,所有的离差的平方和记为=称为“总离差平方和”,而记为称为“残差平方和”,记为称为“回归平方和”。式(2.9)两边同除以,得:(2.10)显而易见,各个样本观测点与样本回归直线靠的越近,在中所占的比重就越大。(2.10)式中的正是反映解释变量(或回归直线)对被解释变量决定程度的指标,我们称它为“决定系数”(determinedcoefficient),通常用表示。计算公式为:2.4.2决定系数的性质及修正可决系数决定系数是对回归模型拟合程度的综合度量,决定系数越大,模型拟合程度越高。决定系数越小,则模型对样本的拟合程度越差。决定系数具有如下性质:(1)决定系数具有非负性。由决定系数的定义式可知,的分子分母均是不可能为负值的平方和,因此其比值必大于零。(2)判定系数的取值范围为01。由的计算公式可以看出:当所有的观测值都位于回归直线上时,=0,这时=1,说明总离差可以完全由所估计的样本回归直线来解释;当观测值并不是全部位于回归直线上时,>0,则/>0,这时<1;当回归直线没有解释任何离差,即模型中解释变量与因变量完全无关时,的总离差全部归于残差平方和,即=,这时=0。(3)判定系数是样本观测值的函数,它也是一个统计量。判定系数的大小受到自变量的个数k的影响。可以证明,增加自变量27 河北工程大学本科毕业设计(论文)的个数,回归平方和增大,从而使得增大。由于增加自变量个数引起的增大与拟合好坏无关,在含自变量个数k不同的模型之间比较拟合程度时,就不是一个合适的指标,必须加以调整。调整方法为:把残差平方和与总离差平方和之比的分子分母分别除以各自的自由度,变成均方差之比,以剔除自变量个数对拟合优度的影响。调整的判定系数为:(2.11)用这个调整的决定系数作为评价多元线性回归拟合度的评价标准,可以基本消除由于解释变量数目的差异所造成的影响,更加合理和具有可比性。2.5统计检验2.5.1回归参数的显著性检验(检验)先要找出回归系数的分布,由上述知识得知:(2.12)其中为的第j行j列的元素。将标准化。一般有未知,用代替,得统计量,以下可用统计量来进行回归系数的假设检验。同一元线性回归一样,要检验解释变量对因变量的线性作用是否显著,要使用检验。步骤如下:(1)提出假设。,,(2)在成立条件下,根据样本计算(3)给定显著性水平,查表得临界值(4)判断若,就拒绝,对有显著线性作用;若,就接受,对线性作用不显著。27 河北工程大学本科毕业设计(论文)2.5.2回归方程的显著性检验(检验)多元线性回归模型还可以进行模型总体显著性检验,也就是全体解释变量总体对被解释变量是否存在明显影响的检验,回归显著性检验的基本方法,是检验模型常数项以外所有参数同时为0的假设,使用检验。步骤如下:(1)提出假设。不全为0(2)选择、(根据样本)计算统计量(3)给定显著性水平,查表,得(4)判断若,就拒绝,回归方程显著成立,所有自变量对Y的影响是显著的;若,就接受,回归方程不显著,所有自变量对Y的线性作用不显著。2.5.3多重共线性检验在多元线性回归模型中,对的基本假定是:矩阵的各列向量之间是线性无关的,即有:如果这一假定不满足,则称模型存在多重共线性。多重共线性表现为两种情况:(1)完全多重共线性:,也就是,不存在。(2)不完全多重共线性:(实际中多为此情况),对角线元素较大。而一般产生多重共线性的背景为:(1)时间序列数据中经济变量在时间上常有共同的变动趋势;(2)经济变量之间本身具有内在联系(常在截面数据中出现);(3)由于某种决定性因素的影响可能使各个变量向着同方向变化;(4)滞后变量引入模型,同一变量的逐次值一般都存在相互关系;多重共线性的检验方法有:(1)简单相关系数矩阵法(辅助手段)此法简单易行;但要注意两变量的简单相关系数包含了其他变量的影响,并非它们真实的线性相关程度的反映;一般在0.8以上可初步判定它俩之间有线性相关。(2)变量显著性与方程显著性综合判断;27 河北工程大学本科毕业设计(论文)(修正)可决系数大,值显著大于临界值,而值不显著;那么可认为存在多重共线性。(3)辅助回归:将每个解释变量对其余变量回归,若某个回归方程显著成立,则该解释变量和其余变量有多重共线性。多重共线性的克服和处理方法有:截面数据和时序数据结合,有时在时间序列数据中多重共线性严重的变量,在截面数据中不一定有严重的共线性。在假定截面数据估计出的参数在时间序列数据中变化不大的前提下,可先用截面数据估计出一些变量的参数,再代入原模型估计另一些变量的参数。变换模型形式(差分法):假设和存在高度线性相关。设原模型为:将其滞后一期:将上述两式相减,得:则上述差分式子变成:差分后,和的共线性将明显减弱。2.5.4异方差检验在回归模型的假设得到满足之后,用最小二乘法估计的模型参数具有无偏和方差在线性无偏估计方法中最小的有效性,在这些假设中,其中有一条是误差项的方差不变。如果误差项的方差随观测次数的改变而改变,或随解释变量增减而变化,则称回归模型中存在异方差。异方差可以表示为或27 河北工程大学本科毕业设计(论文)其中异方差的的发现和检验方法有戈德菲尔德-夸特检验:构造统计量:.如果,误差项存在明显的递增异方差性;如果,误差项没有明显的异方差性。异方差的克服和处理:如线性回归模型为,经检验,误差项有如下异方差性,可以用除模型各项,得到:,新模型的误差项方差为:.27 河北工程大学本科毕业设计(论文)3中国经济现状3.1中国经济现状改革开放30年来,中国经济持续高速增长,相当程度上是依赖于中小企业的崛起。快速、健康和持续发展的中小企业,对经济增长的贡献有目共睹:在繁荣经济、促进增长、国际贸易、扩大就业、推动创新、提高消费能力等方面发挥着重要的作用,已成为推动我国经济社会发展的重要力量,是大企业发展的依托,是活跃市场的基本主体,也是经济活力的具体体现[1]。回顾2008年中国:我们经历了年初的雪灾、5月的地震灾害、8月承办奥运、中国股市连连下挫,上证指数从2007年的最高点6124点一路下滑至2008年8月份的最低点2284点、半年光景约有6.7万家中小企业倒闭、国际油价的居高不下,煤、电、油、运全面紧张。针对新局势、新变化,我国政府把防过热、防通胀的经济政策迅速调整为保发展、控通胀。确保发展和控制物价是对立的统一,既有矛盾,也可以相互促进,关键在于我们采取什么样的政策,拉动GDP的三大要素是——投资、消费和进出口,根据相关研究今年经济增长如果不超过9.4%,通货膨胀率控制在5%左右,就是一个很好的平衡点,能为明年打下一个好的基础[2]。中国经济正处在低谷的边缘。因为我国经济面临内忧外患,内忧是通货膨胀,外患是全球经济放缓,这些都对我国经济有很大影响,我们正在经历着动荡的考验:美元走低、人民币升值、外需放缓,这对于对外依存度超过60%的中国经济,是一次巨大的挑战[3]。对于中小企业而言在投资和出口问题上主要依赖于国家的宏观调控,就困境中的中小企业本身来说基本上是无能为力的,然而可以团结起来、集合资源,向管理要效益,向降低成本要效益,从扩大内需中要效益,那么就要进一步激励民众扩大内需、大力推动消费、刺激消费,寻找一种能够产生新的消费热情的方法上下功夫,在实现消费增值的基础上取得企业效益,从而保持企业持续健康的发展。27 河北工程大学本科毕业设计(论文)3.2工业生产总值的概述工业总产值是指以货币表现的工业企业在报告期内生产的工业产品总量。工业总产值按“工厂法”计算,即以工业企业作为一个整体,按企业工业生产活动的最终成果计算[5]。企业内部不允许重复计算,不能把企业内部各个车间生产的成果相加。工业总产值包括成品价值、对外加工费收入和自制半成品、在产品期末期初差额价值[8]。4工业生产总值的多因素模型分析4.1建立多因素分析模型设其中:为工业总产值(按当年价格,单位:亿元)为塑料制品产量(单位:万吨)为水泥产量(单位:万吨)为平板玻璃产量(单位:万重量箱)为生铁产量(单位:万吨)为粗钢产量(单位:万吨)为钢筋产量(单位:万吨)为盘条产量(单位:万吨)为随机误差项。4.2数据收集研究工业生产总值与经济发展之间的关系严格来说可以对每个地区进行研究,但是具体到各个地区,根据各个地区的条件情形不同,所以对研究得出的数据也会有很大的差异,所以此次就对同一地区的工业生产总值与经济发展之间的关系作为研究,就对一个地区的数据进行收集,然后得出结论,这个结论可以反映出这个地区的工业生产值与经济发展的关系,为促进经济发展,针对某一地区的经济发展,我们可以对它进行几十年的数据收集,得出这个地区的经济发展情况。下面我们以中国2007年各省市的主要工业产品产量统计量为研究对象,通过对这些数据和工业总产值的数据建立的线性关系来预测工业总产值。(1)工业总产值来自中国2007年按地区分组的专用设备制造业工业企业主要经济指标统计(一);27 河北工程大学本科毕业设计(论文)(2)原煤来自中国2007年按地区分组的主要工业产品产量统计(一);(3)由于西藏自治区一行中缺省数据太多,故删除了西藏一栏;(4)中国2007年按地区分组的主要工业产品产量统计(六)具体数据见下表4.1:表4.1原始数据地区工业总产值(当年价格)塑料制品(万吨)水泥(万吨)平板玻璃(万重量箱)生铁(万吨)粗钢(万吨)钢筋(万吨)盘条(万吨)全国10591.983305.23136117.2553918.0747651.6348928.810275.487919.02北京331.9232.661168.6235.22780.51810.76296.34416.3天津204.8240.9614.79186.061435.41602.13185.1964.14河北376.27137.379758.2810031.7610523.0110569.291335.431171.84山西258.4913.442780.91971.913727.642506.36372.93465.82内蒙古124.346.052871.171395.721260.091040.36100.9676.63辽宁680.18159.33893.21941.214057.594140.27246.94453.91吉林94.5721.971903.81850.76545.66599.6730.5969.16黑龙江175.4114.061645.06490.21374.11436.05184.533.3上海600.5772.46959.44744.531790.362081.5823.2178.48江苏1425.76327.3711849.786856.113802.154721.471577.49949.47浙江875.07768.8810548.512917.53238.08577.23131.63183.74安徽173.27111.175402.23472.561517.71663.61501.04257.69福建253.94106.664500.11867.12477.88588.82289.47222.27江西56.0912.955008.54686.641047.361306.81496.39332.42山东1736.69315.4715023.895175.614906.674406.911090.68638.12河南797.9121.699471.363619.931974.952275.39556.84660.1湖北126.5853.715638.852178.341679.791778.17226.99178.93湖南425.5623.255683.281518.121247.761331.79337.18224.3广东923.24754.459799.576123.03755.251154.03444.76284.86广西175.5321.714350.48530.34639.3765.67288.06207.22海南2.032.25633.327.6818.844.546.540.67重庆84.8522.683000.05254.18328.38358.3649.76102.41四川364.483.516375.62495.791470.731415.34492.78195.91贵州28.317.962059.062.5363.19349.36176.45118.83云南37.2416.113568.53329.81202.78883.85228.43183.61陕西181.625.143175.491175.08365.55396.27318.9453.67甘肃52.4110.321540.21591.89592.78602.898.84140.53青海1.220.27436.8592.9590.09114.711.317.54宁夏16.232.02817.3661.8246.250.3637.775.08新疆7.4639.471479.28113.66391.82446.85148.06142.08注1):数据来自中国2007年统计年鉴8w。27 河北工程大学本科毕业设计(论文)4.3统计检验由SPSS计算结果表4.2VariablesEntered/Removed(b)ModelVariablesEnteredVariablesRemovedMethod1盘条x7,塑料制品x1,生铁x4,平板玻璃x3,水泥x2,钢筋x6,粗钢x50.976EnteraAllrequestedvariablesentered.bDependentVariable:工业总产值y表4.3ModelSummary(b)ModelRRSquareAdjustedRSquareStd.ErroroftheEstimateDurbin-Watson10.993(a)0.9870.983245.843471.739aPredictors:(Constant),盘条x7,塑料制品x1,生铁x4,平板玻璃x3,水泥x2,钢筋x6,粗钢x5bDependentVariable:工业总产值y表4.4ANOVA(b)ModelSumofSquaresdfMeanSquareFSig.1Regression105370311.469715052901.638249.0590.000(a)Residual1390097.2462360439.011Total106760408.71430aPredictors:(Constant),盘条x7,塑料制品x1,生铁x4,平板玻璃x3,水泥x2,钢筋x6,粗钢x5bDependentVariable:工业总产值y表4.5Coefficients(a)ModelUnstandardizedCoefficientsStandardizedCoefficientstSig.CollinearityStatisticsBStd.ErrorBetaToleranceVIF1(Constant)-2.21147.145-00.96327 河北工程大学本科毕业设计(论文).047塑料制品x10.9890.4520.3172.1870.0390.02737.156水泥x20.0360.0240.4601.5350.1380.006158.745平板玻璃x3-0.0550.056-0.281-0.9780.3380.007145.392生铁x40.0130.1540.0580.0830.9340.001858.829粗钢x50.0040.1760.0200.0040.9810.0011170.904钢筋x60.4560.3620.4411.2600.2200.005216.237盘条x7-0.0160.499-0.012-.0320.9750.004242.790aDependentVariable:工业总产值y即有:=0.987,=0.983,=249.059方程的决定系数较高,=0.987,修正可决系数=0.983,又回归模型拟合程度与决定系数有关,决定系数越大,模型拟合程度越高,可见本模型拟合程度较好,又F=249.059>10,模型总体显著性检验得知模型总体显著,也就是全体解释变量总体对被解释变量存在明显影响。对t检验由上述分析结果知,除粗钢和原煤外其余预测变量都是显著的。故我们对上述模型进行计量经济学的检验,并进行修正,看是否能使模型方程得到改进。其中我们看到平板玻璃和盘条产量的系数是负值,一般来说,平板玻璃和盘条产量等经济发展量应该与工业总产值成正比关系,但由于在研究具体某个地区的经济发展关系时,由于政策领导或其它的因为地区的特殊性的原因,造成了平板玻璃和盘条产量的系数是可能成为负值的。比如工业总产值在下降,但是因为政策或其它原因平板玻璃和盘条产量却在上升,或工业总产值在上升,但是平板玻璃和盘条产量却在下降。27 河北工程大学本科毕业设计(论文)4.4计量经济学检验及模型修正4.4.1异方差检验计算残差绝对值与个自变量的斯皮尔曼相关系数,结果如下表:Correlations塑料制品x1水泥x2平板玻璃x3生铁x4粗钢x5钢筋x6盘条x7abs_1Spearman"srho塑料制品x1CorrelationCoefficient10.7350.7380.6150.6850.5920.7110.590Sig.1-tailed00000000N3131313131313131水泥x2CorrelationCoefficient0.73510.8550.5470.6040.7820.7600.470Sig.1-tailed00.00200.0010000.004N3131313131313131平板玻璃x3CorrelationCoefficient0.7380.85510.6650.7170.6650.6900.287Sig.1-tailed00000000.059N3131313131313131生铁x4CorrelationCoefficient0.6150.5470.66510.9860.7000.7540.489Sig.1-tailed00.0010.0000.003N3131313131313131粗钢x5CorrelationCoefficient0.6850.6040.7170.98610.7200.7880.513Sig.1-tailed0000.000.002N3131313131313131钢筋x6CorrelationCoefficient0.5920.7820.6650.700.72010.8580.416Sig.1-tailed00000000.01N3131313131313131盘条x7CorrelationCoefficient0.7110.7600.6900.7540.7880.85810.547Sig.1-tailed00000000.001N313131313131313127 河北工程大学本科毕业设计(论文)abs_1CorrelationCoefficient0.5900.4700.2870.4890.5130.4160.5471Sig.1-tailed00.0040.0590.0030.0020.010.0010.001N3131313131313131Correlationissignificantatthe0.01level1-tailed.表4.6Correlations残差绝对值与各自变量的相关系数分别为0.59,0.47,0.287,0.489,0.513,0.416,0.547说明存在异方差,需采用加权最小二乘估计;加权估计,得到最优权重为3.000,对其进行加权分析。表4.7VariablesEntered/Removed(b,c)ModelVariablesEnteredVariablesRemovedMethod1盘条x7,塑料制品x1,钢筋x6,生铁x4,平板玻璃x3,粗钢x5,水泥x20.536EnteraAllrequestedvariablesentered.bDependentVariable:工业总产值ycWeightedLeastSquaresRegression-WeightedbyWeightfor工业总产值yfromWLS,MOD_4abs_1**-3.000表4.8ModelSummary(b,c)ModelRRSquareAdjustedRSquareStd.ErroroftheEstimateDurbin-Watson11.000(a)1.0001.0000.085921.581aPredictors:(Constant),盘条x7,塑料制品x1,钢筋x6,生铁x4,平板玻璃x3,粗钢x5,水泥x2bDependentVariable:工业总产值ycWeightedLeastSquaresRegression-WeightedbyWeightfor工业总产值yfromWLS,MOD_4abs_1**-3.000表4.9ANOVA(b,c)ModelSumofSquaresdfMeanSquareFSig.1Regression2587.0987369.58550065.4390.000(a)Residual0.170230.007Total2587.2683027 河北工程大学本科毕业设计(论文)aPredictors:(Constant),盘条x7,塑料制品x1,钢筋x6,生铁x4,平板玻璃x3,粗钢x5,水泥x2bDependentVariable:工业总产值ycWeightedLeastSquaresRegression-WeightedbyWeightfor工业总产值yfromWLS,MOD_4abs_1**-3.000表4.10Coefficients(a,b)ModelUnstandardizedCoefficientsStandardizedCoefficientstSig.CollinearityStatisticsBStd.ErrorBetaToleranceVIF1(Constant)-13.0133.486-3.7330.001塑料制品x10.8410.0950.2648.8230.0000.003314.686水泥x20.0200.0100.2602.1030.0470.0005366.476平板玻璃x3-0.0170.019-0.084-0.8660.3950.0003333.757生铁x4-0.0080.019-0.038-0.4400.6640.0002602.303粗钢x50.0800.0210.3703.8360.0010.0003255.656钢筋x60.4050.0550.3937.4080.0000.001984.360盘条x7-0.2170.104-0.163-2.0900.0480.0002131.465由上表所知,方程的决定系数较高,=1.000,修正可决系数=1.000,又回归模型拟合程度与决定系数有关,决定系数越大,模型拟合程度越高,可见本模型拟合程度较好,又=50065.439>10,模型总体显著性检验得知模型总体显著,也就是全体解释变量总体对被解释变量存在明显影响。但是值为1.581,要比原来多元线性回归的值要小,自相关性比较严重,需要进一步讨论4.4.2自相关检验自相关(Autocorrelation)是对随机扰动项之间相互独立假定的违背,指扰动项序列相邻期之间不是随机独立而是存在相关关系,又称为序列相关。自相关主要表现在时间序列中。因此对于线性回归模型:自相关可表示为:用于检验扰动项是否存在自相关的方法主要有:D-W检验(Durbin-Watson杜宾-瓦特森检验),D-W检验是Durbin和Watson于1951年提出的一种自相关检验方法。它只适用于扰动项的形式为:(27 河北工程大学本科毕业设计(论文)为自相关系数)的一阶自相关问题。这种方法是最常用的一阶自相关检验方法。其检验步骤如下:(1)提出假设。:,即扰动项不存在一阶自相关;:,即扰动项存在一阶自相关。(2)构造统计量。定义DW统计量为,对于大样本可以把统计量写为,其中为自相关系数的估计。因为||1,所以检验统计的值域为0DW4。(3)判断。根据样本容量n和解释变量的数目p查分布表,得下临界值和上临界值,并依下列准则判断扰动项的自相关情形。①如果0<<,则拒绝零假设,扰动项存在一阶正自相关。越接近于0,正自相关性越强。②如果<<,则无法判断是否有自相关。③如果<<4-,则接受零假设,扰动项不存在一阶正自相关。越接近2,判断无自相关性把握越大。④如果4-<<4-,则无法判断是否有自相关。⑤如果4-<<4,则拒绝零假设,扰动项存在一阶负自相关。越接近于4,负自相关性越强。由上图4.3得知Durbin-WatsonStatistics=1.955873,查表得在显著水平=0.05下,查表n=30,k=3时,=1.21,=1.55,由于=1.2110,模型总体显著性检验得知模型总体显著,也就是全体解释变量总体对被解释变量存在明显影响,并且值为1.867,与原来的线性回归结果相比自相关性得到了进一步的优化。此时的多元线性回归方程为:27 河北工程大学本科毕业设计(论文)由表可知,值为1.867,可以看出自相关性得到了进一步改善,下面再次迭代:,来改善自相关性。.进行迭代计算,得到如下结果:表4.15VariablesEntered/Removed(b)ModelVariablesEnteredVariablesRemovedMethod1X72,X12,X42,X32,X22,X62,X52(a).EnteraAllrequestedvariablesentered.bDependentVariable:Y22表4.16ModelSummary(b)ModelRRSquareAdjustedRSquareStd.ErroroftheEstimateDurbin-Watson10.994(a)0.9880.984243.399802.072aPredictors:(Constant),X72,X12,X42,X32,X22,X62,X52bDependentVariable:Y22表4.17ANOVA(b)ModelSumofSquaresdfMeanSquareFSig.1Regression112177062.223716025294.603270.499.000(a)Residual1362599.6612359243.464Total113539661.88530aPredictors:(Constant),X72,X12,X42,X32,X22,X62,X52bDependentVariable:Y22表4.18Coefficients(a)ModelUnstandardizedCoefficientsStandardizedCoefficientstSig.CollinearityStatisticsBStd.ErrorBetaToleranceVIF1(Constant)-1.45945.400-0.0320.975X121.1200.4530.3612.4720.0210.02440.909X220.0320.0240.4141.3650.1850.006176.467X32-0.0600.051-0.308-1.1750.2520.008131.958X420.1290.1510.5870.8570.4000.001898.594X52-0.1120.170-0.521-0.6590.5170.0011198.068X620.5500.3270.5341.6820.1060.005193.11227 河北工程大学本科毕业设计(论文)X72-0.0820.422-0.061-0.1950.8470.005187.968aDependentVariable:Y22由上表可知方程的决定系=0.988,修正可决系数=0.984,与上次迭代相比基本稳定,且均接近于1,可见本模型拟合程度较好,又F=270.499>10,模型总体显著性检验得知模型总体显著,也就是全体解释变量总体对被解释变量存在明显影响,并且值为2.072,自相关性的影响基本消除。此时的多元线性回归方程为:5结论在本文中,我们通过一系列主要工业产品产量的分析,探索通过个工业产品产量来预测工业总产值的方法。我们在本文中选取了工业总产值,塑料制品产量,水泥产量,平板玻璃产量,生铁产量,粗钢产量,钢筋产量,盘条产量。在通过对模型的异方差性和自相关性的检验以及修正之后我们得到的最终的线性回归方程为:通过以上线性回归方程我们可以知道,工业总产值与塑料制品产量有较大关系,塑料产量每增加一个单位,工业总产值就会增加1.120个单位,水泥产量每增加1个单位总也总产值就会增加0.032个单位,生铁产量每增加一个单位,工业总产值就会增加0.129个单位,同样的钢筋每增加1个单位工业总产值就会增加0.55个单位。但同时我们看到有些主要工业产品的产量系数是负值,一般来说,各主要工业产品的产量等经济发展量应该与工业总产值成正比关系,但由于在研究具体某个地区的经济发展关系时,由于政策领导或其它的因为地区的特殊性的原因,造成了水泥产量的系数是可能成为负值的。比如工业总产值在下降,但是因为政策或其它原因一些工业产品产量却在上升,或工业总产值在上升,但是某些工业产品的产量却在下降。在我国,目前经济发展速度很快,工业生产总值能够保持稳定增长,我们要保持住这种增长势头,实现经济的又好又快发展,那么对于多元线性回归研究经济发展的问题就有很现实的作用。并且,在我国,经济发展还不是很平衡,对各地区进行经济发展的研究,使我们可以在宏观调控的条件下,也可以结合各地区的实际情况作出经济决策,使经济发展达到最好的效果。由以上得到的回归方程我们可以看到变量和的系数绝对值最大,可见对的影响是最大,即机塑料制品产量,是钢筋产量,所以对全国各地区从目前的经济发展状况和条件看,塑料制品产量和钢筋产量对工业总产值有最大的正影响关系,也就是说,为了最高的提高全国各地区工业总产值的指标,我们可以加大对塑料制品和钢筋27 河北工程大学本科毕业设计(论文)的生产,它对全国各地区工业总产值的指标有最明显的正向关系。这样,我们在对于资源的配置方面,可以先考虑对各地区纸塑料制品和钢筋制造的投资加大,能够达到资源的优化配置。致谢在本文的体系和材料数据的收集及处理过程中及在撰写整篇论文的过程中,王小胜王导师给了我很大的帮助,在材料的选择、文章的重心、参数估计统计检验及计量经济学检验等许多方面给了我有益的指导和启迪。在此,我表示最衷心的感谢。27 河北工程大学本科毕业设计(论文)参考文献[1]谢建平.回归分析在经济中的应用[J].学术月刊,2009,11(6):71-74.[2]张润楚.数理统计学[M].北京:科学出版社,2010.[3]谢宇.回归分析[M].北京:社会科学文献出版社,2010.[4]王松桂.线性模型引论[M].北京:科学出版社,2003.[5]陈正昌,程炳林,陈新丰等.多变量分析方法统计软件应用[M].北京:中国税务出版社,2008.[6]米红张文璋.实用现代统计分析方法与SPSS应用[M].北京:当代中国出版社,2006.[7]任庆玉.当代中国经济[M].北京:中国经济出版社,2005.[8]何东耀.中国4万亿投资解读[M].北京:中国人民大学出版社,2008.[9]HarbertWhite.AHeteroskedasticity-ConsistentCovarianceMatrixEstimatorandaDirectTestforHeteroskedasticiry[J].TheEconometricSocietyMay,1980,17(2):817-838.[10]EilatP,EinavL.Determinantsofinternationaltourism:athree-dimensionalpaneldataanalysis.AppliedEconomics,2004,36(12):1315-1327.34[11]王祖兰.全国各地区工业经济实力分析[J].复印报刊资料,2009,15(7):177-181.27 河北工程大学本科毕业设计(论文)27'