• 1.30 MB
  • 2022-04-22 11:48:33 发布

统计学(第六版)贾俊平 中国人民大学出版社——课后习题答案.pdf

  • 59页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'第一章导论1.1.1(1)数值型变量。(2)分类变量。(3)离散型变量。(4)顺序变量。(5)分类变量。1.2(1)总体是该市所有职工家庭的集合;样本是抽中的2000个职工家庭的集合。(2)参数是该市所有职工家庭的年人均收入;统计量是抽中的2000个职工家庭的年人均收入。1.3(1)总体是所有IT从业者的集合。(2)数值型变量。(3)分类变量。(4)截面数据。1.4(1)总体是所有在网上购物的消费者的集合。(2)分类变量。(3)参数是所有在网上购物者的月平均花费。(4)参数(5)推断统计方法。第二章数据的搜集1.什么是二手资料?使用二手资料需要注意些什么?与研究内容有关的原始信息已经存在,是由别人调查和实验得来的,并会被我们利用的资料称为“二手资料”。使用二手资料时需要注意:资料的原始搜集人、搜集资料的目的、搜集资料的途径、搜集资料的时间,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。在引用二手资料时,要注明数据来源。2.比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。概率抽样是指抽样时按一定概率以随机原则抽取样本。每个单位被抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽样的技术含量和成本都比较高。如果调查的目的在于掌握和研究总体的数量特征,得到总体参数的置信区间,就使用概率抽样。 非概率抽样是指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。非概率抽样操作简单、实效快、成本低,而且对于抽样中的专业技术要求不是很高。它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。非概率抽样也适合市场调查中的概念测试。3.调查中搜集数据的方法主要有自填式、面方式、电话式,除此之外,还有那些搜集数据的方法?实验式、观察式等。4.自填式、面方式、电话式调查个有什么利弊?自填式优点:调查组织者管理容易,成本低,可以进行较大规模调查,对被调查者可以刻选择方便时间答卷,减少回答敏感问题的压力。缺点:返回率低,调查时间长,在数据搜集过程中遇到问题不能及时调整。面谈式优点:回答率高,数据质量高,在数据搜集过程中遇到问题可以及时调整可以充分发挥调查员的作用。缺点:成本比较高,对调查过程的质量控制有一定难度。对于敏感问题,被访者会有压力。电话式优点:速度快,对调查员比较安全,对访问过程的控制比较容易,缺点:实施地区有限,调查时间不宜过长,问卷要简单,被访者不愿回答时,不宜劝服。5.请举出(或设计)几个实验数据的例子。不同饲料对牲畜增重有无影响,新旧技术的机器对组装同一产品所需时间的影响。6.你认为应当如何控制调查中的回答误差?对于理解误差,要注意表述中的措辞,学习一定的心里学知识。对于记忆误差,尽量缩短所涉及问题的时间范围。对于有意识误差,调查人员要想法打消被调查者得思想顾虑,调查人员要遵守职业道德,为被调查者保密,尽量避免敏感问题。7.怎样减少无回答?请通过一个例子,说明你所考虑到的减少无回答的具体措施。对于随机误差,可以通过增加样本容量来控制。对于系统误差,做好预防,在调查前做好各方面的准备工作,尽量把无回答率降到最低程度。无回答出现后,分析武回答产生的原因,采取补救措施。比如要收回一百份,就要做好一百二十份或一百三十份问卷的准备,当被调查者不愿意回答时,可以通过一定的方法劝服被访者,还可以通过馈赠小礼品等的方式提高回收率。第三章数据的图表搜集一、思考题3.1数据的预处理包括哪些内容?答:审核、筛选、排序等。3.2分类数据和顺序数据的整理和显示方法各有哪些?答:分类数据在整理时候先列出所分的类别,计算各组的频数、频率,得到频数分布表, 如果是两个或两个以上变量可以制作交叉表。对于分类数据可以绘制条形图、帕累托图、饼图、环形图等。根据不同的资料或者目的选择不同的图。对于顺序数据,可以计算各种的频数、频率,以及累计频数、累计频率。可根据需要绘制条形图、饼图、环形图等。3.3数值型数据的分组方法有哪些?简述组距分组的步骤。答:单变量值分组和组距分组。其中组距分组:第一步,确定组数,组数多少由数据的多少和特点等决定,一般5~15组;第二步,确定各组组距,宜取5或10的倍数;第三步,根据分组整理出频数分布表,注意遵循“不重不漏”和“上限不在内”的原则。3.4直方图和条形图有何区别?答:1,条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距,高度与宽度都有意义;2直方图各矩形连续排列,条形图分开排列;3条形图主要展示分类数据,直方图主要展示数值型数据。3.5绘制线图应注意问题?答:时间在横轴,观测值绘在纵轴。一般是长宽比例10:7的长方形,纵轴下端一般从0开始,数据与0距离过大的话用折断符号折断。3.6饼图和环形图的不同?答:饼图只能显示一个样本或总体各部分所占比例,环形图可以同时绘制多个样本或总体的数据系列,其图形中间有个“空洞”,每个样本或总体的数据系类为一个环。3.7茎叶图比直方图的优势,他们各自的应用场合?答:茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的信息。在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。3.8鉴别图标优劣的准则?答:P65明确有答案,我就不写了。3.9制作统计表应注意的问题?答:1,合理安排统计表结构;2表头一般包括表号,总标题和表中数据的单位等内容;3表中的上下两条横线一般用粗线,中间的其他用细线,两端开口,数字右对齐,不要有空白格;4在使用统计表时,必要时可在下方加注释,注明数据来源。二、练习题3.1答:(1)表中数据属于顺序数据。(2)用Excel制作一张频数分布表。服务等级家庭数目(个)好14较好21 一般32较差18差15(3)绘制一张条形图,反映评价等级的分布。40302010家庭数目(个)0好较好一般较差差服务等级服务等级的条形图(4)绘制评价等级的帕累托图。40150.00%30100.00%20频率50.00%1000.00%一般较好较差差好其他售后服务等级的帕累托图3.2某行业管理局所属40个企业2002年的产品销售收入数据如下:1521241291161001039295127104105119114115871031181421351251171081051101071371201361171089788123115119138112146113126要求:(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。lg()nlg401.602061、确定组数:K1116.32,取k=6lg(2)lg20.301032、确定组距:组距=(最大值-最小值)÷组数=(152-87)÷6=10.83,取10 3、分组频数表销售收入频数频率%向上累计频数向上累计频率%80–90252590–10037.5512.5100-110922.51435110–12012302665120–130717.53382.5130–1404103792.5140–15025.03997.5150以上12.540100合计40100.0——(2)按规定,销售收入在125万元以上为先进企业,115~125万元为良好企业,105~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。频数频率%向上累计频数向上累计频率%先进企业10251025良好企业12302255一般企业922.53177.5落后企业922.540100合计40100——3.3某百货公司连续40天的商品销售额如下:单位:万元41252947383430384340463645373736454333443528463430374426384442363737493942323635要求:根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。答:1、确定组数:lg()nlg401.60206K1116.32,取k=6lg(2)lg20.301032、确定组距:组距=(最大值-最小值)÷组数=(49-25)÷6=4,取53、分组频数表(根据实际资料,调整成分5个组) 销售收入(万元)频数频率%向上累计频数向上累计频率%30以下41041030-35615102535-401537.52562.540-45922.5348545以上61540100合计40100.0——4、直方图频率(天)频率15150.00%累积%10100.00%550.00%00.00%30以下30-3535-4040-4545以上销售额(万元)商店40天销售额的直方图3.4利用下面的数据构建茎叶图和箱线图。572929363123472328283551391846182650293321464152282143194220答:茎叶图FrequencyStem&Leaf3.001.8895.002.011337.002.68889992.003.133.003.5693.004.1233.004.6673.005.0121.005.7箱线图 605040302010data3.5答:频数分布表灯泡寿命频率向上累积频率(%)660以下22%660-67057%670-680613%680-6901427%690-7002653%700-7101871%710-7201384%720-7301094%730-740397%740以上3100%合计100—直方图频率频率(个)累积%30120.00%25100.00%2080.00%1560.00%1040.00%520.00%00.00%660以下660-670670-680680-690690-700700-710710-720720-730730-740740以上灯泡寿命(小时)灯泡寿命的直方图从直方图看,数据的分布呈左偏分布。3.6答:频数分布表lg()nlg1002K1116.64,取k=7lg(2)lg20.301032、确定组距: 组距=(最大值-最小值)÷组数=(61-40)÷7=3,取33、分组频数表(根据实际资料,调整成分5个组)食品重量(g)频数频率%向上累计频数向上累计频率%43以下334343-4699121246-492424363649-521919555552-552424797955-581414939358以上77100100合计100100.0——30120.00%25100.00%2080.00%1560.00%频率1040.00%520.00%00.00%43以下43-4646-4949-5252-5555-5858以上食品重量的直方图从直方图看,数据的分布呈双峰分布。3.7频数分布表重量误差(g)频数频率%向上累计频数向上累计频率%19-2951051029-39714122439-49816204049-591326336659-69918428469-79612489679-892450100合计50100—— 15120.00%100.00%1080.00%60.00%频率540.00%20.00%00.00%19-2929-3939-4949-5959-6969-7979-89误差的直方图从直方图看,数据的分布呈左偏分布3.8(1)数值型数据(2)频数分布表lg()nlg601.77815K1116.91,取k=7lg(2)lg20.301032、确定组距:组距=(最大值-最小值)÷组数=(9+25)÷7=4.86,取5气温(℃)频数频率%向上累计频数向上累计频率%(-25,-20)610.00610.00(-20,-15)813.331423.33(-15,-10)1016.672440.00(-10.-5)1321.673761.67(-5.0)1220.004981.67(0,5)46.675388.33(5,10)711.6760100.00合计60100——1510频率50(0,5)(-5,0)(5,10)(-10,-5)(-20,-15)(-15,-10)(-20以下)气温的直方图从直方图看,数据的分布呈左偏分布。3.9 年龄分布直方图403530252015105018~1920~2122~2425~2930~3435~3940~4445~59自学考试人员年龄分布集中在20-24之间,分布图呈右偏。3.103.11散点图3530252015105001234567893.12(1)复式条形图2018161412人数甲班10人数乙班86420优良中及格不及格环形图乙班,2乙班,6甲班,4甲班,3乙班,8甲班,6优甲班,9良中及格不及格乙班,15乙班,9甲班,18(2)甲班成绩分布图近似正态分布,分布较均衡;乙班成绩分布图右偏。(3)根据雷达图,两班成绩分布不相似。 优201510不及格良5甲班0乙班及格中3.13国产车销售排行前10名6005565415004003702983002772001901812001451171000福美来夏利捷达松花江富康哈飞路宝高尔夫东方之子长安奥拓爱丽舍进口车销售排行前10名160149140120102100806860403030231716201060丰田现代日产奔驰宝马大众汽车克莱斯勒本田雷克萨斯奥迪国产车销售排行前10名4%5%19%福美来6%夏利7%捷达松花江富康7%哈飞路宝19%高尔夫东方之子10%长安奥拓爱丽舍10%13% 进口车销售排行前10名4%2%1%4%丰田5%现代32%日产7%奔驰宝马7%大众汽车克莱斯勒本田15%雷克萨斯奥迪23%3.14国内生产总值1600001400001200001000008000060000400002000001995199619971998199920002001200220032004第一、二、三产业国内生产总值800007000060000第一50000产业4000030000第二产业2000010000第三产业01995199619971998199920002001200220032004第四章习题答案4.1数据排列:2,4,7,10,10,10,12,12,14,15(1)众数:10;中位数:10平均数:9.64710(2)四分位数:Q位置==2.5.所以Q==5.5L4L2Q位置=30=7.5,所以Q=1214=13U4U2(3)标准差:4.17 (4)峰度—0.25,偏度—0.694.2(1)众数:19;23中位数:23平均数:24(2)四分位数:Q位置=25=6.25.所以Q=19+0.25^0=19L4LQ位置=75=18.75,所以Q=25+2^0.75=26.5U4U(3)标准差:6.65(4)峰度0.77,偏度1.084.3(1)茎叶图略(2)平均数:7,标准差0.71s1.97(3)第一种方式的离散系数v==0.28sx7.2s0.71第二种方式的离散系数v==0.10sx7所以,第二种排队方式等待时间更集中。(4)选择第二种,因为平均等待的时间短,而且等待时间的集中程度高4.4(1)平均数:274.1,中位数:272.530(2)Q位置==7.5.所以Q=258+0.25^3=258.75L4LQ位置=90=22.5,所以Q=284+7^0.75=289.25U4U(3)日销售额的标准差:21.174.5.单位成本总成本/元产量产品名称(元)甲企业乙企业甲企业乙企业A1521003255140217B203000150015075C30150015005050合计——66006255340342kMfiii16600甲企业总平均成本x==19.41(元)n340 kMfiii16255乙企业总平均成本x=18.29(元)n342所以甲企业的总平均成本比乙企业的高,原因是甲企业高成本的产品B生产的产量比乙企业多,所以把总平均成本提高了。4.6计算数据如表:按利润额分组组中值企业数(个)利润额2(x_x)f(万元)200~300250194750593033300~4003503010500176349400~500450421890022860500~600550189900273785600以上650117150548639合计-120512001614666kMfiii151200利润总额的平均数x=426.67(万元)n1202xx*f1614666利润总额标准差=115.99(万元)n120k4(Mix)fii151087441648峰态系数K3344ns120(115.99)2.3523—0.6479k533(Mix)fi(Mi426.67)fii1i1偏态系数SK=0.205733ns120(115.99)4.7(1)不同。1000名的平均身高较高;(2)不同。100名的样本容量的标准差更大;(3)不同,调查1000名的样本容量得到最高和最低者的机会较大。4.8对于不同的总体的差异程度的比较采用标准差系数,计算如下:s5s5v男8.3%;v女10%ssx60x50(1)女生的体重差异大,因为离散系数大; (2)以磅为单位,男生的平均体重为132.6磅,标准差为11.05磅;女生的平均体重为110.5磅,标准差为11.05磅s11.05s11.05v男8.33%v女10%ssx132.6x110.5xix6560(3)z1,所以大约有68%的人体重在55kg~65kg之间;is5xix4050(4)z2,所以大约有95%的女生体重在40kg~60kg之间。is5xix1151004.9z1;is15xix425400z0.5;is50由此可以判断第二项测试更理想。4.10时间周一周二周三周四周五周六周日产量3850367036903720361035903700z值30.60.20.41.82.20可以看出,周一和周六两天生产线失去了控制。4.11(1)采用离散系数,因为如果比较身高差异,儿童和成年人属于不同的总体;s4.20s2.50(2)v2.44%,v3.5%s成年s儿童x172.1x71.3所以,儿童的身高差异更大。4.12(1)对集中程度和离散程度分别评价,选择集中趋势数值大的,而且离散程度数值小的方式(2)选择方法A,因为A方法下,工人的平均组装数量为165.6,而且该方法下,工人组装数量的离散系数只有0.012,所以选择A方法。4.13(1)用离散系数(2)商业类(3)高科技第六章统计量与抽样分布 1、设X,X,,X是从总体X中抽取的容量为n的一个样本,如果由此12n样本构造一个函数TX,X,,X,不依赖于任何未知参数,则称函12n数TX,X,,X是一个统计量。12n由样本构建具体的统计量,实际上是对样本所含的总体信息按某种要求进行加工处理,把分散在样本中的信息集中到统计量的取值上,不同的统计推断问题要求构造不同的统计量。构造统计量的主要目的就是对总体的未知参数进行推断,如果统计量中含有总体的未知参数就没办法再对参数进行统计推断。2、T和T是统计量,T和T在和未知的情况下不是统计量。12343、设X,X,,X是从总体X中抽取的一个样本,X称为第i个次序统计量,12n(i)它是样本X,X,,X满足如下条件的函数:每当样本得到一组观测值12nx1,x2,,xn时,其由小到大的排序x1x2xixn中第i个值xi就作为次序统计量X(i)的观测值,而X1,X2,,Xn称为次序统计量。4、假若一个统计量能把含在样本中有关总体的信息一点都不损失地提取出来,这样的统计量称充分统计量。5、统计学上的自由度指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的资料的个数。226、分布和正态分布关系:n时,分布的极限分布是正态分布。t分布和正态分布的关系:t分布的密度函数曲线与标准正态分布的密度函数曲线非常相似,但tn分布的密度函数在两侧的尾部都要比标准正态的两侧尾部粗一些,方差也比标准正态分布的方差大。随着自由度n的增加,t分布的密度函数越来越接近标准正态分布的密度函数。2F分布和正态分布关系:若X~tn,则X~F1,n。并且随着自由度n的增加,X也越来越接近于标准正态分布,若把X看成近似服从标准正态分布的一个随机变量,则。2X~F1,n。7、在重复选取容量为n的样本时,由样本统计量的所有取值形成的相对频数分布为统计量的抽样分布。28、中心极限定理:设从均值为,方差为的任意一个总体中抽取样本量为n2的样本,当n充分大时,样本均值X的抽样分布近似服从均值为,方差为的n正态分布。中心极限定理解决了在总体为非正态的情况下,样本平均数的抽样分布问题,为总体参数的推断提供了理论基础。二、练习1、易知由这台机器灌装的9个瓶子形成的样本,其平均灌装量服从正态分布,均值为, 1标准差为,故xn3XPX0.3P0.9Pz0.90.631913X0.30.32、若PX0.30.95,则P0.95,即1.96,nnn21.96又知1,n42.68,故n43。0.36223、易知Zi服从自由度为6的卡方分布,得b0.95(6)12.59(左侧分位数)i12n1S2224、因为服从(n1)分布,我们已知n10,1,故9S服从(9)222分布,PbSbP9b9S9b0.9,我们若取1212222P9S9b0.05,P9S9b10.05,则可以得到9b(9)16.92,220.9529b(9)3.33,故b0.37,b1.88。(题中均为左侧分位数)10.0512第七章参数估计57.1(1)0.79xn40(2)由于1-α=95%α=5%Z1.9625所以估计误差Z1.961.55n402157.2(1)2.14xn4915(2)因为Z1.96所以Z1.964.20n4922(3)μ的置信区间为xZ1204.20n2 7.3由于Z1.96x10456085414n=1002所以μ的95%置信区间为85414xZ1045601.9610456016741.14n1002s127.4(1)μ的90%置信区间为xZ811.645811.97n1002s12(2)μ的95%置信区间为xZ811.96812.35n1002s12(3)μ的99%置信区间为xZ812.58813.096n10023.57.5(1)xZ251.96250.89n602s23.89(2)xZ119.62.326119.66.416n752s0.974(3)xZ3.4191.6453.4190.283n3225007.6(1)xZ89001.968900253.035n152500(2)xZ89001.968900165.650n352s500(3)xZ89001.6458900139.028n352s500(4)xZ89002.3268900196.583n352361127.7xxi3.317sxix1.609nn1i1s1.60990%置信区间为xZ3.3171.6453.3170.441n362 s1.60995%置信区间为xZ3.3171.963.3170.526n362s1.60999%置信区间为xZ3.3172.5763.3170.6908n36281127.8xxi10sxix3.464nn1i1s3.464所以95%置信区间为xt102.3646102.896n1n8217.9xxi9.375由于tt0.025(15)2.131nn1212sxix4.113n1s4.113所以95%置信区间为xt9.3752.1319.3752.191n1n162s1.937.10(1)xZ149.51.96149.50.63n362(2)中心极限定理117.11(1)xxi5066101.132n50121sxix131.881.641n149s1.641xZ101.321.96101.320.455n50245(2)由于p0.950所以合格率的95%置信区间为p1p0.90.1pZ0.91.960.90.083n50217.12由于xxi16.128tt0.005(24)3.745nn12 12sxix0.8706n1所以99%置信区间为s0.8706xt(n1)161.283.745161.280.653n25217.13t(n1)t0.05(17)1.7396xxi13.556n212sxix7.800n1s7.8所以90%置信区间为xt(n1)13.5561.739613.5563.198n182p1p0.510.497.14(1)pZ0.512.5760.510.194n442p1p0.820.18(2)pZ0.821.960.820.0435n3002p1p0.480.52(3)pZ0.481.6450.480.024n115027.15(1)90%置信区间为p1p0.230.77pZ0.231.6450.230.049n2002(2)95%置信区间为p1p0.230.77pZ0.231.960.230.058n200222Z2222.57610007.16EZn165.89所以n为16622nE20022Z1222.0540.40.67.17(1)n253.13所以n为25422E0.02 2Z1221.960.50.5(2)n150.0625所以n为15122E0.042Z1221.6450.550.45(3)n267.89所以n为26822E0.05327.18(1)p0.64502Z1221.960.80.2(2)n61.46所以n为6222E0.122227.19(1)n150166.339n150133.9300.050.9512222n1s2n1s22122所以n1n14949ss221.722.402266.33933.931222222(2)n115123.6848n11516.57060.050.95122n1n11414ss0.027060.020.0150.0432223.68486.51222222(3)n122132.6706n122111.59130.050.95122n1n12121ss313124.8541.7252236.70611.59131221127.20(1)xxi7.15sxix0.4767nn12222n110119.0228n11012.70040.0250.975122n1n199ss0.47670.47670.3280.872219.02282.7004122(2) n1n199ss1.8221.8221.2533.3262219.02282.700412222(n1)s(n1)s1396.86102211227.21s=98.442pnn21912(1)的90%置信区间为:121111(xx)t(nn2)s=9.81.72998.44212212pnn14712=9.87.9411(2)的95%置信区间为:121111(xx)t(nn2)s=9.82.09398.44212212pnn14712=9.89.613(3)的99%置信区间为:12119.82.860998.442=9.813.14014722ss127.22(1)(xx)z=21.960.36=21.176122nn12122(n1)s(n1)s91692021122(2)s==18pnn21812111(xx)t(nn2)s=22.118=23.9812212pnn51222s1s22()nn121(3)=17.782222(sn)(sn)1122n1n11222ss12(xx)t()=22.13.6=23.98122nn121(4)t(28)2.0480.025 22(n1)s(n1)s21122s=18.714pnn2121111(xx)t(nn2)s=22.04818.71412212pnn102012=23.4322(s1s2)216202()n1n211020(5)=20.05222222(sn)(sn)1.611122n1n191912t()2.086222ss12(xx)t()=22.0861.61=23.364122nn12127(did)3327.23(1)ds==6.917d4n148s7d(2)dt(n1)=4.1852n47.24t(n1)2.6216d11,s6.53197的置信区间为:2ddsd6.53197dt(n1)=112.6216=115.41522n10p(1p)p(1p)11227.25(1)(pp)z122nn120.40.60.30.76=0.11.645=0.10.0698250250p(1p)p(1p)1122(2)(pp)z122nn120.40.60.30.76=0.11.96=0.10.08312502507.26s0.241609s0.07645712F(n1,n1)=F(20,20)=2.4642120.025 F(20,20)=0.405760.97522222ssss121122FF221229.9869.986122.4460.405762214.052824.6112222(z2)(1)1.960.020.987.27n==47.0622E0.04所以n=48(z)222221.961207.28n==138.3022E20所以n=139第8章假设检验二、练习题(说明:为了便于查找书后正态分布表,本答案中,正态分布的分位点均采用了下侧分位点。其他分位点也可。为了便于查找书后t分布表方便,本答案中,正态分布的分位点均采用了上侧分位点。)8.1解:根据题意,这是双侧检验问题。H:4.550H:4.55122已知:总体方差0.1054.55,x4.484,n9,显著水平0.050x04.4844.55z1.8333/n0.108/9当0.05,查表得z1.96。1/2拒绝域W={zz}1/2因为zz1/2,所以不能拒绝H0,认为现在生产的铁水平均含碳量为4.55。(注:z为正态分布的1-α/2下侧分位点)1/2 8.2解:根据题意,这是左单侧检验问题。H:7000H:700122已知:总体方差60700,x680,n36,显著水平0.050x0680700z2/n60/36当0.05,查表得z1.645。1拒绝域W={zz}1因为z2z1,所以拒绝H0,认为该元件的使用寿命低于700小时。(注:z为正态分布的1-α下侧分位点)18.3解:根据题意,这是右单侧检验问题。H:2500H:250122已知:总体方差30250,x270,n25,显著水平0.050x0270250z3.3333/n30/25当0.05,查表得z1.645。1拒绝域W={zz}1因为z3.3333z1,所以拒绝H0,认为这种化肥能使小麦明显增产。(注:z为正态分布的1-α下侧分位点)18.4解:根据题意,这是双侧检验问题。H:1000H:1001 2方差未知。已知:总体4.55,显著水平0.050根据样本计算得:x99.9778,s1.2122,n9x099.9778100t0.0549s/n1.2122/9当0.05,查表得t(8)2.3060。/2拒绝域W={tt(8)}/2因为t0.0549t/2(8),所以不能拒绝H0,认为该日打包机工作正常。(注:t(8)为t分布的α/2上侧分位点)/28.5解:根据题意,这是右单侧检验问题。H:0.050H:0.0516已知:p0.12,0.05,n50,显著水平0.05050p00.120.05z2.2711(1)0.050.9500n50当0.05,查表得z1.645。1拒绝域W={zz}1因为z2.2711z1,所以拒绝H0,认为不符合标准的比例超过5%,该批食品不能出厂。(注:z为正态分布的1-α下侧分位点)18.6解:根据题意,这是右单侧检验问题。H:250000H:250001已知:25000,x27000,s5000,n15,显著水平0.050 x02700025000t1.5492s/n5000/15当0.05,查表得t(14)1.7613。拒绝域W={tt(14)}因为t1.5492t(14),所以不能拒绝H0,认为该厂家的广告不真实。(注:t(14)为t分布的α上侧分位点)8.7解:根据题意,这是右单侧检验问题。H:2250H:2251已知:225,x241.5,s98.7259,n16,显著水平0.050x0241.5225t0.6473s/n98.7259/15当0.05,查表得t(15)1.7531。拒绝域W={tt(15)}因为t0.6473t(14),所以不能拒绝H0,认为元件的平均寿命不大于225小时。(注:t(15)为t分布的α上侧分位点)8.8解:根据题意,这是右侧检验问题。2H:10002H:1001已知:10,s14.6884,n9,显著水平0.050222(n1)s814.688417.2599221002当0.05,查表得(8)15.5073。22拒绝域W={(8)}222因为17.2599(8),所以拒绝H0,认为H1:100成立。 22(注:(8)为-分布的α上侧分位点)8.9解:根据题意,这是双侧检验问题。H:00ABH:01AB2222已知:总体方差63,57ABx1070,n81;x1020,n64,显著水平0.05AABBxAxB10701020z5.005922226357ABnn8164AB当0.05,查表得z1.96。1/2拒绝域W={zz}1/2因为z5.0059z1/2,所以拒绝H0,可以认为A,B两厂生产的材料平均抗压强度不相同。(注:z为正态分布的1-α/2下侧分位点)1/28.10解:根据题意,这是双侧检验问题。H:0012H:011222已知:总体方差,但未知12x31.75,n12;x28.6667,n12,s3.2030显著水平0.051122px1x231.7528.6667t2.35791111s3.2030pnn121212当0.05,查表得t(23)2.0687。/2拒绝域W={tt(23)}/2因为t2.3579t/2(23),所以拒绝H0,认为两种方法的装配时间有显著差异。 (注:t(23)为t分布的α上侧分位点)8.11解:根据题意,这是双侧检验问题。H:012H:112431356已知:p,p,n205,n134,p,显著水平0.051212205134339在大样本条件下4313p1p2205134z2.732911565611p(1p)()(1)()nn33933920513412当0.05,查表得z1.96。1/2拒绝域W={zz}1/2因为z2.7329z1/2,所以拒绝H0,认为调查数据支持“吸烟者容易患慢性气管炎”这种观点。(注:z为正态分布的1-α/2下侧分位点)1/28.12解:根据题意,这是右单侧检验问题。H:600(1)H:601H:600等同于(2)H:601已知:60,x68.1,s45,n1440x068.160z2.16s/n45/144在n=144情况下,(2)中的H0成立时,t近似服从标准正态分布。因此P=P(t>2.16)=1-0.9846=0.0154。所以在α=0.01的显著水平,不能拒绝H0,认为贷款的平均规模没有明显超过60万元。8.13解:根据题意,这是左单侧检验问题。 H:012H:112104p,n11000,1111000189已知:p,n11000,2211000293p,显著水平0.0522000在大样本条件下104189p1p21100011000z4.99921129329311p(1p)()(1)()nn2200022000110001100012当0.05,查表得z1.645。1拒绝域W={zz}1因为z4.9992z1,所以拒绝H0,认为阿司匹林可以降低心脏病发生率。(注:z为正态分布的1-α下侧分位点)18.14解:(1)根据题意,这是双侧检验问题。2H:0.0302H:0.03122已知:0.03,s0.0375,n80,显著水平0.05022(n1)s790.037598.7520.030当0.05,利用EXCEL提供的统计函数“CHIINV”,得22(79)56.3089,(79)105.4727。1/2/22222拒绝域W={(79)或(79)}1-、2、22222因为1-/2(79)98.75/2(79),所以不能拒绝H0,认为H0:0.03成立。22(注:(79)为-分布的α上侧分位点) (2)根据题意,这是双侧检验问题。H:7.00H:7.012已知:总体方差0.037.0,x6.97,n80,显著水平0.050x06.977.0z0.5196/n0.03/9当0.05,查表得z1.96。1/2拒绝域W={zz}1/2因为z0.5196z1/2,所以不能拒绝H0,认为螺栓口径为7.0cm。(注:z为正态分布的1-α/2下侧分位点)1/2因此,由(1)和(2)可得:这批螺栓达到了规定的要求。8.15(1)根据题意,这是双侧检验问题。22H:01222H:11222已知:s56,n25,s49,n16,显著水平0.0511222s561F1.14292s492当0.05,利用EXCEL提供的统计函数“FINV”,得F(79)0.4195,F(79)2.6138。1/2/2拒绝域W={FF(79)或FF(79)}1-、2、2因为F1-/2(25,16)F2.6138F/2(25,16),所以不能拒绝H0,认为22H:成立。012(注:F(25,16)为F-分布的α/2上侧分位点)/2(2)根据题意,这是右单侧检验问题。 H:0012H:011222由(1)的分析可知:总体方差,但未知12x82,n25;x78,n16,显著水平0.05112222(n1)s(n1)s21122s53.3077pnn212x1x28278t1.71121111s53.3077pnn251612当0.05,查表得t(39)1.6849。拒绝域W={tt(39)}因为t1.7112t/2(39),所以拒绝H0,认为有显著大学中男生学习成绩比女生好。(注:t(39)为t分布的α上侧分位点)第十章方差分析一、思考题10.1什么是方差分析?它研究的是什么?答:方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。它所研究的是分类型自变量对数值型因变量的影响。10.2要检验多个总体均值是否相等时,为什么不作两两比较,而用方差分析方法?答:做两两比较十分繁琐,进行检验的次数较多,会使得犯第I类错误的概率相应增加,而且随着增加个体显著性检验的次数,偶然因素导致差别的可能性也会增加。而方差分析方法是同时考虑所有的样本,因此排除了错误累积的概率,从而避免一个真实的原假设。10.3方差分析包括哪些类型?它们有何区别?答:方差分析可分为单因素方差分析和双因素方差分析。区别:单因素方差分析研究 的是一个分类自变量对一个数值型因变量的影响,而双因素涉及两个分类型自变量。10.4方差分析中有哪些基本假定?答:(1)每个总体都应服从正态分布(2)各个总体的方差必须相同(3)观测值是独立的10.5简述方差分析的基本思想答:它是通过对数据误差来源的分析来判断不同总体的均值是否相等,进而分析自变量对因变量是否有显著影响。10.6解释因子和处理的含义答:在方差分析中,所要检验的对象称为因素或因子,因素的不同表现称为水平或处理。10.7解释组内误差和组间误差的含义答:组内平均值误差的误差(SSE)是指每个水平或组的各个样本数据与其组平均值误差平方和,反映了每个样本个观测值的离散状况;组间误差(SSA)是指各组平均值与总平均值的误差平方和,反映了各样本均值之间的差异程度。10.8解释组内方差和组间方差的含义答:组内方差指因素的同一个水平下样本数据的方差;组间方差指因素的不同水平下各个样本之间的方差。10.9简述方差分析的基本步骤答:(1)提出假设(2)构造检验统计量(3)统计决策10.10方差分析中多重比较的作用是什么?答:通过对总体均值之间的配对比较来进一步检验哪些均值之间存在差异。二、练习题10.1解:方差分析差异源SSdfMSFP-value组间618.91672309.45834.65740.04087724组内598966.44444总计1216.91711相同10.2解:方差分析差异源SSdfMSFP-value组间93.76812423.4420315.823371.02431E-05组内26.66667181.481481总计120.434822 不相同10.3解:ANOVA每桶容量(L)平方和df均方F显著性组间0.00730.0028.7210.001组内0.004150.000总数0.01118不相同。10.4解:方差分析差异源SSdfMSFP-value组间29.60952214.8047611.755730.000849组内18.89048151.259365总计48.517有显著性差异。10.5解:方差分析差异源SSdfMSFP-value组间615.62307.817.068390.00031组内216.41218.03333总计83214有显著差异。LSD检验:计算得x44.4,x30,x42.6,有因为nnn5,则ABCABc1111LSDt2MSE2.09318.033335.62nn55决策:(1)xx44.43014.45.62,所以A生产企业生产的电池与B生产企AB业生产的电池平均寿命有显著差异;(2)xx44.442.61.85.62,所以不能AC认为A生产企业生产的电池与C生产企业生产的电池平均寿命有显著差异;(3)xx3042.612.65.62,所以B生产企业生产的电池与C生产企业生产的电BC池平均寿命有显著差异。10.6解:方差分析差异源SSdfMSFP-value组间5.34915622.6745788.2745180.001962组内7.434306230.323231总计12.7834625 有显著性差异10.7(1)方差分析表差异源SSDfMSFP-valueFcrit组间42022101.478102190.2459463.354131组内383627142.0740741———总计425629————(2)若显著性水平a=0.05,检验三种方法组装的产品数量之间是否有显著差异?P=0.025>a=0.05,没有显著差异。10.8解:方差分析差异源SSdfMSFP-valueFcrit行1.54933340.38733321.719630.0002367.006077列3.48421.74297.682242.39E-068.649111误差0.14266780.017833总计5.17614(1)F21.71963F7.006077或p=0.000236<0.01,所以不同车速对磨损R程度有显著性差异;(2)F97.68224F8.649111或p=2.39E-06<0.01,所以不同供应商生C产的轮胎的磨损程度有显著性差异。10.9解:方差分析差异源SSdfMSFP-valueFcrit行19.06744.766757.2397160.0033153.259167列18.181536.06059.2046580.0019493.490295误差7.901120.658417总计45.149519结果表明施肥方法和品种都对收获量有显著影响。10.10解:方差分析差异源SSdfMSFP-valueFcrit行22.22222211.111110.0727270.9310566.944272列955.55562477.77783.1272730.1521556.944272误差611.11114152.7778总计1588.8898(1)F0.072727F6.944272或p=0.931056>0.05,所以不同销售地区R对食品的销售量无显著性差异;(2)F3.127273F6.944292或p=0.152>0.05,所以不同包装对食品的C销售量无显著性差异。10.11解: 方差分析差异源SSdfMSFP-valueFcrit样本1752287648.666675.49E-086.012905列798239922.166671.4E-056.012905交互182.6667445.666672.5370370.0759024.579036内部3241818总计3056.66726(1)竞争者的数量对销售额有显著影响(2)超市位置对销售额有显著影响(3)无交互作用10.12解:方差分析差异源SSdfMSFP-valueFcrit样本344217210.750.0103865.143253列4814830.1339755.987378交互562281.750.2519325.143253内部96616总计54411(1)广告方案对销售量有显著影响(2)广告媒体形式对销售量无显著影响(3)无交互作用第11章一元线性回归一、思考题11.1.变量之间存在的互相依存的不确定的数量关系,称为相关关系。相关关系的特点:⑴变量之间确实存在着数量上的依存关系;⑵变量之间数量上的关系是不确定、不严格的依存关系。11.2.相关分析通过对两个变量之间的线性关系的描述与度量,主要解决的问题包括:⑴变量之间是否存在关系?⑵如果存在关系,它们之间是什么样的关系?⑶变量之间的关系强度如何?⑷样本所反映的变量之间的关系能否代表总体变量之间的关系?11.3.在进行相关分析时,对总体主要有以下两个假定:⑴两个变量之间是线性关系;⑵两个变量都是随机变量。11.4.相关系数的性质:⑴r的取值范围是[-1,1],r为正表示正相关,r为负表示负相关,r绝对值的大小表示相关程度的高低;⑵对称性:X与Y的相关系数r和Y与X之xy间的相关系数r相等;⑶相关系数与原点和尺度无关;⑷相关系数是线性关联或线性相依yx 的一个度量,它不能用于描述非线性关系;⑸相关系数只是两个变量之间线性关联的一个度量,却不一定意味两个变量之间有因果关系;⑹若X与Y统计上独立,则它们之间的相关系数为零;但r=0不等于说两个变量是独立的。即零相关并不一定意味着独立性。11.5.在实际的客观现象分析研究中,相关系数一般都是利用样本数据计算的,因而带有一定的随机性。样本容量越小,其可信程度就越差,抽取的样本不同,r的取值也会不同,因此r是一个随机变量。能否用样本相关系数来反映总体的相关程度,需要考察样本相关系数的可靠性,因此要进行显著性检验。11.6.相关系数显著性检验的步骤:⑴提出假设;⑵计算检验统计量t值;⑶在给定的显著性水平和自由度,查t分布表中相应的临界值,作出决策。11.7.回归模型是对统计关系进行定量描述的一种数学模型,例如:对于具有线性关系的两个变量,可以有一元线性方程来描述它们之间的关系,描述因变量y如何依赖自变量x和误差项的方程称为回归模型。回归方程是对变量之间统计关系进行定量描述的一种数学表达式。指具有相关的随机变量和固定变量之间关系的方程。当总体回归系数未知时,必须用样本数据去估计,用样本统计量代替回归方程中的未知参数,就得到了估计的回归方程。11.8.一元线性回归模型通常有以下几条基本的假定:⑴变量之间存在线性关系;⑵在重复抽样中,自变量x的取值是固定的;⑶误差项ε是一个期望为零的随机变量;⑷)对2于所有的x值,误差项的方差都相同;⑸误差项是一个服从正态分布的随机变量,2且相互独立。即N(0,)。11.9.参数最小二乘法的基本原理是:因变量的观测值与估计值之间的离差平方和最小。11.10.总平方和指n次观测值的的离差平方和,衡量的是被解释变量y波动的程度或不确定性的程度。回归平方和反映y的总变差中由于x与y之间的线性关系引起的y的变化部分,这是可以由回归直线来解释的部分,衡量的是被解释变量y不确定性程度中能被解释变量x解释的部分。残差平方和是除了x对y的线性影响之外的其他因素引起的y的变化部分,是不能由回归直线来解释的部分。它们之间的关系是:总平方和=回归平方和+残差平方和。11.11.回归平方和占总平方和的比例称为判定系数。判定系数测量了回归直线对观测数据的拟合程度。11.12.在回归分析中,F检验是为检验自变量和因变量之间的线性关系是否显著,通过均方回归与均方残差之比,构造F检验统计量,提出假设,根据显著性水平,作出判断。t检验是回归系数的显著性检验,要检验自变量对因变量的影响是否显著,通过构造t检验统计量,提出假设,根据显著性水平,作出判断。 11.13.线性关系检验的步骤:⑴提出假设;H:0;⑵构造F检验统计量;01SSR/1MSRF;⑶根据显著性水平,作出判断。SSE/(n2)MSE回归系数检验的步骤:⑴提出假设;HH:0;:0;⑵构造t检验统计量;0111ˆ1t;⑶根据显著性水平,作出判断。sˆ111.14.回归分析结果的评价可以从以下几个方面:⑴回归系数的符号是否与理论或事先预期相一致;⑵自变量与因变量之间的线性关系,在统计上是否显著;⑶根据判定系数的大小,判断回归模型解释因变量取值差异的程度;⑷误差项的正态假定是否成立。11.15.置信区间估计是对x的一个给定值x,求出y的平均值的区间估计。预测区0间估计是对x的一个给定值x,求出y的一个个别值的区间估计。二者的区别是:置信区0间估计的区间长度通常较短,而预测区间估计的区间长度要长,也就是说,估计y的平均值比预测y的一个特定值或个别值更精确。11.16.残差分析在回归分析中的作用:回归分析是确定两种或两种以上变量间的定量关系的一种统计分析方法.判断回归模型的拟合效果是回归分析的重要内容,在回归分析中,通常用残差分析来判断回归模型的拟合效果,并判定关于误差项的正态假设是否成立。二、练习题11.1.(1)散点图如下:200160120生产费用80400050100150产量从散点图可以看出,产量与生产费用之间为正的线性相关关系。(2)利用Excel的“CORREL”函数计算的相关系数为r0.920232。(3)首先提出如下假设:H:0,H:0。01计算检验的统计量n2122tr0.9202327.435221r10.920232当0.05时,t(122)2.228。由于检验统计量t7.435t2.228,拒0.0522 绝原假设。表明产量与生产费用之间的线性关系显著。11.2(1)散点图如下:1008060考试分数40200010203040复习时间从散点图可以看出,复习时间与考试分数之间为正的线性相关关系。(2)利用Excel的“CORREL”函数计算的相关系数为r0.8621。相关系数r0.8,表明复习时间与考试分数之间有较强的正线性相关关系。11.3.(1)ˆ10表示当x0时y的期望值为10。(2)ˆ0.5表示x每增加一个01单位,y平均下降0.5个单位。(3)x6时,E(y)100.567。2SSRSSR361.4.(1)R90%SSTSSRSSE3642R90%表示,在因变量y取值的变差中,有90%可以由x与y之间的线性关系来解释。SSE4(2)s0.5en2182s0.5表示,当用x来预测y时,平均的预测误差为0.5。e11.5.(1)散点图如下:6543运送时间210050010001500运送距离从散点图可以看出,运送距离与运送时间之间为正的线性相关关系。(2)利用Excel的“CORREL”函数计算的相关系数为r0.9489。相关系数r0.8,表明运送距离与运送时间之间有较强的正线性相关关系。(3)由Excel输出的回归结果如下表: 回归统计MultipleR0.948943RSquare0.900492AdjustedRSquare0.888054标准误差0.480023观测值10方差dfSSMSFSignificanceF回归分析116.6816216.6816272.395852.79E-05残差81.8433790.230422总计918.525Coefficients标准误差tStatP-valueIntercept0.1181290.3551480.332620.74797XVariable10.0035850.0004218.5085752.79E-050.002613得到的回归方程为:yˆ0.1181290.003585x回归系数ˆ0.003585表示运送距离每增加1公里,运送时间平均增加0.003585天。111.6.(1)散点图如下:14000120001000080006000人均消费水平400020000010000200003000040000人均GDP从散点图可以看出,人均GDP与人均消费水平为正的线性相关关系。(2)利用Excel的“CORREL”函数计算的相关系数为r0.998128。相关系数接近于1,表明人均GDP与人均消费水平之间有非常强的正线性相关关系。(3)Excel输出的回归结果如下表:回归统计MultipleR0.998128RSquare0.996259AdjustedRSquare0.995511标准误差247.3035观测值7方差分析dfSSMSFSignificanceF回归181444969814449691331.6922.91E-07残差530579561159.01 总计681750764Coefficients标准误差tStatP-valueIntercept734.6928139.54035.2650940.003285XVariable10.3086830.00845936.492362.91E-07得到的回归方程为:yˆ734.69280.308683x。回归系数ˆ0.308683表示人均1GDP每增加1元,人均消费水平平均增加0.308683元。2(4)判定系数R0.996259。表明在人均消费水平的变差中,有99.6259%是由人均GDP决定的。(5)首先提出如下假设:H:0,H:00111由于SignificanceF<0.05,拒绝原假设,表明人均GDP与人均消费水平之间的线性关系显著。(6)yˆ734.69280.30868350002278.1078(元)。5000(7)当0.05时,t(72)2.571,s247.3035。0.052e置信区间为:21(xx)0yˆts02enn2(xix)i121(500012248.42857)2278.10782.571247.30357854750849.72278.1078287.4即(1990.7,2565.5)。预测区间为:21(xx)0yˆts102enn2(xix)i121(500012248.42857)2278.10782.571247.303517854750849.72278.1078697.8即(1580.3,2975.9)11.7.(1)散点图如下: 1401201008060投诉次数40200020406080100航班正点率从散点图可以看出,航班正点率与被投诉次数之间为负的线性相关关系。(2)由Excel输出的回归结果如下表:回归统计MultipleR0.868643RSquare0.75454AdjustedRSquare0.723858标准误差18.88722观测值10方差分析dfSSMSFSignificanceF回归分析18772.5848772.58424.591870.001108残差82853.816356.727总计911626.4Coefficients标准误差tStatP-valueIntercept430.189272.154835.9620290.000337XVariable1-4.700620.947894-4.959020.001108得到的回归方程为:yˆ430.18924.7x。回归系数ˆ4.7表示航班正点率每增1加1%,顾客投诉次数平均下降4.7次。(3)回归系数检验的P-Value=0.001108<0.05),拒绝原假设,回归系数显著。(4)yˆ430.18924.78054.1892(次)80(5)当0.05时,t(102)2.306,s18.887220.052e置信区间为:21(xx)0yˆts02enn2(xix)i121(8075.86)54.18922.30618.8872210397.02454.189216.48即(37.7,70.7) 预测区间为:21(xx)0yˆts102enn2(xix)i121(8075.86)54.18922.30618.88722110397.02454.189246.57即(7.6,100.8)11.8.Excel输出的回归结果如下:MultipleR0.7951RSquare0.6322AdjustedRSquare0.6117标准误差2.6858观测值20方差分析dfSSMSFSignificanceF回归1223.1403223.140330.93322.79889E-05残差18129.84527.2136总计19352.9855Coefficients标准误差tStatP-valueIntercept49.31773.805012.96120.0000XVariable10.24920.04485.56180.0000由上表结果可知,出租率与月租金之间的线性回归方程为:yˆ49.31770.2492x。回归系数ˆ0.2492表示:月租金每增加1元,出租率平均增加0.2492%。12R63.22%,表明在出租率的变差中被出租率与租金之间的线性关系所解释的比例为63.22%,回归方程的拟合程度一般。估计标准误差s2.6858表示,当用月租金来预测出租率时,平均的预测误差为e2.6858%,表明预测误差并不大。由方差分析表可知,SignificanceF=2.79889E-05<0.05回归方程的线性关系显著。回归系数检验的P-value=0.0000<0.05,表明回归系数显著,即月租金是影响出租率的显著性因素。11.9.(1)方差分析表中所缺的数值如下方差分析表如下:变差来源dfSSMSFSignificanceF回归11422708.61422708.6354.2772.17E-09残差1040158.074015.807—— 总计111642866.67———2SSR1422708.60(2)根据方差分析表计算的判定系数R0.866086.60%SST1642866.67表明汽车销售量的变差中有86.60%是由于广告费用的变动引起的。2(3)相关系数可由判定系数的平方根求得:rR0.86600.9306(4)回归方程为:yˆ363.68911.420211x。回归系数ˆ1.420211表示广告费1用每增加一个单位,销售量平均增加1.420211个单位。(5)由于SignificanceF=2.17E-09<0.05,表明广告费用与销售量之间的线性关系显著。11.10.Excel输出的回归结果如下:回归统计MultipleR0.968167RSquare0.937348AdjustedRSquare0.916463标准误差3.809241观测值5方差分析dfSSMSFSignificanceF回归分析1651.2691651.269144.883180.006785残差343.5309414.51031总计4694.8Coefficients标准误差tStatP-valueIntercept13.625414.3994283.0970860.053417XVariable12.3029320.3437476.6994910.006785由上述结果可知:回归方程为yˆ13.62542.3029x,回归系数表明,x每增加一个2单位y平均增加2.3029个单位;判定系数R93.74%,表明回归方程的拟合程度较高;估计标准误差s3.8092,表明用x来预测y时平均的预测误差为3.8092。eSSR160111.11.(1)检验统计量:F27SSEn240202(2)F(1,n2)F(1,202)4.410.05(3)由于F27F4.41,所以拒绝原假设H:001(4)根据相关系数与判定系数之间的关系可知,2SSRSSR60rR0.7746SSTSSRSSE6040 (5)提出假设:H:0,H:00111由于F27F4.41,拒绝H,线性关系显著。011.12.(1)当x4时,yˆ53417。当0.05,4t(n2)t(202)2.101。y的平均值的95%的置信区间为:20.05221(xx)0yˆts02enn2(xix)i121(42)172.1011.0171.05052020即(15.95,18.05)(2)预测区间为:21(xx)0yˆts102enn2(xix)i121(42)172.1011.01172.34902020即(14.65,19.35)11.13.Excel输出的回归结果如下:回归统计MultipleR0.947663RSquare0.898064AdjustedRSquare0.881075标准误差108.7575观测值8方差分析dfSSMSFSignificanceF回归分析1625246.3625246.352.860650.000344残差670969.211828.2总计7696215.5Coefficients标准误差tStatP-valueIntercept-46.291864.89096-0.713380.502402XVariable115.239772.0961017.2705330.000344得到的线性回归方程为:yˆ46.291815.23977x当x40时,E(y)46.291815.2397740563.299。当0.05, t(n2)t(82)2.447。20.052(2)销售收入95%的置信区间为:21(xx)0yˆts02enn2(xix)i121(4024.9375)563.2992.447108.757582692.11875563.299121.745即(270.65,685.04)。441.54E(y)685.04。4011.14.回归1残差图:回归1残差32.521.51回归1残差0.50-0.50510152025-1-1.5回归2残差图:回归2残差21.510.5回归2残差005101520-0.5-1-1.5结论:回归1的残差基本上位于一条水平带中间,说明变量之间的线性假设以及对误差项正态假设是成立,用一元线性回归方程描述变量间的关系是合适的。回归2的残差表示,变量之间用一元线性回归模型不合理,应考虑曲线回归或多元回归。11.15.(1)估计的回归方程为:yxˆ29.3991.547(2)由于SignificanceF=0.020<0.05,表明广告费支出与销售额之间的线性关系显著。(3)残差图 XVariable1ResidualPlot100残差0510152025-10-20XVariable1从图上看,关于误差项的假定不满足。(4)广告费支出x与销售额y关系的散点图:销售额y60504030销售额y201000510152025从广告费支出x与销售额y关系的散点图上看,用二次函数或其它曲线模型会更好。第十二章多元线性回归12.1解释多元回归模型、多元回归方程、估计的多元回归方程的含义。答:设因变量为y,k个自变量分别为x,x,„,x,描述因变量y如何依赖于自12k变量x,x,„,x和误差项的方程yxxx称为多元回归12k01122kk模型。其中,,,„,是模型的参数;为误差项。01k在多元回归模型的基本假定下,因变量y的期望E(y)xxx,01122kk该式被称为多元回归方程。回归方程中的参数,,„,是未知的,需要利用样本数据去估计它们。当用01k样本统计量ˆ,ˆ,„,ˆ去估计回归方程中的未知参数,,„,时,就得到01k01k了估计的多元回归方程yˆˆˆxˆxˆx。01122kk12.2多元线性回归模型中有哪些基本假定? 答:(1)误差项是一个期望值为0的随机变量,即E()0。2(2)对于自变量x,x,„,x的所有值,的方差都相同。12k2(3)误差项是一个服从正态分布的随机变量,且相互独立,即~N(0,)。12.3解释多重判定系数和调整的多重判定系数的含义和作用。2答:多重判定系数R是多元回归中的回归平方和占总平方和的比例,它是度量多元回归方程拟合程度的一个统计量,反映了在因变量的变差中被估计的回归方程所解释的比例。22为避免增加自变量而高估R,统计学家提出用样本量n和自变量的个数k去调整R,22n12计算出调整的多重判定系数R1(1R)(),其意义与R类似,表示在用样本ank1量和模型中自变量的个数进行调整后,在因变量的变差中被估计的回归方程所解释的比例。12.4解释多重共线性的含义。答:当回归模型中两个或两个以上的自变量彼此相关时,则称回归模型中存在多重共线性。12.5多重共线性对回归分析有哪些影响?答:首先,变量之间高度相关时,可能会使回归的结果混乱,甚至会把分析引入歧途;其次,多重共线性可能对参数估计值的正负号产生影响,特别是的正负号有可能同预期i的正负号相反。12.6多重共线性的判别方法主要有哪些?答:(1)模型中各对自变量之间显著相关。(2)当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不i显著。(3)回归系数的正负号与预期的相反。(4)容忍度越小,也即方差扩大因子VIF越大,多重共线性越严重。通常容忍度小于0.1,也即VIF大于10时,存在严重的多重共线性。12.7多重共线性的处理方法有哪些?答:(1)将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关。(2)如果要在模型中保留所有的自变量,那就应该:避免根据t统计量对单个参数进行检验;对因变量y值的推断(估计或预测)限定在自变量样本值的范围内。12.8在多元线性回归中,选择自变量的方法有哪些?答:向前选择、向后剔除、逐步回归、最优子集等。二、练习题 12.1yˆ25.0287010.049714x1.928169x12t(1.123440)(0.469037)(1.309755)22R0.210896R0.014562aF0.935410n10ˆ0.049714表示,在x不变的条件下,x每增加1个单位,会使y平均减少1210.049714个单位;ˆ1.928169表示,在x不变的条件下,x每增加1个单位,会使y平均增加2121.928169个单位。22多重判定系数R和调整的多重判定系数R显示:该多元回归方程的拟合效果较差,在a因变量y的变差中,能被估计的回归方程所解释的比例很少。F检验表明,y与x、x之间的线性关系不显著。12t检验表明,自变量x、x对因变量y的影响均不显著。1212.2模型中涉及3个自变量,15个观测值。yˆ657.05345.710311x0.416917x3.471481x123t(3.923655)(3.186849)(1.293998)(2.405847)22R0.709650R0.630463aF8.961759n1522多重判定系数R和调整的多重判定系数R显示:该多元回归方程的拟合效果较好,在a用样本量和模型中自变量的个数进行调整后,在因变量y的变差中,能被估计的回归方程所解释的比例为63.0463%。F检验表明,y与x、x、x之间的线性关系显著。123t检验表明,自变量x、x对因变量y的影响均显著,但x对因变量y的影响不显著。13212.3SSR/k6216.375/2(1)F42.85044F(2,7)4.7370.05SSE/(nk1)(6724.1256216.375)/(1021)故y与x、x、之间的线性关系显著。12 ˆ2.011(2)t24.723t(7)2.3646,故显著。10.0251sˆ0.08131ˆ4.742(3)t83.598t(7)2.3646,故显著。20.0252sˆ0.0567212.4(1)yˆ88.6376811.603865x1t(56.015876)(3.356905)22R0.652553R0.594645aF11.268811n8(2)yˆ83.2300922.290184x1.300989x12t(52.882479)(7.531899)(4.056697)22R0.919036R0.886650aF28.377768n8(3)上述(1)和(2)所建立的估计的回归方程,电视广告费用的系数符号相同但数值大小不同。其中,(1)中ˆ1.603865表示,电视广告费用x每增加1万元,会使月销售收入y平均11增加1.603865万元;(2)中ˆ2.290184表示,在报纸广告费用x不变的条件下,电视广告费用x每增121加1万元,会使月销售收入y平均增加2.290184万元。(4)根据问题(2)所建立的估计的回归方程,在月销售收入的总变差中,被估计的回归方程所解释的比例是88.6650%。(5)根据问题(2)所建立的估计的回归方程,t7.531899t(5)2.5706,故显著。10.0251t4.056697t(5)2.5706,故显著。20.025212.5(1)yˆ0.59099622.386461x327.671713x12t(0.001170)(2.331791)(3.316585)22R0.991321R0.986982aF228.444462n7(2)ˆ22.386461表示,春季降雨量x每增加1mm,会使早稻收获量y平均增加11222.386461kg/hm; 。ˆ327.671713表示,春季温度x每增加1C,会使早稻收获量y平均增加222327.671713kg/hm。(3)可能存在。因为自变量春季降雨量x与春季温度x的简单线性相关系数为120.965067。且模型的线性关系检验(F检验)显著,但回归系数ˆ的t检验不显著。112.6(1)yˆ148.7004540.814738x0.820980x0.135041x123t(0.258870)(1.591321)(3.887646)(2.050322)22R0.897496R0.878276aF46.696970n20(2)在销售价格的总变差中,被估计的回归方程所解释的比例是87.83%。(3)F46.696970F(3,16)3.344故回归方程的线性关系显著。0.05(4)t1.591321t(16)2.1314,故回归系数不显著。10.0251t3.887646t(5)2.1314,故回归系数显著。20.0252t2.050322t(5)2.1314,故回归系数不显著。30.025312.7(1)F28.377768F(2,5)13.27,故二元回归模型的线性关系显著。0.01(2)t7.531899t(5)2.5706,故显著,x不应从模型中剔除。10.02511(3)t4.056697t(5)2.5706,故显著,x不应从模型中剔除。。20.0252212.8(1)r0.002498y,x1H:0,H:0,01n2152t|r|0.0024980.009007t(13)2.1788220.0251r10.002498故无证据表明二者之间存在线性关系。(2)r0.434069,y,x2H:0,H:0,01 n2152t|r|0.4340691.737254t(13)2.1788,,220.0251r10.434069故无证据表明二者之间存在线性关系。(3)E(y)xx对预测y无用。01122(4)yˆ45.1541363.097008x1.031859x12t(73.851492)(252.313726)(280.078913)22R0.999847R0.999822aF39222.34341n15F检验表明,y与x、x之间的线性关系显著。12t检验表明,自变量x、x对因变量y的影响均显著。12这与(3)所得结论不相同。(5)r0.899776,说明模型存在多重共线性。x1,x212.9(1)r0.308952,y,x1H:0,H:0,01n2152t|r|0.3089521.171242t(13)2.1788,220.0251r10.308952故无证据表明销售价格与购进价格之间存在线性关系。r0.001214,y,x1H:0,H:0,01n2152t|r|0.0012140.004377t(13)2.1788,,220.0251r10.001214故无证据表明销售价格与销售费用之间存在线性关系。(2)根据(1)中结果,用购进价格和销售费用来预测销售价格无用。(3) yˆ375.6018290.537841x1.457194x12t(1.106630)(2.555711)(2.182386)22R0.352460R0.244537aF3.265842n15F检验表明,y与x、x之间的线性关系不显著。12t检验表明,自变量x、x对因变量y的影响均显著。122(4)调整的多重判定系数R显示:在用样本量和模型中自变量的个数进行调整后,在a因变量y的变差中,能被估计的回归方程所解释的比例仅为24.4537%。这与(2)中的判断是一致的。(5)r0.852858,说明模型存在多重共线性。x1,x2(6)模型中存在多重共线性。第十四章统计指数1.某企业生产甲、乙两种产品,资料如下:计量产量单位成本(元)产品名称单位基期报告期基期报告期甲台200022001212.5乙吨500060006.26要求:(1)计算产量与单位成本个体指数。(2)计算两种产品产量总指数以及由于产量增加而增加的生产费用。(3)计算两种产品单位成本总指数以及由于成本降低而节约的生产费用。解:产品计量产量单位成本(元)指数(%)名称单位q0q1z0z1产量单位成本甲台200022001212.5110104.2乙吨500060006.2612096.8z0q163600(2)产量指数:115.64%z0q055000zqzq63600550008600元0100z1q163500(3)单位成本指数:99.84%z0q163600 zqzq6350063600100元11012.某商场销售的三种商品资料如下:计量销售数量单价(元)商品单位名称基期报告期基期报告期甲千克100115100100乙台2002205055丙件3003152025要求:(1)计算三种商品的销售额总指数。(2)分析销售量和价格变动对销售额影响的绝对值和相对值。解:商品销售量单价(元)销售额(元)名称q0q1p0p1p0q0p1q1p0q1甲100115100100100001150011500乙2002205055100001210011000丙3003152025600078756300合计————260003147528800p1q131475(1)销售额总指数:121.06%p0q026000pqpq31475260005475元1100p1q131475(2)价格的变动:109.29%p0q128800pqpq31475288002675元1101p0q128800销售量的变动:110.77%p0q026000pqpq28800260002800元01003.试根据下列资料分别用拉氏指数和帕氏指数计算销售量指数及价格指数。商品计量销售数量价格(元)名称单位基期报告期基期报告期甲支4006000.250.2 乙件5006000.40.36丙个2001800.50.6解:商品销售量价格(元)销售额(元)名称q0q1p0p1p0q0p1q1p1q0p0q1甲4006000.250.210012080150乙5006000.40.36200216180240丙2001800.50.610010812090合计————500444380480p1q1444p1q0380价格指数:92.5%76%p0q1480p0q0500p0q1480p1q1444销售量指数96%116.8%p0q0500p1q03804.某公司三种产品的有关资料如下表,试问三种产品产量平均增长了多少,产量增长对产值有什么影响?产品名称个体产量指数基期产值(万元)报告期产值(万元)甲1.25100120乙1.10100115丙1.506085解:总产值(万元)q1产品P0q0P1q1q0甲1001201.25乙1001151.10丙60851.50q1q0p0q1p0q01.251001.101001.5060325kq125%q0p0q0p010010060260pqpq32526065万元0100三种产品产量平均增长了25%,由于产量增长使得产值也相应增长了25%,绝对额增加65万元。5.三种商品销售资料如下,通过计算说明其价格总的变动情况。 商品商品销售总额(万元)报告期价格qppq名称0011比基期降低(%)甲808610乙20345丙16014415价格总指数p1q1p1q18634144264kp78.44%p0q11pq8634144336.5511k0.90.950.85p三种商品价格平均下降21.56%,由于价格下降使得销售额也相应下降了21.56%,绝对额减少72.55万元。6.某商场上期销售收入为525万元,本期要求达到556.5万元。在规定销售价格下调2.6%的条件下,该商场商品销售量要增加多少,才能使本期销售达到原定的目标?p1q1p1q1q1p0556.5q1p097.4%p0q0p0q1q0p0525q0p0p0q1∴销售量指数kq106%97.4%108.83%p0q0该商场商品销售量要增加8.83%才能使本期销售达到原定的目标。7.某地区2003年平均职工人数为229.5万人,比2002年增加2%;2003年工资总额为167076万元,比2002年多支出9576万元。试推算2002年职工的平均工资。2002年平均职工人数=229.5÷1.02=225(万人)2002年工资总额=167076—9576=157500(万元)2002年职工的平均工资=工资总额÷平均职工人数=157500÷225=700元8.某电子生产企业2003年和2002年三种主要产品的单位生产成本和产量资料如下:产量单位产品成本(元)产品名称计量单位2002年2003年2002年2003年高能电池节90010008.59电路板块5005005558.5录音机台700800100115要求:(1)计算三种产品的产值总指数和产值增减总额。(2)以2003年的产量为权数计算三种产品的加权单位产品成本综合指数,以及因单位成本变动的产值增减额。(3)以2002年单位产品成本为权数计算三种产品的加权产量综合指数,以及由于产量 变动的产值增减额。解:产量单位成本(元)总成本产品q0q1Z0Z1Z0q0Z1q1z0q1高能电池90010008.59765090008500电路板5005005558.5275002925027500录音机700800100115700009200080000合计————105150130250116000z1q1130250(1)三种产品的产值总指数123.87%z0q0105150产值增减总额z1q1z0q013025010515025100元z1q1130250(2)单位产品成本综合指数112.28%z0q1116000因单位成本变动的产值增减额z1q1z0q113025011600014250元z0q1116000(3)三种产品产量综合指数110.32%z0q0105150由于产量变动的产值增减额z0q1z0q011600010515010850元9.某工厂有三个生产车间,基期和报告期各车间的职工人数和劳动生产率资料如下:试分析该企业劳动生产率的变动及其原因。职工人数(人)劳动生产率(万元/人)车间基期报告期基期报告期一车间2002404.44.5二车间1601806.26.4三车间15012099.2合计5105406.326.18解:职工人数(人)劳动生产率(万元/人)总产值(万元)f0f1x0x1x0f0x1f1x0f1一车间2002404.44.588010801056 二车间1601806.26.499211521116三车间15012099.2135011041080合计5105406.326.18322233363252x1f1x1f16.18总水平指数:97.78%x0x0f06.32f0x1x06.186.320.14万元x1f1x1f16.18组水平变动指数:103.52%x假定x0f15.97f1x1x假定6.185.970.21万元x假定5.97结构变动指数:94.46%x06.32x假定x05.976.320.35万元总水平指数=组水平变动指数×结构变动指数97.78%=103.52%×94.46%x1x0x1x假定x假定x0-0.14=0.21+(-0.35)计算结果表明,该企业的劳动生产率报告期比基期下降了2,。22%,减少1400元,是由于企业结构发生了变动,使得公司的劳动生产率下降5.54%,平均每车间减少3500元;由于各车间劳动生产率的提高,使企业劳动生产率提高了3.52%,平均增加2100元共同作用的结果。10.某市限购令前后的房价如下:市区商品房郊区商品房成交总数年份成交套数均价(元)成交套数均价(元)成交套数均价(元)201050015,00050010,0001,00012,500201120016,00060011,00080012,250要求:(1)计算价格指数。(2)房价是上升了还是下降了?为什么? p1q116000200110006009800000(1)价格指数108.89%p0q115000200100006009000000(2)限购令后该市的房价不但没有下降,反而上升了8.89%,主要原因是均价较低的郊区商品房成交套数增加,并且占全部成交套数的比重由2010年的50%上升到2011年的75%,而均价较高的市区商品房成交套数减少,并且占全部成交套数的比重由2010年的50%下降到2011年的25%。结构的变化带来该市商品房平均价格下降250元的现象。'