• 1.73 MB
  • 2022-04-22 11:51:44 发布

伍德里奇《计量经济学导论》(第4版)笔记和课后习题详解(2-8章).pdf

  • 80页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'使用普通最小二乘法,此时最小化的残差平方和为n2yxii1i1利用一元微积分可以证明,必须满足一阶条件1nxyiixi10i1从而解出为:1nxyiii11n2xii1当且仅当x0时,这两个估计值才是相同的。2.2课后习题详解一、习题1.在简单线性回归模型yxu01中,假定Eu0。令0Eu,证明:这个模型总可以改写为另一种形式:斜率与原来相同,但截距和误差有所不同,并且新的误差期望值为零。证明:在方程右边加上Eu,则0yxu0010令新的误差项为eu,因此Ee0。0新的截距项为,斜率不变为。0012.下表包含了8个学生的ACT分数和GPA(平均成绩)。平均成绩以四分制计算,且保留一位小数。studentGPAACT12.82123.42433.02643.52753.62963.02572.72583.730(Ⅰ)利用OLS估计GPA和ACT的关系;也就是说,求出如下方程中的截距和斜率估计值^GPAˆˆACT01评价这个关系的方向。这里的截距有没有一个有用的解释?请说明。如果ACT分数提高5分,预期GPA会提高多少?(Ⅱ)计算每次观测的拟合值和残差,并验证残差和(近似)为零。(Ⅲ)当ACT20时,GPA的预测值为多少?(Ⅳ)对这8个学生来说,GPA的变异中,有多少能由ACT解释?试说明。答:(Ⅰ)变量的均值为:GPA3.2125,ACT25.875。nGPAiiGPAACTACT5.8125i1 根据公式2.19可得:ˆ5.8125/56.8750.1022。1根据公式2.17可知:ˆ3.21250.102225.8750.5681。0^因此GPAACT0.56810.1022。此处截距没有一个很好的解释,因为对样本而言,ACT并不接近0。如果ACT分数提高5分,预期GPA会提高0.1022×5=0.511。(Ⅱ)每次观测的拟合值和残差表如表2-3所示:表2-3^iGPAGPAuˆ12.82.71430.085723.43.02090.379133.03.2253-0.225343.53.32750.172553.63.53190.068163.03.1231-0.123172.73.1231-0.423183.73.63410.0659根据表可知,残差和为-0.002,忽略固有的舍入误差,残差和近似为零。^(Ⅲ)当ACT20,则GPA0.56810.1022202.61。nn22(Ⅳ)残差平方和为:uˆi0.4347,而yyi1.0288,则判定系数为:i1i12R1SSR/SST10.4377/1.02880.577GPA的变异中,有57.7%能由ACT解释。3.令kids表示一名妇女生过的孩子数目,educ表示该妇女接受过教育的年数。生育率对受教育年数的简单回归模型为kidseducu01其中,u是无法观测到的误差。(Ⅰ)u中包含什么样的因素?它们可能与受教育程度相关吗?(Ⅱ)简单回归分析能够揭示教育对生育率在其他条件不变下的影响吗?请解释。答:(Ⅰ)收入、年龄和家庭背景(如兄弟姐妹的数量)都可能包含在误差项中。它们可能是与受教育程度相关的:收入和受教育程度是呈正相关的;年龄与受教育程度是呈负相关的;兄弟姐妹的数量与受教育程度是负相关的。(Ⅱ)假定(Ⅰ)中所列举的因素固定不变,即以误差项的形式呈现在回归方程中,但是误差项与解释变量是相关的,因此Eueduc0,经典假定被推翻,因此简单回归分析不能解释教育对生育率在其他条件不变下的影响。4.假设你对估计花在SAT备考课程上的小时数(hours)对SAT总分(sat)的影响感兴趣。总体是某一年内所有计划上大学的中学高年级学生。(Ⅰ)假设你有权进行一项控制实验。请说明为了估计hours对sat的引致效应,你将如何构建实验。(Ⅱ)考虑一个更加实际的情形,即由学生选择在备考课程上花多少时间,而你只能随机地从总体中抽出sat和hours的样本。将总体模型写作如下形式:sathoursu01其中,与通常带截距的模型一样,我们可以假设Eu0。列举出至少两个u中包含的因素。这些因素与hours可能呈正相关还是负相关? (Ⅲ)在(Ⅱ)的方程中,如果备考课程有效,那么的符号应该是什么?1(Ⅳ)在(Ⅱ)的方程中,该如何解释?0答:(Ⅰ)构建实验时,首先随机分配准备课程的小时数,以保证准备课程的时间与其他影响SAT的因素是独立的。然后收集实验中每个学生SAT的数据,建立样本satii,1hour:in,,,n表示试验中所包括的学生的数量。根据方程2.7,应该尝试采用尽可能多的有差异的“小时数”。(Ⅱ)误差项还可能包含以下三个因素:天赋能力、家庭收入以及考试当天的健康状况。如果学生拥有天赋能力,那么他们不需要为考试花费太多时间,能力与时间是负相关的。家庭收入与学习时间呈正相关关系,因为家庭收入越高,就能负担去越多的课时费用。排除慢性的健康问题,考试当天的健康状况与为准备考试花费的时间是无关的。(Ⅲ)如果备考课程有效,的符号应该为正,在其他因素相同的情况下,备考时间越多,sat越高。1(Ⅳ)截距有一个有用的解释:因为EU0,表示备考时间为0时学生获得的平均sat总分。05.考虑储蓄函数savincu,uince012其中,e是一个随机变量,且有Ee0和Vare,假设e独立于inc。e(Ⅰ)证明:若Euinc|0,则满足零条件均值的关键假设(假定SLR.4)。[提示:若e独立于inc,则Euinc|Ee]2(Ⅱ)证明:若Varuinc|inc,则不满足同方差假定SLR.5。特别地,sav的方差随着inc而增加。[提e示:若e和inc独立,则Vareinc|eVar。](Ⅲ)讨论支持储蓄方差随着家庭收入递增的证据。证明:(Ⅰ)计算inc的条件期望值时,inc变为一个常数,因此Euinc|0EinceincincEeinc。22(Ⅱ)inc的方差为:Varuinc|VarinceincincVareincinc。e(Ⅲ)低收入家庭支出的灵活性较低,因为低收入家庭必须首先支付衣食住行等必需品。而高收入家庭具有较高的灵活性,部分选择更多的消费,而另一部分家庭选择更多的储蓄。这种较高的灵活性暗示高收入家庭中储蓄的变动幅度更大。6.令ˆ和ˆ分别为OLS截距和斜率估计量,并令u为误差(不是残差)的样本均值。01n(Ⅰ)证明:ˆ可写成ˆwu,其中wd/SST和diixx。111iiiiii1n(Ⅱ)利用(Ⅰ)及w0,证明:ˆ和u无关。[提示:要求你证明Euˆ110]i1i1(Ⅲ)证明ˆ可写成ˆ00uxˆ11。02(Ⅳ)利用(Ⅱ)和(Ⅲ)证明:Varˆ22/nx/SST。0xn122(Ⅴ)(Ⅳ)中的表达式能简化成方程(2.58)吗?[提示:SST/xinnxx。]i1证明:(Ⅰ)该理论推导与公式2.52的推导本质上是一样的,区别只是将wd/SST带到求和的里面。iii (Ⅱ)因为covˆ,uEuˆ,公式右边等于0。从(Ⅰ)可知,111EuˆEwuwEuunn。因为误差项两两互不相关,则Euu0,ih,1111iiiiiiih22nn22nEuuiiEu//nn。因此i1wEuuiii1wi/n/ni1wi0。(Ⅲ)最小二乘估计的截距公式为:ˆyxˆ,代入yxu,则001ˆ0011xu0ˆx1u1xˆ。(Ⅳ)因为ˆ和u是不相关的,则有:1VarˆVaruVarˆx22/n2/SSTx22/n2x2/SST01xx(Ⅴ)能。n122根据SST/xinnxx,则i1Varˆ22SST/nx/SST0xx21nn222212ni11xixx/SSTxnixi/SSTx7.利用KielandMcClain(1995)有关1988年马萨诸塞州安德沃市的房屋出售数据,如下方程给出了房屋价格(price)和距离一个新修垃圾焚化炉的距离(dist)之间的关系:^logpricedist9.400.312log2nR135,0.162(Ⅰ)解释logdist的系数。它的符号是你所预期的吗?(Ⅱ)你认为简单回归给出了price对dist在其他条件不变下弹性的无偏估计量吗?(考虑一个城市决定放置焚化炉的地点的决策。)(Ⅲ)还有哪些其他因素影响房屋的售价?这些因素会与距离焚化炉的远近相关吗?答:(Ⅰ)符号为正,与预期相符。logdist的系数表示距离焚化炉的距离越远,价格就越高,价格的距离弹性是0.312,即距离远1%,价格上升0.312%。(Ⅱ)如果城市决定将焚化炉放置在远离较贵的居民区的地方,则logdist与房价是正相关的。这将违背假定4,而OLS估计是有偏的。(Ⅲ)房屋的面积、洗手间的数量、占地面积大小、房龄社区质量(包括学校质量)都会影响房屋的售价。这些与距离焚化炉的远近是有关的。8.(Ⅰ)令ˆ和ˆ为y对x进行回归的截距和斜率(有n次观测);c和c为常数且c0;和为cy01ii122011i对cx进行回归的截距和斜率。证明ˆcc/ˆ且ˆcˆ,从而验证了2.4节中关于度量单位的命题。[提示:2i1120010为得到,把改变了度量单位的x和y代入方程(2.19)。然后用方程(2.17)求,确定代入的是进行度量单10位变换后的x和y以及正确的斜率。(Ⅱ)现在令和得自(cy)对(cx)的回归(对c和c不加任何限制)。011i2i12 证明:ˆˆ且ˆˆccˆ。1100121(Ⅲ)令ˆ0和ˆ1为logyi对xi回归的OLS估计值,其中我们必须假定对所有i,都有yi0。对c10,令0和1为logcy1i对xi回归的截距和斜率.证明:ˆ11ˆ且ˆ0logc1ˆ0。(Ⅳ)现在假定对所有i,都有x0。令和为y对logcx回归的截距和斜率。和与y对logx01i2i11ii回归的截距和斜率相比如何?答:(Ⅰ)因为cycy,cxcx,当为cy对cx进行回归时,可以通过方程2.19得到方程的斜率:112x1i2inncx2iiicxcy2i1cy1cc12xxyyˆii111nn222cx2iicx22cxxii11nxiixyycc=11i1ˆn1cc222xxii1根据公式2.17可得截距项为:ˆ0cy1ˆ1cx2cy1cc1/2ˆ1cx2cy1ˆ1xc1ˆ0(Ⅱ)使用与(Ⅰ)相同的方法,可得cycy,cxcx。因此1122c1yiic1yc1iyc1yyy,c22xiicxxx。在(cy1i)对(cx2i)的回归中,c和c被完全排除在斜率公式以外,以及ˆˆ。1211截距为:ˆcyˆcxcyˆcxyˆxccˆˆccˆ。011211211210121(Ⅲ)因为logcylogclogy,令c代替logc,y代替logy,且c0,然后采用与(Ⅱ)相11ii11ii2同的方法。(Ⅳ)采用与(Ⅱ)相同的方法,设c0,c替代logc,x替代logx,如果ˆ和ˆ是原截距和斜率,122ii01那么此时的截距和斜率为:ˆˆlogcˆ和ˆˆ。002111^9.在线性消费函数consˆˆinc中,收入的(估计)边际消费倾向(MPC)无非就是斜率ˆ,而平均消011^费倾向(APC)为consinc//ˆincˆ。利用对100个家庭的年收入和消费观测(均以美元计),便得到如下方01程:^cons124.840.853inc2nR100,0.692(Ⅰ)解释这个方程中的截距,并评价它的符号和大小。(Ⅱ)当家庭收入为30000美元时,预计消费为多少?(Ⅲ)以inc为横轴,画出估计的MPC和APC图。答:(Ⅰ)截距表示当inc0,cons预计将为-124.84美元。但这与事实不符,反映出消费函数在预测方面(尤 其是收入处于较低的水平上时)是薄弱的。从年同比角度而言,124.84美元与0美元的差距并没有那么大。(Ⅱ)将30000美元代入方程:预计消费124.840.8533000025465(美元)。(Ⅲ)MPC和APC如图2-1所示。即使截距是负的,样本中最小的APC是正的。图中从年均收入水平1000美元开始。图2-110.在高斯-马尔可夫假定SLR.1~SLR.5之下,考虑标准的简单回归模型yxu。通常的OLS估计01量ˆ和ˆ都是各自总体参数的无偏估计量。令表示通过假定截距为零而得到的估计量(见2.6节)。0111(Ⅰ)用x、和表示E。证明:当总体截距()为零时,是的无偏估计量。1011011有没有其他的情况使得也是无偏的?1(Ⅱ)求的方差。(提示:方差不依赖于。)10nnVarˆVarˆ。[提示:对任何数据样本,22(Ⅲ)证明11x11xx,除非x0,否则该式严格ii11不等。](Ⅳ)当我们要从ˆ和中做出选择时,评论偏误和方差的替代关系。11答:(Ⅰ)从方程2.66可知:nnˆ21xyiiixii11将yxu代入可得:iii01nnˆ21xi01xiuixiii11分子化简后可写为:nnn201xixixuiii1i1i1因此nnnnˆ22101xixixuiixii1i1i1i1对于所有的i而言,Eu0,则:i nnˆ2101xxiiii11n上式中右边的第一项表示1的偏差。当00、x0或xi0时,1是无偏的。i1(Ⅱ)根据(Ⅰ)中所表示的,可得方差为:122nnnnˆ222Var1xiVarxuiixixiVaruii1i1i1i12nnn22222xixixii11i1innnVar/ˆ2222(Ⅲ)根据公式2.57,1xxi,对任何数据样本,xiixx,除非x0。因此i1ii11VarVarˆˆ。11(Ⅳ)对于给定的样本而言,当x增加,的有偏程度增加。但是当x增加时,的变化与Varˆ是相关111n的。当较小时,的偏差也很小。因此、x以及样本大小n(x2的规模)决定了在均方误差上和ˆ的010i11i1优劣。11.数据集BWGHT.RAW包含了美国妇女生育方面的数据。我们关心的两个变量是因变量[婴儿出生体重的盎司数(bwght)]和解释变量[母亲在怀孕期间平均每天抽烟的根数(cigs)].下面这个简单回归是用n1388个出生数据进行估计的:^bwghtcigs119.770.514(Ⅰ)当cigs0时,预计婴儿的出生体重为多少?当cigs20(每天一包)时呢?评价其差别。(Ⅱ)这个简单回归能够得到婴儿出生体重和母亲抽烟习惯之间的因果关系吗?请解释。(Ⅲ)要预测出生体重125盎司,cigs应该为多少?(Ⅳ)样本中在怀孕期间不抽烟的妇女比例约为0.85。这有助于解释第(Ⅲ)部分中的结论吗?答:(Ⅰ)当cigs0时,预计婴儿的出生体重为119.77盎司;当cigs20时,预计婴儿的出生体重为109.49盎司,比前者下降8.6%。(Ⅱ)不能。因为还有其他因素影响婴儿的出生体重,如母亲的整体健康状况和产前护理的质量。这些因素可能与怀孕期间吸烟量是相关的。另外,咖啡因的摄入也会影响到婴儿的出生体重,这也与吸烟量相关。(Ⅲ)要预测出生体重为125盎司,那么cigs125119.77/0.52410.18。这是无意义的,它表明在一个解释变量的情况下预测出生体重会发生的后果。尽管有约700名婴儿的出生体重大于119.77盎司,但最大的预测出生体重不能超过119.77盎司。(Ⅳ)因为模型仅仅使用吸烟量来解释出生体重,因此仅有一个结果:即cigs0时的出生体重。cigs0时的预测结果必然大致位于样本数据的中间位置,因此可以预测高出生率。二、计算机习题1.401K.RAW中的数据是帕普克(Papke,1995)所分析数据的一个子集,帕普克是为了研究401(k)养老金计划的参与率和该计划的慷慨程度之间的关系。变量prate是有资格参与该计划的员工中拥有活动账户的百分比,也是我们要解释的变量。慷慨程度指标是计划的匹配率mrate。这个变量给出了员工每向这个账户存1美元,公司为该员工匹配的平均数量。例如,若mrate0.50,则员工每投入1美元,公司就匹配50美分。(Ⅰ)求出该计划的样本中平均参与率和平均匹配率。 ^(Ⅱ)现在估计下面这个简单回归方程pratemrateˆˆ报告你的结果以及样本容量和R2。01(Ⅲ)解释你的方程中的截距。解释mrate的系数。(Ⅳ)当mrate3.5时,求出prate的预测值。这是一个合理的预测吗?解释这里出现的情况。(V)prate的变异中,有多少是由mrate解释的?你认为,这是一个足够大的量吗?答:(Ⅰ)平均参与率是87.63%,平均匹配率是0.732。(Ⅱ)回归方程为:^pratemrate83.055.862nR1534,0.075(Ⅲ)截距表示即使mrate0,预测的参与率是83.05%。mrate的系数表明匹配率每增加1美元,则有资格参与该计划的员工中拥有活动账户的百分比(prate)增加5.86%。该结果假定prate的变动是可能的。如果prate已经达到98%,那么截距就是无意义的。^(Ⅳ)mrate3.5,则pratemrate83.055.8683.055.863.5103.59。这不是一个合理的预测,因为参与率不超过100%。这表明因变量是有界限的,简单回归所预测的自变量的极值是不符合常理的。(V)prate的变异中,有7.5%是由mrate解释的,说明还有其他因素影响养老金计划参与率。2.数据集CEOSAL2.RAW包含了美国公司首席执行官的信息。变量salary是以千美元计的年薪,ceoten是已担任公司CEO的年数。(Ⅰ)求出样本中的平均年薪和平均任期。(Ⅱ)有多少位CEO尚处于担任CEO的第一年(就是说,ceoten0)?最长的CEO任期是多少?(Ⅲ)估计简单回归模型logsalaryceotenu,用通常的形式报告你的结果。多担任一年CEO,预01计年薪增长(近似)的百分数是多少?答:(Ⅰ)平均年薪为865.864千美元,平均任期为7.95年。(Ⅱ)有5位CEO处于担任CEO的第一年。最长的CEO任期是37年。(Ⅲ)回归方程是:^logsalaryceoten6.510.00972nR177,0.013多担任一年CEO,预计年薪增长的近似百分数是0.97%(或1%)。3.利用BiddleandHamermesh(1990)中的SLEEP75.RAW数据,研究在每周用于睡眠的时间和用于有酬工作的时间之间是否存在替代关系。我们可以用它们中的任何一个作为因变量。为具体起见,估计模型sleeptotwrku01其中,sleep是每周用于晚上睡眠的分钟数,totwrk是这一周中用于工作的分钟数。2(Ⅰ)用方程的形式,连同观测的次数和R报告你的结果。该方程中的截距表示什么?(Ⅱ)若totwrk增加2小时,则sleep估计要减少多少?你觉得这是一个很大的效应吗?答:(Ⅰ)估计方程为:^sleep3586.40.151totwrk2nR706,0.103截距表示不工作的人每周用于晚上睡眠的时间为3586.4分钟。这意味着每晚睡眠的时间达到8.5小时。(Ⅱ)当totwrk120,则sleep0.15112018.12(分钟)。这并不是一个很大的效应。如果某人工作日的工作时间均增加一小时,睡眠总减少时间约为45分钟,平摊在每晚只有约6分钟。4.利用WAGE2.RAW中的数据估计一个简单回归,以便用智商(IQ)来解释月薪(wage)。(Ⅰ)求出样本中的平均工资和平均IQ。IQ的样本标准差是多少?(总体中的IQ已标准化为平均值是100,标准差是15。) (Ⅱ)估计一个简单回归模型,其中IQ提高一个单位导致wage变化相同的数量。利用这个模型计算IQ提高15个单位时,工资的预期变化。IQ能够解释大多数工资变异吗?(Ⅲ)现在再估计一个模型,其中IQ提高一个单位对工资具有相同的百分比影响。如果IQ提高15个单位,预期工资提高的百分比大约是多少?答:(Ⅰ)平均工资为957.95美元,平均IQ为101.28。IQ的样本标准差为15.05,与总体标准差非常接近。(Ⅱ)简单回归模型为:^wageIQ116.998.32nR935,0.096IQ提高15个单位导致工资变化8.3×15=124.5(美元)。IQ不能够解释大多数工资变异,薪水的变异中,仅有9.6%是由IQ解释的。(Ⅲ)回归模型为:^log5.890.0088wageIQ2nR935,0.099^如果IQ提高15个单位,则log0.008815wage0.132,因此预期工资提高的百分比大约是13.2%。5.在化工产业的企业总体中,令rd表示年研发支出,sales表示年销售额(都以百万美元计)。(Ⅰ)写一个模型(不是估计方程),其中rd和sales之间的弹性为常数。哪一个参数代表弹性?(Ⅱ)再用RDCHEM.RAW中的数据估计模型。用通常的形式写出估计方程。rd关于sales的弹性估计值是多少?用文字解释这个弹性的含义。答:(Ⅰ)不变弹性的对数-对数模型为:logrd01logsalesu参数代表弹性。1(Ⅱ)估计方程为:^logrdsales4.1051.076log2nR32,0.910rd关于sales的弹性估计值是1.076,说明sales每增长1%,rd将会增长1.08%。6.例2.12中曾使用了MEAP93.RAW中的数据。现在,我们想用这个文件中的数据来说明数学通过率(math10)与每个学生的平均支出(expend)之间的关系。(Ⅰ)就多花一美元对通过率的影响而言,你认为具有恒定不变的影响合适呢,还是这种影响越来越小更合适?请加以解释。(Ⅱ)在总体模型math10expendulog中,证明/10表示expend提高10%导致math10改变的百分011数。(Ⅲ)利用MEAP93.RAW中的数据,估计(Ⅱ)中的模型.按照通常的方式报告估计方程,包括样本容量2和及R。(Ⅳ)支出的估计影响有多大?也就是说,如果支出提高10%,估计math10会提高多少个百分点?(Ⅴ)有人担心这个回归分析可能得到math10的拟合值会超过100。为什么在这个数据集中不必担心这个问题?答:(Ⅰ)多花一美元对通过率的影响而言,这种影响越来越小更合适。在支出较小的学校,多花钱可以用于购买更多的教材、电脑以及雇用高质量的教师,但在一个高支出水平上,即已经具备了大量教材、足够好的设备和高质量的教师时,再增加支出对通过率的影响几乎没有,即使有也会很小。(Ⅱ)math10logexpend/100%expend,如果%expend10,则math10/10。111(Ⅲ)估计方程为: ^math10expend69.3411.16log2nR408,0.0297(Ⅳ)支出提高10%,估计math10会提高1.1%。支出的估计影响并不大,但这对低支出水平的学校而言是无影响的,因为10%的支出增加从绝对数量上看是很小的。(Ⅴ)在这个数据集中,最大的math10为66.7,远小于100。实际上,最大的拟合值仅为30.2。7.利用CHARITY.RAW中的数据[得自于FransesandPaap(2001)]回答如下问题:(Ⅰ)在这个4268人的样本中,平均捐款数量是多少(以荷兰盾为单位)?没有捐款的人数百分比是多少?(Ⅱ)每年平均寄出的邮件数量是多少?其最小值和最大值是多少?(Ⅲ)用普通最小二乘法估计如下模型:giftmailsyearu012按照通常的方式报告估计方程,包括样本容量和R。(Ⅳ)解释斜率系数。如果每封邮件的成本是1盾,那么慈善机构预期能够从寄出的每一封邮件中获得净利润吗?这意味着慈善机构从每封邮件中都获得了净利润吗?请加以解释。(Ⅴ)样本中最小慈善捐款的预测值是多少?利用这个简单的回归分析,你有可能预测gift等于0吗?答:(Ⅰ)平均捐款数量为7.44荷兰盾。在4268个被调查者中,2561人没有捐款,占60%。(Ⅱ)每年平均寄出的邮件量为2.05。最小值为0.25,这意味着有人每四年寄出一封邮件,最大值为3.5。(Ⅲ)估计方程为:^giftmailsyear2.010.652nR4268,0.0138(Ⅳ)斜率系数为2.65,意味着年均邮件量导致了额外2.65荷兰盾的捐赠。如果每一封邮件的成本是1盾,那么每封邮件的预期净收益则是1.65盾,然而这只是从平均角度而言的,并不意味着慈善机构从每封邮件中都获得了净利润。部分邮件对捐赠量没有任何贡献,或者其贡献额小于邮寄成本,部分邮件可能产生远高于邮寄成本的捐赠量。(Ⅴ)样本中最小慈善捐款的预测值是:2.012.650.252.67。即使从总体来看,某些人没有收到邮件,最小慈善捐款为2。因此不可能预测gift等于0。 为了构造置信区间并进行检验,估计ˆ的标准差也就是方差的平方根:j1/2sd/SST1ˆR2jjj由于未知,所以用其估计量ˆ来取代,则:1/2se/SST1ˆˆR2jjj如果误差表现出异方差性,标准误公式就不是sdˆ的一个可靠估计量,从而使标准误无效。j五、0LS的有效性:高斯-马尔可夫定理1.最优线性无偏估计量(1)估计量:它是一个可应用于任何一个数据样本,并产生一个估计值的规则。(2)无偏估计量:如果的一个估计量,对任意,,„,都有Eˆ,那么它就是的一个无j01kjjj偏估计量。(3)“线性”:的一个估计量是线性的充分必要条件是,它能表示成因变量数据的一个线性函数:jjnjijiwyi1其中每个w都可以是所有自变量样本值的一个函数。ij(4)“最优”:最优被定义为最小方差。2.定理3.4:高斯-马尔可夫定理(1)主要内容在假定MLR.1~MLR.5下,ˆ,ˆ,„,ˆ分别是,,„,的最优线性无偏估计量。01k01k假定MLR.1~MLR.5被称为(横截面数据分析的)高斯-马尔可夫假定。(2)高斯-马尔可夫定理的重要性当这个标准假定集成立时,不需要再去寻找其他无偏估计量:没有一个会比OLS更好。如果高斯-马尔可夫假定中的任何一个不成立,那么这个定理也就不再成立。零条件均值的假定(假定MLR.4)不成立会导致OLS产生偏误,异方差性(假定MLR.5不成立)虽不致使OLS有偏,但它在线性无偏估计量中不再具有最小方差。3.2课后习题详解一、习题1.用WAGE2·RAW中有关男工人的数据估计了如下方程:^educ10.360.094sibs0.131meduc0.210feduc2nR722,0.214其中,educ是受教育年数,sibs是兄弟姐妹的个数,meduc是母亲受教育的年数,feduc则是父亲受教育的年数。(i)sibs是否具有预期的影响?请给出解释。保持meduc、feduc不变,为了使预测的受教育程度减少一年,需要sibs增加多少?(这里不要求答案为整数。)(ii)讨论对meduc的系数的解释。(iii)假设一个男工人A没有兄弟姐妹,其父母都接受了12年的教育。另一个男工人B也没有兄弟姐妹,但其父母都接受了16年的教育。预计B和A所接受教育的年数差别为多少?答:(i)sibs具有预期的影响。家庭中兄弟姐妹的数量越多,每一个小孩受教育的年数都会减少。为了使预测的受教育程度减少一年,需要增加sibs1/0.9410.6。 (ii)变量sibs和feduc保持不变,则母亲受教育的年数每增加一年,预计受教育年数将会增加0.131年。因此母亲受教育年数增加4年,她的儿子受教育年数增加约半年(0.524)。(iii)因为兄弟姐妹的个数是相同的,但是meduc和feduc均不相同,因此B和A所接受教育的年数为:0.1310.21041.364(年)。2.利用GPA2.RAW中有关4137名大学生的数据,用0LS估计了如下方程:^colgpahsperc1.3920.0135sat0.001482nR4137,0.273其中,colgpa以四分制度量,hsperc是在高中班上名次的百分位数(比方说,hsperc5,就意味着位于班上前5%之列),而sat是在学生能力测验中数学和语言的综合成绩。(i)为什么hsperc的系数为负也讲得通?(ii)当hsperc20和sat1050时,大学GPA的预测值是多少?(iii)假设两个在高中班上具有同样百分位数的高中毕业生A和B,但A学生的SAT分数要高出140分(在样本中相当于一倍的标准差),那么,预计这两个学生的大学GPA相差多少?这个差距大吗?(iv)保持hsperc不变,SAT的分数相差多少,才能导致预测的colgpa相差0.50或四分制的半分?评论你的结论。答:(i)在高中班上名次的百分位数(hsperc)越小,学生在高中排名就越好,越大则排名越差。其它条件不变的情况下,学生在高中的排名越差,他/她预计的GPA将越小。(ii)将hsperc20,sat1050代入估计方程可得:colgpa1.3920.0135200.014810502.676(iii)预计中A的成绩比B的成绩高出0.01481400.207。这个差距较大。(iv)hsperc不变,colgpa0.00148sat。当colgpa0.5时,sat0.5/0.00148338。在其他条件不变的情况下,SAT分数的差异为约2.5个标准差,才能预测colgpa相差0.50。3.刚从法学院毕业的学生的起薪中位数由下式决定:loglogsalary0log1LSAT2GPA3libvol4cost5ranku其中,LSAT是整个待毕业年级LSAT成绩的中位数,GPA是该年级大学GPA的中位数,libvol是法学院图书馆的藏书量,cost是进入法学院每年的费用,而rank是法学院的排名(rank1的法学院是最好的)。(i)解释为什么我们预期0。5(ii)你预计其他斜率参数的符号如何?给出你的理由。(iii)使用LAWSCH85.RAW中的数据,估计出来的方程是^logsalary8.340.0047LSAT0.248GPA0.095loglibvol0.038logcost0.0033rank2nR136,0.842在其他条件不变的情况下,预计GPA中位数相差一分会导致薪水有多大差别?(以百分比回答。)(iv)解释变量loglibvol的系数。(v)你是否认为,应该进入一个排名更高的法学院?从预计的起薪来看,排名相差20位的价值有多大?答:(i)法学院的排名越大,说明该学院的声望越差,这将使得起薪下降。例如,排名100意味着还有99所学校更好。因此预期0。5(ii)预计0,0,因为LSAT和GPA都衡量了待毕业班级的质量,好学生进入学院使得预计的平均工12资更高。,0,法学院图书馆的藏书量以及进入法学院每年的费用都衡量了学校的质量。成本的作用小于34藏书量,但反映了教员和硬件设施的质量。(iii)预计GPA中位数相差一分会导致薪水增加24.8%。(iv)应该进入一个排名更高的法学院。 排名相差20位的价值为:1000.0033206.6%。4.下面这个模型是BiddleandHamermesh(1990)所用多元回归模型的一个简化版本,原模型研究睡眠时间和工作时间之间的取舍,并考察影响睡眠的其他因素:sleeptotwrkeducageu0123其中,sleep和totwrk都以分钟/周为单位,而educ和age则以年为单位。(也可参见计算机习题C2.3。)(i)如果成年人为工作而放弃睡眠,的符号是什么?1(ii)你认为和的符号应该是什么?23(iii)利用SLEEP75.RAW中的数据,估计出来的方程是^sleeptotwrk3638.250.148educage11.132.202nR706,0.113如果有人一周多工作5个小时,预计sleep会减少多少分钟?这是一个很大的舍弃吗?(iv)讨论educ的估计系数的符号和大小。(v)你能说totwrk,educ和age解释了sleep的大部分变异吗?还有什么其他因素可能影响花在睡眠上的时间?它们与totwrk可能相关吗?答:(i)的符号应该为负。1(ii)的符号不明确。一些人认为更高教育水平的人想获得更多,其他条件相同的情况下,他们休息的较2少,此时0。睡眠与年龄之间的关系比模型描述的更为复杂,经济学家不能很好的判断这件事情。2(iii)因为totwrk都以分钟/周为单位,因此将时转化为分可得,totwrk560300。预计睡眠将会下降0.14830044.4(分)。对一周而言,这并不是一个很大的舍弃。(iv)受教育年限educ越多暗示着预计睡眠时间越少,但是这种影响是很小的。假设在其他条件不变的情况下,大学和高中的区别是四年间大学学生每周睡眠时间少休息45分钟。(v)不能,totwrk、educ和age只解释了11.3%的sleep的变异。一个包含在误差项中的重要因素是总体健康状况。另一个重要因素是婚姻状况,以及是否有孩子。健康、婚姻状况、孩子的数量和年龄与totwrk是相关的。5.考虑含有三个自变量的多元回归模型,并满足假定MLR.1~MLR.4,yxxxu0112233你对估计x和x的参数之和感兴趣;把这个和记为。12112(i)证明ˆˆˆ是的一个无偏估计量。1121(ii)求出用Varˆ、Varˆ2和Corrˆ12,ˆ表示的Varˆ1。1答:(i)EˆEˆˆEˆEˆ。11212121(ii)VarˆVarˆˆ1126.在一项调查大学GPA与在各种活动中折耗费时间之关系的研究中,你对几个学生分发了调查问卷。学生被问到,他们每周在学习、睡觉、工作和闲暇这四种活动中各花多少小时。任何活动都被列为这四种活动之一,所以对每个学生来说,这四个活动的小时数之和都是168。(i)在模型GPA+study+sleep+work+leisureu+01111中,保持sleep,work和leisure不变而改变study是否有意义?(ii)解释为什么这个模型违背了假定MLR.3。(iii)你如何才能将这个模型重新表述,使得它的参数具有一个有用的解释,而又不违背假定MLR.3。答:(i)没有意义。因为四种活动的总时间固定为168小时,其他三种不变,则study时间也不会改变。(ii)从(i)可知,study是其他三种活动的线性函数:study168sleepworkleisure。这种关系对于每一个观测值都成立,因此违背了MLR.3。(iii)应该去掉一个解释变量leisure,模型变为: GPAstudysleepworku0123是study的参数,当其他条件不变的情况下,study每增加一小时,GPA增加。但是如果学习时间增加11一小时,leisure时间必须减少一小时。其他参数解释与此类似。7.假设制造业中每个工人的平均生产力(avgprod)取决于培训的平均小时数(avglrain)和工人的平均能力(avgabil)两个因素:avgprodavgtrainavgabilu012假设这个方程满足高斯-马尔可夫假定。如果将培训津贴给了那些工人能力较差的企业,以致avgtrain和avgabil呈负相关,那么,将avgprod对avgtrain进行简单回归所得到的可能出现什么样的偏误?答:利用表3-2。因为0,且Corrxx0,。因此存在一个向下的偏误,即:E。简单回212111归估计低估了培训时间的影响。即使0,E也可能是负的。18.下面哪些因素会导致0LS估计量出现偏误?(i)异方差性。(ii)遗漏一个重要变量。(iii)模型中同时包含的两个自变量之间的样本相关系数达到0.95.答:只有(ii)才会导致OLS出现偏误,且所遗漏的变量必须与模型中包含的变量是相关的。同方差性假设并不影响OLS估计量的无偏性,仅影响估计量的方差。样本解释变量之间共线性的程度并不影响高斯-马尔科夫假定。只有当自变量之间完全共线时,才会违背MLR.3。9.假设你对估计其他条件不变情况下y和x之间的关系感兴趣。为此,你可以搜集两个控制变量x和x的123数据。(为真实起见,你可以想象y为期末考试分数,x为到课率.x为上学期之前的GPA,x为SAT或ACT分123数。)令ˆ表示y列x进行简单回归的系数估计值,而ˆ为y对x,x,x进行多元回归的斜率估计值。111123(i)若样本中x与x和x高度相关,且x和x对y具有很大的偏效应,预计和ˆ是十分类似还是十分不123231同?请解释。(ii)若x与x和x几乎无关但x和x高度相关,预计和ˆ是十分类似还是十分不同?请解释。123231(iii)若样本中x与x和x高度相关,且x和x对y具有很小的偏效应,预计se1和seˆ1哪个更小?12323请解释。(iv)若x与x和x几乎无关,x和x对y具有很大的偏效应,并且x与x高度相关,预计se1和seˆ11232323哪个更小?请解释。答:(i)因为x与x和x高度相关,后面的变量对y具有很大的偏效应,简单和多元回归中x的系数十分1231不同。由方程3.46以及对遗漏一个变量的讨论可知,系数不相同是直觉的结论。(ii)若x与x和x几乎无关但x和x高度相关,预计1和ˆ十分类似。因为x与x和x几乎无关,则x1232311232和x的相关程度对多元回归中对x的回归估计没有直接的影响。31(iii)se1更小。在本案例中,加入x和x大幅度增加了x的系数的标准误,因此seseˆ。23111(iv)seˆ更小。在模型中加入x和x将会减少残差,而不导致多重共线性,因此可得seseˆ。x123112和x的相关关系并不影响seˆ。3110.假设决定y的总体模型是yxxxu,而这个模型满足假定MLR.1~MLR.4。但我们估0112233 计了漏掉x的模型。令,和为y对x和x回归的OLS估计量。(给定样本中自变量的值)证明的期望3012231值是E1其中rˆi1是x1对x2回归所得到的0LS残差。[提示:1的公式来自方程(3.22)。将yi01xi12xi23xi3ui代入这个方程。经过一些计算之后,将x和rˆ视为非随机量而取期望。]i3i1nryˆii1答:由公式3.22可得:ˆi1。代入真实的模型可得:1n2rˆi1i1nrˆix1i0+xi11xi22ui33ˆi11n2rˆi1i1nnnn2因为rˆi10,rxˆri120,rxˆi1ir1i1ˆ,rˆi1是xi1对xi2回归的残差,rˆi1有零均值,且与xi2无关。因此分i1i1ii11子简化为nnn21rˆr13rxˆr1i3ruˆr1ii1i1i1将分子代入原式得:nnrxˆi1i3ruˆ1iii11113nn22rrˆii11ˆii11由于随机误差项的均值为0,因此nrxˆii13i1E113n2rˆi1i111.下面这个方程把一个社区住房的中间价格表示成污染水平(用nox表示氧化亚氮)和社区中每套住房平均房间数量(rooms)之间的关系:logprice01lognox2roomsu(i)和的符号可能是什么?对有何解释?请加以说明。121(ii)为什么nox[或更准确地说,是lognox]与rooms可能负相关?如果是这样,将logprice对lognox进行简单回归得到的偏误估计量是偏高还是偏低?1(iii)利用HPRICE2.RAW中的数据,估计出如下方程:^logprice11.711.043lognox2nR506,0.264^logprice9.230.718lognox0.306rooms2nR506,0.514根据你在第(ii)部分的回答,就price对nox的弹性估计值而言,上述简单回归结果和多元回归结果之间的 关系与你的预期一致吗?这个结果是否意味着-0.718比-1.043更加接近真实弹性?答:(i)0,更高的污染水平导致预计房屋价格更低。表示房屋价格的污染弹性,即污染水平上升1%,11则房屋价格下降%。10,每套住房平均房间数量越多,说明房屋面积越大,则房屋价格越高。2(ii)假设平均房间数量随着房屋质量的提高而增长,lognox与rooms可能负相关,因为实际上贫穷的社区污染水平更高。利用表3.2可判断偏误的方向,如果0且Corrxx0,,简单回归估计得到的有一个2121向下的偏误。当10,意味着在同样的回归中,平均污染水平的作用1被高估了。(iii)上述简单回归结果和多元回归结果之间的关系与预期一致。简单回归估计的结果-1.043小于多元回归的结果-0.718。如果这些估计只是对于一个样本而言,那么就不能判断哪一个更接近,但如果这是一个典型的1样本,则-0.718更接近真实的。1212.(i)在前4个高斯-马尔可夫假定之下,考虑简单回归模型yxu,对某个函数gz,比如gxx012或gxxlog1。定义zgx定义一个斜率估计量为iinn1zizyizi/zxiii11证明1是线性无偏的。记住,在你的推导过程中,因为Eux0,所以你可以把xi和zi都看成非随机的。(ii)增加同方差假定MLR.5,证明Var1(iii)在高斯-马尔可夫假定下,直接证明VarˆVar,其中ˆ是OLS估计量。[提示:附录8中的柯111西-施瓦兹不等式意味着2nnn11221nzizxixnziznxixi1i1i1注意,我们可以将x从样本协方差中去掉。n证明:(i)记szzxizxi,这不完全是z和x样本协方差,因为并没有除以n1。但为了简化计算而使i1用它。由此可知:nziizyi11szx这是一个y的线性函数,设权重为wzz/s。为了表示无偏性,将yxu加入该方程可得:iiizxi01iinnnnziz01xiui01zizszxzizuiziizui1ii11i111ssszxzxzxn因为zzi0,szx是zi、xi和预计期望值的函数。对于所有的i,都有Eui0。因此可得:i1nzizEu1i1E111szx nnn22VarVarzizuizizuiziziii1112(ii)据(i)可得:Var=。1222ssszxzxzxn(iii)已知Var/ˆ2xx2,将x从样本协方差中去掉,消去n1,可以得到:1ii1nn222zizxiz/sx1/xii11两边乘以2,可得VarVarˆ。1113.如下式所示,在由美国各个县构成的总体中,各种税收比例对随后就业增长方面的影响:growthshareshareshare其他因素01p2I2S其中,growth是就业从1980年到1990年的变化百分比,share是总税收收益中财产税的比例,share是所pI得税税收收益的比例,而share是销售税税收收益的比例。所有这些变量都以1980年的货币度量。遗漏的比例Sshare包括收费和杂项税收。根据定义,这四个比例之和为1。其他因素将包括对教育、基础设施等支出(均以F1980年货币度量)。(i)我们为什么必须从方程中省略一个税收比例变量?(ii)对给出一个仔细的解释。1答:(i)四种税收的比例之和为1,如果不省略一种税收的比例,方程就会遭遇完全共线性。参数不存在“其他条件不变”的情况,也就是说,只改变一种税收的比例不可能维持所有其他的变量保持不变。(ii)因为每一种税收分担一个比例(最大为1,此时其他税收所占份额为0),因此增加1单位的财产税收益比例share是无意义的。如果share增加1%,保持其他因素不变的情况下,growth下降%。pp1二、计算机习题1.卫生官员(和其他人)所关心的一个问题是,孕妇在怀孕期间抽烟对婴儿健康的影响。对婴儿健康的度量方法之一是婴儿出生时的体重;过低的出生体重会使婴儿有感染各种疾病的危险。由于除了抽烟之外,其他影响婴儿出生体重的因素可能与抽烟相关,所以我们应该考虑这些因素。比如,高收入通常会使母亲得到更好的产前照顾和更好的营养。表达这一点的方程是bwghtcigsfamincu012(i)的符号最可能是什么?2(ii)你是否认为cigs与faminc可能相关?解释为什么可能是正相关或负相关。(iii)现在利用BWGHT.RAW中的数据分别估计包含和不包含faminc的方程。以方程的形式报告结论,包2括样本容量和R。讨论你的结论,主要看增加faminc是否会显著改变cigs对bwght的估计影响.答:(i)0。高收入通常会使母亲得到更好的产前照顾和更好的营养,从而使得出生体重较大。2(ii)一方面,收入的增加会使得商品的消费增加,因此两者是正相关关系。另一方面,家庭收入越高,家庭成员所受的教育越高,吸烟的可能性越低,因此收入与吸烟是呈反相关关系的。实际上,样本中两者呈负相关关系,相关系数为-0.173。(iii)不包含和包含变量faminc的方程分别为:bwght119.770.514cigs2nR1.388,0.023及bwght116.970.463cigs0.93faminc2nR1388,0.030可以看出,加入变量faminc的回归中,吸烟的影响较小,但两者的差别不大。这是因为吸烟和家庭收入之间并不是非常相关,而faminc的系数实际上是非常小的,1988年10000美元的家庭收入增长使得预计出生体重 仅增加0.93盎司。2.使用HPRICE1.RAW中的数据,估计如下模型:pricesqrftbdrmsu012其中,price是以千美元为单位的住房价格。(i)以方程的形式写出结果。(ii)住房在保持面积不变的同时又增加一间卧室,估计其价格会提高多少?(iii)住房增加一间大小为140平方英尺的卧室,估计其价格会提高多少?将这个答案与你在第(ii)部分的答案相比较。(iv)价格的变异有多大比例能被平方英尺数和卧室数解释?(v)样本中的第一套住房有sqrft2438和bdrms4。从0LS回归线计算这套住房的预计销售价格。(vi)样本中第一套住房的实际销售价格是300000美元(price300)。求出这套住房的残差。它是否表明购买者为这套住房支付了过低或过高的价格?答:(i)估计方程为:price19.320.128sqrft15.20bdrms2nR88,0.632(ii)其价格会提高pricebdrms15.2015.2,即15200美元。(iii)估计其价格会提高price0.128sqrft15.20bdrms0.12814015.2033.12,即33120美元。(iv)价格的变异有63.2%能被平方英尺数和卧室数解释。(v)这套住房的预计销售价格为:19.320.128243815.24=353.544,即353544美元。(vi)实际销售价格为300000美元,预计价格为353544美元,残差为实际观察值与回归估计值的差,即-53544美元。购买者为这套住房支付了过低的价格。当然,还存在一些其他的因素影响房屋的价格,模型并未将这些因素完全纳入进来。3.文件CEOSAL2.RAW包含了177位首席执行官的数据,并可用来考察企业业绩对CE0薪水的影响。(i)估计一个将年薪与企业销售量和市场价值相联系的模型。让这个模型对每个自变量的变化都具有常弹性。以方程的形式写出结论。(ii)在第(i)部分的模型中增加profits。为什么这个变量不能以对数形式进入模型?你认为这些企业业绩变量解释了CE0薪水变异中的大部分吗?(iii)在第(ii)部分的模型中增加ceoten。保持其他条件不变,延长一年CE0任期,估计的百分比回报是什么?(iv)求出变量logmktval和profits之间的样本相关系数。这些变量高度相关吗?这对OLS估计量有什么影响?答:(i)常弹性方程为:logsalary4.620.162logsales0.107mktval2nR177,0.299(ii)profits不能以对数形式进入模型的原因在于:样本中的9个公司的利润为负,如果采用对数形式,将会在模型中丢失这些数据。估计模型如下:logsalsry4.690.161logsales0.0981logmktval0.000036profits2nR177,0.299企业业绩变量仅解释了CE0薪水变异中的30%。(iii)加入变量ceoten后的模型为:logsalary4.560.162logsales0.102logmktval0.000029profits0.012ceoten2nR177,0.318延长一年CE0任期,估计的百分比回报是1.2%。(iv)变量logmktval和profits之间的样本相关系数是0.78,这是高度相关的。这对OLS估计量的无偏性是无影响的,但会使它们的方差增大。 4.本题使用ATTEND.RAW中的数据。(i)求出变量atndrte,pricGPA和ACT的最小值、最大值和平均值。(ii)估计模型atndrtepricGPAACTu,并以方程的形式写出结论。对截距做出解释。它是否存012在一个有用的含义。(iii)讨论估计的斜率系数。有没有什么令人吃惊之处?(iv)如果priGPA3.65和ACT20,预计atndrte是多少?你对这个结论做何解释?样本中有没有一些学生具有这些解释变量的值?(v)如果学生A具有priGPA3.1和ACT21,而学生B具有priGPA2.1和ACT26,他们在出勤率上的预期差异是多少?答:(i)atndrte,pricGPA和ACT的平均值、最小值和最大值如表3-2所示:表3-2(ii)估计方程为:atndrtepriGPA75.7017.26ACT1.722nR680,0.291截距的含义是,当pricGPA和ACT为0时,预计的atndrte为75.5%。实际上在大学里面没有学生的pricGPA和ACT为0。对总体而言不存在一个有用的含义。(iii)pricGPA的系数意味着,在ACT保持不变的前提下,学生的pricGPA系数提高1%,atndrte将增加17.3%。ACT的系数为负,最初是令人吃惊的。在pricGPA给定的前提下,ACT提高5%,预计的atndrte将下降8.6%。(iv)预计atndrte75.7017.2673.651.7220104.3。学生的出勤率不可能超过100%。当用回归方法对因变量的上界和下界进行预测时可能出现这样的情况,实际上样本中学生的真实出勤率为87.5%。(v)A和B在出勤率上的预期差异是:17.263.12.12126=25.86。5.通过对例3.2明确地进行“排除其他影响”的练习,证实对0LS估计值做“排除其他影响”的解释。这首先要求将educ对exper和tenure进行回归,并保留残差r1然后将logwage对r1进行回归。将r1的系数与在logwage对educ、exper和tenure的回归中educ的系数相比较。答:educ对exper和tenure进行回归的模型为:educ13.570.074exper0.048tenurerˆ12nR526,0.101保留残差r1然后将logwage对r1进行回归的模型为:logwage1.620.092rˆ12nR526,0.2072在第二个回归模型中,系数r1与公式3.19中educ的系数相等。以上回归的判定系数小于3.19的R。logwage对r1的回归解释了educ中与exper和tenure无关的部分。exper和tenure的独立效应没有包括在内。6.本题使用WAGE2.RAW中的数据。一般地,保证如下所有回归都含有截距。(i)将IQ对educ进行简单回归,并得到斜率系数ˆ。1 (ii)将logwage对educ进行简单回归,并得到斜率系数ˆ。1(iii)将logwage对educ和IQ进行多元回归,并分别得到斜率系数ˆ和ˆ。12(iv)验证ˆˆ+ˆ1。112答:(i)斜率系数ˆ3.53383。1(ii)斜率系数ˆ0.05984。1(iii)斜率系数ˆ0.03912和ˆ0.00586。12(iv)ˆˆ10.03912+3.533830.005860.05983,这与ˆ0.05984是非常接近的。较小的差距可看作为121舍入误差。7.本题利用MEAP93.RAW中的数据。(i)估计模型math10expendloglnchprgu,并按照通常的方式报告估计方程,包括样本容量和0122R。斜率系数的符号与你的预期一致吗?请加以解释。(ii)你如何理解第(i)部分中估计出来的截距?特别是,令两个解释变量都等于零说得过去吗?[提示:记住log10。](iii)现在做math10对logexpend的简单回归,并将斜率系数与第(i)部分中得到的估计值进行比较。与第(i)部分中的结果相比,这里估计出来的支出效应是更大还是更小?(iv)求出lexpendlogexpend与lnchprg之间的相关系数。你认为其符号合理吗?(v)利用第(iv)部分的结果来解释你在第(iii)部分中得到的结论。答:(i)回归结果是:math10expend20.366.23loglnchprg0.3052nR408,0.180估计的斜率系数符号符合预期,即更多的支出导致通过率的增加,更高的贫困率导致通过率的下降。(ii)截距是指其他解释变量为0时,被解释变量的估计值。当贫困率很低的时候,设定lnchprg0是有意义的。设定logexpend为0是无意义的,因为这意味着expend为1,而且支出是以美元计的。-20%的预测通过率是无意义的。(iii)简单回归模型结果为:math1069.3411.16logexpend2nR408,0.030其斜率系数是第(i)部分的结果的两倍。因此这里估计出来的支出效应更大。(iv)logexpend与lnchprg之间的相关系数为-0.19,这意味着,在平均水平上,较穷的高中在每个学生身上的支出更少。这是有意义的,尤其是在1993年的密歇根,学校基金是由当地的税收收入决定的。(v)可以使用公式3.23,因为Corrxx,0,这意味着0,ˆ0。简单回归估计中的系数大于多12121元回归中的ˆ。没有成功解释贫穷率使得支出的效应被高估。18.利用DIS(RIM.RAW中的数据回答本题。对新泽西和宾夕法尼亚的各个邮区,搜集快餐店各种商品价格 和人口特征方面的数据。目的是想考察快餐店是否在黑人更集中的区域收取更高的价格。(i)求出样本中prpblck和income的平均值及其标准差。prpblck和income的度量单位是什么?(ii)考虑一个模型,用人口中黑人比例和收入中位数来解释苏打饮料的价格psoda;psodaprpblckincomeu0122用OLS估计这个模型并以方程的形式报告结果,包括样本容量和R。(报告估计值时不要使用科学计数法。)解释prpblck的系数。你认为它在经济上算大吗?(iii)将第(ii)部分得到的估计值与psoda对prpblck进行简单回归得到的估计值进行比较。控制收入变量后,这种歧视效应是更大还是更小了?(iv)收入价格弹性为常数的模型可能更加适合。报告如下模型的估计值:logpsodaprpblck012incomeu若prpblck提高0.20(即20个百分点),估计psoda的变化百分比是多少?[提示:答案是2.xx,你在“xx”位置上填写数字即可。](v)现在在第(iv)部分的回归中添加变量prppov。ˆ有何变化?prpblck(vi)求出logincome和prppov的相关系数。大致符合你的预期吗?(vii)评价如下说法:“由于logincome和prppov如此高度相关,所以它们不该进入同一个回归。”答:(i)样本中prpblck平均值为0.113,标准差为0.182;income的平均值为47053.78,标准差为13179.29。prpblck的度量单位是比例,而收入的度量单位是美元。(ii)OLS回归结果是:psoda0.9560.115prpblck0.00000income2nR401,0.064prpblck增加了10个百分点,soda的预计价格将增加0.0115美元。它在经济上不算大。在无黑人的地区和其他几乎全部是黑人的地区,soda价格的差异大约是11.5美分。(iii)简单回归估计中,prpblck的系数为0.065,因此简单回归估计的系数更低。这是因为prpblck和income是负相关的,而收入变量在多元回归中的系数为正。控制收入效应后,歧视效应变大了。(iv)模型结果为:logpsoda0.7940.122prpblck0.077logincome2nR401,0.068若prpblck提高0.20(即20个百分点),估计psoda的变化百分比是0.200.1220.0244,即2.44%。(v)添加变量prppov,ˆ下降为0.073。prpblck(vi)logincome和prppov的相关系数为-0.84,因为贫困率是由收入决定的。(vii)logincome和prppov之间的确是高度相关的,但是为了能够分离出纯粹的歧视效应,在模型中需要包含尽可能多的衡量收入的因素,因此模型中包含这两个变量是有意义的,即他们可以进入一个回归。9.利用CHARITY.RAW中的数据回答如下问题(i)用普通最小二乘法估计如下模型:giftmailsyeargiftlastproprespu012322按照通常的方式报告估计方程,包括样本容量和R。其R与不使用giftlast和propresp的简单回归所得到的2R相比如何?(ii)解释mailsyear的系数,它比对应的简单回归系数更大还是更小?(iii)解释propresp的系数,千万要注意propresp的度量单位。(iv)现在,在这个方程中增加变量avggif。这将对mailsyear的估计效应造成什么样的影响?(v)在第(iv)部分的方程中,giftlast的系数有何变化?你认为这是怎么回事? 答:(i)估计模型为:giftmailsyear4.552.170.0059giftlast15.36propresp2nR4268,0.08342与简单回归的R0.0834相比较大,能够解释更大部分的gift变异。(ii)保持其他变量不变,mailsyear每增加1,估计的gift将增加2.17荷兰盾。简单回归系数为2.65,因此多元回归估计系数较小。(iii)propresp是以比例计的,增加1是无意义的。这种增长只会发生在propresp从0增加到1时。设想propresp增长10个百分点,则预计gift将增加1.54荷兰盾。(iv)估计结果为:gift7.331.20mailsyera0.261giftlast16.20propresp0.527avggift2nR4268,0.2005mailsyear的系数变小为1.2,比简单回归估计模型中的回归系数少一半。(v)giftlast的系数符号变为负,当人们可能在较大的捐赠之后选择较小的捐赠,那么过去的捐赠越多,意味着现在的捐赠将会减小,因此这种负相关关系是有意义的。 在含有k个自变量的模型中,可以把虚拟假设写成H:x,xx,„,都无助于解释y012k用参数表示,这个虚拟假设就是所有的斜率参数都是零:H:„0012k在式中有k个约束,得到受约束模型yu02该估计式的R为零。因为没有解释变量,所以y中的变异一点都没有得到解释。F统计量可写成2Rk/21R/nk122其中,R就是y对x,xx,„,回归的通常R。12k7.检验一般的线性约束检验排除性约束仍是F统计量最重要的应用。但有时候,一种理念所蕴涵的约束,比仅仅排除某些自变量更为复杂,仍可以直接使用F统计量进行检验。2因变量不同的模型,不能使用F统计量的R型。六、报告回归结果1.所估计的OLS系数估计值总应该报告对于分析中的关键变量,对所估计的系数做出解释。2.标准误标准误总是应该与所估计的系数一起包括进来,原因在于:(1)标准误有助于判断被检验的虚拟假设,虚拟假设并非总是总体参数为0;(2)有助于计算置信区间。23.回归的R也总应该包括进来2(1)R提供拟合优度的一种度量;(2)简化排除性约束F统计量的计算。4.观测次数也应该出现在估计模型中4.2课后习题详解一、习题1.考虑一个用企业年销售额、股本回报率(roe,以百分数表示)和企业股票的回报(ros,以百分数表示)来解释CE0薪水的如下方程:logsalaryo1logsales2roe3rosu(i)用模型参数来表述如下虚拟假设:在控制了sales和roe后,ros对CE0的薪水没有影响。再给出对立假设的参数表述:股票市场更好的业绩会提高CE0的薪水。(ii)使用CEOSAL1.RAW中的数据,通过OLS可以得到如下方程:^logsalary4.320.280logsales0.0174roe0.00024ros0.320.0350.00410.000542nR209,0.283如果ros提高50个百分点,预计salary会提高多大比例?ros对salary具有实际上很大的影响吗?(iii)检验ros对salary没有影响的虚拟假设,对立假设是具有正效应。在10%的显著性水平上进行检验。(iv)你最后会在一个用企业业绩表示CEO报酬的模型中包括ros吗?给出你的解释。答:(i)虚拟假设为:H:0;对立假设为:H:0。0313(ii)如果ros提高50个百分点,预计salary会提高0.00024500.01212%。ros对salary不具有实际上很 大的影响。(iii)自由度为无穷大,10%的显著性水平下,单侧检验的临界值为1.282。t统计量为:0.00024/0.000540.44,小于临界值,因此在10%的显著水平上不能拒绝虚拟假设,即ros对salary没有影响。(iv)会。基于样本而言,估计的ros系数看起来并不等于0的原因是抽样差异;另一方面,在模型中包含ros不会造成任何伤害,这取决于它与其他的自变量之间的相关关系。2.下面哪种因素可能导致通常0LS的t统计量无效(即在H下不服从t分布)?0(i)异方差性;(ii)模型中两个自变量之间的样本相关系数达到0.95;(iii)遗漏一个重要的解释变量。答:(i)和(iii)可能导致通常0LS的t统计量无效。同方差性是CLM假定之一。遗漏一个重要的变量违背了假定MLR.3。(ii)CLM假定除了排除相关系数等于1的情况外,并没有涉及自变量之间的相关性。3.在例4.7中,我们利用非工会制造企业的数据估计了废品率与其他企业特征之间的关系。我们现在来更深入地分析这个例子,并使用一个更大的企业样本。(i)例4.7中待估计的总体模型可写成loglogscraplogo1hrsemp23salesemployu利用1987年的43个观测,所估计的方程是^logscrap11.730.042hrsemp0.951logsales0.992logemploy4.570.0190.3700.3602nR43,0.310将这个方程与仅用样本中29个非工会企业估计出来的结果进行对比。(ii)证明这个总体模型也可以写成loglogscrap01hrsemplog2salesemploy/3employu其中。[提示:logx/xlogxlogx。]解释假设H:0。323232303(iii)当估计第(ii)部分的方程时,我们得到^logscrap11.740.042hrsemp0.951logsalesemploy/0.041logemploy4.570.0190.3700.2052nR43,0.310控制了工人培训和销售-雇员比后,是否企业越大,其废品率在统计上的显著性越大?(iv)检验假设:salesemploy/提高1%将伴随以废品率下降1%。答:(i)当hrsemp的标准误不变,系数将会增加一半。t统计量从-1.47下降到-2.21,在5%的显著性水平上,临界值为-1.684,t统计量小于临界值,左侧检验下系数显著地小于零。(ii)如果在方程的右边加上logsales,可得:2logscrapo1hrsemp2logsales2logemploy23logemploylogemployu01hrsemp2logsalesemploy/3logemployu(iii)企业越大,其废品率在统计上的显著性不一定越大。logemploy系数的t值为0.2,非常小。因此控制了工人培训和销售-雇员比后,可以断定以雇员多少而决定的企业规模与废品率无关。(iv)(ii)中的虚拟假设为:H:1。t统计量为:0.9511/0.370.132,该t值非常小,无法拒绝02 虚拟假设。4.使用CEOSAL2.RAW中的数据得出下表:变量mktval为企业的市场价值,profmarg为利润占销售额的百分比,ceoten为其就任当前公司CEO的年数,而comten则是其在这个公司任职的总年数。(i)评论profmarg对CEO薪水的影响。(ii)市场价值是否具有显著影响?试解释你的结论。(iii)解释ceoten和comten的系数。这些变量是统计显著的吗?(iv)你如何解释在其他条件不变的情况下,你在这个公司任职时间越长,你的薪水则越低?答:(i)据表中(2)、(3)可知,profmarg的系数为负,t统计量为为-1。因此在企业的市场价值和销量固定的情况下,边际利润对CEO的薪水无影响。(ii)据表中(3)可知,logmktval的t统计量为2.05,在5%的显著性水平上的临界值为1.96,因此是统计显著的。所以市场价值具有显著影响。(iii)&(iv)这些变量在低显著性水平上是个别显著的。因为t3.11,t2.79。其他变量固定的ceotencomten情况下,就任公司CEO的年份增加一年,薪水增长1.71%。在公司任职(非CEO)增加一年,薪水减少0.92%。第二个结论看起来令人惊讶,但它正是反映了“明星”效应:企业从公司外部聘用CEO都倾向于一小群被高度评价的候选人,因此这些人的工资被哄抬起来,而非CEO职员的聘用不大可能像CEO一样。5.在4.5节,我们使用了一个检验住房价格定价理性的例子。在那里,我们使用了price和assess的一个对数一对数模型[参见方程(4.47)]。这里,我们采用一个水平值一水平值的表述。(i)对于如下简单回归模型:priceassessu01若1和0,则评价是理性的。所估计的方程是10^price14.470.976assess16.270.0492nR88SSR,165644.51,0.820首先,相对双侧对立假设,检验假设H:0。然后,相对双侧对立假设,检验H:1。你的结论是0001什么?(ii)为了检验联合假设0和1,我们需要约束模型的SSR。这就要求在n88的情况下计算01n2priceiiassess,因为约束模型的残差刚好为priceiiassess。(由于两个参数在H0下都被设定,把以不需要i1约束模型的估计值。)这最终得到SSR209448.99。对这个联合假设进行F检验。 (iii)现在检验模型priceassesslotsizesqrftbdrmsu。假设H:0,0和0。0123402342利用同样88个住房数据估计这个模型的R是0.829。(iv)如果price的方差随着assess,sqrft,lotsize或bdrms而变化,你对第(iii)部分的F检验有什么看法?答:(i)自由度为88286,在5%的显著性水平下,双侧检验的临界值是1.987。H:0的t统计量为000.89,因此不能拒绝虚拟假设。H:1的t统计量为0.9761/0.0490.49,同样是统计不显著的,因此无01法拒绝虚拟假设。(ii)因为SSR209448.99,SSR165644.51,因此F统计量为:rur209448.99165644.5186F11.37165644.512查表可得,1%显著水平上,自由度分别为2和90的临界值为4.85,因此拒绝虚拟假设。2(iii)采用R型的F统计量,无约束模型中的自由度为88583。F统计量为:0.8290.8283F1.4610.8293在10%的显著性水平上,临界值为2.15,因此不能拒绝原假设。此时p值为0.23。(iv)如果存在异方差性,则违背了MLR.5,在零假设条件下,F统计量服从F分布。因此,将F统计量与临界值相比较,或从F分布得到p值都是没有意义的。6.回归分析还可以用来检验市场是否在评价股票时有效地使用了市场信息。为简单起见,令return为持有一个企业的股票在从1990年末到1994年末的四年时间内得到的总回报。有效市场假设认为,这些回报不应该与1990年知道的信息存在系统相关性。如果在期初知道的企业特征有助于预测股票回报,那我们在选择股票时就能用到这个信息。对于1990年,令dkr表示企业的债务-资本比率,eps表示每股收益,netinc表示净收入,而salary则表示CE0的总报酬。(i)使用RETURN.RAW中的数据,估计了如下方程:^return14.370.321dkr0.043eps0.0051netinc0.0035salary6.890.2010.0780.00470.00222nR142,0.0395检验这些解释变量在5%的显著性水平上是否联合显著。存在个别显著的解释变量吗?(ii)现在使用netinc和salary的对数形式重新估计这个模型^return36.300.327dkr0.069eps4.74lognetinc7.24logsalary39.370.2030.0803.396.312nR142,0.0330第(i)部分的结论有没有什么变化?(iii)在第(ii)部分中,我们为什么不用dks和eps的对数?(iv)总的看来,股票回报可预测性的证据是强还是弱?答:(i)已知n142,k4,因此F统计量为:0.0395137F1.4110.039545%的显著性水平,分子自由度为4,分母自由度为137的临界值为2.45,大于F统计量,因此不能拒绝虚拟假设,即解释变量在5%的显著性水平上联合不显著。变量dkh的t统计量最大,为1.6,小于临界值1.96,因此在5%的显著性水平下,不存在个别显著的解释变量。0.0330137(ii)F统计量为:F1.17,小于临界值,因此解释变量在5%的显著性水平上联合不显著。10.03304同样不存在在合理的显著性水平上显著的t统计量。(iii)log不能定义dkh或eps为零的企业,因此采用log形式,将可能在回归中丢失部分企业的数据。(iv)股票回报可预测性的证据是弱的。在5%的显著性水平上,没有t统计量是显著的,同时F统计量也是不显著的。报酬的变异中,只有3.3%的部分能被解释变量解释。 7.考虑例4.3中的估计方程,这个方程可以被用来研究缺课对大学平均成绩的影响:^colGPAhsGPA1.390.412ACT0.015skipped0.0830.330.0940.0110.0262nR141,0.234(i)利用标准正态近似,求出GPA在置信水平为95%时的置信区间。hs(ii)相对于双侧对立假设,你能在5%的显著性水平上拒绝假设HGPA:0.4吗?0hs(iii)相对于双侧对立假设,你能在5%的显著性水平上拒绝假设HGPA:1吗?0hs答:(i)GPA在置信水平为95%时的置信区间为:hs0.4121.960.0940.4121.960.094,。(ii)不能。因为0.4位于置信区间内。(iii)能。因为1在置信区间以外。8.在习题3.4中,我们估计了方程^sleeptotwrk3638.250.148educage11.132.20112.280.0175.881.452nR706,0.113其中的标准误是我们现在才同估计值一并给出的。(i)相对于一个双侧对立假设,是educ还是age在5%的水平上是个别显著的?给出你的计算。(ii)从方程中去掉educ和age,则得到^sleeptotwr3586.380.151k38.910.0172n706,R0.103在5%的显著性水平上,educ和age在原方程中是联合显著的吗?说明你所给答案的理由。(iii)在模型中包括educ和age,是否显著影响所估计的睡眠和工作之间的替换关系?(iv)假设睡眠方程含有异方差性。这对第(i)和(ii)部分计算的检验意味着什么?答:(i)自由度为:7062704;在双侧检验中,5%的显著性水平上,标准临界值为1.96,educ的t统计量为:11.13/5.881.89,因此无法拒绝虚拟假设0。同样,age的t统计量为1.52,小于临界值,因此educ是统计不显著的。2(ii)采用R型的F统计量,F统计量为:0.1130.103702F3.9610.1132在5%的显著水平上,临界值为3,小于F统计量,因此educ和age在原方程中是联合显著的。实际上,p值为0.019,因此变量在2%的显著性水平上联合显著。(iii)不影响所估计的睡眠和工作之间的替换关系。因为变量是联合显著的,包含educ和age只使得totwrk的系数由-0.151变为-0.148。(iv)t检验和F检验成立的假设之一是同方差性。如果方程存在异方差性,那么第(i)和(ii)部分的检验将不再有效。9.租金率是否受到一个大学城里学生人数的影响呢?令rent表示美国一个大学城里单位租借面积的平均月租金,pop表示总城市人口,avginc表示城市平均收入,pctstu表示学生人数占总人口的百分比。一个检验某种关系的模型是logrento1logpop2logavginc3pctstuu(i)表述虚拟假设:在其他条件不变的情况下,学生人数相对于总人口的多少对月租金没有影响。并表述有影响的对立假设。 (ii)你预期和具有什么样的符号?12(iii)利用RENTAL.RAW中64个大学城在1990年的数据所估计的方程为^logrentpop0.0430.066logavgincpctstu0.507log0.00560.8440.0390.0810.00172nR64,0.458“总人口增加10%将伴随着租金提高约6.60%”的说法有什么不妥?(iv)在1%的显著性水平上检验第(i)部分陈述的假设。答:(i)虚拟假设为:H:0;对立假设:H:0。0313(ii)其他条件相同的情况下,总人口增加使租房需求增加,从而租金增加。当平均收入更高时,对整体住房的需求增加,推高了房地产的成本,包含租金率。因此和都是正的。12(iii)logpop的系数表示的是弹性,正确的说法应该是:总人口增加10%,租金将提高0.66%。(iv)自由度为60,1%的显著性水平下,双侧检验的临界值为2.66。t统计量是3.29,大于临界值,因此拒绝虚拟假设,统计显著地不等于0。310.在经典线性模型假定MLR.1~MLR.6下,考虑含有三个自变量的多元回归模型:yXXXu0112233你想检验的虚拟假设是H:31。012(i)令ˆ和ˆ表示和的OLS估计量。用ˆ和ˆ的方差及其协方差求出Var3ˆ12ˆ。ˆ3ˆ的标12121212准误是什么?(ii)写出检验H:31的t统计量。012(iii)定义3和ˆˆ3ˆ,写出一个涉及,,和的回归方程,使你能直接得到ˆ及其11211201231标准误。答:(i)Varˆ3ˆVarˆ9Varˆ6Covˆ,ˆ。121212标准误为:seˆ3ˆVarˆ9Varˆ6Covˆ,ˆ。121212ˆ31ˆ12(ii)t统计量为:t=。seˆ3ˆ12(iii)ˆˆ3ˆ,代入模型中可得:112y0132X12X23X3u01X13X1X223X3u此即为涉及,,和的回归方程,ˆ即为X的系数。01231111.变量rdintens是研发支出(R&D)占销售额的百分比。销售额以百万美元度量。变量profmarg是利润占销售额的百分比。利用RDCHEM.RAW中32家化工企业的数据,估计如下方程:^rdintens0.4720.321logsales0.050profmarg1.3690.2160.0462nR32,0.099(i)解释logsales的系数。特别地,如果sales增加10%,估计rdintens会变化多少个百分点?这在经济上 是一个很大的影响吗?(ii)检验假设R&D的强度不随sales而变化,对立假设是,它随着销售额的增加而提高。在5%和10%的显著性水平上进行这个检验。(iii)解释profmarg的系数,它在经济上显著吗?(iv)profmarg对rdintens是否有统计显著的影响?^答:(i)保持profmarg不变,rdintenssales0.321logsales0.00321%。因此,如果%10sales,^rdintens0.032。估计rdintens会变化3个百分点,相对于sales的变动,并不是一个很大的影响。(ii)虚拟假设:H:0,对立假设为:H:0。是logsales的系数。t统计量为:0.321/0.2161.468。01111进行单侧检验,在5%的显著性水平上,自由度为29,临界值为1.699,因此在该显著性水平上不能拒绝虚拟假设。但是在10%的显著性水平上,临界值为1.311,小于t统计量,拒绝虚拟假设,即R&D的强度随着销售额的增加而提高。(iii)profmarg的系数在经济上显著。根据先验经验,当利润越高,无论是出于避税目的还是提升企业自主创新能力的需要,研发支出都会越高,因此profmarg的系数是正的,符合一般规律。(iv)profmarg对rdintens的影响统计不显著。因为其t统计量等于1.087,小于在10%的显著性水平上单侧检验的临界值。二、计算机习题1.如下模型可用来研究竞选支出如何影响选举结果:voteAexpendA012log3logexpendBprtystrAu其中,voteA表示候选人A得到的选票百分数,expendA和expendB分别表示候选人A和B的竞选支出,而prtystrA则是对A所在党派实力的一种度量(A所在党派在最近一次总统选举中获得的选票百分比)。(i)如何解释?1(ii)用参数表述如下虚拟假设:A的竞选支出提高1%被B的竞选支出提高1%所抵消。(iii)利用VOTE1.RAW中的数据来估计上述模型,并以通常的方式报告结论。A的竞选支出会影响结果吗?B的支出呢?你能用这些结论来检验第(ii)部分中的假设吗?(iv)估计一个模型,使之能直接给出检验第(ii)部分中假设所需用的t统计量。你有什么结论?(使用双侧对立假设。)答:(i)保持其他因素固定不变,则有voteA1logexpendA=11/100100logexpendA/100%expendA因此当expendA增加1%,voteA变动/100个百分点。1(ii)虚拟假设为:H:,这意味着A的竞选支出提高z%,同时B的竞选支出提高z%,从而voteA021不变。因此虚拟假设可写为:H:0。021(iii)估计方程为:^voteA45.086.083logexpendA6.615logexpendB0.152prtystrA3.930.3820.3790.0622nR173,0.793logexpendA的系数是非常显著的,因为其t统计量为15.92,logexpendB的系数也是显著的。估计方程表明在其他条件不变的情况下,候选人A支出增加10%,候选人A得到的选票百分数将增加0.61%。在其他条件不变的情况下,候选人B支出增加10%,候选人A得到的选票百分数将减少0.66%。这些效应是不能被忽略的。假设logexpendA的系数与logexpendB的系数大小相等,符号相反,那么将不存在seˆˆ,但在假设检12验中,需要该标准误。因此不能用这些结论来检验第(ii)部分中的假设。 (iv)令,代入原方程可得:112^voteA01log23logexpendAlogexpendBexpendAprtystrAu估计该方程可得:ˆ0.532和se0.533ˆ。第(ii)部分的t统计量为:0.532/0.5331。因此不能拒绝11虚拟假设。2.本题要利用LAWSCH85.RAW中的数据。(i)使用与第3章习题4一样的模型,表述并检验虚拟假设:在其他条件不变的情况下,法学院排名对起薪中位数没有影响。(ii)新生年级的学生特征(即LSAT和GPA)对解释salary而言是个别或联合显著的吗?(iii)检验是否要在方程中引入入学年级的规模(clsize)和教职工的规模(faculty);只进行一个检验。(注意解释clsize和faculty的缺失数据。)(iv)还有哪些因素可能影响到法学院排名,但又没有包括在薪水回归中?答:(i)模型为:loglogsalary0logcos1LSAT2GPA34libvol5tranku虚拟假设为:H:0。估计方程为:05^logsalary8.340.0047LSAT0.248GPA0.095loglibvol0.530.00400.0900.0330.038logcost0.0033rank0.0320.00032nR136,0.842rank的t统计值为-11,非常显著。如果rank减少10,起薪中位数预期增加3.3%。(ii)LSAT是统计不显著的,因为t1.18,但是GPA是统计显著的,t2.76。给定GPA高度显著的情况下,F统计量等于9.95,p值约为0.0001,因此联合显著性的检验是无实际意义的。(iii)在模型中引入入学年级的规模和教职工的规模时,将会丢失数据。联合显著性检验的F统计量为0.95,p值为0.39。除非使用较大的显著性水平,否则两个变量之间不是联合显著的。(iv)排名本身带有一定程度的不可测性,而且排名可能部分依赖于一些不影响学生质量的琐碎因素。LSAT和GPA是学生质量的好的控制因素。性别和种族的差异也是影响薪水的因素。然而,并不确定这些因素与排名相关的原因。由出版物的发行记录来衡量的教职工的质量应该被囊括在内。3.参考第3章习题14。现在,我们使用住房价格的对数作为因变量:logprice01sqrft2bdrmsu(i)你想在住房增加一个150平方英尺的卧室的情况下,估计并得到price变化百分比的一个置信区间。以小数形式表示就是150。使用HPRICE1.RAW中的数据去估计。1121(ii)用和表达,并代入logprice的方程。112(iii)利用第(ii)部分中的结果得到1的标准误,并使用这个标准误构造一个95%的置信区间。答:(i)估计模型为:^logprice11.670.000379sqrft0.0289bdrms0.100.0000430.029622nR88,0.588因此ˆ1500.0002790.02890.0858,表明在住房增加一个150平方英尺的卧室的情况下,预期价格将上1涨8.6%。 (ii)因为150,则有211log150pricesqrftbdrmsu0111150011sqrftbdrmsbdrmsu(iii)对(ii)中的模型进行回归,可得se0.0268ˆ1,且已知ˆ10.0858,则95%的置信区间为0.03260.1390。4.在例4.9中,可以使用样本中所有1388个观测数据去估计约束模型。使用所有观测值计算bwght对cigs,22parity和faminc回归的R,并与例4.9中约束模型所报告的R相比较。2答:使用样本中所有1388个观测数据,可得R0.0348。当错误的使用了从无约束模型中的1191个观测数2据得出的R(0.0348)时,可以得到F统计量:F0.03870.0348/10.03871185/22.4p值为0.091,在10%的显著性水平上,是显著的,不拒绝虚拟假设。但是这不是正确的结果,正确的F值是例4.9中使用的1.42,p值为0.242,此时拒绝虚拟假设。5.本题要用到MLB1.RAW中的数据。(i)使用方程(4.31)中所估计的模型,并去掉变量rbisyr。hrunsyr的统计显著性会怎么样?hrunsyr的系数大小又会怎么样?(ii)在第(i)部分的模型中增加变量runsyr(每年垒得分),fldperc(防备率)和sbasesyr(每年盗垒数)。这些因素中,哪一个是个别显著的?(iii)在第(ii)部分的模型中,检验bavg,fldperc和sbasesyr的联合显著性。答:(i)如果去掉变量rbisyr,则估计模型变为:^logsalaryyears11.020.0677gamesyr0.01580.270.01210.00160.0014bavg0.0359hrunsyr0.00110.00722nR353,0.625此时hrunsyr是统计显著的,因为t4.99,它的系数也增加了2.5倍。(ii)增加变量runsyr(每年垒得分),fldperc(防备率)和sbasesyr(每年盗垒数)后的模型为:^logsalary10.410.0700years0.0079gamesyr2.000.01200.00270.00053bavg0.0232hrunsyr0.001100.00860.0174runsyr0.0010fldperc0.0064sbasesyr0.00510.00200.00522nR353,0.639runsyr是统计显著的,t0.0174/0.00513.41,表明在其他因素固定的情况下,垒得分增加一年,预期薪水将大幅度增长1.74%。每年盗垒数的t值是负的,而防备率的t值仅为0.5。职业棒球大联盟的成员们大多数是优秀的守场员,实际上,最小的每年防备率是800。防备率相对较小的变异,使得它的影响难以估计。(iii)根据t检验,bavg,fldperc和sbasesyr是个体不显著的。它们的联合显著性检验的F统计量为0.69,p值为0.56,因此,变量是联合不显著的。6.本题要用到WAGE2.RAW中的数据。(i)考虑一个标准的工资方程 logwageeduc0exper12tenureu3表述虚拟假设:多一年工作经历与在现在的岗位上多工作一年对logwage具有相同影响。(ii)在5%的显著性水平上,相对于双侧对立假设,通过构造一个95%的置信区间来检验第(i)部分中的虚拟假设。你得到的结论是什么?答:(i)虚拟假设为:H:。023(ii)令,估计模型为:223logwage01educ2exper3expertenureu95%的置信区间为:0.00201.960.00470.0020+0.960.0047,,即0.00720.0112,。因为0位于置信区间内,因此不能拒绝原假设,即在5%的显著性水平上,不能拒绝。237.参考4.4节中所用的例子。你将使用数据集TWOYEAR.RAW。(i)变量phsrank表示一个人的高中百分位等级。(数字越大越好。比如90意味着,你的排名比所在班级中90%的同学更高。)求出样本中phsrank的最小、最大和平均值。(ii)在方程(4.26)中增加变量phsrank,并照常报告OLS估计值。phsrank在统计上显著吗?高中排名提高10个百分位点,能导致工资增加多少?(iii)在方程(4.26)中增加变量phsrank显著改变了2年制和4年制大学教育回报的结论了吗?请解释。(iv)数据集包含了一个被称为id的变量。你若在方程(4.17)或(4.26)中增加id,预计它在统计上不会显著,解释为什么?双侧检验的p值是多少?答:(i)phsrank的最小值为0,最大值为99,平均值为56.16。(ii)在方程中增加变量phsrank可得:^logwage1.4590.0093jc0.0755totcoll0.0049exper0.00030phsrank0.0240.00700.00260.00020.00024nR6.763,0.223phsrank的t统计量为1.25,小于临界值,是统计不显著的。如果排名提高10个百分位点,logwage预期将增加0.003,这意味着薪水将会增长0.3%。(iii)在方程中增加变量phsrank使得jc的t统计量的绝对值变得更小了,为1.33,但是其系数等于方程4.26中的系数。因此增加变量phsrank没有显著改变2年制和4年制大学教育回报的结论。大专学校的回报被估计得更少了,但该差异在标准显著水平下并不是统计显著的。(iv)变量id只是工人的身份证号码,是被随机排列的。因此,在回归方程中,id与任何其他变量都是不相关的。因此若在方程中增加id,它在统计上不会显著。实际上,其p值约等于0.54。8.数据集401KSUBS.RAW包含了净金融财富(nettfa)、被调查者年龄(age)、家庭年收入(inc)、家庭规模(fsize)方面的信息,以及参与美国个人的特定养老金计划方面的信息。财富和收入变量都以千美元为单位记录。对于这里的问题,只使用单身者数据(fsize1)。(i)数据集中有多少单身者?(iI)利用OLS估计模型nettfaincageu012并以常用格式报告结果。解释斜率系数。斜率估计值有何惊人之处吗?(iii)第(ii)部分的回归截距有重要意义吗?请解释。(iv)在1%的显著性水平上,针对H:1检验H:1,求出p值。你能拒绝H吗?12020(V)如果你做一个nettfa对inc的简单回归,inc的斜率估计值与第(ii)部分的估计值有很大不同吗?为什么?答:(i)数据集中有2017单身者。(ii)回归模型为: ^nettfaincage43.040.7990.8434.080.0600.0922nR2017,0.119inc的系数表明收入每增加一美元,净金融财富预计将增加80美分。age的系数表明,其他要素不变的情况下,年龄增长一岁,则净金融财富增加843美元。斜率估计值符合常理。(iii)t统计量为:0.8431/0.0921.71,在单侧检验下,p值约为0.044,因此在5%的显著性水平下,可以拒绝虚拟假设。(iv)简单回归中inc的斜率估计值是0.821,与原回顾中的0.799不同。事实证明,在单身的样本中,inc和age之间的相关系数仅为0.039,这解释了简单回归和多重回归结果不同的原因。9.利用DISCRIM.RAW中的数据回答本题。(也可参见第3章计算机习题c3.8。)(i)利用0LS估计模型loglogpsoda012prpblck3incomeprppovu以常用形式报告结果。在5%的显著性水平上,相对一个双侧对立假设,ˆ统计显著异于零吗?在1%的显1著性水平上呢?(ii)logincome和prppov的相关系数是多少?每个变量都是统计显著的吗?报告双侧P值。(iii)在第(i)部分的回归中增加变量loghseval。解释其系数并报告H:0的双侧p值。0loghseval(iv)在第(iii)部分的回归中,logincome和prppov的个别统计显著性有何变化?这些变量联合显著吗?(计算一个p值。)你如何解释你的答案?(v)给定前面的回归结果,在确定一个邮区的种族构成是否影响当地快餐价格时,你会报告哪一个结果才最为可靠?答:(i)0LS估计模型为:logpsoda1.460.073prpblck0.137logincome0.380prppov0.290.0310.0270.1332nR401,0.087双侧检验的p值为0.018,在5%的置信水平上拒绝虚拟假设,但在1%的水平上无法拒绝虚拟假设。(ii)logincome和prppov的相关系数为-0.84,表明可能存在相当高程度的多重共线性。每一个系数都是统计显著的,ˆ的t统计量为5.1,而ˆ的t统计量为2.86,双侧检验的p值为0.004。logincomeprppov(iii)增加变量loghseval后,OLS回归结果为:logpsoda0.840.098prpblck0.053logincome0.052prppov0.121loghseval0.290.0290.0380.1340.0182nR401,0.184loghseval的系数表示弹性,意味着房屋价值每增加1%,在其他变量不变的情况下,预计价格增长0.12%。双侧检验的p值的三位小数点都为0。(iv)增加变量loghseval后使得logincome和prppov的个别统计不显著,即使在置信水平为15%时, logincome和prppov系数的t统计量都小于临界值。然而,在联合显著检验中,在5%的置信水平下,分子自由度为2,分母自由度为396,F统计量为3.52,p值等于0.030,因此所有的控制变量是高度相关的,因此部分变量个体上统计不显著就是符合常理的。(v)因为(iii)中的回归包含的最多的控制变量,loghseval个体上是统计显著的,logincome和prppov是联合显著的。(iii)看起来是最可靠的。因此,一个合理的估计是:在其他因素固定的情况下,黑人的比例增加0.1,psoda估计增加1%。10.利用ELEM94_95.RAW中的数据回答本题。所得到的结论可以与表4.1中的结论进行对比。因变量lavgsal表示教师平均薪水的对数,bs表示平均福利与平均薪水的比率(以学校为单位)。(i)将lavgsal对bs进行简单回归。斜率估计值在统计上显著异于0吗?它在统计上显著地异于-1吗?(ii)在第(i)部分的回归中增加变量lenrol和lstaff。bs的系数有何变化?这种情形与表4.1中的情形相比如何?(iii)第(ii)部分中bs系数的标准误为何比第(i)部分中的标准误更小?(提示:当增加变量lenrol和lstaff后,对误差方差和多重共线性会造成什么样的影响?)(iv)lstaff的系数为何为负?它的绝对值算大吗?(v)在回归中再添加变量lunch。保持其他条件不变,教师会因教育那些家庭条件不好的学生而得到补偿吗?请解释你的结论。(vi)总之,你利用ELEM94_95.RAW得到的结论,与表4.1在形式上一致吗?答:(i)使用1848个观测值,的样本回归估计值为-0.795。95%的置信区间为-1.088到-0.502,这包括了bs-1。因此在5%的置信水平上,不能拒绝虚拟假设H:1。它在统计上显著地异于0,不显著异于-1。0bs(ii)在模型中增加变量lenrol和lstaff,bs的系数变为-0.605,统计显著地异于1,95%的置信区间为0.8180.392,。这种情形与表4.1中的情形很相似,简单回归估计的系数为-0.825,多重回归的系数为-0.605。(iii)简单回归估计的标准误为0.150,多重回归估计的标准误为0.109。增加的其他解释变量对标准误的作用方向是相反的。在本题中,bs和两个增加的变量lenrol和lstaff由于多重共线性的原因而增加标准误。而同时,lenrol和lstaff包含在回归方程中减小了系数的误差方差从而减小了标准误。事实上,它们属于简单回归的误差项的组成部分。在这个案例中,多重共线性相对于误差方差的减少是温和的,因此标准误从简单回归中的0.231下降到多重回归中的0.168,或者也可以从判定系数的角度去观察误差方差的变动。事先无法比较两种效应中哪种效应起主导作用,但是可以在进行两种回归后对误差方差进行比较。(iv)lstaff变量表示平均每千名学生的教工数的对数。当教工数增加,平均每名学生的教工数将会增加。将此与更小的班级规模联系起来,对教师而言这是令人满意的情形。因为其他条件不变的情况下,教师愿意少支取工资,从而减小班级的规模。弹性为-0.714,表示教工规模增加10%,则工资减少-7.14%。(v)在回归中再添加变量lunch,其系数为-0.00076,t值为-4.69,在其他条件不变的情况下,雇用贫困率与低工资是相关的。在这个数据集中,lunch的平均值为36.3,标准误差为25.4。因此,lunch的标准误差增加与工资变动是相关的,即导致工资减少0.007625.40.019,约2%。本题没有足够的证据说明教师会因教育那些家庭条件不好的学生而得到补偿。(vi)与表4.1在形式上一致。其数值大小也是合理地接近的。从绝对值角度而言,简单回归估计是最大的,当其他解释变量加入模型中后,回归结果将会变小。最终两个回归不是相同的,因为在表4.1中不能控制lunch,而毕业率与辍学率与小学学生无关。 三、0LS的渐近有效性1.简单回归模型yxu011令gx为x的任意一个函数,那么u就与gx无关。对所有的观测i,令Zgx。假定gx和x相关,那么ii估计量nziizyˆi11nziizxi1就是对的一致估计。1将y011xu代入,并把1写成n1nzzuiiˆi11n1nzzxiii1在分子和分母中应用大数定律,由于在假定MLR.4下Covzu,0,所以有:plimCovˆ111Covzu,zx,2.含有k个回归元的情形将OLS的一阶条件推广,可以得到一类一致估计量:ngjxiyiˆ0ˆ11xi„ˆkxik0,j01,,„,ki1其中,gx表示第i次观测的所有自变量的任意函数。当gx1且对jk12,,„,,gxx时,ji0ijiij得到OLS估计量。由于可以使用x的任意函数,所以估计量具有无限多的种类。ij3.定理5.3:OLS的渐近有效性在高斯-马尔可夫假定下,令表示从求解形如上式的方程所得到的估计量,而ˆ表示OLS估计量。那么,jj对jk012,,„,,OLS估计量具有最小的渐近方差:varnˆvarnjjjj5.2课后习题详解一、习题1.在简单回归模型(5.16)中,我们在前4个高斯-马尔可夫假定下证明了形如式(5.17)的估计量是斜率1的一致估计量。给定这样一个估计量,定义的一个估计量为0yx-01证明。证明:简单回归模型为:yxu,则其期望值是:EyββExEu,或。因0101yx01为Eu0,则μEy,Ex。因此,则ˆyxˆ,现在01yx,可得:yx101yx01plimˆ0plimyˆ1xplimyplimˆ1plimx1ˆ1yx 根据大数定律可知:plimyμ,plimx,因此plim。yx112.数据集SMOKE.RAW包含美国成人个人随机样本在抽烟行为和其他变量方面的信息。变量cigs为(平均)每天抽烟的数量。你是否认为在美国这个总体中,cigs具有正态分布?试做解释。答:在美国这个总体中,cigs不具有正态分布。大多数人不抽烟,因此对一半以上的美国人而言,cigs0。正态分布随机变量的概率大于零并没有特殊的意义。另外,cigs的分布是左偏的,而正态分布随机变量是对称的。3.假设模型pctstckfundsrisktolu012满足前4个高斯-马尔可夫假定,其中,pctstck表示工人养老金投资于股票市场的百分比,funds表示工人可以选择的共同基金的个数,而risktol表示对风险承受能力的某种度量(risktol越大,则表明这个人对风险的承受能力越强)。如果funds和risktol正相关,pctstck对funds简单回归的斜率系数有怎样的不一致性?答:对风险的承受能力越强,就更愿意在资本市场上投资,因此0。假定可供选择的共同基金的个数与2个人承受风险的能力是正相关的,使用公式5.5,0plim:,因此有一个正的不一致性(渐1112111进偏误)。这个结论是有意义的,如果省略个人对风险的承受能力这一变量,而它与可选择的共同基金个数相关,因此估计出来的funds对pctstck的影响实际上包括了risktol对pctstck的影响。4.在满足假定MLR.1~MLR.4的简单回归中,我们证明了斜率估计量ˆ是的一致估计。11利用ˆ01yxˆ1证明plimˆ00[你在使用011EyEX的同时,还需要使用ˆ的一致性和大数定1律。证明:简单模型为:yββxu,期望值是EyββExEu,或。因为Eu0,011011yx01则μEy,Ex。因此,则ˆyxˆ,现在01yx,可得:yx101yx01plimˆ0plimyˆ1xplimyplimˆ1plimx1ˆ1yx根据大数定律可知:plimyμ,plimx,因此plim。yx11二、计算机习题1.本题使用WAGE1.RAW中的数据。(i)估计方程wageeducexperqtenureu0123保留残差并画出其直方图。(ii)以logwage作为因变量重做第(i)部分。(iii)你认为是水平值-水平值模型还是对数-水平值模型更接近于满足假定MLR.6?答:(i)估计模型为:wage2.875.99educ0.22exper1.69tenure0.730.510.120.222nR526,3.06,σ3.085526个残差uˆ,i12526,,„,的直方图如图5-1所示,根据STATA手册中的公式建议,对直方图使用了i27个排序格,正态分布是适合图中描绘内容的数据分布。 图5-1(ii)logwage作为因变量的估计方程为:logwageeduc2.840.92exper+0.041tenure0.221.040.070.0170.022nR526,3.16,σˆ4.41从方程中推出的残差直方图,以及最合适的正态分布重叠图如图5-2所示:图5-2(iii)logwage回归的残差看起来更符合正态分布,第(ii)部分的直方图的分布密度比第(i)部分直方图更好。wage残差直方图是显著左偏的。在wage的回归中,存在一些很大的残差(甚至等于15),这是基于残差平均值等于0的标准估计误差(σˆ3.085)。在对数-水平值模型中残差不等于0并没有造成太大的问题,因此对数-水平值模型更接近于满足假定MLR.6。2.本题使用GPA2.RAW中的数据。(i)使用所有4137个观测,估计方程colgpahspercsatu012并以标准形式报告结论。(ii)使用前2070个观测再重新估计第(i)部分中的方程。(iii)求出第(i)部分与第(ii)部分所得到的标准误的比率。并将这个比率与式(5.10)中的结论相比较。答:(i)4137个观测值的回归模型为:colgpa1.3920.1352hsperc0.0148sat0.0720.00550.00072nR4137,2.73(ii)使用开始的2070个观测值的回归模型为: colgpahsperc1.4360.1275sat0.01470.0980.00720.00092nR2070,2.83(iii)使用2070个观测值的标准误与使用4137个观测值的比率为1.31。从5.10可知,4137/20701.41,大于真实标准误的比率。3.在第4章的方程(4.42)中,计算检验motheduc和fatheduc是否联合显著的LM统计量。在求约束模型的残差时一定要注意,估计约束模型所用的观测,都包含于无约束模型所有变量可以使用的数据中。(参见例4.9。)答:首先使用motheduc和fatheduc这两个变量无损坏的1191个观测值关于colgpa对cigs、parity和fatheduc回归。此时得到残差ui,再对cigs、parity、faminc、motheduc和fatheduc,也可以仅对motheduc和fatheduciiiiiii2无损坏的1191个观测值进行回归。回归的判定系数R为0.0024。在1191个观测值的基础上,卡方分布统计量u为1.1910.00242.86。p值为0.239,距离F检验的p值0.242非常近。4.有几个统计量常被用于侦查潜在总体分布的非正态性。这里,我们将研究一个度量了分布偏斜程度的统计量。记得任何一个正态随机变量都是围绕着其均值对称分布的。因此,如果我们把一个对称分布的随机变量标3准化,比如zy/,其中,Ey,sdy,那么,Z的均值就是0,方差为1,而且Ez0。yyyy给定一个数据样本y:in1,„,,假定样本均值记为ˆ,样本标准差记为ˆ,那么,利用zyˆˆ,iyyiiyy我们就可以把样本中的y加以标准化。(我们忽视它们是基于样本的估计值这一事实。)度量偏斜程度的一个样本in13统计量就是nzi,或者将其中的自由度n调整为(n1)。如果Y在总体中服从正态分布,那么,对于样本i1中标准化之后的数据而言,这个偏斜指标就不应该显著异于0。(i)首先使用数据集40IKSUBS.RAW中具有fsize1的那些观测。求出inc的偏斜指标。同样求出loginc的偏斜程度。哪个变量的偏斜程度更大,并因而看上去更不像正态分布?(ii)然后使用BWGHT2.RAW。求出bwght和logbzvght的偏斜指标。你得到什么结论?(iii)评价如下命题:“对数变换总是使得一个恒为正的变量看上去更像正态分布。”(iv)如果我们对回归背景下的正态性假定感兴趣,我们应该评价y和logy的无条件分布吗?请给出你的解释。答:(i)inc的偏度为1.86。当使用loginc时,偏度为0.360,可知对数形式时偏度较小,这意味着其分布更接近正态分布。实际上,income的偏态分布是有据可查的。(ii)bwght的偏度是-0.60,当采用logbwght时,偏度为-2.95。在这个案例中,使用自然对数之后偏度更大。(iii)第(ii)问的案例已经明确地表明了这种状态不一定总是正确的。采用自然对数变换可能引入偏态。从实证问题角度而言,对许多经济变量尤其是以美元计的变量,采用对数形式通常都会有助于减少或消除偏态。但是它并不必然一定会消除。(iv)为了进行回归分析,应该评价条件分布,也就是说,y和logy在解释变量xx,„,条件下的分布。1k如果均值分布如假定MLR.1和MLR.3提到一样是线性的,这就相当于研究总体误差u。实际上,这个问题中偏态的衡量常常适用于OLS回归中的残差分析。 虽然预测不是无偏的,但它却是一致的。如果只假定u独立于解释变量,那么就有Eyxa0xexpx0x1122kk其中,为expu的期望值,并肯定大于1。0给定一个估计值ˆ,就能将y预测为:0^yyˆˆexplog0n1ˆ是其中,ˆ0nuexpˆi。00的一个一致估计量,但它不是无偏的,因为在一个非线性的函数中用uˆi取i1代了u。i基于一个过原点的简单回归,可以得到的另一个不同的估计值。定义:0mixikxikexp011^myˆexplogii于是,a就是将y对mˆ进行简单回归(不含截距)所得到的普通最小二乘斜率估计值:0ii1nn22a0mmyˆiiiˆii11把a称为的回归估计值。和ˆ一样,a是一致的,但不是无偏的。00004.当因变量为logy时对y的预测步骤^(1)从logy对x,xx,,的回归中得到拟合值logyi和残差uˆ;12ki1nnn1(2)利用方程aˆ0nuexpˆi求出aˆ0或利用a0mˆiimyiˆ求出a0;i1ii11^(3)对于给定的x,xx,,,求出logy;12k^(4)利用yˆaˆyexplog得到预测值yˆ(利用aˆ或a)。0006.2课后习题详解一、习题1.在例4.2中,因变量是学生通过十年级数学考试(math1O)的百分比,将scill(十一年级学生通过科学考试的百分比)作为另一个解释变量讲得通吗?答:这样是没有意义的。在数学上和科学上的表现都是对教育过程产出的衡量,本题想了解的是不同的教育投入和学校特性是怎样影响数学和科学成绩的。例如,如果全体员工与学生的比率对两种考试的成绩均有影响,为什么要将科学成绩保持不变,同时研究全体员工与学生的比率对数学通过率的影响。这是一个在回归方程中控制太多变量的例子。在类似的回归方程中,变量scill可以作为一个因变量。2.如果我们在经典线性模型假定下从式(6.38)开始,假定n很大,并忽略ˆ中的估计误差,那么y的一j0个95%预测区间就是^^00exp1.96ˆexplogyyexp1.96,ˆexplog ^0020y的点预测值就是yyˆexpˆ/2explog。(i)对于ˆ的哪些取值,这个点预测会位于上述95%置信区间中?在绝大多数应用中,这个条件看起来有可能成立吗?(ii)在CE0薪水的例子中,验证第(i)部分中的条件是成立的。2答:(i)因为exp1.96ˆ1和exp/2ˆ1,因此点预测总在下界以上。考虑点预测是否在上界以下。当222expˆ/2exp1.96ˆ,或者引入自然对数,则ˆ/21.96ˆ,即21.963.92。因此在95%的置信区间上,点预测的ˆ3.92。因为ˆ是因变量为logy的回归中的估计标准误差,3.92是一个非常大的估计标准误差。在绝大多数应用中,估计的SER都小于上界,因此可能成立。(ii)在CEO薪水的例子中,ˆ0.505,小于3.92,因此第(i)部分中的条件成立。3.如下模型使得受教育回报还取决于父母双方受教育程度的总和pareduc:logwage01educ2educpareduc3exper4tenureu(i)在这个模型中,证明多受一年教育对wage的影响为(用小数形式):log/wageeducpareduc12你认为的符号是正还是负?为什么?2(ii)利用WAGE2.RAW中的数据,所估计的方程是logwage5.650.047educ0.00078educpareduc0.130.0100.000210.019exper0.010tenure0.0040.0032nR722,0.169(只有722个观测包含了父母受教育程度的完整信息。)解释交互项的系数。选择pareduc的两个具体值——比如父母双方都受过大学教育时pareduc32或父母都是高中毕业时pareduc24,然后比较educ的估计回报有何不同。(iii)如果在方程中将pareduc作为一个独立变量引入,则得到logwage4.940.097educ0.033pareduc0.0016educpareduc0.020exper0.010tenure0.380.0270.0170.00120.0040.003现在估计的教育回2nR722,0.174报与父母受教育程度呈正相关关系吗?检验教育回报与父母受教育程度无关的虚拟假设。答:(i)其他要素不变情况下的模型为:logwage1educ2educpareduc12pareduceduc区分educ对结果的双重影响。的符号是不确定的,如果认为孩子接受教育每增加一年,孩子父母的受教2育程度就越高,此时0。2(ii)使用pareduc32,pareduc24说明交互项的系数,educ的估计回报相差:0.0007832240.0062,或者说0.62%。(iii)将pareduc作为一个独立变量引入,则得到交互项的系数为负。其t值为-1.33,在双侧检验中,在90%的置信水平上统计不显著。但是,pareduc的系数在双侧检验中,在5%的显著性水平上统计显著,因此拒绝虚拟假设,即教育回报与父母受教育程度有关。这表明了忽略一个水平值的影响是怎样导致交互项影响的偏差的。 4.假设我们想估计酒精消费(alcohol)对大学GPA(colGPA)的影响。除搜集GPA和酒精用量方面的信息外,我们还想得到出勤方面的信息(比如记为attend的听课率)。标准化考试(SAT)分数和高中GPA(hsGPA)也可得到。(i)在一个多元回归模型中,我们应该同时包含attend和alcohol作为解释变量吗?(考虑你应如何解释。)alcohol(ii)应该包含SAT和hsGPA作为解释变量吗?请解释。答:(i)答案并不是显而易见的,但是在任何情况下,都可以适当的解释系数。将attend加入模型中,alcohol在保持听课率不变的基础上,可以衡量酒精消费对大学GPA的影响。因为酒精消费确实影响大学GPA,听课率attend也是一个重要的影响途径,在分析中不应该将其固定。如果模型中包含了attend,说明此时的度量alcohol的是纯粹酒精对GPA的影响而不包含听课率对GPA的影响。例如,可以衡量喝酒对学习时间的影响。为了获得酒精消费的全部影响,应该剔除变量attend。(ii)应该包含SAT和hsGPA作为解释变量,因为他们衡量了学生的能力和动机。大学中的饮酒行为是与一个人在高中时期以及标准化测试时的表现相关的。其他变量如家庭背景等也可以作为控制变量加入模型中。5.使用RDCHEM.RAW中的数据,通过0LS得到如下方程2rdintenssales2.6130.00030sales0.00000000700.4290.000140.00000000372nR32,0.1484(i)sales对rdintens的边际影响在什么时候开始变成负的?(ii)你会在模型中保留二次项吗?请解释。2(iii)定义salesbil为以十亿美元计的销售额:salesbilsales/1000。用salesbil和salesbil作为自变量重写估2222计方程。务必报告标准误和R。[提示:注意salesbilsales/1000。](iv)为了报告结果,你更偏好哪个方程?答:(i)转折点是ˆ/2|ˆ|,或0.0003/0.00000001421428.57。12(ii)可能会保留二次项。t统计量为-1.89,在单侧检验下,虚拟假设为H:β0,在5%的显著性水平上,01自由度为29,临界值为-1.70,实际上,p值为0.036,因此拒绝虚拟假设,在模型中保留二次项。(iii)估计方程为:2rdintens2.6130.3salesbil0.070salesbifl0.4294.10.0372nR32,1.484(iv)第(iii)部分的估计方程更容易阅读,因为模型中系数小数点右边的零较少。两个模型只是针对不同的规模,其方程解释的内涵还是相同的。因此更偏好第2个方程。6.如下三个方程是使用401K.RAW中的1534个观测估计出来的:^prate80.295.44mrate0.269age0.00013totemp0.780.520.0450.0000422RR0.100,0.098^prate97.325.02mrate0.314age2.66logtotemp1.950.510.0440.2822RR0.144,0.142^2prate80.625.34mrate0.290age0.00043totemp0.000000003totemp0.780.520.0450.000090.00000000122RR0.108,0.106 你更偏好这三个模型中的哪一个?为什么?2答:更偏好第二个模型。因为R显著地大于其他两个模型。第二个模型方程包含了与第一个方程相同的估计参数数量,少于第三个模型的估计参数数量。第二个方程比第三个方程更容易解释。7.令ˆ,ˆ,„,ˆ为y对xx,,回归(in12,,„,)的OLS估计值。对于非零常数cc,„,,证01kii1ik1k明:cy对cxcx,„,回归(in12,,„,)的OLS截距和斜率由0i11ikik0c0c0c,c1c0/110,„1,kk/给出。[提示:由于j是式(3.13)中一阶条件的解,从而j也必将是因变量和自变量重新测度后的一阶条件的解。]答:根据cy对cxcx,„,,in12,,„,最小二乘回归可得:0i11ikikncy01icxik1ikcx01„k0i1ncx1i1cy01icxik1ikcx01„k0i1ncxkikcy01icxik1ikcx01k0i1如果cˆ,而且c/cˆ,j1,„,k,那么这k1个一阶条件方程就被满足,因为此时OLS估计000j01j只有唯一的解。将其代入条件方程,可得ˆ(jk12,,„,)的表达式为:jncy0ic0ˆ0c0//c1ˆ1cx1i1„c0ckˆkcxkiki1ncxjijcy0ic0ˆ0c0//c1ˆ1cx1i1c0ckˆkcxkiki1化简后表达式重写为:ncy0iic0ˆ0c0kikˆ1x1„c0ˆxi1和ncxjijcy0ic0ˆ0c0ˆ1xi1„c0ˆkikx,j12,,„,ki1提出常数,可得:ncyˆˆx„ˆx0i01i1kiki1和nccyˆˆx„ˆx,j12,,„0ji01i1kiki1ˆ是一阶条件的解,因此以上两式都等于0,从定义上而言,它们都是从y对xx,,回归得到的。因此jii1ikcˆ,c/cˆ,j1,,k,是因变量和自变量重新测度后的一阶条件方程的解。000j01j 228.当我们把atndrte和ACTatndrte都增加到式(6.19)的估计方程中时,R就变成0.232。这些添加项在10%的显著性水平上是联合显著的吗?你会将它们包括在模型中吗?答:扩展模型的自由度为6809671,并检验两个限制条件,因此F统计量为:0.2320.229/2F1.3110.232/671在10%的显著性水平上,自由度为2和无穷大的F统计量的临界值为2.30,大于计算的F统计量。因此2atndrte和ACTatndrte是联合不显著的。加入这些变量使模型变得负责,而且不存在统计上的显著性,因此不应该把这些变量加入模型中去。9.利用CEOSAL1.RAW中的数据估计了如下方程^2logsalarysales4.3220.276logroeroe0.02150.000080.3240.0330.01290.000262nR209,0.282这个方程使得roe对logsalary具有边际递减的影响。这种一般性是必然的吗?解释为什么。22答:这种一般性不是必然的。roe系数的t统计值为-0.30,这表明roe在统计上非常不显著。另外,加入平方项只是对roe过大的系数起到调低的作用。本题中,roe的系数近似等于0.021520.00008,当roe25,即样本平均值以上一个标准差时,斜率为0.0211,与0.0215相比,近似相等。二、计算机习题1.仅使用KIELMC.RAW中1981年的数据,回答如下问题。数据是1981年在马萨诸塞州北安多弗市售出住房的数据;1981年是开始建造地方垃圾焚化炉的一年。(i)为了研究垃圾焚化炉的位置对住房价格的影响,考虑简单回归模型loglogpricedist0u其中,price为住房的美元价格,dist为从住房到焚化炉的距离,以英尺为单位。谨慎地解释这个方程,如果焚化炉的出现会使住房价格下降,你预期到的符号是什么?估计这个方程,并解释你的结论。(ii)在第(i)部分的简单回归模型中增加变量logintst,logarea,logland,rooms,baths和age,其中intst表示从家到州际高速公路的距离,area表示住房的平方英尺数,land表示占地的平方英尺数,rooms表示总的房间数,baths表示总的卫生间数,age表示住房的年数。现在,你对焚化炉的影响有什么结论?解释为什么第(i)部分和第(ii)部分给出相互矛盾的结论。2(iii)向第(ii)部分的模型中添加logintst,结果会怎么样?你对函数形式的重要性有什么结论?(iv)当你向第(Ⅲ)部分的模型中添加logdist时,它是否显著?答:(i)dist对price的因果联系意味着0,在其他条件不变的情况下,住房离焚化炉的距离越远,住房1的价格会越高。估计模型为:^logprice8.050.365logdist0.650.6622n142,R0.180,R0174.这意味着距离每增加1%,住房价格增加0.365%。(ii)在简单回归模型中增加变量logintst,logarea,logland,rooms,baths和age,logintst的系数变为0.055,标准差为0.058,其对住房价格的影响减小了,而且是统计不显著的。这是因为模型控制了其他关于房屋质量和位置(与州际公路之间的距离等)的变量,这使得住房距离焚化炉的距离对住房价格的影响比一开始弱化了。 2(iii)向第(ii)部分的模型中添加logintst,模型估计结果为:2logprice3.320.185logdist2.073logintst0.1193logintst2.650.0620.5010.028222n142,R0.778,R0.7642logdist的系数是统计显著的,因为t统计量为3。logdist、logintst也是统计显著的,两者系数的t统2计量绝对值都大于4。从政策目的上而言,添加logintst对参数重要性有较大的影响,这意味着距离焚化炉的远近和距离州际公路的远近以非线性关联的方式影响住房价格。logintst对logprice的影响实际是负的,2.073/20.11938.69。对其取幂可得距离州际公路的距离为5943英尺。因此,让住房离州际公路的距离不超过一英尺是最好的选择。在那之后,距离州际公路越远,预计房价就会越低。2(iv)添加logdist时,logintst的系数是-0.0365,t统计值仅为-0.33,因此不显著。不应该在模型中添加改变了。2.本题利用WAGE1.RAW中的数据。(i)使用OLS估计方程2logwageeduc0exper123experu并用通常的格式报告你的结论。2(ii)exper在1%的显著性水平上是统计显著的吗?(iii)使用近似%wage100ˆ2ˆexperexper23求第5年工作经历的近似回报。第20年工作经历的近似回报是多少?(iv)exper取什么值时,工作经历的增加实际上会降低预期的logwage。样本中有多少人具有比该取值更长的工作经历?答:(i)估计模型为:2logwage1.280.904educ0.410exper0.00714exper0.1060.00750.00520.00011622n526,R0.330,R0.296(ii)t统计量为-6.16,p值约等于0,因此在1%的显著性水平上是显著的。(iii)当exper4,且exper1时,第5年工作经历的近似回报为:%wage1000.41020.0071443.53%第20年工作经历的近似回报为:%wage1000.41020.00714191.39%(iv)转折点为:0.41/20.00071428.7(年)。在样本中,121个人的工作年限超过29年。这是样本中具有相当规模的组成部分。3.考虑一个教育回报取决于工作经历多少(反之亦然)的模型: logwage01educ2exper3educexperu(i)证明:保持exper不变,多受一年教育的回报(以小数表示)是exper。13(ii)陈述如下虚拟假设:教育的回报并不取决于exper的水平。你认为合适的对立假设是什么?(iii)利用WAGE2.RAW中的数据,相对你给出的对立假设来检验(ii)中的虚拟假设。(iv)令表示exper10时(以小数表示)的教育回报:10/。求出的估计值及其95%的置信11131区间。(提示:写成10,并代入方程,然后重新整理。这就给出了得到的置信区间所需做的回归。)1131答:(i)保持exper不变,则有log=wage1educ31educexper3expereduc或logwage13expereduc此时多受一年教育的回报是exper。13(ii)虚拟假设为:H:0。如果认为教育和经历是互相正面影响的,那么再受一年教育时,拥有更多03经验的人将会拥有更高的生产力。对立假设为:H:0。13(iii)估计模型为:logwage5.950.0440educ0.0215exper0.00320educexper0.240.01740.02000.0015322n935,R0.135,R0.132交互项目系数的t统计量为2.13,p值为0.02,因此在2%的显著性水平上,拒绝虚拟假设,支持对立假设。(iv)模型方程为:logwage01educ2exper3educexper10u对该模型进行回归,可得10.0761,标准差为se0.00661。95%的置信区间是0.0630.089,。4.本题利用GPA2.RAW中的数据。(i)估计模型2sathsizehsizeu012其中,hsize为毕业年级的规模(以百为单位),按通常的格式写出结论。二次项是统计显著的吗?(ii)利用第(i)部分的估计方程,高中学校的“最优”规模是什么?说明你的答案。(iii)这个分析是所有高中高年级学生学术成绩的代表吗?请解释。(iv)用logsat作为因变量,求出估计的高中最优规模。它与你在第(ii)部分得到的结论很不同吗?答:(i)估计模型为:^2sat997.9819.81hsize2.13hsize6.203.990.552nR4137,0.0076二次项是统计显著的,因为其系数的t值为-3.87。(ii)当sat达到最大值时,高中学校达到“最优”规模。因为方程是抛物线,最优的班级规模为:219.81/22.134.65。因为hsize是以百为单位,因此最优毕业年级规模为465。而较小的R说明班级规模只解释了很小一部分的SAT分数的变异。(iii)不是所有高中高年级学生学术成绩的代表。仅仅只是代表参加了SAT考试的学生的成绩。如果总体是所有高中学生,那么需要一个参与了标准考试的学生的随机样本。 (iv)以logsat作为因变量的模型为:^2logsathsize6.8960.0196hsize0.002090.0060.00400.000542nR4137,,0.0078估计的高中最优规模为469,与在第(ii)部分得到的结论很接近。5.本题利用HPRICE1.RAW中的数据。(i)估计模型loglogpriceloglotsize0123sqrftbdrmsu并以通常的OLS格式报告结论。(ii)当lotsize20000,sqrft2500和bdrms4时,求出logprice的预测值。利用6.4节中的方法,在同样的解释变量值的情况下,求出price的预测值。(iii)就解释price中的变异而言,决定你是偏好第(i)部分中的模型,还是偏好模型pricelotsizesqrftbdrmsu0123答:(i)对数-对数模型的估计结果为:^logpricelotsize5.610.168logsqrftbdrms0.700log0.0370.650.0380.0930.02822n88,R0.634,R0.630(ii)当lotsize20000,sqrft2500和bdrms4时,logprice的预测值为:^logprice5.610.168log200000.700log25000.037412.90^^^此处预测的是logprice,而pricepriceˆexplog,ˆ为price对explogprice回归的系数,回归结00^果为ˆ1.023,因此price1.023exp12.9409519(美元)。022(iii)当运行水平-水平模型时,R为0.672;而第(ii)部分的模型中,R为0.859。由此可知,以logprice作为因变量的模型是较好的。因此,对数-对数模型在预测方面更受到偏好。6.本题利用VOTE1.RAW中的数据。(i)考虑一个含有竞选支出交互项的模型voteAprtystrAexpendAexpendBexpendAexpendBu01234保持prtystrA和expendA不变,expendB对voteA的偏效应是什么?expendA对voteA的偏效应是什么?的预4期符号明显吗?(ii)估计第(i)部分中的方程,并以通常的格式报告结果。交互项是统计显著的吗?(iii)求样本中expendA的均值。固定expendA为300(300000美元)。候选人B另外支出100000美元对voteA的估计影响是什么?这个影响很大吗?(iv)现在固定expendB为100。expendA100对voteA的估计影响是什么?这讲得通吗?(v)现在估计一个用候选人A的支出占竞选总支出的百分比shareA取代交互作用项的模型。同时保持expendA和expendB不变而改变shareA,这讲得通吗?(vi)(要求有微积分知识)在第(V)部分的模型中,保持prtystrA和expendA不变,求出expendB对voteA的偏效应。在expendA300和expendB0时进行计算,并评论你的结论。答:(i)模型为: voteAexpendAexpendAexpendBexpendAexpendBu01234其他条件不变,expendB对voteA的偏效应为:voteA3expendB43expendA4expendBexpendAexpendBvoteA/expendBexpendA34当其他条件不变时,0,B的支出增加使得A获得的投票减少。但是的预期符号是不明显的,因为34交互项中两项的作用是相反的。(ii)估计模型为:^voteA32.12.342prtystrA0.0383expendA0.0317expendB0.0000066expendAexpendB4.590.0880.00500.00460.000007222n173,R0.571,R0.561交互项是统计不显著的,因为它的t值绝对值小于1。(iii)expendA的均值为310.61万美元。固定expendA为30万美元,可以得到:^voteAexpendB0.03170.0000066expendB3000.0337^当候选人B另外支出10万美元对voteA的估计影响是:voteA3.37,这属于相当大的影响。因此给出交互项是无意义的,应该剔除交互项,重新估计模型,这将会使得计算变得更容易。(iv)此时有:^voteAˆˆexpendBexpendA0.03763.76expendA24expendA100时,对voteA的估计影响是很大的。(v)用shareA取代交互作用项的模型为:^voteA18.200.157prtystrA0.0076expendA0.0043expendB0.494shareA2.570.0500.00280.00260.02522n173,R0.868,R0.865该模型的拟合优度比第(ii)部分模型的拟合优度大0.297,而shareA是统计显著的。(vi)对模型方程求偏导可得:^voteAshareAˆˆ34expendBexpendBshareA100expendA/expendAexpendB。shareAexpendA1002expendBexpendAexpendBshareA1已知expendA300和expendB0,可得:。expendB3因此expendB对voteA的偏效应为:^voteAˆˆ1/3=0.00430.494/30.16434expendB这具有相当大的影响,尽管这并不是最佳方案(因为它使得一个候选人支出太多而另一个候选人支出太少)。当B的支出逐渐增加,其影响会逐渐变小。例如,当expendB100,对voteA的偏效应为:0.00430.4940.1880.089。7.本题利用ATTEND.RAW中的数据。(i)在例6.3的模型中,推出 stndfnl/2priGPApriGPAatndrte246当priGPA2.59和atndrte82时,利用方程(6.19)来估计偏效应。对你的估计进行解释。(ii)证明可将方程写成2stndfnl01atndrte2priGPA3ACT4priGPA2.59256ACTpriGPAatndrte82u其中2259.82。(注意,截距已发生变化,但并不重要。)用它求出第(i)部分得到的ˆ的22462标准误。(iii)假设你用priGPAatndrte2.5982取代priGPAatndrte82。你将如何解释atndrte和priGPA的系数。答:(i)如果保持除了变量priGPA之外的所有变量不变,使用通常的近似法可得:2priGPA2priGPApriGPA因此可知:2stndfnl24priGPApriGPApriGPAatndrte2246priGPAatndrtepriGPA两边除以priGPA可得结果。在方程6.19中,可知ˆ1.63,ˆ0.296以及ˆ0.0056。当priGPA2.59246时,atndrte0.82。此时代入上式可知:^stndfnl1.6320.2962.590.00560.820.092priGPA(ii)因为222priGPA2.59=priGPA22.59priGPA2.59priGPAatndrte0.820.82priGPAatndrtepriGPA方程6.18可写为:222stndfnl01atndrte2priGPA3ACT4priGPA2.59422.59priGPA42.59ACT66priGPAatndrte0.820.82priGPAu22042.591atndrte2242.5960.82priGPA3ACT4priGPA2.592ACTpriGPAatndrte0.82u56222.5901atndrte2priGPA3ACT0.824priGPA5ACT6priGPAatndrteu对模型进行回归可得:ˆ0.091,标准差为:seˆ0.363。这意味着ˆ的t值是非常小的,因此统计不222显著。8.本题利用HPRICE1.RAW中的数据。(i)估计模型pricelotsizesqrftbdrmsu0123并按通常的格式报告你的结果,包括回归标准误。当我们代入lotsize10000,sqrft2300和bdrms4时,求出预测价格,将这个价格四舍五入到最接近的美元。(ii)做一个回归,使你能得到第(i)部分中预测值的一个95%的置信区间。注意,由于四舍五入的误差,你的预测将多少有些不同。00(iii)令price为具有第(i)部分和第(ii)部分所述特征的住房的未知未来售价。求出price的一个95% 的置信区间,并对这个置信区间的宽度进行评论。答:(i)估计模型为:^pricelotsize21770.32.068sqrft122.78bdrms13852.529475.00.64213.249010.122n88,R0.672,R0.661,59833代入lotsize10000,sqrft2300和bdrms4时,预测价格为336714美元。(ii)95%的置信区间为336706.714665,即322042351373,。0(iii)利用方程6.36得到eˆ的标准误差,然后利用方程6.37(假定价格是正态分布),但是从第(ii)问可知,se7374.5yˆ,59833ˆ。01/2022因此se7374.5eˆ5983360285.8。t分布的临界值为1.99,给定解释变量的值,95%的置信区间为:336706.71.9960285.8,即为216738456675,。这是一个相当宽泛的预测区间。但是此时尚未利用许多其他变量来解释住房价格。如果能够拥有更多变量,将会降低标准误,得到一个较窄的预测区间。9.数据集NBASAL.RAW包含了美国职业篮球联赛(NationalBasketballAssoCiation,NBA)269位运动员的薪水信息和职业统计。(i)估计一个将每场得分(points)与加入联盟年数(exper)、年龄(age)、大学期间打球年数(coll)相联系的模型。包含一个exper的二次项,其他变量都应该以水平值形式加入模型。按照通常的格式报告结果。(ii)保持大学打球年数和年龄不变,从加入联盟的第几个年份开始,在NBA打球的经历实际上将降低每场得分?这讲得通吗?(iii)你为什么认为coll具有负系数,而且统计显著?(提示:NBA运动员在读完大学之前被选拔出,甚至直接从高中选出。)(iv)有必要在方程中增加age的二次项吗?一旦控制了exper和coll之后,这对年龄效应意味着什么?2(v)现在将logwage对points,exper,exper,age和coll回归。以通常的格式报告结论。(vi)在第(v)部分的回归中检验age和coll是否联合显著。一旦控制了生产力和资历,这对考察年龄和受教育程度是否对工资具有单独影响这个问题有何含义?答:(i)估计模型为:^2points35.222.364exper0.0770exper1.074age1.286coll6.990.4050.02350.2950.45122n269,R0.141,R0.128(ii)转折点为:2.364/20.077015.35,球员从加入联盟的第15~16年份开始,在NBA打球的经历实际上将降低每场得分,球员薪资也会因此而下降。实际上可以忽略这个预测,因为在269个样本观测值中,只有2个球员拥有15年以上的经验。(iii)许多有前途的球员很早离开大学,甚至有些球员直接从高中选出,没有进入大学。顶尖球员享有最高的薪水。虽然不一定coll越长就每场得分就越少,但是更短的大学生涯表明球员是潜在的明星球员,每场得分可能更高。(iv)当年龄的二次项加入第(i)问的模型中时,它的系数为0.0536,标准差为0.0492,则t统计量小于1,因此是统计不显著的,应该从模型中剔除它。控制了exper和coll之后,年龄的回归系数为-3.984,标准差为2.689,模型估计暗示这年龄和收入之间的负相关关系。转折点大约为74岁。在任何情况下,年龄的线性函数已经足够。(v)OLS结果为: ^2logwagepoints6.780.078exper0.218exper0.0071age0.048coll0.0400.850.0070.0500.00280.0350.05322n269,R0.488,R0.478(vi)由Stata软件可得联合F检验的F统计量为1.19,自由度为2和263的情况下,p值为0.31,因此age和coll联合不显著。一旦控制了生产力和资历,就没有证据说明工资差异依赖于年龄和受教育程度。10.本题使用BWGHT2.RAW中的数据。(i)用OLS估计方程2logbwghtnpvis01npvis2u并按照通常的格式报告结果。二次项显著吗?(ii)基于第(i)部分中的方程,证明:最大化logbwght的产前检查次数约为22。样本中有多少妇女至少接受过22次产前检查?(iii)在22次产前检查之后,预计婴儿出生体重实际上会下降,这有意义吗?请解释。(iv)在方程中增加母亲年龄,并使用二次函数形式。保持npvis不变,目前在什么年龄,孩子的出生体重最大?样本中有多大比例的妇女年龄大于这个“最优”生育年龄。(v)你认为母亲年龄和产前检查次数解释了logbwght中的大部分变异吗?(vi)利用npvis和age的二次方程,确定用bwght的自然对数或水平值来预测bwght孰优孰劣。答:(i)估计模型为:^2logbwght7.9580.0189npvis0.00043npvis0.0270.00370.0001222n1764,R0.0213,R0.0201二次项的t值绝对值大于3.5,因此是统计显著的。(ii)转折点为:0.0189/20.0004321.97,即22次。样本中,89个妇女至少接受过22次产前检查。(iii)有意义。产检对防止低出生体重是有益的,妇女产检次数越多,可能表明其怀孕的困难越多。二次项呈驼峰状,提供了太多次产检实际上导致低出生体重的转折点。(iv)增加母亲年龄的二次函数形式的模型为:^22logbwght7.5840.0180npvis0.00041npvis0.0254mage0.00041mage0.1370.00370.000120.00930.0001522n1764,R0.0256,R0.0234出生体重在年龄为31岁时最大,样本中有746个妇女至少31岁,605名妇女至少32岁。(v)没有,母亲年龄和产前检查次数仅解释了logbwght中的2.6%的变异。222(vi)如果将bwght对npvis,npvis,mage,mage回归,则R0.0192。但是不能直接将拟合优度与(iv)^2中的拟合优度相比较。应该采用logbwght模型中的R与0.0192相比较。根据当因变量为logy时对y的预测^^步骤可知,应该估计bwght和explogbwght之间的平方相关系数,其中logbwght表示logbwght模型的拟合值。相关系数为0.1362,其平方为0.0186。因此,为了解释bwght,将bwght作为因变量的模型实际上更合适。11.利用APPLE.RAW来验证6.3节中的一些命题。22(i)做ecolbs对ecoprc和regprc的回归,并以通常的格式报告结论,包括R和调整R。解释价格变量的系 数,并评论它们的符号和大小。(ii)价格变量统计显著吗?报告个别t检验的P值。(iii)ecolbs拟合值的范围是什么?样本报告ecolbs0比例是什么?请评论。(iv)你认为价格变量很好地解释了ecolbs中的变异吗?请解释。(V)在第(i)部分的回归中增加变量faminc,hhsize(家庭规模),educ和age。求它们联合显著的P值。你得到什么结论?答:(i)回归结果为:^ecolbsecoprc1.972.93regprc3.030.380.590.7122n660,RR0.036,0.034与经济理论预测的结果一致,价格效应是负向的,而交叉价格效应则是正向的。特别的,在其他条件保持不变的情形下,当ecoprc每增加0.1或者每磅10美分时,家庭需要的“环保”苹果磅数将减少约0.29磅。在其他条件保持不变的情形下,当变量regprc每增加0.1或者每磅10美分时,家庭需要的“环保”苹果磅数将增加约0.3磅。这些效应本质上是相等的,但是符号相反。从该题也可以看出,这两种效应的大小大致相等。(ii)这两个变量的t统计量的绝对值,均远大于4,故这两个价格变量在统计上都是显著的。其p值小数点右边的前三位都为0。(iii)变量ecolbs的拟合值的变化范围为:0.86~2.09。这远小于其真实值的变化范围,真实值的变化范围为:0~42(尽管42不可取)。样本报告中ecolbs0的比例为:在660个样本观测值中有248个ecolbs0的值。这些观测值不能很好的通过该模型进行解释。222(iv)R仅仅只有3.6%(不管用R还是调整的R都没有关系),价格变量只是解释了ecolbs变化的很小一部分。因此这两个价格变量没有很好的解释ecolbs中的变异。22(v)当回归模型中加入变量faminc,hhsize,educ和age时,R仅增加了约0.04,(调整的R从0.034降到了0.031)。F检验的p值(自由度为4和653)约为0.63,没有提供证据证明这些变量属于该模型。显然,除了两个价格变量因素,解释ecolbs变化的因素中,在调查收集的因素中还没有发现经济和人口的因素,几乎97%的变化是由不可观测的“品味”因素引起的。12.利用401KSUBS.RAW中fsize1的一个子集;这就将分析仅限于单身者。(见计算机习题第4章第8题。)(i)样本中最年轻的人多少岁?这个年龄的有多少人?(ii)在模型中,的字面解释是什么?它本身有什么意义吗?2(iii)估计第(ii)部分中的模型,并以标准形式报告结果。你关心age的系数为负吗?请解释。(iv)由于样本中最年轻者为25岁,若认为给定收入水平下,25岁时净总金融资产的平均量最低,这有意义吗?记得age对nettfa的偏效应为2age,所以在25岁时的偏效应为22550称之为。求2322232并得到检验H:0的双侧P值。你应该得到2很小且在统计上也不显著的结论。022[提示:方法之一是估计模型nettfa01inc2age3age25u,其中截距0不同于0。也有其他方法。](V)由于反对H:0的证据很弱,所以取之为0并估计模型022nettfa01inc3age25u根据拟合优度,这个模型比第(ii)部分中的模型拟合的更好吗?(vi)对第(v)部分中估计的方程,令inc30(大致为平均值),画图给出nettfa和age的关系,但仅限于age25。描述你所看到的情况。2(vii)检查在方程中增加inc是否必要。 答:(i)在fsize1这个样本中,最年轻的人是25岁,这个年龄的有99人。2(ii)的字面解释是在保持inc和age不变的情形下,age平均每增加1岁,nettfa将平均增加。当然,222nettfa在保持age不变的情形下,改变age是没有意义的。因为2age,当age从0增加到1时,nettfa大23age约增加,但是在实际应用中,对age从0开始变化来研究其偏效应是不感兴趣的,这个样本单身代表的最小年2龄为25岁。(iii)模型的估计结果为:^2nettfainc1.200.825age1.322age0.025615.280.0600.7670.009022n2017,RR0.1229,0.1216首先,age的系数为负数似乎与实际不符。这个估计关系是呈U型的,但是,为了使之更有意义,需要找到二次转折点。从方程6.13中可以看出,估计的转折点是1.322/20.025625.8,可以看出这个转折点接近于样本中的最年轻年龄。也就是说,当age从25岁开始,age和nettfa之间的关系是正向的,这与预期的一致。因此,在这种情形下,当计算偏效应时,age的负系数就有意义。2(iv)根据提示,用nettfa对inc,age和age25做回归。这改变了截距项和变量age的系数,当age25时,这个偏效应为225。23^2nettfa17.200.825inc0.0437age0.0256age259.970.0600.7670.009022n2017,R0.1229,R0.1216因此,当age25时,这个偏效应为-0.044。这在统计上是不显著的(t0.13)。双侧检验的p值大约为0.89。(v)如果去掉问题(iv)中的变量age,然后进行回归,可以得到如下回归方程:^2nettfainc18.490.824age0.0244252.180.0600.002522n2017,R0.1229,R0.12202当去掉age后得到的调整R会稍微增大一点。但是去掉age的真正原因是其t统计量的值是非常小的,并且模型中不含age,将会有一个很直观的解释。(vi)当inc30时,age和nettfa的关系的图形为:图6-1age和nettfa的斜率是递增的,也就是说,存在边际递增效应。该模型表示在age25时,斜率为0,从25开始斜率递增。 2(vii)将inc加入第(v)问的模型中,其系数为-0.00054,t0.27,因此是统计不显著的。inc和nettfa之间的线性关系不能被拒绝,因此应该排除收入的二次项。13.利用MEAP00_O1中的数据回答本题。(i)使用OLS估计模型mathlexppp4lenrolllunchu0123并用通常的格式报告你的结论。在5%的显著性水平上,每个解释变量都是统计显著的吗?(ii)求出第(i)部分中回归的拟合值。拟合值的取值范围是多少?它与math4的实际数据取值范围相比如何?(iii)求出第(i)部分中回归的残差。哪类学校具有最大的(正)残差?对这个残差给予解释。(iv)在方程中增加所有解释变量的平方项,检验它们的联合显著性。你会把它们放到模型中吗?(v)回到第(i)部分中的模型,将因变量和每个解释变量都除以各自的样本标准差,并重新进行回归。(除非你还将每个变量分别减去了各自的均值,否则还应该包括一个截距项。)以标准差为单位,哪个解释变量对数学考试通过率具有最大的影响?答:(i)估计的方程为:^mathlexppp491.933.52lenroll5.40lunch0.44919.962.100.940.01522n1692,RR0.3729,0.3718在5%的显著性水平下,不管利用单侧检验还是双侧检验,变量lenroll和lunch是都显著的。实际上,这两个变量的p值是非常小的。但是,变量lexppp的t值为1.68,在双侧检验下是不显著的。变量lexppp单侧检验的p值大约为0.047,因此该变量只有在显著性水平为5%的单侧检验下才是显著的。(ii)这个拟合值的变化范围为:42.41~92.67,其值远小于实际值的变化范围,math4实际值的变化范围为:0~100。(iii)回归残差的最大值大约为51.42。残差是指给定变量exppp、enroll、lunch时,真实通过率和预计的最佳通过率之间的差距。如果这三个变量被充分的控制,残差可以被视为一个学校的附加值。对1141个学校而言,其通过率超过基于其支出、规模和学生贫困率基础上的预测结果的51%。(iv)自由度为3和1685的F检验统计量的值约为0.52,其p值大约为0.67,因此,加入解释变量的平方项,其方程没有通过显著性检验,故不会把解释变量的平方项放在模型中。(v)变量lexppp、lenroll和lunch的系数分别大致等于0.035,-0.115和-0.613。因此,以标准差为单位,解释变量lunch对数学考试通过率具有最大的影响,变量lexppp具有最小的影响。 1.利用SLEEP75.RAW中的数据(也可参见习题3.3),我们得到如下估计方程^2sleeptotwrk3840.830.163educage11.71age8.70male0.12887.75235.110.0185.8611.210.13434.3322n706,R0.123,R0.117变量sleep是每周晚上睡眠的总分钟数,totwork是每周花在工作上的总分钟数,educ和age则以年为单位,而male是一个性别虚拟变量。(i)所有其他因素不变,有没有男性比女性睡眠更多的证据?这个证据有多强?(ii)工作与睡眠之间有统计显著的取舍关系吗?所估计的取舍关系是什么样的?(iii)为了检验年龄在其他因素不变的情况下对睡眠没有影响这个虚拟假设,你还需要另外做什么回归?答:(i)变量male的回归系数是87.75,根据估计结果可知,男性每周的睡眠时间要比女性每周的睡眠时间多近一个半小时。又因为t87.75/34.332.56,其值接近于99%的置信水平下的双侧检验的临界值(大约为male2.58),因此男性比女性睡眠更多的证据是相当强的。(ii)变量totwrk的t统计量的值为:t0.163/0.0189.06,这是非常显著的。这个系数表明每周平均totwork多工作一个小时(60分钟),对应的平均每周晚上睡眠将减少0.16609.8(分钟)。222(iii)需要对不含有变量age和age的模型进行回归,以便得到R,即受到限制的R。当模型中含有变量ager22和age时,当且仅当两个变量age和age前的系数均为0时,才表明年龄在其他因素不变的情况下对睡眠没有影响这个虚拟假设成立。2.利用BWGHT.RAW中的数据,可估计出如下方程:^logbwght4.660.0044cigs0.0093logfaminc0.016parity0.220.00090.00590.0060.027male0.055white0.0100.0132nR1388,0.0472和^logbwght4.650.0052cigs0.0110logfaminc0.380.00100.00850.017parity0.034male0.0060.0110.045white0.0030motheduc0.0032fatheduc0.0150.00300.00262nR1191,0.0493变量定义和例4.9中一样,但我们增加了两个虚拟变量:一个虚拟变量表明孩子是不是男孩,另一个虚拟变量则表明这个孩子是不是白人。(i)在第一个方程中,解释变量cigs的系数。具体而言,每天多抽10根烟对婴儿出生体重有何影响?(ii)在第一个方程中,保持其他因素不变,预计一个白人孩子比一个非白人孩子的出生体重多多少?这个差异是统计显著的吗?(1ii)评价motheduc的估计影响和统计显著性。(iv)从这些给定信息中,为什么不能计算出检验motheduc和fatheduc联合显著性的F统计量?为了计算这个统计量,还需要做些什么?答:(i)如果变量cigs每增加10根,即每天多抽10根烟,则:^logbwght0.0044100.044即婴儿出生体重将减少大约4.4%。 (ii)在第一个方程中,保持其他因素不变,预计一个白人孩子比一个非白人孩子的出生体重多5.5%。另外,t4.23,在一般常用的显著性水平下都是显著的。因此,一个白人孩子与一个非白人孩子的出生体重在统计white上是有显著差异的。(iii)如果母亲的教育年限每增加1年,孩子的出生体重将增加0.3%,这个影响是很小的,其t1,motheduc因此母亲的受教育年限对孩子的出生体重的影响是不显著的。(iv)这两个回归模型用了不同的观测数据,因为对于第二个回归方程而言,一些观测数据中母亲的受教育年限或者是父亲的受教育年限的数据是缺失的。因此可以用估计第二个回归模型的数据重新估计第一个方程,以2便得到新的拟合优度R。3.利用GPA2.RAW中的数据,可估计出如下方程:^2sathsize1028.1019.30hsize2.19female45.096.293.830.534.29169.81black62.31femaleblack12.7118.152nR4137,0.0858变量sat是SAT的综合分数,hsize是以百人计的学生所在高中毕业年级的学生规模,female是一个性别虚拟变量,而black是一个种族虚拟变量(黑人取值1,其他人则取值0)。2(i)有很强的证据支持模型中应该包括hsize吗?从这个方程来看,最优的高中规模是什么?(ii)保持hsize不变,非黑人女性和非黑人男性之间SAT分数的估计差异是多少?这个估计差异的统计显著性如何?(iii)非黑人男性和黑人男性之间SAT分数的估计差异是多少?检验其分数没有差异的虚拟假设,对立假设是他们的分数存在差异。(iv)黑人女性和非黑人女性之间SAT分数的估计差异是多少?为了检验这个差异的统计显著性,你需要怎么做?2答:(i)变量hsize的t统计量的值为:t22.19/0.534.132,因此在统计上是显著的,即有很强的证hsize2据支持模型中应该包括hsize。另外,为了得到最优的高中规模,需要找到一个转折点。在其他变量不变的情形下,当变量^hsize19.3/22.194.41时,变量sat的值达到最大。又因为变量hsize是以百人为计量单位的,故最优的高中规模应该为441人。(ii)由题知,变量black0,因此非黑人女性和非黑人男性之间SAT分数的估计差异是由变量female前的系数决定的。非黑人女性的SAT分数大约平均比非黑人男性的SAT分数少45分。变量female的t统计量的值大约为-10.51,因此这个估计差异在统计上是显著的。(大的样本量对统计的显著性是有一定的贡献的)(iii)由题知,变量female0,因此由变量black的回归系数可知,黑人男性的SAT分数平均比非黑人男性的SAT分数少170分。变量black的t统计量的绝对值大约为13,因此在统计上是显著的,很容易拒绝其SAT分数没有差异的虚拟假设。(iv)令black1,female1表示黑人女性;black0,female1表示非黑人女性。这个差异是169.8162.31107.50。因为这个估计取决于两个变量的系数,因此不能从所给的信息中构造一个t统计量的值。为了检验这个差异的统计显著性,最简单的方法就是定义一个虚拟变量,该虚拟变量是四个种族和性别的三个,令黑人女性作为基组。这样就可以根据黑人女性这个虚拟变量的系数得到检验统计量的值。4.一个解释了CEO薪水的工资方程是:^logsalary4.590.257logsales0.011roe0.158finance0.300.0320.0040.0890.181consprod0.283utility0.0850.0992nR209,0.357 所用数据在CEOSAL1.RAW中给出,其中finance,consprod和utility分别是表示金融业、消费品行业和公用事业单位的二值变量。被省略的产业是交通运输业。(i)保持sales和roe不变,计算公用事业和交通运输业CEO薪水估计值的近似百分比差异。在1%的显著性水平上,这个差异是统计显著的吗?(ii)利用方程(7.10)求解公用事业和交通运输业估计薪水的精确百分比差异,并与第(i)部分中的回答进行比较。(iii)消费品行业与金融业估计薪水的近似百分比差异是多少?写出一个方程,使你能够检验这个差异是不是统计显著的。答:(i)公用事业和交通运输业CEO薪水估计值的近似百分比差异大约为-28.3%。其t统计量的值为0.283/0.0992.86,因此在1%的显著性水平上,这个差异是统计显著的。(ii)公用事业和交通运输业估计薪水的精确百分比差异为:100exp0.283124.7%由此可知,这个精确百分比比近似百分比小。(iii)消费品行业与金融业估计薪水的近似百分比差异是:0.1810.1580.023。利用如下方程来检验这个差异是不是统计显著的:logsalary01logsales2roe1consprod2utility3transu其中,变量trans表示交通运输业的二值变量。在该模型中,基组二值变量为金融业,因此可以直接反映1消费品行业与金融业估计薪水的近似百分比差异。另外可以根据其t统计量的值来检验其统计显著性。5.在例7.2中,令noPC表示一个虚拟变量:没有个人计算机的学生取值1,否则取值0。(i)如果用noPC取代方程(7.6)中的PC,所估计方程的截距会怎么样?noPC的系数是多少?(提示:^写出PC1noPC,并代入方程colGPAˆˆPCˆhsGPAˆACT。)00122(ii)如果用noPC取代PC,R会有什么变化?(iii)PC和noPC应该都作为自变量包括进模型中吗?请解释。答:(i)由提示可知,^colGPAˆ0ˆ01noPCˆ1hsGPAˆ2ACTˆˆˆnoPCˆhsGPAˆACT00012在方程7.6中的具体估计值为:ˆ1.26,ˆ0.157,因此,新方程的截距项为1.260.1571.417,其中,00变量noPC的系数是-0.157。2(ii)如果用noPC取代PC,R不会发生变化。因为用noPC取代PC,只是是否拥有计算机的一种简单形式的变化。(iii)模型中同时包含noPC和PC两个虚拟变量是没有意义的,因为当改变PC值时,不能保证变量noPC固定不变。在PC拥有权上只有两组值,故除了整体的截距项外,需要加入一个虚拟变量即可。如果同时包含截距项和两个虚拟变量,将会产生完全多重共线性(虚拟变量陷阱)。6.为了检验工作培训项目对工人以后工资的有效性,我们设定了模型logwage01train2educ3experu其中,train表示的虚拟变量,在工人参与这个项目时取值1。想象误差项包括了无法观测的工人能力。如果工人能力越低被选派去参加这个项目的机会就越大,而且你使用了一个OLS分析,那么你认为的OLS估计量1可能有什么样的偏误?(提示:参考第3章。)答:在3.3节中,表3.2给出了在估计方程的过程中遗漏重要变量时的偏误情况。表3.2只是给出了缺失一个确定的解释变量的情形,但是在实际中,通常会忽略其他的一些解释变量,因此表3.2只是作为一个大致的指导。如果工人能力越低被选派去参加这个项目的机会就越大,那么虚拟变量train与随机误差项u是负相关的。如果忽略模型的变量educ和exper,或者至少假定变量educ和exper的系数为正的情形下,虚拟变量train与随机误 差项u是负相关的,然后利用表3.2可知的偏误为负。因为通常情况下认为0,因此不太可能认为工作培11训项目对工人以后工资是有效性。直观的,如果选派去参加这个项目的工人没有参与培训,他们的工资将低于平均水平。7.在方程(7.29)的例子中,假设我们定义outlf在妇女不属于劳动力范围时等于1,否则等于0。(i)如果我们将outlf对式(7.29)中所有自变量做回归,截距和斜率的估计值会怎么样?(提示:inlfoutlf1。将它代入总体方程inlfnwifeinceduc„并重新整理。)012(ii)截距和斜率的标准误会有什么变化?2(iii)R会有什么变化?答:(i)一般的人口模型方程式为:2inlfnwifeinceducexperexperage012345kidslt66kidsageu67令inlfoutlf1,则:21outlfnwifeinceducexperexperage012345kidslt66kidsageu672outlfnwifeinc10educ1exper2exper3age45kidslt66kidsageu67新的误差项为u,与误差项u有相同的性质。从式7.29的回归结果可以看出,若用outlf对所有的自变量做回归,则新的截距项为:10.5850.415,式中每一个变量的回归系数与式7.29中的回归系数呈相反的关系。例如,在新方程中,变量educ的回归系数为-0.038,变量kidslt6的回归系数为0.262。(ii)截距和斜率的标准误差不会发生改变。对斜率而言,改变统计量的符号不会改变其方差,因此其标准误也不发生改变,但是t统计量的符号发生了改变。因为Var1ˆVarˆ,故截距项的标准误还和之前的一样,不发生改变。002(iii)改变自变量的度量单位或者加入不同的虚拟变量,都不会改变R。尽管本题的因变量发生了改变,2但是其R的值仍保持不变。(i)中表明残差的平方项在两个回归模型中是相等的,因为对于每一个i,回归方程outlf中的误差项与回归方程inlf中的误差项是相等的。因此,在这种情形下,其平方和也是相等的。对于以outlfii作为因变量的回归方程中,可以得到:nn2nn222SSToutlfioutlf1inlfi1inlfinlfiinlfinlfiinlfi1i1i1i122这也是以inlf为因变量的回归方程中的SST。因为R1SSR/SST,因此在两个回归方程中的R相等。8.假设你通过对工资、受教育程度、工作经历和性别的调查来搜集数据。而且,你还询问了大麻使用方面的信息。原问题是:“上个月你抽过几次大麻?”(i)写出一个方程,使之在控制其他因素的情况下,能让你估计出使用大麻对工资的影响。你应该能得出这样的结论:“每个月多抽5次大麻,估计会改变工资x%。”(ii)写出一个模型,使你能检验女性和男性在使用大麻对工资的影响上是否存在差异。你将怎样检验男女使用大麻的影响是没有差异的?(iii)假设你认为最好按大麻使用量将人分为四类:不用者、浅尝者(每月1~5次)、适度者(每月6~10次)和重用者(每个月10次以上)。写出一个模型,使你能估计出使用大麻对工资的影响。(iv)利用第(i)部分的模型,详细解释如何检验使用大麻对工资没有影响的虚拟假设。既要具体,又要包括对自由度的一个仔细列表。(v)利用你搜集来的调查数据做因果推断会有哪些潜在的问题?答:(i)根据题意,应建立一个半弹性模型,因此工资关于大麻的使用的回归方程为:2logwage01usage2educ3exper4exper5femaleu 其中,当每个月大麻的使用量每增加1次时,工资将会改变%。1(ii)可以在第(i)问模型的基础上加入大麻使用次数和性别变量的交互项,即加入femaleusage,新的模型为:2logwage01usage2educ3exper4exper5female6femaleusageu这个虚拟假设是女性和男性在使用大麻对工资的影响上是不存在差异的,即H:0。06(iii)设不用者为基组,则需要三个虚拟变量分别为:浅尝者(每月1~5次)、适度者(每月6~10次)和重用者(每个月10次以上)。假设在性别之间不存在交互作用,则模型为:2loglgwage01htuser2moduser3hvyuser2educ3exper4experfemaleu5(iv)虚拟假设为:H:0,0,0,即有3个限制条件。如果样本容量为n,则F统计量的自由0123度为3,8n。因此为了检验使用大麻对工资没有影响的虚拟假设,只需要得到Fn3,8分布的临界值。(v)误差项中可能包含一些影响因素,比如家庭背影,该因素直接影响工资,并且与大麻使用是相关的。为了研究一个人的大麻使用对其工资的影响,就需要控制其他的变量不变。因此需要收集一些与家庭背景信息相关的数据进行分析。9.令d表示一个(--值)虚拟变量,并令z表示一个定量变量。考虑模型ydzdzu0011这是含有一个虚拟变量和一个定量变量之交互作用的一般性模型[方程(7.17)中有一个例子]。(i)由于没有重大变化,所以取误差为u0。于是,当d0时,我们可以把y和z之间的关系写成函数f00zz1。当d1时,同样写出y和z之间的关系,其中左边应该使用fz1,以表示Z的线性函数。**(ii)假定10(这意味着两条直线不平行),证明满足f01zfz的z值为z30/31。这是两条直*线的交点[如图7.2(b)]。证明:z为正的充分必要条件是和都为正。01(iii)利用TWOYEAR.RAW中的数据,估计如下方程^logwage2.2890.357female0.50totcoll0.030femaletotcoll0.0110.0150.0030.0052nR6763,0.202其中所有系数和标准误都保留到小数点后三位。利用这个方程,求出使得男女logzoage的预测值相等的totcoll值。(iv)基于第(iii)部分中的方程,女人能现实地获得足够多的大学教育而赶上男人的工资吗?请解释。答:(i)当u0和d1时,y与z之间的关系表达式为:fz1z0011(ii)若f01zfz,则01zz0011或001z*又因为0,可以得到z/。由此可以看出,当且仅当/为负数时,即与异号时,z才为1010101正数。(与要证明的不符合)*(iii)根据第二问可知,totcoll0.357/0.03011.9(年)。(iv)女人的工资能否赶上男人的工资与其获得的大学教育是高度相关的。其中变量femaletotcoll前的回归系数表明接受更多的大学教育,将会减少工资之间的差距,但是这个差距是不会消失的。实际上,在四年的大学 里,对女性而言工资对数的预期差距将减少0.3570.03040.237,或者大约减少21.1%。10.对于一个特定学区的小孩i,令voucher表示一个虚拟变量,如果这个孩子被选中参加一个学区教育券i项目,则取值为1,再令score表示这个孩子在后来的标准化考试中的成绩。假设这个参与变量voucher独立于影ii响考试成绩的已观测因素和未观测因素,在这个意义上,它就是完全随机的。(i)如果你利用一个容量为n的随机样本进行score。对voucher的简单回归,那么,普通最小二乘估计量i能给出教育券项目影响的一个无偏估计量吗?(ii)假设你还可以搜集到一些诸如家庭收入、家庭结构(比如孩子是否与双亲住在一起)和父母的受教育水平等背景信息。为了得到教育券项目影响的无偏估计量,你需要控制这些因素吗?请解释。(iii)你为什么应该在回归中包含这些家庭背景变量?有没有你不包含这些背景变量的情况呢?答:(i)普通最小二乘估计量能给出教育券项目影响的一个无偏估计量。因为参与与否是随机的,可以得到如下的回归模型:scorevoucheru01其中,变量voucher与随机扰动项u是不相关的。因此,满足简单线性回归的基本假定SLR.3,故可以得到一个无偏估计量。(ii)不需要。在第一问中,这些因素都被包含在随机误差项u中,又变量voucher与随机扰动项u是不相关的,即变量voucher与这些因素都是不相关的。(iii)需要在模型中加入这些背景变量以减少预测误差。把这些背景因素从随机误差项中分离出来,或许可以减少随机误差项的方差。另外,加入这些背景因素也不会存在多重共线性问题,因为变量voucher与这些因素都是不相关的。不包含这些背景变量的情况是这些背景因素对考试成绩是没有影响的。在实际应用中,这些背景因素对考试成绩没有影响是不可能的。二、计算机习题1.本题使用GPA1.RAW中的数据。(i)在估计方程(7.6)中增加变量mothcoll和fathcoll,并以通常的形式报告结果。拥有PC的估计影响会怎么样?PC还是统计显著的吗?(ii)检验第(i)部分方程中mothcoll和fathcoll的联合显著性,不要忘记报告p值。2(iii)在第(i)部分的模型中增添hsGPA,并判断是否有必要进行这种扩展。答:(i)估计方程为:^colGPA1.260.152PC0.450hsGPA0.0077ACT0.0038mothcoll0.0418fathcoll0.340.0590.0940.01070.06030.06132nR141,0.222PC的估计影响与方程(7.6)相比几乎没有发生改变,其tPC2.58,在统计上是非常显著的。(ii)变量mothcoll和fathcoll的联合显著性检验的F值为:F(2,135)0.24,其p值约为0.78。这表明变量mothcoll和fathcoll的联合检验是不显著的。因此当变量mothcoll和fathcoll加入回归模型时,其他变量的系数不发生改变就不足为奇了。2(iii)当在回归模型中加入变量hsGPA时,其回归系数约为0.337,p值约为1.56。(hsGPA的回归系数约2*2为-1.803。)hsGPA呈U型分布,当hsGPA2.68时,hsGPA开始上升,这一现象很难解释。PC的回归系数降2为0.140,但是它仍是显著的。在模型中加入hsGPA是一个简单的稳健性检验。2.本题使用WAGE2.RAW中的数据。(i)估计模型logwage01educ2exper3tenure4marriedblacksouthurbanu567并以通常的形式报告结果。保持其他因素不变,黑人和非黑人之间的月薪差异近似为多少?这个差异是统计显著的吗? 22(ii)在这个方程中增加变量exper和tenure,证明即便在20%的显著性水平上,它们也不是联合显著的。(iii)扩展原模型,使受教育回报取决于种族,并检验受教育的回报是否的确取决于种族。(iv)再回到原模型,但现在容许四个不同人群(已婚黑人、已婚非黑人、单身黑人和单身非黑人)的工资有差别。估计已婚黑人和已婚非黑人之间的工资差异是多少?答:(i)估计模型为:logwage5.400.0654educ0.0140exper0.0117tenure0.110.00630.00320.00250.199married0.188black0.091south0.184urban0.0390.0380.0260.0272nR935,0.253在其他解释变量的给定不变的情况下,black的系数表明黑人与非黑人的月薪差异为18.8%,t统计量为-4.95,是统计显著的。22(ii)在方程中增加变量exper和tenure,自由度分别为2和925,此时F统计量为1.49,p值为0.226,因此即使在20%的显著性水平上,二次项也不是联合显著的。(iii)将black与educ的交互项加入模型中,交互项的系数为-0.0226,标准差为0.0202。因此点估计为:教育每增加一年,黑人比非黑人少获得2.3%的月薪。(原模型中非黑人的预计回报为6.7%)。交互项的t统计量绝对值仅为1.12,不足以拒绝虚拟假设,因此受教育的回报不取决于种族。(iv)选择单身非黑人作为基组。在模型中增加三组虚拟变量,即已婚黑人、已婚非黑人、单身黑人,模型估计结果为:logwage5.400.0655educ0.0141exper0.0117tenure0.110.00630.00320.00250.092south0.184urban0.189marrnonblck0.0260.0270.0430.241singblck0.0094marrblck0.0960.05602nR935,0.253在其他条件不同的情况下,已婚黑人和已婚非黑人的差异为:0.00940.1890.1796,约为-0.18,即已婚黑人比其他条件相同的已婚非黑人少获得18%的月薪。3.一个容许棒球大联盟运动员的薪水因球员位置不同而不同的模型是:logsalary01years2gamesyr3bavg4hrunsyr5rbisyrrunsyrfldpercallstarfrstbasescndbase678910thrdbaseshrtstopcatheru111213其中外场手为基组。(i)表述如下虚拟假设:在控制了其他因素后,接球手和外场手的收入大致相同。利用MLB1.RAW中的数据检验这个假设,并评论所估计薪水差异的大小。(ii)表述并检验如下虚拟假设:一旦控制了其他因素,各个位置的平均薪水没有差别。(iii)第(i)部分和第(ii)部分的结论一致吗?如果不一致,解释为什么。答:(i)设H:0,利用MLBRAW1.中的数据,可以得到:013ˆ0.254se,ˆ0.1311313其t值大约为1.94,在双侧检验下,p值大约为0.05,因此,仅仅只能在5%的显著性水平下拒绝H。在控0制了其它变量后,接球手和外场手的收入相差是显著的。根据7.10式,可知其差距大约为:100exp0.254128.9%。 (ii)设H:0,0,„,0,其联合检验的F统计量的值为:F5339,1.78,其p值大约为0910130.117。因此,在0.1的显著性水平下,不能拒绝H。0(iii)第一问和第二问的结论大致是一致的。在第二问中,在显著性变量catcher,several以及不显著变量(特别是变量thrdbase和shrtstop,其t统计量的值均小于1)的联合检验中,没有足够的证据证明联合检验的虚拟假设是成立的。4.本题使用GPA2.RAW中的数据。(i)考虑方程2colgpahsizehsizehspercsatfemaleathleteu0123456其中,colgpa表示累积的大学GPA,hsize表示高中毕业年级以百人计的规模,hsperc表示在毕业年级中学术排名的百分位,sat表示SAT综合分数,female是一个二值变量,而athlete也是一个运动员取值1的二值变量。你对这个方程中的系数有何预期?哪些你没有把握?(ii)估计第(i)部分中的方程,并以通常的形式报告结果。估计运动员和非运动员之间GPA的差异是多少?它是统计显著的吗?(iii)从模型中去掉sat并重新估计这个方程。现在,作为运动员的估计影响是多大?讨论为什么这个估计值不同于第(ii)部分的结论。(iv)在第(i)部分的模型中,容许作为运动员的影响会因性别不同而不同。检验如下虚拟假设:在其他条件不变的情况下,女生是否是运动员没有差别。(v)sat对colgpa的影响会因性别不同而不同吗?讲出你的根据。答:(i)hsperc、sat系数的符号预期为:0,0。hsize的系数符号是不确定的。而且男性和女性34是否对GPA的差异存在系统性的影响也是不明显的。可以认为0,在其他条件相同的情况下,运动员在绩点6上的表现不如其他学生。但是,模型只能在一定程度上控制hsperc和sat。(ii)估计结果为:^2colgpa1.2410.0569hsize0.00468hsize0.0132hsperc0.0790.01640.002250.00060.00165sat0.155female0.169athlete0.000070.0180.0422nR4137,0.293保持其他因素不变的情况下,运动员的预计GPA比其它非运动员的GPA高0.169,统计量为0.169/0.0424.02,是统计显著的。(iii)从模型中去掉sat,athlete的系数变为0.0054,标准差为0.0448,这从实际上和统计上都显著不同于0。这种情况发生是因为模型没有控制变量SAT,而运动员的平均分数低于其他非运动员的平均分数。第(ii)问表示,一旦对SAT的差异加入模型,运动员将比非运动员表现更好。此时尽管未控制SAT分数,结果也没有差别。(iv)为了检验虚拟假设:在其他条件不变的情况下,女生是否是运动员没有差别,应该选择女性中的一组作为基组。可以选择女性非运动员,模型方程为:^2colgpa1.3960.0568hsize0.00467hsize0.0132hsperc0.0760.01640.002250.00060.00165sat0.175femath0.013maleath0.155malenonath0.000070.0840.0490.0182nR4137,0.293femath等同于famale与athlete的交互项,其系数表明在其他条件不变的情况下,女性作为运动员比非运动员的colgpa预计高0.175。虚拟假设为女生是否是运动员没有差别,femath的t统计量为2.08,双侧检验下,在5%的显著性水平下是统计显著的。(v)sat对colgpa的影响不会因性别不同而不同。当在第(ii)部分的模型加入famalesat时,其系数为0.000051,t统计量为0.4。这无法为sat对colgpa的影响会因性别不同而不同提供证据。 5.在习题4.2中,我们在一个解释CE0薪水的模型中增加了变量企业股票的回报ros,结果表明ros是不显著的。现在,定义一个虚拟变量rosneg,它在ros0时等于1,而在ros0时等于0。利用CEOSAL1.RAW来估计模型loglogsalarysales012roe3rosnegu讨论对ˆ的解释及其统计显著性。3答:回归方程为:^logsalarysales4.300.288logroerosneg0.01670.2260.290.0340.00400.10922n209,R0.297,R0.286变量rosneg的回归系数ˆ表明:如果在1988至1990年期间CEO的股票回报率为负,那么,在保持变量sales3和roe不变的情况下,CEO薪水将会减少约22.6%。ˆ的t值大约为-2.07,则在0.05的显著性水平下是显著3的。6.本题利用SLEEP75.RAW中的数据。我们要分析的方程为:2sleeptotwrkeducageageyngkidu012345(i)分别针对男性和女性单独估计这个方程,并按照通常形式报告结论。这两个估计方程有什么明显差异吗?(ii)对男性和女性睡眠方程中的参数是否相等计算邹至庄检验。使用增加male和交互项maletotwrk...,,maleyngkid的检验形式,并使用全部观测。该检验相关的df等于多少?在5%的显著性水平上,你应该拒绝这个虚拟假设吗?(iii)现在,容许男性与女性存在不同截距,判定所有涉及male的交互项是不是联合显著的?(iV)给定第(ii)部分和第(iii)部分中的结论,你最后将使用什么样的模型?答:(i)对男性单独估计的模型结果为:^2sleep3648.20.182totwrk13.05educ7.16age0.0448age60.38yngkid310.00.0247.4114.320.168459.022nR400,0.156对女性单独估计的模型结果为:^2sleep4238.70.140totwrk10.21educ30.36age0.368age118.28yngkid384.90.0289.5918.530.22393.192nR306,0.098这两个模型在点预测方面是明显不同的。例如,拥有一个小孩的家庭导致女性的睡眠时间更少(每周少2小时),同时男性的睡眠时间每周少1小时。age的二次项对男性而言是驼峰型的,而对女性而言是U形的。截距对女性和男性来说也是截然不同的。(ii)自由度分别为2和694的F统计量为2.12,且p值为0.05,在5%的显著性水平上,可以拒绝虚拟假设,即男性和女性睡眠方程中的参数并不相等。(iii)截距项不同的情况下,所有涉及male的5个交互项为maletotwrk...,,maleyngkid,自由度为5和694的F统计量为1.26,p值为0.28,因此交互项是联合不显著的。(iv)(iii)中的结果表明,如果容许截距项不同,不存在强有力的证据说明男性和女性之间斜率系数的差异。但是第(i)问中估计的男性与女性之间的斜率系数实际上是不同的,但是并没有转化为统计上的显著不同。因此需要更大的样本容量去确定男性和女性之间的斜率系数是否存在差异。为了研究睡眠-工作时间的均衡,原模型加上变量male作为解释变量就是一个不错的选择。 7.本题使用WAGE1.RAW中的数据。(i)利用方程(7.18)估计在Pdw12.5时的性别差异。并与educ0时估计的性别差异相比较。(ii)做一个用以得到式(7.18)的回归,但用femaleeduc12.5取代femaleeduc。你现在如何解释female的系数?(iii)第(ii)部分中female的系数是统计显著的吗?与式(7.18)相比较并进行评论。答:(i)当educ12.5时,女人与男人工资上的差异约为:0.2270.005612.50.297。当educ0时,其差异为-0.227。因此,接受教育年限为12.5年的性别工资差异比没有接受教育的相别工资差异高约7%。(ii)把7.18式的方程用如下形式表示:logwage00female1educ1femaleeducotherfactors=0012.512.51female1educ1femaleeducotherfactors12.500female,1educ1femaleeducotherfactors其中12.5是在educ12.5时的性别差异。对该模型进行回归可以得到female的回归系数为-0.294,001其标准误差约为0.036。(iii)在第二问中,female的t统计量的值为-8.17,因此在统计上是高度显著的。这主要是因为educ12.5,其受教育年限大致为平均水平,在此水平下对性别差异进行估计,因此是高度显著的。在方程7.18中,当educ0时,female的回归系数就是性别差异。由于没有人的受教育年限为0年,所以在educ0时估计性别差异不是没有意义的。8.本题使用LOANAPP.RAW中的数据。要解释的二值变量是approve,如果一个人的抵押贷款得到许可则取值1。主要的解释变量是虚拟变量white,如果申请者是白人则取值1。数据集中其他的申请者为黑人和拉美裔。为了检验抵押贷款市场中的歧视,可使用一个线性概率模型:approvewhite其他因素01(i)如果对少数民族存在歧视,并控制了适当的因素,那么,的符号是什么?1(ii)将approve对white做回归,并以通常的形式报告结果。解释white的系数。它是统计显著的吗?它实际上大吗?(iii)作为控制因素,增加变量hrat,obrat,loanprc,unem,male,married,dep,sch,COsign,chist,pubrec,mortlat1,mortlat2和ur。white的系数会有什么变化?仍有对非白人存在歧视的证据吗?(iv)现在容许种族效应与度量了其他债务占收入比例的变量(obrat)存在着交互作用。交互项显著吗?(v)利用第(iv)部分的模型,当债务负担达到样本均值obrat32时,作为白人对贷款许可的概率有多大的影响?构造这种影响的一个95%的置信区间。答:(i)的符号为正,表明存在对少数族群的歧视,即在相同的条件下,白人拥有更多的机会取得贷款。1(ii)模型回归结果为:^approve0.7080.201white0.0180.0202nR1989,0.049white的系数意味着,在1989个贷款案例中,白人申请并获得贷款的可能性比非白人高20.1%。它实际上是很大的差异,其t统计值为10,是统计显著的。(iii)增加变量后,系数变为0.129,标准差为0.020。可以看出,系数下降了,因为模型中增加的变量对贷款批准率是有影响的,其中有一些变量与种族是明显不同的。白人的普遍特征是高收入、较好的信用记录,这使得他们拥有较好的放款风险。种族对贷款批准率的影响仍然是很强的,t值为6.45,是统计显著的,因此仍有对非白人存在歧视的证据。(iv)交互项的系数为0.0081,t统计值为3.53,即是统计显著的,因此存在交互影响:白人在其他债务占收入比例较大时申请贷款的不利程度少于同样情况下的非白人。(v)obrat32,此时系数为0.113,标准差为0.02,因此95%的置信区间为:0.1131.960.02,即0.0740.152,。很显然,置信区间不包括0,存在种族歧视的证据。债务负担达到样本均值obrat32时,作为白人对贷款许可的 概率有11.3%。9.对(许多美国工人可用的)401(k)养老金计划的出现是否提高净储蓄,吸引了大量研究兴趣。数据集401KSUBS.RAW包含了有关净金融资产(nettfa)、家庭收入(inc)、是否有资格参与401(k)计划的二值变量(ek401)和其他几个变量的信息。(i)样本中有资格参与一个401(k)计划的家庭比例是多少?(ii)估计一个用收入、年龄和性别解释401(k)资格的线性概率模型。包括收入和年龄的二次项,并以通常形式报告结论。(iii)你认为401(k)资格独立于收入和年龄吗?性别呢?请解释。(iv)求第(ii)部分中估计的线性概率模型的拟合值。有小于0或大于1的拟合值吗?^^^^(v)利用第(iv)部分中的拟合值ek401,定义ek401在2401ek0.5时取值1,并在2401ek0.5时取值0。ii在9275个家庭中,预计有多少家庭有资格参与401(k)计划?^(vi)对于没有资格参加401(k)的5638个家庭,利用预测值ek401,预测其中有多大比例没有401(k)?i对于有资格参加401(k)的3637个家庭,其中有多大比例的家庭有401(k)?(如果你的计量经济软件具有“制表”命令更好。)(vii)总正确预测比约为64.9%。给定第(vi)部分的答案,你认为这是模型好坏的一个完备描述吗?(viii)在线性概率模型中增加一个解释变量pira。其他条件不变,若一个家庭有某人拥有个人退休金账户,一个家庭有资格参与401(k)计划的估计概率会提高多少?在10%的显著性水平上,它统计显著异于0吗?答:(i)样本中有资格参与一个401k计划的家庭比例是39.2%。(ii)回归方程为:^22e401k0.5060.0124inc0.000062inc0.0265age0.00031age0.0035male0.0810.00060.0000050.00390.000050.01212nR9275,0.094(iii)由第二问可知,401k资格明显依赖收入和年龄。收入、年龄变量以及其二次方项都通过了t检验,说明其在统计上是显著的。另外,在保持收入和年龄不变的情形下,401k资格在性别上是没有显著差异的。这是因为,在保持收入和年龄不变的情形下,变量male前的系数是非常小的,男性与女性的401k资格仅仅只有-0.0035的差距,并且其t统计量的值是很小的,在统计上是不显著的。(iv)在9275个拟合值中,没有一个在区间01,外。其最小的拟合值为0.030,最大的拟合值为0.697。这说明一个理论的线性概率模型——产生大于1或者小于0的概率值,在实际应用中是不可能实现的。(v)根据题意,有2460个家庭有资格参与401k计划。^(vi)对于没有资格参加401k的5638个家庭,利用预测值ek401,预测其中约有81.7%没有401k。对于i有资格参加401k的3637个家庭,其中有39.3%的家庭有401k。(vii)总体正确百分比是由第五问中的两个百分比加权得到的。根据第五问可知,模型对没有资格参加401k的家庭有一个很好的正确预测百分比。但是,对于有资格参加401k的家庭,其正确预测百分比小于40%。(viii)回归方程为: ^22e401kinc0.5020.0123inc0.000061age0.0265age0.000310.0810.00060.0000050.00390.000050.0038male0.0198pira0.01210.01222nR9275,0.095变量pria的回归系数表明:其他条件不变的情形下,若一个家庭有某人拥有个人退休金账户,一个家庭有资格参与401k计划的估计概率会提高大约0.02。但是,其t统计量的值为1.62,双侧检验的p值为0.105。因此,变量pria在10%的显著性水平下是不显著的。10.本题利用NBASAL.RAW中的数据。(i)估计一个线性回归模型,将单场得分与联赛中打球经历和位置(后卫、前锋或中锋)联系起来。包括打球经历的二次项形式,并将中锋作为基组。以通常的形式报告结果。(ii)在第(i)部分中,你为什么不将所有三个位置虚拟变量包括进来?(iii)保持经历不变,一个后卫的得分比一个中锋多吗?多多少?这个差异统计显著吗?(iv)现在,将婚姻状况加入方程。保持位置和经历不变,已婚球员是否更高效(就单场得分来说)?(v)加入婚姻状况和两个经历变量的交互项。在这个扩展的模型中,是否存在有力的证据表明婚姻状况影响单场得分?(vi)使用单场助攻次数作为因变量估计(iv)中的模型。与(iv)的结果有明显的差异吗?请讨论。答:(i)模型估计结果为:2points4.761.28exper0.072exper2.31guard1.54forword1.180.330.0241.001.0022n269,R0.0910,R0.0772(ii)由于forwordcenterguard1,这意味着forword和guard之和是center的一个线性函数,所以如果在模型中同时使用三个虚拟变量将会导致完全多重共线性,即包含三个位置虚拟变量会掉入虚拟变量陷阱,故不能将三个位置虚拟变量都包括在模型中。(iii)由(i)中估计方程可知,一个后卫的得分比一个中锋多,且多得2.31分。同时,guard的t统计量为2.31,是统计显著的。(iv)将婚姻状况加入模型中,模型方程为:2points4.7031.233exper0.0704exper2.286guard1.541forword0.584marr1.180.330.0241.001.000.7422n269,R0.0931,R0.0759从方程中marr的系数可知,保持位置和经历不变,已婚球员每场得分比未婚球员高0.5分,实际上,其t统计量为0.789,p值为0.431,是统计不显著的,因此无法得出已婚球员得分更高的结论。(v)自由度为3和261的F统计量为1.44,p值为0.2303,无法拒绝虚拟假设,由此可知,三个变量联合不显著,不存在有利的证据证明婚姻状况能够影响单场得分。(vi)当使用单场助攻作为因变量时,重新估计(iv)中的模型,回归结果如下:2assists0.2260.444exper0.0274exper2.492guard0.447forword0.322marr0.3550.1000.0070.3010.3010.22222n269,R0.3499,R0.3375比较两个方程可得,当使用单场助攻次数为因变量时,marr的系数变成了0.322,意味着每场比赛中已婚球员比没结婚的球员平均要多0.322次助攻,但是assists进行t检验的p值为14.9%,说明婚姻状况对球员单场主动次数的影响并不大,和(iv)的结果相比较,在一定程度上存在明显的差异,表明了已婚球员比未婚球员的球技更胜一筹。11.本题利用401KSUBS.RAW中的数据。 (i)计算样本中nettfa的平均值、标准差、最小值和最大值。(ii)检验假设平均nettfa不会因为401(k)资格状况而有所不同,使用双侧对立假设。估计差异的美元数量是多少?(iii)根据计算机习题C7.9的第(ii)部分,ek401在一个简单回归模型中显然不是外生的,起码它随着收入和年龄而变化。以收入、年龄和ek401作为解释变量估计nettfa的一个多元线性回归模型。收入和年龄应该以二次函数形式出现。现在,估计401(k)资格的美元效应是多少?2(iv)在第(iii)部分估计的模型中,增加交互项ekage40141和ek401age41。注意样本中的平均年龄约为41岁,所以在新模型中,ek401的系数是401(k)资格在平均年龄处的估计效应。哪个交互项显著?(v)比较第(iii)和(iv)部分的估计值,401(k)资格在41岁处的估计效应差别大吗?请解释。(vi)现在,从模型中去掉交互项,但定义5个家庭规模虚拟变量:fsize1,fsize2,fsize3,fsize4和fsize5。对有5个或5个以上成员的家庭,fsize5等于1。在第(iii)部分估计的模型中,增加家庭规模虚拟变量,记得选择一个基组。这些家庭虚拟变量在1%的显著性水平上显著吗?(vii)现在,针对模型22nettfaincincageagee401ku012343在容许截距不同的情况下,做5个家庭规模类别的邹至庄检验。约束残差平方和SSR,从第(vi)部分得到,因为那里回归假定了相同斜率。无约束残差平方和SSRSSRSSRSSR„,其中SSR是从仅用家庭规模UR125ff估计的方程中得到的残差平方和。你应该明白,无约束模型中有30个参数(5个截距和25个斜率),而约束模型中有10个参数(5个截距和5个斜率)。因此,带检验的约束个数是q20,而且无约束模型的df为9275309245。答:(i)样本中nettfa的平均值、标准差、最小值和最大值分别为:19.072千美元,63.964千美元,-502.302千美元和1536.798千美元。(ii)用变量nettfa对ek401进行回归,对ek401的回归系数ˆ进行t检验。其估计的是有资格参加401k401k计划与没有资格参加401k计划对nettfa的平均差异。在9275个家庭中,对该模型进行估计可得:ˆ18.858,t14.01。因此,拒绝平均nettfa不会因为401k资格状况而有所不同的原假设。这个回归401kek401系数表明有资格参加401k计划的家庭的净金融资产平均比没有资格参加401k计划的家庭的净金融资产多18858美元。(iii)估计方程为:^22nettfa23.099.705401ek0.278inc0.0103inc1.972age0.0348age9.961.2770.0750.00060.4830.00552nR9275,0.202在保持收入和年龄不变的情形下,有资格参加401k计划的家庭的净金融资产平均比没有资格参加401k计划的家庭的净金融资产多9705美元。(iv)只有交叉项e401k(age41)是显著的,其回归系数是0.654(t4.98)。这表明随着年龄的增加401k计划资格对金融资产的效应,或者说是在拥有401k计划资格的情形下,年龄对金融资产产生正的效应。而交叉2项e401k(age41)的回归系数为-0.0038,其t0.33,因此在统计上是不显著的,故可以将其去掉。(v)在第三问中,对所有的年龄,401k计划资格对金融资产的效应均为9705美元。在第四问的回归模型 中,在平均年龄为41岁的情形下,401k计划资格对金融资产的效应均为9960美元。包含交叉项的回归模型中的效应仅仅比不含有交叉项的回归模型中的效应增加了225美元。如果改变第四问中的年龄值,扩大其取值范围,则这个差异将会有发生很大的变化。(vi)设fsize1代表基组,则含有虚拟变量的回归方程为:^22nettfae16.349.455401kinc0.240inc0.0100age1.495age0.029010.121.2780.0750.00060.4830.00550.859fsize24.665fsize36.314fsize47.361fsize51.8181.8771.8682.1012nR9275,0.204SSR,30215207.54个家庭虚拟变量的联合显著性检验的统计量的值为:F49256,5.44,其p0.0002,故这些家庭虚拟变量在1%的显著性水平下是显著的。(vii)根据第六问,可以得到受约束的残差平方和为:SSR30215207.5。通过分别对5个家庭规模进行回r归得到的残差平方和加总得出不受约束的残差平方和,则SSR29985400。则邹至庄检验的F统计量为:urF209245,30215207.529985400/2998540092452、03.54在这种情形下,可以很容易得到不同家庭规模的斜率不同。因此仅仅允许截距变化是不充分的。(从对家庭规模的单个回归模型中可以看出,收入变量实际上是随着家庭规模的变化而变化的。)12.本题利用BEAUTY.RAW中的数据集,它包含了HamermeshandBiddle(1994)报告变量的一个子集(但比其报告回归中的观测更加有用)。(i)分别求男女相貌在一般水平之上的比例。相貌在一般水平之上和之下的人哪个更多?(ii)检验假设:男女相貌在一般水平之上的总体比例相同。报告女人比例更高的单侧P值。(提示:估计一个简单的线性概率模型最容易。)(iii)现在针对男女分别估计模型logwage01belavg2abvavgu并以通常方式报告结果。在两种情形中解释belavg的系数。用语言解释假设H:0相对H:0的含义,0111并分别求出P值。(iv)有一般相貌之上的女人比相貌一般的女人工资更高的充分证据吗?请解释。(v)对男人和女人都增加解释变量educ,exper,experz,union,goodhlth,black,married,south,bigcity,smllcity和service。“相貌”变量的影响有重要变化吗?答:(i)男人相貌在一般水平之上的比例为0.29,在一般水平之下的为0.117,所以相貌在一般水平之上的更多。而女人相貌在一般水平之上的比例为0.33,在一般水平之下的比例为0.135,同样相貌在一般水平之上的人数更多。(ii)将abvavg对famale进行回归,female的系数值1.48,t统计值为0.140,无法拒绝虚拟假设,所以男女相貌在一般水平之上的总体比例相同,其女人比例更高的双侧p值为14%。(iii)针对男人分别估计模型,回归结果为:logwage1.8480.199belavg0.044abvavg0.0240.0600.04222n824,R0.0133,R0.0109其中,belavg的系数表示相貌在一般水平之下的男人比一般相貌的要少赚19.9%的工资。再针对女人估计模型,回归结果如下:logwage1.3090.138belavg0.034abvavg0.0340.0760.05522n436,R0.0133,R0.0109 其中,belavg的系数表示相貌在一般水平之下的女人比一般相貌的要少赚13.8%的工资。虚拟假设H:001表示相貌并不会影响工资的高低,而其对立假设则表示相貌在一般水平以下的人比一般相貌水平的工资要低。与此同时,男人和女人单侧检验的p值分别为0.0005和0.036。所以对男人而言,完全可以拒绝虚拟假设,即相貌好的工资更高,而对女人而言,却不存在这个结论。(iv)一般相貌之上的女人比相貌一般的女人工资平均高出3.36%,但是因为abvavg的t统计量仅为0.61,对应的单侧p值搞到0.272,所以无法拒绝虚拟假设H:0,即不存在一般相貌之上的女人比相貌一般的女02人工资更高的充分证据。(v)先针对男人增加变量后重新估计模型,belavg的系数变为-0.143,abvavg的系数变为-0.001。再针对女人增加变量后重新估计模型,belavg的系数变为-0.115,abvavg的系数变为0.058。尽管两个模型中belavg的系数都趋近于0,但是对工资高低还是存在较大的影响。13.回答本题需用APPLE.RAW中的数据。(i)定义一个二值变量ecobuy,在ecolbs0时取值1,在ecolbs0时取值0。换言之,在给定价格下,ecobuy标志着一个家庭是否购买环保苹果。多大比例的家庭声称要购买环保苹果?(ii)估计线性概率模型ecobuyecoprcregprcfaminchhsizeeducageu0123456并以通常的形式报告结果。仔细解释价格变量的系数。(iii)在LPM中,非价格变量联合显著吗?(尽管存在异方差时,通常的F统计量并非有效,但我们还是使用它。)除价格变量外,哪个解释变量对购买环保苹果的决策具有最重要的影响?你认为这合理吗?(iv)在第(ii)部分的模型中,用logfaminc取代faminc。使用faminc和logfaminc,哪个模型对数据的拟合更好?解释logfaminc的系数。(v)在第(iv)部分的估计中,有多少估计概率为负?多少大于1?应该引起你的注意吗?(vi)对于第(iv)部分中的估计,计算结果ecobuy0和ecobuy1的正确预测百分比。模型预测哪个结果最好?答:(i)声称要购买环保苹果的家庭比例为:412/6600.624。(ii)线性概率模型的回归方程为:^ecobuy0.4240.803ecoprc0.719regprc0.00055faminc0.024hhsize0.1650.1090.1320.000530.0130.025educ0.00050age0.0080.001252nR660,0.110由该回归模型可以看出,变量ecoprc平均每增加0.1,则购买环保苹果的家庭比率将会减少约0.08。变量regprc平均每增加0.1,则购买环保苹果的家庭比率将会增加约0.072。(假定概率的不能等于边界值0和1。)(iii)由于F4,6534.43,p0.0015,故在LPM中,非价格变量联合是显著的。在这四个非价格变量中,变量educ是最重要的影响因素。比如说,4年的教育差异将会使得购买环保苹果的家庭比率增加0.02540.10。与预期一致,受过更多高等教育的人们更倾向于购买环保产品。变量hhsize即家庭规模也是一个重要的影响因素。在其他条件不变的情形下,有两个孩子的夫妇购买环保苹果的概率比没有孩子的夫妇购买环保苹果的概率高0.048。2(iv)使用logfaminc的模型拟合效果稍微好一些,其模型的拟合优度R大约增加了0.112。logfaminc的回归系数为0.045,其t为1.55。如果logfaminc每增加0.1,即faminc每增加10%,则购买环保苹果的家庭比率将会增加约0.0045,这个效果是很小的。(v)拟合概率的变化范围为:0.185~1.051,故没有出现概率为负的情形。有两个拟合概率大于1,在660个样本观测值中可以不引起注意。 ^^(vi)根据准则,当ecobuy0.5时,预测值为1,当ecobuy0.5时,预测值为0。则对于ecobuy0时的正ii确预测百分比为102/2480.411,当ecobuy1时的正确预测百分比为340/4120.825。根据一般的准则,对于购买环保苹果的概率模型有一个很好的正确预测百分比,总的正确预测百分比为67%。14.利用CHARITY.RAW中的数据回答本题。变量respond是一个虚拟变量,如果一个人对慈善组织最近的邮件做出捐助响应,这个变量就等于1。变量resplast也是一个虚拟变量,如果一个人对慈善组织前面的邮件做出捐助响应,这个变量就等于1。avggift表示过去的平均捐助额(以荷兰盾为单位),propresp表示此人对过去慈善组织寄来的邮件做出捐助响应的次数比例。(i)估计一个将respond与resplast和avggift联系起来的线性概率模型。以通常的形式报告结果,并解释变量resplast的系数。(ii)过去捐助的平均水平看来会影响做出捐助响应的概率吗?(iii)在模型中增加变量propresp并解释其系数。(这里须注意,propresp增加1是最大可能变化。)(iv)在回归中增加propresp以后,resplast的系数有何变化?这讲得过去吗?(v)在模型中增加每年寄出邮件的数量mailyear。它的估计影响有多大?为什么它不是邮件数量对响应的因果关系的一个较好的估计?答:(i)估计模型为:respondresplast0.2820.344avggift0.000150.0090.0150.0000922nRR4268,0.1101,0.1097变量为resplast的系数表述当过去的平均捐助额固定不变时,如果一个人对慈善组织前面的邮件作出捐助响应,则这个人对慈善组织最近的邮件做出捐助响应的概率将会增加34.4%。(ii)由(i)中的估计方程可知,avggift的系数为0.00015,所以即使在100荷兰盾的平均捐助水平的前提条件下,一个人对慈善组织最近的邮件做出捐助响应的概率也只好增加0.0015%,效应非常小。同时,avggift的t统计量为1.71,对于的p值为8.8%,所以avggift统计不显著,不应该在模型中增加该变量,即过去捐助的平均水平对做出捐助响应的概率影响不大。(iii)propresp的系数为0.747,标准差为0.034,表示当resplast和avggift不变时,一个人对过去慈善组织寄来的邮件做出捐助响应的次数比例增加10%时,这个人对慈善组织最近的邮件做出捐助响应的概率将会增加7.5%。(iv)在回归中增加propresp后,resplast的系数从0.34将为0.095,但是resplast依旧统计显著。系数值下降是有道理的,因为propresp和resplast正相关,当增加propresp后,原来由resplast解释的一部分变异被propresp解释了,所以resplast的系数会下降。(v)由回归结果可知,mailyear对应的系数值为0.062,所以当其他因素固定不变时,每年寄出邮件的数量每增加一封时,一个人对慈善组织最近的邮件做出捐助响应的概率会增加6.2%,即估计影响为6.2%。由于慈善组织每年如何确定当年应该发送的邮件数量是未知的,因此只能依据过去人们的平均捐助额、对最近邮件做出捐助的程度大小等因素来做出决定。正是因此,就有可能产生较大的偏差,因为如果有些可能会影响当年应该发送的邮件数量的大小的因素(如收入水平)没有被考虑到模型中去,那么做出的发送邮件数量大小的决定将会产生较大的偏差,导致mailyear对应的系数值产生向下的偏差(因为富裕的人会倾向于做出响应),综上所述,mailyear并不是对响应的因果关系的一个较好的估计。 Var1yxpxpx其中,pxxx011„kk。对每个观测i,Var|yxii由hˆiyiiyˆ1ˆ估计出来,其中yˆ为第i次观测的0LS拟合值。但能对每个i估计h并不意味着能直接进行WLS估计。因为ii拟合值yˆ不一定落在单位区间内。WLS的所有权数都必须为正。i2.拟合值落在单位区间外的解决办法在那些观测数据很多而成功或失败的概率都很小的情形中,发现某些拟合值位于单位区间之外颇为常见。(1)放弃WLS并报告异方差-稳健的统计量。(2)调整那些小于0或大于1的拟合值,然后用于WLS。(3)如果多数拟合值都位于单位区间之外,对拟合值的调整就能影响结论。在这种情况下,仅仅使用OLS可能是最好的办法。3.用加权最小二乘法估计线性概率模型的步骤(1)用0LS估计模型并得到拟合值yˆ。(2)判断是否所有的拟合值都位于单位区间之内。如果是这样,就进行下一步。否则,需要进行某种调整而使所有的拟合值都位于单位区间内。(3)构造方程hˆyyˆ1ˆ中的估计方差。iii(4)以1/hˆ为权数用WLS估计方程yxx„+xu01122kx8.2课后习题详解一、习题1.下面哪种情况是异方差性造成的结果?(i)0LS估计量βˆ是不一致的。j(ii)通常的F检验不再服从F分布。(iii)OLS估计量不再是BLUE。答:(ii)和(iii)都是异方差性造成的结果。同方差性假定对OLS估计的一致性没有影响。但是即使在大样本条件下,异方差性会导致基于t检验和F检验的统计推断失效。因为异方差性违背了高斯-马尔科夫假定,因此OLS估计量不再是BLUE。2.考虑如下解释每月啤酒消费量的线性模型:beerincpriceeducfemaleu01234Euincpriceeducfemale|,,,022Varuincpriceeducfemale|,,,σinc写出将它变换成一个具有同方差误差的方程。222答:因为Varuincpriceeducfemale|,,,σinc,则hxinc,hx是异方差性函数。因此hxinc,在方程两边除以inc,可得:beerinc/01/inc1inc2priceinc/3educinc/4femaleinc/uin/c是原方程的inc的斜率系数,在转换的方程中是一个常数。这就是异方差形式以及原方程中解释变量的函1 数形式所导致的结果。3.判断正误:当模型中遗漏了重要变量时,WLS优于0LS。答:错误。WLS和OLS的无偏性是严格地以假定MLR.4为条件的,而在遗漏了重要变量时,该假定通常会被违背。当MLR.4不再成立,WLS和OLS都是有偏的。在没有专门的信息说明遗漏的变量与其他解释变量的关系时,此时难以判断哪种回归方式的偏差更小,WLS估计的偏差可能大于也可能小于OLS估计。因此,不能使用WLS去解决OLS估计所带来的偏差。4.利用GPA3.RAW中的数据,对秋季第二学期的学生估计如下方程^trmgpa2.120.900crsfpa0.193cumgpa0.0014tothrs0.550.1750.0640.00120.550.1660.0740.00120.0018sat0.0039hsperc0.351female0.157season0.00020.00180.0850.0980.00020.00190.0790.0802nR269,0.465这里trmgpa表示本学期的GPA,crsgpa表示所修全部课程加权平均的GPA,crsgpa表示本学期前的GPA,tothrs表示此学期前总学分,sat表示SAT分数,hsperc表示其在高中班级排名的百分位,female是一个性别虚拟变量,而season也是一个虚拟变量,并在该学生在秋季参加学生运动赛事时取值1。通常的标准误和异方差-稳健的标准误分别报告于圆括号和方括号中。(i)变量crsgpa、cumgpa和tothrs都有预期的估计效应吗?这些变量中有哪些在5%的显著性水平上是统计显著的?使用不同的标准误是否有什么影响?(ii)为什么虚拟假设H:1有意义?利用这两种标准误,在5%的显著性水平上针对双侧对立假设检0crsgpa验这个虚拟假设。描述你的结论。(iii)利用两种标准误来检验参加体育赛事对学期GPA是否有影响。拒绝虚拟假设的显著性水平与所用的标准误有关系吗?答:(i)变量crsgpa、cumgpa和tothrs都有预期的估计效应。如果一个学生本学期的GPA较高,那么他/她的trmgpa就更高;如果本学期前的GPA越高,学生的trmgpa也会越高;tothrs衡量的此学期前的总学分即考试的经验,其系数表明经验越多,回报越高。crsgpa的t统计量非常大,采用常用的标准误差时大于5,采用异方差-稳健的标准误差时cumgpa的t统计量为2.61,两者在5%的显著性水平上是统计显著的。使用两种标准误差的情况下,tothrs的t统计量都为1.17,因此在5%的显著性水平上是统计不显著的。(ii)其他解释变量不纳入模型中时,即crsgpa作为唯一的解释变量时,H:1意味着,没有其他任0crsgpa何信息的条件下,关于本学期GPA的最好的预测就是学生过去所有课程的平均GPA。截距将会等于0。在纳入其他变量的模型中,H:1并不必然是正确的,因为crsgpa与学生的其他特征是相关的。例如,学生参加0crsgpa的课程受能力和过去在校表现的影响。但是检验该假设仍然是有意义的。采用常用标准误差的t统计量是:t0.9001/0.1750.57,采用异方差-稳健标准误差时t0.6。在两种情况下,在合理(包括5%)的显著性水平上,都不能拒绝虚拟假设。(iii)季度效应由season的系数给出,表明在其他条件相同的情况下,运动员在赛季的成绩比非运动员低0.16。采用常用标准误差的t统计量为-1.60,采用异方差-稳健的标准误时t统计量为-1.96。双侧检验中,使用异方差-稳健的标准误的t统计量在5%的显著性水平上是统计显著的;使用常用标准误差的t统计量在10%的显著性水平上仍然是统计不显著的。因此两种不同的标准误差的影响是不同的。本题的案例是与众不同的,因为异方差-稳健的标准误差一般而言都大于常用标准误差。5.变量smokes是一个二值变量,如果一个人抽烟,它就等于1,否则它就等于0。利用Smoke.RAW中的数 据,我们估计了smokes的如下线性概率方程:smokescigpric0.6560.069logincomeeduc0.012log0.0290.8550.2040.0260.0060.8560.2070.0260.00620.020age0.00026age0.101restaurn0.026white0.0060.000060.0390.0520.0050.000060.0380.0502nR807,0.062其中,white在调查对象是白人时取值1,否则取值0;其他自变量都与例8.7中的定义相同。我们同时给出了通常的标准误和异方差-稳健的标准误。(i)这两组标准误存在重要差别吗?(ii)保持其他因素不变,如果受教育年数增加4年,估计的抽烟概率有何变化?(iii)从什么年龄开始,随着年龄的增长抽烟的概率逐渐下降?(iv)解释二值变量restaurn(它也是一个虚拟变量,如果一个人所居住的州有禁止在餐馆抽烟的制度,它就取值为1,否则取值为0)的系数。(v)数据集中第206个人具有如下特征:cigpric67.44,income6500,educ16,age77,restaurn0,white0和smokes0。计算此人抽烟的预测概率,并对结果加以评论。答:(i)不存在重要差别。每个系数的两组标准误差是非常接近的。(ii)受教育年数增加四年,抽烟概率变化0.2940.116,即下降11.6%。(iii)估算二次项的转折点为:0.02/20.0002638.46,因此从38岁半开始,随着年龄的增长抽烟的概率逐渐下降。(iv)保持其他变量不变,一个人所居住的州有禁止在餐馆抽烟的制度使得抽烟的概率下降0.101,这与多接受四年教育对抽烟概率的影响是相近的。(v)将数据代入估计方程可得:^smokes0.6560.069log67.440.012log65000.0291620.020770.00026770.0052此人抽烟的预测概率接近为0,实际上,如果此人是不抽烟的,则方程的预测是非常准确的。6.将异方差性的布罗施-帕甘检验和怀特检验的特征相结合有不同的方法。文中没有讨论的一种可能性是22将uˆ对x,x,,x,yˆ;i1,,n进行回归。其中,uˆ是OLS残差,yˆ是OLS拟合值。于是,我们ii12iikiii2可以检验x,xx,,和yˆ的联合显著性。(当然,我们在回归中总是包含一个截距。)i12iiki(i)与所建议的异方差F检验相联系的自由度是多少?22(ii)解释为什么上述回归的R总是至少和BP回归和怀特检验特殊形式的R一样大?(iii)第(ii)部分是否意味着这个新检验总能比BP或怀特特殊情形估计量得到更小的P值?请解释。(iv)假设有人还建议在新提出的这个检验中增加yˆ。你认为这个主意如何?i答:(i)此时存在k1个回归元,包括原解释变量和拟合值的平方,因此分子的自由度为k1,分母的自由度为nk2。222(ii)对BP检验有一个额外的回归元yˆ,因此R与上述混合检验的R不相上下。对怀特检验而言,则较i难以察觉。在回归方程8.20中,拟合值是回归元的线性函数,也就是说,线性函数中系数是OLS估计。对原解22释变量进入模型施加约束,意味着方程8.20的R不会大于混合检验的R。222(iii)不会。回归变量的联合显著的F统计量依赖于RR22/1,而且当R2上升时,该比例也上升。但是,uuˆˆuˆF统计量同时也依赖于自由度,在BP检验、怀特检验的特殊案例以及混合检验中自由度是不同的。因此不能确 定哪一种检验的P值最小。(iv)这个主意不好。因为OLS拟合值是原方程变量的线性组合,因为这些回归元出现在混合检验中,增加OLS拟合值是多余的,可能会造成完全共线性。7.考虑一个雇员水平的模型yxxxfvi,eie01i1,eki,ek22,i,ie,,,其中无法观测变量f是在一个给定的企业i内,对每个雇员的“企业效应”。误差项u,是企业i中雇员e所iie独具的。诸如方程(8.28)中的综合误差就是ufu。i,eiie,22222(i)假定Varfif,Varvie,v,而fi和vie,无关。证明Varui,efv;称为。2(ii)现在假设对Pg,vie,和vig,无关。证明Covuui,e,i,gf。mi122(iii)令uimiieu,表示一个企业内综合误差的平均。证明Var/umifvi。eˆ1(iv)讨论第(iii)部分对于利用企业层次的平均数据进行WLS估计的意义,其中第i次观测所用的权数就是通常的企业规模。22答:(i)对于不相关的随机变量,VarVarfivifv,eiiVarevf,。(ii)随机变量与它自身的协方差就是其方差,且f,v,v是两两独立的,因此协方差为:iie,ig,Covuui,e,i,gCovfiui,e,fiui,gCovfi,fiCovfi,vi,gCovvi,e,fiCovvi,e,vi,g2Covffi,if(iii)因为mimimi111miui,emifivi,efimivi,ee1ee11mi1其中,fi与mvii,e是独立的,则有:e1mimiim11122miui,eVarfimivi,eVarfiVarmivi,efv/mie1ee112(iv)标准权数忽略了企业效应的方差f,因此,正确的权重函数应该使用:mhii1/。一个有效的权重2222222函数应该从第(iii)问的结论Varumifv/i中得出,即Varuifv/mi1v/f/mifhi。但是2222要得到该结论,必须知道vf/。在任何情况下,常用的权重是不正确的。当mi很大或vf/很小时,企业效应的影响比个体特殊效应的影响更重要,正确的权重是恒定不变的。因此对较大的企业赋予较大的权重并不是适当的做法。二、计算机习题1.考虑如下解释睡眠行为的模型:2sleeptotwrkeducageageyngkidmaleu0123456(i)写出一个模型,容许u的方差在男女之间有所不同。这个方差不应该取决于其他因素。(ii)利用SLEEP75.RAW中的数据估计异方差模型中的参数。(你必须先用OLS估计sleep方程,以得到0LS残差。)u的估计方差对于男人和女人而言哪个更高?(iii)u的方差是否对男女而言有显著不同? 2答:(i)在模型sleeptotwrkeducageageyngkidmaleu中,u的方差要取决于性0123456别,则有:Varutotwrkeducageyngkid|,,,,maleVarumale|01male当male1,即为男性时,方差为01;当male0,即为女性时,方差为0。(ii)先用OLS估计sleep方程,得到0LS残差,然后用残差对male回归,可得:2uˆmaleresidual189359.228849.620546.427296.52nR706,0.0016male的系数为负,所以u的估计方差对于女人而言更高。(iii)因为male的t统计量为-1.06,统计不显著,因此u的方差对男女而言并没有显著不同。2.(i)利用HPRICE1.RAW中的数据得到方程(8.17)的异方差-稳健标准误。讨论其与通常的标准误之间是否存在任何重要差异。(ii)对方程(8.18)重复第(i)步操作。(iii)此例对异方差性和对因变量所做的变换说明了什么?答:(i)先进行一般回归,再进行异方差-稳健回归,估计结果为:^price21.770.00207lotsize0.123sqrft13.85bdrms29.480.000640.0139.0136.280.001220.0178.282nR88,0.672比较稳健标准误和通常标准误,发现lotsize的稳健标准误是通常下的两倍,使得t统计量相差较大。而sqrft的稳健标准误也比通常的大,但相差不大。bdrms的稳健标准误比通常的要小。(ii)先进行一般回归,再进行异方差-稳健回归,估计结果为:^price5.610.168loglotsize0.700logsqrft0.037bdrms0.650.0380.0930.0280.760.0410.1010.0302nR88,0.643比较两种情况下的标准误可知,稳健标准误与通常标准误相差不大,但稳健标准误普遍还是比通常标准误大。(iii)比较稳健标准误的大小可得,利用对数函数的回归方程受异方差的影响比水平值函数要小。23.在方程(8.18)中应用异方差性的完全怀特检验[参见方程(8.19)]。利用y形式的计量并计算p值。你得到什么结论?22答:完全的怀特检验基于辅助回归的R之上,在第9题的基础上,进行一般回归后,保留残差,接着利用u222对llotsize、lsqrft、bdrms、llotsize、lsqrft、bdrms、llotsizelsqrft、llotsizebdrms、lsqrfbdrms回归,怀2特检验的统计量为nR880.1099.59,p值为0.385,因此没有足够的证据拒绝模型的同方差性。4.本题使用VOTE1.RAW中的数据。(i)估计一个以voteA为因变量并以prtystrA、democA、logexpendA和 ^voteA37.660.252prtystrA3.793democA5.779logexpendA6.238logexpendBuˆ4.740.0711.4070.3920.397为自变量的模型。得到0LS22n173,R0.801,R0.7962残差uˆ,并将这些残差对所有的自变量进行回归。解释你为什么得到R0。i(ii)现在计算异方差性的布罗施-帕甘检验。使用F统计量的形式并报告P值。(iii)同样利用F统计量形式计算异方差性的特殊怀特检验。现在异方差性的证据有多强?答:(i)估计模型为:^voteA37.660.252prtystrA3.793democA5.779logexpendA6.238logexpendBuˆ4.740.0711.4070.3920.39722n173,R0.801,R0.7962保留OLS残差uˆ,将残差对所有自变量进行回归,此时R近似等于0,但是调整小数点位数,仍然是一个i正数,这只能说明拟合优度很小。(ii)BP检验的步骤为:①利用OLS估计模型得到残差的平方;②用残差的平方对所有自变量做一般回归;③运用结果算出F统计量下的p值。本题中,F统计量为2.33,对应的P值为0.0581。在5%的显著性水平上,没有存在异方差性的有力证据。(iii)特殊怀特异方差检验的步骤为:①利用OLS估计模型得到残差和拟合值,分别对其平方,得到残差的平方和和拟合值的平方;②用残差的平方对回归拟合值和回归拟合值的平方做回归;③运用结果算出F统计量下的p值。本题中,F统计量为2.79,对应的p值为0.0645。该检验提供的异方差性的证据比B-P检验更弱,但两者的结果是近似的。5.本题使用PNTSPRD.RAW中的数据。(i)变量sprdcvr是一个二值变量,若在大学篮球比赛中实际分数差距超过拉斯维加斯让分,则此变量取值1。sprdcvr的期望值(比方说)表示在一场随机抽取的比赛中分差超过让分的概率。在10%的显著性水平上相对于H:0.5检验H:05.,并讨论你的结果。(提示:将sprdcvr只对一个截距项进行回归便得到一个t10统计量,利用这个t统计量很容易完成。)(ii)553个样本中有多少场比赛是在中立场地进行的?(iii)估计线性概率模型sprdcvrfavhomeneutralfav25und25u01234并以通常的形式报告结论。(报告通常的标准误和异方差-稳健的标准误。)哪个变量在实际上和统计上都是最显著的?(iv)解释为什么在虚拟假设H:0下,模型中不存在异方差性。01234(v)利用通常的F统计量检验第(iv)部分的虚拟假设,你得到什么结论?(vi)给定上述分析,你会不会认为,利用赛前可利用的信息,有可能系统地预测拉斯维加斯让分能否实现?答:(i)通过回归可得:uˆ0.515,标准差为0.021。渐进的t统计量为:0.5150.5/0.0210.71,在10%甚至是20%的显著性水平上是统计不显著的。(ii)35场比赛是在中立场地进行的。(iii)估计的LPM是:^sprdcvr0.4900.035favhome0.118neutral0.023fav250.018und250.0450.0500.0950.0500.0922nR553,0.0034实际上neutral的影响是最大的,如果球赛是在中立的赛场上进行的,在大学篮球比赛中实际分数差距超过 拉斯维加斯让分的概率高0.12,除了截距之外,neutral系数的t统计量是唯一一个大于1的t统计量。(iv)在虚拟假设H:0下,概率并不依赖任何解释变量,这意味着平均值和方差均不依01234赖解释变量。(v)联合显著的F统计量分子和分母的自由度分别为4和548,F值为0.47,p值为0.76,统计不显著,因此不能拒绝虚拟假设。(vi)不可能。因为解释变量的联合显著检验是统计不显著的。6.在例7.12中,我们估计了一个线性概率模型以说明一个年轻人在1986年是否被拘捕:arr8686pcnv86avgsentottimeptimeqempu012345(i)用OLS估计此模型,并验证其全部估计值都严格地介于0和1之间。最大和最小的估计值各是多少?(ii)像8.5节所讨论的那样,用加权最小二乘法估计这个方程。(iii)用WLS估计值决定avgsen和tottime在5%的显著性水平上是否联合显著。答:(i)估计模型如方程7.31所示。保留四位小数,最小的拟合值为0.0066,最大的拟合值为0.5577。^^(ii)估计的每个观测值i的异方差函数是:hˆarrarr86186,这个函数位于0到1之间。WLS的权重iii是1/hˆ,每个参数的WLS估计为:i^arrpcnv860.4480.168avgsen0.0054tottime0.0018ptime0.025qemp860.045860.0180.0190.00510.00330.0030.0052nR2725,0.0744显著的解释变量的系数与OLS估计的系数是相近的。WLS斜率系数的标准误差比OLS非稳健标准误差要小。但其与稳健标准误差相比较才是合适的。(iii)avgsen和tottime联合显著检验的F统计量的分子和分母的自由度分别为2和2719,F值为0.88,p值为0.41。在5%的显著性水平上是联合不显著的。7.本题利用LOANAPP.RAW中的数据。(i)估计计算机习题C7.8第(iii)部分中的方程,计算其异方差-稳健的标准误。将的95%的置信区white间与非稳健的置信区间相比较。(ii)由第(i)部分的回归计算拟合值。其中有没有哪个估计值小于0?有没有哪个估计值大于1?而这些情况对加权最小二乘估计的应用意味着什么?答:(i)ˆ0.129,其异方差-稳健标准误差为0.026,比非稳健标准误差大。异方差-稳健标准差95%的white置信区间为:0.0780.179,,非稳健标准差的置信区间更窄,为0.090.168,。稳健置信区间排除了0。(ii)没有估计值小于0,有231个估计值大于1。除非对这些不在置信区间的拟合值作出调整,不然不能直接使用WLS,因为此时有231个hˆ为负的。i8.本题利用数据集GPA1.RAW。(i)利用0LS估计一个将colGPA与hsGPA,ACT,skipped和PC相联系的模型。求0LS残差。^^2ˆ2hˆ(ii)计算异方差性的怀特检验特殊情形。在ui对colGPAi和colGPAi的回归中,求拟合值i。(iii)验证第(ii)部分得到的拟合值都严格为正。然后利用权数1/hˆ求加权最小二乘估计值。根据对应的i0LS估计值,将逃课和拥有计算机之影响的加权最小二乘估计值与对应0LS估计值相比较。它们的统计显著性如何?(iv)在第(iii)部分的WLS估计中,求异方差-稳健的标准误。换言之,容许第(ii)部分中所估计的方差函数可能误设(参见问题8.4)。标准误与第(iii)部分相比有很大变化吗?答:(i)估计方程为: ^colGPAhsGPA1.360.412ACT0.013skipped0.071PC0.1240.330.0920.0100.0260.05722n141,R0.259,R0.238(ii)由怀特检验得到的F统计量为3.58。自由度为2和138,此时的p值为0.031,因此在5%的显著性水平上,可以断定方程中存在异方差性。从另一个角度而言,每个二次项的t统计量都很小,因此可以直接把二次项从方程中剔除出去,而不产生损失。实际上,最小的拟合值是0.027,最大拟合值为0.165。(iii)将这些拟合值作为hˆ应用到加权最小二乘中可得:i^colGPAhsGPA1.400.402ACT0.013skipped0.076PC0.1260.300.0830.0100.0220.05622n141,R0.306,R0.286PC的系数只有很小的变化,OLS的t统计量和WLS的t统计量是非常接近的。采用通常的OLS标准估计22将没有采用异方差-稳健标准误形式合适,因为有充分的证据证明异方差性。WLS的R大于OLS的R,但是它们是不可比的。(iv)采用异方差-稳健的标准误,模型方程为:^colGPAhsGPA1.400.402ACT0.013skipped0.076PC0.1260.310.0860.0100.0210.05922n141,R0.306,R0.286稳健标准误与(iii)中相差不大,在大多数案例中,稳健的标准误是相对较高的,但是所有统计显著的解释变量在之前就是统计显著的。但是置信区间更宽。9.在例8.7中,我们计算了香烟需求方程的0LS和一系列WLS估计值。(i)求方程(8.35)中的0LS估计值。(ii)求出方程(8.36)的WLS估计中所用的hˆ,并重新得到方程(8.36)。根据这个方程,求未加权残差i和拟合值;分别称之为uˆ和yˆ。(比如在Stata中,未加权的残差和拟合值默认给出。)ii(iii)令uuˆ/hˆ和yyˆ/hˆ表示加权量。通过将u2对y和y2回归,进行怀特异方差性检验的特殊情形,iiiiiiiii一定要照常包含截距项。你在加权残差中发现了异方差性吗?(iv)第(iii)部分的结论对于求式(8.36)时建议使用的同方差形式有何含义?(v)在容许方差函数被误设的情况下,求WLS估计值的确当标准误。答:(i)0LS估计值如8.35所示。(ii)未加权残差与OLS残差是不同的,但是也没有大幅度的差别。2222(iii)将u对y和y回归,R是0.027,此时在方程8.15中使用R,此时k2,则F11.15,p值实质iii2u上为0。统计显著,因此存在异方差性。(iv)存在异方差性表明可行的GLS过程并不能真正消灭异方差性。因此,WLS估计中的常用标准误、t统计量和F统计量都是无效的,甚至是渐进无效的。(v)稳健标准误差下的WLS估计方程为:^cigs5.641.30logincome2.94logcigpric0.463educ37.310.548.790.14920.482age0.0056age3.46restaurn0.1150.00120.722nR807,0.1134标准误差与8.36中的标准误差实质上的不同进一步表明修正异方差性的模型并没有完全解决异方差性存在 的问题。除了restaurn之外,所有的标准误差都显著增加了,logcigpric的标准误是原来的2倍。所有在非稳健标准误差条件下统计显著的变量仍然是统计显著的,但是置信区间比稳健标准误条件下的置信区间更宽了。10.本题利用数据集401KSUBS.RAW。22(i)利用0LS估计ek401的一个线性概率模型,解释变量为inc,inc,age,age和male。求通常的OLS标准误和异方差-稳健的标准误。它们有重要差别吗?2(ii)在怀特异方差检验的特殊情形中,我们将0LS残差的平方对0LS拟合值的二次函数回归(即uˆi对yˆ和i22yˆ,in1,„,),证明yˆ系数的概率极限应该为1,yˆ系数的概率极限应该为-1,截距项的概率极限应该为0。iii{提示:记得Varyx|1x,„px,1kpx,其中pxxx011kk。)(iii)对第(i)部分估计的模型求怀特检验,并分析系数估计值是否大致对应于第(ii)部分中描述的理论值。(iv)在验证了第(i)部分的拟合值都介于0和1之间后,求这个线性概率模型的加权最小二乘估计值。它们与OLS估计值有重大差别吗?答:(i)线性概率模型为:^22e401k0.5060.0124inc0.000062inc0.0265age0.00031age0.0035male0.0810.00060.0000050.00390.000050.01210.0790.00060.0000050.00380.000040.01212nR9275,0.094OLS标准误和异方差-稳健的标准误如模型所示。它们之间并无重要差别。2222(ii)因为VaryX|1,,xkpx1px,可以写为Eu|xpxpx,则upxpxv。也就是说,可以将上式以模型的形式表示:22u01px2pxv加入约束条件00,11,21对LPM而言,拟合值是px01X1kkX的估计值。因此,222当用uˆ对yˆ、yˆ回归,截距的估计值将会接近0,yˆ的系数将会接近1,yˆ的系数将接近-1。iiiii2^^(iii)F统计值是310.32,非常显著。ek401的系数是1.010,ek401的系数是-0.970,截距是-0.009。估计与第(ii)部分非常相近。(iv)最小的拟合值为0.03,最大的拟合值为0.697。LPM的WLS估计为:^22e401k0.4880.0126inc0.000062inc0.0255age0.00030age0.0055male0.0760.00050.0000040.00370.000040.01172nR9275,0.108这与OLS估计并没有显著的区别。相对变动最大的是male的叙述,但是在两种估计方法下,该变量都是统计不显著的。11.本题利用数据集401KSUBS.RAW,仅考虑无子女的已婚夫妇(marr1,fsize2)。(i)用OLS估计方程22nettfa01inc2inc103age4age255e401ku 二次项通过减去inc和age的最小值而加以修正,所以是inc在inc10时对nettfa的偏效应,是age在13age25时对nettfa的偏效应。报告通常的标准误和异方差-稳健的标准误。(ii)利用一个异方差-稳健的检验,检验inc和age的联合显著性。(iii)利用WLS估计第(i)部分中的模型,其中hˆ得自方程(8.33)。求通常的WLS标准误和对异方差函i数形式误设保持稳健的标准误。就检验inc和age联合显著性,比较通常的WLS检验和稳健的WLS检验。(iv)比较的OLS估计值和WLS估计值。你认为出现了什么样的情况?401k答:(i)通常的标准误和异方差-稳健的标准误公式中和所示:^2nettfa17.200.628inc0.0251age252.54male3.83401ek0.343401ekinc2.820.0800.00262.044.400.1243.230.0980.00442.066.250.2202nR2017,0.131通常的OLS估计中,交互项的t统计量为2.8,异方差-稳健估计中的t统计量为1.6。因此,使用OLS可以断定交互项是最低限度的统计显著的。但是,该系数是很重要的,它表明对401k计划而言,金融财富与收入之间更敏感的关系是合适的。(ii)WLS估计模型为:^2nettfa14.090.619inc0.0175age251.78male2.17401ek0.295401ekinc2.270.0840.00191.563.660.1302.530.0910.00261.313.510.1602nR2017,0.114稳健t统计量为1.84,因此交互项是最低限度显著的,双侧检验下的p值为0.066。(iii)ek401的系数估计了inc为0时金融财富的差异。它并不是统计显著地不等于0,这并不令人惊讶。(iv)将e401kinc替代为e401kinc30,ek401的系数变为6.68,稳健t统计量为3.20。12.本题利用数据集MEAO0_01.RAW中的数据。(i)用OLS估计方程math401lunch2logenroll3logexpppu并求出通常的标准误和完全稳健的标准误。二者相比如何?(ii)对异方差性应用怀特检验的特殊形式,F检验的值是多少?你得到什么结论?^^2^2(iii)从loguˆi对math4i和math4i的回归中求拟合值gˆi。其中math4i是OLS拟合值,而uˆi是OLS残差。令hgˆii=expˆ。利用hˆi求WLS估计值。它与0LS系数存在巨大差异吗?(iv)求容许方差函数被误设的WLS标准误。它与通常的WLS标准误有很大的不同吗?(v)为了估计支出对math4的影响,0LS与WLS哪一个看起来更准确?答:(i)估计模型为:^math491.930.449lunch5.40logenroll3.52logexppp19.960.0150.942.1023.090.0171.132.352nR1692,0.373在所有的案例中,异方差-稳健标准误比常用OLS标准误更大。logexppp的稳健t值为1.5,这进一步质疑了支出与表现之间是否存在必然联系。 (ii)F统计值为132.7,p值小数点后4位数均为0。因此,存在异方差性。(iii)WLS估计方程为:^mathlunch450.480.449enrollexppp2.65log6.47log16.510.0150.841.692nR1692,0.360lunch的OLS和WLS的系数小数点后三位都是相同的,但是其他的系数实际上是不同的。最重要的是,logexppp的WLS系数比OLS系数大。此时logexppp增加10%,则数学通过率增加0.65%。WLS估计下的t统计量更大,为3.83。(iv)因为异方差性模型可能是错误的,所以在WLS估计中采用稳健标准误差是较好的方法。对于主要变量logexppp,稳健标准误为1.82,即高于通常的WLS标准误。其稳健t值为3.55,仍然是统计显著的。logenroll的稳健标准误为1.05,也高于通常的WLS标准误。lunch的稳健标准误低于通常的WLS标准误。(v)WLS更准确:稳健标准误差为1.82,OLS稳健标准误为2.35。WLS的t值较大,因为估计的系数较大。而且较低的标准误使得t统计值更大。'