• 216.50 KB
  • 2022-04-22 11:52:45 发布

数据统计与分析课后答案.doc

  • 21页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'附录2:《数据统计与分析——SPSS应用教程》习题答案本“习题答案”也适用于《统计分析应用教程—SPSS,LISREL&SAS实例精选》书中的习题。习题1答案1.(1)答:有错误,犯了水平互相嵌套的错误;如“每周去2次或2次以上”把第1组的编码嵌套进去了。又比如:“每周去3次或3次以上”又把第2组的编码嵌套进去了。(2)答:正确的编码方案如下:1=每周去1次2=每周去2次3=每周去3次4=每周去4次或4次以上2.答:该编码问题严重。(1)80岁不能是缺失值,缺失值可用00岁。(2)职业不编码不行,而必须编码为:1=工人2=农民等等。(3)职业变量用全称(Occupation)超出8个字符。(4)而且栏目位置占1列即可。(5)颜色的第1个字母作为变量值会引起重复,应该用单词的前3-4个字符。(6)Color变量的栏目位置10被嵌套在“4-14”之内,这是严重的错误。更正后的编码方案见图1-19:VariableCode栏目位置Age00岁是MissingValue1-2Occupation①职业应编码为:1=工人2=农民3=教师4=干部5=医生6=其它②职业变量要缩写,如Occu,然后用变量标签注解Occu为“职业”3Color颜色用前三个字母作为变量值,比如:blu=蓝色(blue)bla=黑色(black)4图1-19纠错后的编码方案3.(1)答:错。错在变量名超过8个字符。(2)答:错。错在变量名的首字符是数字领头。(3)答:错。错在变量名中间冒出一个空格。(4)答:对,#号可以作为变量名。但不提倡。习题2答案1.答:合并后的大目标数据文件“BIGab.sav”中仍然有30个Cases、但每个Cases各有(50+30)=80个变量,即v1、v2、v3、v4……v50、x1、x2、x3、x4……x30。2.答:合并后的大目标数据文件“BIGab2.sav”中仍然是50个变量,即v1、v2、v3、v4……v50。但是Cases数目增加为(20+30)=50个Cases。 3.答:请读者照着书中的方法去使用对话框。排序的命令如下:SORTCASESBYxh(D)sex.LISTxhsexscore。4.答:对话框的解法请按照书中介绍的去举一反三。命令解法如下:GETFile=’9293.sav’.SELECTIF(location=2ANDsex=2).SORTCasesBYxh(D)sex.LISTxhsexscore.5.答:对话框的解法请按照书中介绍的去举一反三。命令解法如下:SAMPLE0.20.LISTxh.6.答:对话框的解法请按照书中介绍的去举一反三。命令解法如下:N50.LISTxh.7.答:对话框的解法请按照书中介绍的去举一反三。命令解法如下:WEIGHTBYlocation.8.答案略。9.答案略。习题3答案1.(1)答:DATALIST命令本身应有终止符“.”。(2)答:在DATALIST命令中,File所调用的数据文件名必须用一对左撇号括住。正确的写法是:DATALISTFile="Myf1.Dat"/v11-2v23.(3)答:栏目位置不够变量数目整除。正确的写法是:DATALIST/v1Tov1210-33.(4)答:数值标签要用一对左撇号括住,而且要加上命令的终止符“.”。正确的写法是:VALUELABELVf1"工人"2"农民"3"教师"4"医生".(5)答:命令后面应有终止符“.”。正确的写法是:VALUELABELVf1"工人"2"农民"3"教师"4"医生"5"干部".(6)答:定义缺失值时只能根据变量的栏目位置赋予一个唯一的值。正确的写法是:MISSINGVALUEv1Tov100(-1).或是:MISSINGVALUEv1Tov100(0).(7)答:变量标签是唯一的;一个变量应该对应唯一的一个标签。正确的写法是:VARIABLELABELScore1"第一次考试的成绩"/Score2"第二次考试的成绩"/Score3"第三次考试的成绩2.(1)答:此文件的前5个cases见表1-4。表1-4文件的前5个casesCASESIdageHeight 101231.65202221.70306211.75408211.76512211.68(2)答:学号为01的学生有最多的Score1(高考得分)。(3)答:学号为12的学生家住农村。(4)答:在Vm变量中,有4个Cases的数据有效。3.答:至少有8处错误。(1)A应改为(A)(2)Haircolor超过8个字符,应改为Haircolr(3)Weigh应改为WEIGHT(4)VALUELABEL中的Eyecolr应改为Eyecolor(5)VALUELABEL中的Haircolor应改为8个字符以内,如Haircolr(6)MISSINGVALUE中的age(-1)应去掉,因为DataList中尚未定义age。(7)正确的MISSINGVALUE语句应改为:MISSINGVALUEHeightWeight(000).(8)ListVariable语句应改为:ListVariable=HeightToEyecolor.4.答:“05FLl”中的Ll为字母(型),犯了类型不匹配的错误。正确的写法是:05F005.答:总体(population)是样本测量值的集合。对于感兴趣的整个组中,每个成员都对应一个这样的值。具体说来是某省的人口(总体)或工业产值(总体)中的某个指标测量值的集合,而不是那些人或物的集合。样本(sample)虽然也是一些值的集合,但不代表整个感兴趣的组。比如,一个样本可以是某省中某县的人口的集合或某县工业产值的集合。6.答:由于总体与样本的不同,由此派生出参数与统计量的差别。(1)参数:参数(parameters)是总体的测量值,用希腊字母表示。(2)统计量:统计量(statistics)则是样本的测量值,用一般的英文字母表示(见本章内容)。7.答:(1)均值:用以描述数据(值)分布的中心位置。定距以上的数据计算均值才有意义。比如,对于一个总体(某省)的人口,其平均值被称为总体均值(populationgmean),记为μ。对于某样本(某县)的人口,其平均人口则被称为样本均值(sampleaverage)。总体均值和样本均值的计算公式是相同的。但是其他测量值不一定相同。此外,还有方差、标准偏差等概念。(2)标准偏差:也被称为标准差。表示某人的身高或收入等测量值偏离均值多少。比如甲班语文成绩的标准偏差为20,乙班语文成绩的标准偏差为30,那么,乙班语文成绩比甲班的语文成绩变化(波动)大。(3)方差:标准偏差的平方则是方差。方差表示数据内部的变异性。8.答:统计学上,一般都是假设被统计的样本是来自正态分布(Normaldistribution)的总体。正态分布是关于总体的一种理论分布,是有严格的数学定义的。从正态分布的总体中抽取的样本一般是服从正态分布的。正态分布的重要特征如下:(1)均值:均值是观察值的平均值(Mean value)。区间(Interval)型以上变量值的均值才有意义。(2)众数:众数是最经常发生的频次。众数是对定类变量(Nominal)而言的。比如某班有男生25名、女生15名,那么,该班男生的人数是众数。(3)中位数:中位数是对次序(Ordinal)变量值而言的。中位数是比取值的一半大、同时又比取值的一半小的值。或者说,中位数的一半落在均值之上,同时,另一半则落在均值之下。中位数的取值方法有两种:单数情况下的观察值的中位数;双数情况下的观察值的中位数。(4)正态分布的均值、众数、中位数重叠:将正态分布的图形沿着中心位置对半折叠时,均值、众数、中位数三者重叠在一起。9.有哪些经验规则?答:如果数据来自服从正态分布的总体,可用下面的经验规则很快地概括出我们的数据。经验规则如下:·68%的观察值是落在离均值一个标准偏差(1σ)的范围内。·95%的观察值是落在离均值两个标准偏差(2σ)的范围内。·99%的观察值是落在离均值三个标准偏差(3σ)的范围内。习题4答案下面是RECODE习题。1.答:命令格式如下:RECODEv1,v2(原值1=新值1)(原值2=新值2)......(原值m=新值m)例如:RECODEage(0thru30=1)(30thru60=2)(60thru90=3)(90thruhi=4).2.答:命令中允许使用的关键词如下:LO(或LOWEST)、HI(或HIGHEST)、THRU、MISSING、ELSE、SYSMIS3.(1)答:语法正确,但结果不太理想。因为结果只剩下0和2两组。(2)答:语法正确,但结果不太理想。原因同上。4.答:用“/”分隔。例如:RECODEGage(1,2=1)(3,4=2)/sex(1=1)(2=0).5.答:对。因为将变量A由原来的4组合并为两组。6.(1)答:对。这是端点连接法。(2)答:对。符合语法规则,但是会漏掉各组的端点值。(3)答:对。符合语法规则。但结果只剩下100卡以内的一组数据。7.RECODEage(MISSING=00).MISSINGVALUEage(-1).(进一步将系统缺失值“-1”改为用户缺失值)8.答:RECODEINCOME(LOTHRU5000=1)(5000THRUHI=2).9.答:RECODEsex(’F’=’B’)(’M’=’A’).10.答:有以下4个变换命令。RECODEsex(1=1)(2=0).COMPUTEGage=age.COUNTFM=F(1)M(2).IF(sex=2ANDlocation=2)GROUP=2.下面是Compute习题11.答:COMPUTEscore=S1/S2*100. COMPUTEX=ABS(-7.8).12.答:见第4章。13.(1)答:Y1=7.8(2)答:Y2=-16(3)答:Y3=25(4)答:Y4=-1(5)答:A=10(6)答:B=0.79(7)答:C=2.2(8)答:D=2(9)答:E=2.72(10)答:F=0下面是COUNT习题14.(1)答:真(2)答:真(3)答:假15.(1)答:真(2)答:真习题5答案下面是FREQUENCIES习题答案。1.(1)答:众数(2)答:众数(3)答:均值(4)答:均值(5)答:众数(6)答:均值(7)答:均值2.(1)答:真(2)答:真(3)答:假(4)答:假(5)答:真3.答:已填补的频次见图5-24中打#标记的数据。 图5-24择偶标准的频率表4.(1)答:画出的book变量的频率表见图5-25。图5-25book变量的频率表(2)答:用直方图为宜。因为直方图可画出空缺的位置,便于一目了然地看出缺的是何种数据。(3)答:直方图与条形图的主要区别见表5-1。 表5-1直方图与条形图的主要区别直方图条形图①适用于区间(定距)以上的数据,如:收入、年龄、工资、体重等。适用于标称(定类)型以上的数据。如:性别、肤色、种族、国别等。②以图形的面积为频次以图形的条形为频次③变量的某种水平空缺时仍留空位置变量的某种水平空缺时,不留空位下面是Descriptive习题答案。5.(1)答:Computepct=income1/income2*100.(2)答:COMPUTEsqrt1=SQRT(x**2).或COMPUTEsqrt1=SQRT(x*x).(3)答:计算变量s的命令为:COMPUTEs=SQRT(a*a+b*b)*4.(4)答:COMPUTEmax1=MAX(a,b,c).6.(1)答:结果为13(2)答:结果为19(3)答:结果为15(4)答:结果为11(5)答:结果为137.(1)答:结果为2(2)答:结果为9(3)答:结果为3(4)答:结果为8(5)答:结果为48.(1)答:其范围为:30岁以下的归入第1组,“30.5”岁以上的归入第2组。(2)答:其范围为:20岁以下的归入第1组,“20.5”岁以上的归入第2组。(3)答:其范围为:8-10岁的归入第1组,18-20岁的归入第2组,其余的忽略不计。(4)答:其范围为:18岁以下的归入第1组,18岁-30岁的归入第2组,“30.5”岁~45岁的归入第3组,“45.5”岁以上的归入第4组。(5)答:其范围为:45岁以下的归入第1组,“45.5”岁以上的归入第2组。(6)答:其范围为:40岁~45岁的归入第1组,“45.5”岁以上的不分组。9.(1)答:无意义(2)答:有意义(3)答:排序后有意义10.(1)答:无意义(2)答:有意义(3)答:无意义11.(1)标称测量(2)比例测量(3)次序测量(4)比例测量(5)区间测量(6)标称测量 12.答:中位数=(355+1)/2=178,即第178个个案为中位数。13.(1)答:能。因为服从正态分布,其均值、中位数、众数均为0.09(2)答:能。因为服从正态分布,其均值、中位数、众数均为0.09(3)答:能。因为其方差等于标准偏差0.12的平方(4)答:不能。因为服从正态分布,其峰态系数为014.答:需要。因为标准值的均值应是0。15.答:其含义是女性占了80%。16.(1)答:假(2)答:有可能,但不一定。17.答:如果我是该公司的经理,我将用均值统计量描述高支付水平。因为该数据的离散性显著,只有采用均值统计量,才能描述高支付水平。答:如果我是该公司的雇员,我将用中位数(或众数)描述低支付水平。因为该数据虽然离散性显著,但绝大多数人集中在低收入范畴,采用中位数(或众数)统计量,能描述实际低支付水平。18.答:填补后的结果见表5-3。表5-3填补空缺值后的表格Mean1.70Variance0.1236StdDev1.06Maximum4Minimum0Mode2Median2Range419.答:填补后的结果见表5-5。表5-5填补标准值Z后的表格StudentStudentStandardScore(Z)175-0.52850.5380020.解:Mean=60Range=60Minimum=30Maximum=90均不变。只是N=99+1=100(人)。21.解答:略。习题6答案1.答:有4名学生月伙食费漏答(0元,被当作极小值)。有19名学生月伙食费在500元以上,这些是极大值。学生月伙食费100元的有5人,120元的有2人。其余照此分析。其中,&表示只列出部分的值。2.答:占半数学生的家中,兄弟姐妹有1~2人,中位数偏向均值之下。极大值1人,界外值1人。3.答:因为Sig值0.25>α值0.05,所以没有理由拒绝原假设。说明方差相同。方差相同时数据可以不转换。又因为斜率=-2.286,查表6-1知,该数据可以不转换。4.答案见书。 习题7答案1.答:该程序运行之后,输出见图7-20。图7-20Crosstabs表格(已填充)2.(1)答:正确。因为不带选项是允许的。(2)答:错误。因为WITH关键词在此是非法的,可改为:CROSSTABShappyBYmaritalBYsex.3.答:没有单个的测量值(即统计量)能概括所有可能的结合测量,如标称测量的统计量LAMBDA虽好,却也不能用于次序数据的测量中。余者类推。4.(1)答:见正文的图7-21,如果性别与地区是互为独立的两个变量,则观察图7-21各单元中的第2行频次。例如(1,1)单元中的行百分比为50.0%,(2,1)单元中的行百分比为60.0%等。(2)答:这个交叉表的自由度为:DF=(行-1)*(列-1)=(2-1)*(2-1)=1(3)答:独立性卡方检验的卡方值为0.166,详见图7-22。图7-22皮尔逊独立性卡方检验5.(1)答:编码方案见表7-2(供参考):表7-2编码方案变量名变量标签变量类型栏位数据(变量值)编码Id个案号数值型1-2Sex性别数值型31=男2=女Age年龄数值型4-8比例测量(RatioMeasure)Dq家庭住址数值型91=城市2=农村Height学生身高数值型10-12比例测量(RatioMeasure) Weight学生体重数值型13-16比例测量(RatioMeasure)score1高考得分数值型17-19比例测量(RatioMeasure)score2高考满分数值型20-22比例测量(RatioMeasure)Mz民族数值型231=汉族2=回族3=朝鲜族4=满族5=苗族6=藏族(2)答:根据(1)的编码方案,可建立以下的程序7.5。程序7.5:DATALIST/ID1-2sex3age4-8dq9height10-12(1)weight13-16(1)score117-19score220-22mz23.VARIABLELABELid"个案号"/sex"性别"/age"年龄"/dq"家庭住址"/height"学生身高"/weight"学生体重"/score1"高考得分"/score2"高考满分"/mz"民族".VALUELABELsex1"男"2"女"/dq1"城市"2"农村"/mz1"汉族"2"回族"3"朝鲜"4"满族"5"苗族"6"藏族".MISSINGVALUEsex(9)age(00000)mz(0)WEIGHT(0000)heightscore1score2(000).BEGINDATA.01120.0011691200502640102121.5021711200497640103220.7511661100777900204119.2511761300770900205222.0011600980525640306119.5021731115527640107222.2511580905492600408220.2511601035494600509123.0021751355608720110119.75117012802654006ENDDATA.SAVEOUTFile="Score.sav".6.答:COMPUTEscore=score1/score2*100.7.答:以下是所要求的命令。程序7.6:COMPUTEgscore=score.RECODEgscore(LOTHRU70=1)(70THRU75=2)(75THRU80=3)(80THRU85=4)(85THRUHI=5).CROSSTABSageBYscore/FORMAT=NOTABLE/STATISTICS=CHISQCORR. CROSSTABSageBYgscore/CELL=ROWColumnTotalCount/STATISTICS=CHISQLAMBDA.评价(略)。习题8答案下面是MEANS过程的习题答案。1.答:其命令为MEANSscoreBYvfBYlocation/MISSING=DEPENDENT.2.(1)答:表达式有误。正确的写法是:IF(vfEQ1ORvf=2ORvf=6)GROUP=1.(2)答:表达式有误。正确的写法是:IF(location=1ANDsex=1)GROUP=1.(3)答:表达式有误。正确的写法是:IF(ageGE20ANDageLE23)GROUP=1.3.(1)答:Means(2)答:Crosstabs(3)答:Frequences(4)答:Means(5)答:Crosstabs4.答:这个高考平均成绩的概括表如图8-24所示。图8-24按城乡考生分组,并进一步按父亲职业分组的高考平均成绩下面是T-Test习题答案。5.(1)答:jobcat≥8的为第1组,jobcat<8的为第2组。(2)答:jobcat=1的为第1组,jobcat=3的为第2组。(3)答:jobcat=1的为第1组,jobcat=2的为第2组。6.(1)答:错误。错在缺少命令的终止符"."。正确的写法是:T-TESTGROUP=sex/VARIABLES=score/PAIRS=income1income2.(2)答:错误。错在子命令PAIRS与GROUPS的位置颠倒了。正确的写法是:T-TESTGROUP=sex/VARIABLES=score/PAIRS=income1income2.(3)答:错误。子命令PAIRS后面少了一个变量INCOME2,正确的写法是:T-TESTPAIRS=income1income2. (4)答:正确。(5)答:错误。错在括号内多了一个值。正确的写法是:T-TESTGROUPS=jobcat(1,2)/var=Score.或T-TESTGROUPS=jobcat(1,3)/var=Score.或T-TESTGROUPS=jobcat(2,3)/var=Score.7.(1)答:假(2)答:假(3)答:真(4)答:假(5)答:假(6)答:假8.(1)答:用单尾检验。(2)答:用双尾检验。9.答:有可能相等。10.(1)答:两个总体的均值差为0。(2)答:两个总体的均值差为0。11.(1)答:当两个总体的方差相等时采用“合并方差”T检验。(2)答:当两个总体的方差不等时采用“分离方差”T检验。12.(1)答案如下:①检测治疗1与治疗3时的命令为T-TESTPAIRS=T1T3.②检测治疗1与治疗3时的输出见图8-25。图8-25治疗1与治疗3平均体重减轻的检验③比较治疗1与治疗3平均体重减轻程度,首先应看治疗1与治疗3,如此配对检验是否有效。从图8-25可以看到CORR=0.396,但双尾检验概率2-tailSig值0.257太大。因此治疗1与治疗3,如此配对检验勉强有效。(CORR值越大,配对越有效)④然后,观察样本。∵治疗1平均体重减轻了1.28公斤,其标准偏差为0.194;治疗3平均体重减轻了1.47公斤,其标准偏差为0.255。∴从此样本看,治疗1与治疗3平均体重减轻的程度是不同的,治疗3的组间变异性也比治疗1的突出,所以,治疗3比治疗1,平均体重减轻的幅度大。⑤再推论到总体。H0:假设两个总体的均值相等验证如下:∵t-value=-2.35其自由度DF=9,计算后得到双尾检验概率2-tailSig为0.044;又∵0.044<α值0.05; ∴从总体看:可拒绝关于“两个总体的均值差为0”的零假设。(2)答:①检测治疗2与治疗3时的命令:T-TESTPAIRS=T2T3.②检测治疗2与治疗3时的图形见图8-26。(a)配对样本的关系度(b)样本检验的统计量(c)总体推论图8-26治疗2与治疗3平均体重减轻的检验③比较治疗2与治疗3平均体重减轻程度,首先应看治疗2与治疗3,如此配对检验是否有效。从图8-26可以看到CORR=0.814(它接近于1)且双尾检验概率2-tailSig为0.004<α值0.05。说明治疗2与治疗3,如此配对检验是很有效的。(CORR值越大,配对越有效)。④然后,比较样本的均值。∵治疗2平均体重减轻了1.38公斤,其标准偏差为0.269;治疗3平均体重减轻了1.47公斤,其标准偏差为0.255。∴从样本看,治疗3与治疗2平均体重减轻的程度是差不多的,虽然治疗2的组间变异性比治疗3的突出,但是治疗3比治疗2,平均体重减轻的幅度差不多。⑤最后推论到总体。H0:假设两个总体的均值差为0。验证如下:∵t-value=-1.78,其自由度DF=9,计算后得到双尾检验概率2-tailSig为0.110;又∵0.110>α值0.05;∴从总体看:没有足够的理由拒绝关于“两个总体的均值差为0”的零假设。13.答:(1)“创建一个新变量T,它等于治疗1与治疗3体重减轻之差”的命令为COMPUTET=T1-T3.(2)“用Frequencies过程,计算变量T的均值、标准偏差和标准误差”的命令为FREQUENCIEST/STATISTICS=MEANSTDDEVSEMEAN.(3)新变量T(它等于治疗1与治疗3体重减轻之差)的Frequences输出结果见图8-27。 图8-27另一种方法产生的结果14.答:由第13题的图8-27的结果,与第12题的图8-25的结果相比可以看到,均值之差都等于-0.187,均值的标准偏差都等于0.252,且标准误差也都等于0.08。所以结果完全相同。下面是ANOVA习题答案。15.答:ANOVAdiasBYrace(1,4)chd(0,1).16.(1)答:错。正确的写法为ANOVAscoreBYregion(1,3)sex(1,2).(2)答:错。正确的写法为ANOVAscoreBYregion(1,3)sex(1,2).(3)答:错。正确的写法为ANOVAscoreBYrace(1,3)sex(1,2).(4)答:对。(5)答:错。正确写法为ANOVAscore1BYrace(1,3)/score2BYsex(1,2).17.(1)答:有12个单元。(2)答:有9个单元。(3)答:有6个单元。18.(1)答:假。(2)答:假。19.答:填空的答案见图8-27后面打“*”的标记。图8-27双因素方差分析表20.答:结果见图8-28。 图8-28双因素方差分析表习题9答案1.(1)答:真(2)答:假(3)答:假(4)答:假(5)答:真(6)答:真2.答:SPSS9.0以后版本产生这种相关矩阵的命令是(2)。3.(1)答:正的好(2)答:正的好(3)答:负的好(4)答:负的好(5)答:负的好4.答:假。因为有可能出现曲线相关。5.答:这是零阶偏相关矩阵,和一般的相关矩阵一样不加控制变量。从图中看到,SEX与LIKE1二者的相关系数为-0.3115,呈现负相关。比如女生业余时间更趋向于读书学习,而男生业余时间更趋向于交友或文体活动。性别与恋爱与否之间也呈现负相关,女生已恋爱的人数比男生多。6.答:不加控制变量时,SEX与LIKE1二者的相关系数为-0.3115。控制V变量后SEX与LIKE1之间的一阶偏相关系数为为-0.2736。绝对值减少了约0.004,很小。说明学生恋爱与否(变量V)尚未影响SEX与LIKE1二者的相关系数。习题10答案1.(1)答:假。正确的命令为MULTRESPONSE/GROUPS=$v1’多重应答分组总变量名’(v1TOv4(1,3)).(2)答:假。正确的命令如下:MULTRESPONSE/GROUPS=$v’多重应答组群变量’(ABC(1,2))/VARIABLES=location(1,2)/FREQUENCIES$vlocation.(3)答:假。正确的命令为MULTRESPONSE/GROUPS=$v’多重应答组群变量’(v1TOv3(1,2)) /VARIABLES=sex("M","F")(*注:非数字型)/FREQUENCIES=$vsex.2.答案略。3.答:正文图10-12是“业余爱好的复选项频次统计表”,每一个人最多可以选择3次(项),所以Count一栏的频次为369人,而不是实际人数的“ValidCases=181人”。但Frequences过程产生的频率表是以Frequency作为频次标签(而不是以Count为标签),而且实际频次将是“ValidCases=181人”。4.答:正文图10-13是一种性别与业余爱好“复选项”的交叉汇总表。是基于复选频次的双变量的交叉汇总表。不像Crosstabs过程那样基于Cases分布的交叉汇总表。5.(1)答:以正文图10-13的男生为例:RowTotal(1)=160÷364=44(%)(2)答:以正文图10-13的“交朋友”一栏为例:ColumnTotal(4)=42÷364=11.5(%)(3)答:正文图10-13中,男生业余时间选择“看小说读报”的频次最多,占男生总复选频次的39.3%。女生业余时间选择“看小说读报”的频次也是最多,占女生总复选频次的60.7%。从总体看,“看小说读报”的复选频次最多,占总复选频次的41.2%。“听戏看电影”的复选频次次多,占总复选频次的23.4%。“唱歌跳舞”的复选频次最少,占总复选频次的11%。习题11答案1.(1)答:与WilcoxonSignedRanks检验或Sign检验相似(2)答:与TwoIndependentSample检验相似(3)答:与Mann-Whitney检验相似。(4)答:与TwoRelatedSample检验相似2.(1)答:两组样本有相同的分布。即来自同一个总体。(2)答:K个独立样本来自同一个总体(3)答:一对样本没有差异。(4)答:实际值与理论值相等。3.(1)答:H0:男生和女生期末成绩有相同的分布。如正文的图11-13(c)所示,男生和女生的“均秩”相似,而且逼近的Sig值0.572,大于α值0.05。所以没有足够的理由拒绝H0,表明男生和女生期末成绩有相同的分布。(2)答:H0:男生和女生的期中成绩有相同的正态分布。从正文的图11-14看,男生和女生逼近的Sig值0.000,小于α值0.05。所以有理由拒绝H0,表明男生和女生期中成绩不是正态分布。(3)答:根据正文图11-15的结果,要检验甲乙两班期中考试的成绩有无差异,先假设如下(配对样本检验)。H0:甲乙两班期中成绩没有差别。∵图11-15(c)中的男生和女生的逼近的Sig值0.000,小于α值0.05。∴有理由拒绝H0。表明甲乙两班期中成绩有差别。习题12答案1.答:在回归模型的假设与检验中,它是F检验的有意义的基本假设。在回归系数为0的假设与检验中,它又是T检验的有意义的基本假设。2.答:因为当F的实际值>F的理论值,或SIG<α值0.05时,B1=B2=B3=……Bk=0 的假设便被拒绝。3.答:错。因为每次进入一个自变量时,R2应该增加,而不是减少。所以第3步的R2不应该是0.4310。4.答:下一个进入方程的变量是“入学成绩”变量。因为它的PartialCorrelation(偏相关系数)最大,而Sig值最小,且0.02<α值0.05。5答:下一次应淘汰“父亲的职业”变量,因为t=0.434(最小),且0.4340时,eBi将大于1,它意味着事件发生的Odd率增大了。当Bii<0时,eBi将小于1,它意味着事件发生的Odd减小了。比如e-0.9943=0.3700表示某变量值从0变化到1时,事件发生的概率值增加到0.37倍。6.答:图13-11是只含常数项的Logistic回归模型,其-2LL=48.0003。如果一个回归模型非常完美地拟合数据,则-2LL=0,但几乎不可能做到。7.答:正文图13-12中-2LL=30.0。这是迭代终止时模型的-2LL值。由此,我们来讨论以下几个统计量:(1)ModelChi-square:当前模型的卡方值。当前模型的卡方值,等于初始模型(只有参数没有自变量的模型)的-2LL值,减去模型终止时的-2LL值。因此,模型的卡方值=40.0001-30.0≈10.000。(2)df:当前模型的自由度为5。当前模型的自由度,等于当前模型的自由度减去初始模型的自由度。因此,当前模型的自由度=5-0=5。(3)Improvement:改善后的卡方变化量。所谓改善后的卡方,是指第1步比第0步,或第2步比第1步,即上下步回归完成之后,卡方值剩下了多少。在本例中,由于只执行一步回归,所以,改善后的卡方值=当前模型的卡方值=10.0。从改善后的卡方值10及自由度5,可进行如下的假设与检验(如同多元回归中的F检验)。H0(零假设):变量进入方程后的最后一步,回归系数为0。H1(备择假设):变量进入方程后,回归系数不为0。证明:∵Improvement的卡方值=10.0,自由度为5,查表得SIG值0.4>α值0.05。∴没有理由拒绝H0(零假设)。它说明变量进入方程后的最后一步,模型的系数为0;也说明模型不理想。下面是CurveRegression习题的答案。8.答:从正文图13-13的Sigf值看,显著性水平是显著的,模型是合格的。但线性回归模型更便于解释。9.答:从正文图13-13看,三次曲线的R2=0.708虽然最大,但是与线性回归的R2=0.696相比,几乎相近。为了便于解释回归,应该采用线性回归。习题14答案1.答:其一是Descriptive过程中的Z分(标准分)。例:Descriptiveageweight(ZageZweight)/save.(存储年龄、体重变量的标准分)。其二是Cluster过程本身的Zscore功能。2.答:0.02。 3.答:①单一连接法。②远距离的紧邻连接法。4.答:①第1步:第4、3个案合并为一个类型。②第2步:第2号个案是Riben,与第4、3号个案合并为一个较大的类。③第3步:第1号个案才与第4、3、2号个案合并为一个完整的大类。习题15答案1.答:在主成分分析中,是以各个变量的线性结合,作为因素的形成的,一个主成分为一个因素。第1个主成分因素,是样本变量线性结合中具有最大方差者。第2个主成分因素,是与第1个主成分不相关而且是具有第二大“方差”的线性结合。余者类推。2.答:各个变量所对应的因素共通性,最小值若是0.1,最大值若是0.723,相差很大而且离“1”值较远,则要对因素模型进行拟合优度的检测。3.答:计算矩阵中残差绝对值大于0.05的个数及百分比。如果残差绝对值大于0.05的个数太多,表明该模型不理想。4.答:其一是Eigenvalue(特征值)≥1的主成分将自动被作为因素抽取。其二是人为地在图15-5的Extraction对话框中的“Numberoffactors”中指定某值。其三可按照“碎石图”特点,决定抽取公共因素的个数。5.答:因为Factor2是“社交”因素,说明与同学能睦邻友好地相处的原因中,78%来自社交能力强的因素。6.答案略。习题16答案1.(1)解:准备推出格力1.25P冷暖式空调的技术特性有3种组合:KTx1产品(3800元,噪声20分贝);KTx2产品(3800元,噪声25分贝);KTx3产品(3800元,噪声30分贝)。所以首先要计算出5种空调(KFR-25GW、KFR-2801GW、KTx1、KTx2、KTx3)对顾客的效度,即海尔(KFR-25GW)效度=U(价格+品牌+噪声+制冷暖)=0.1333+0.0889+0.0000+0.1111=0.3333海信(KFR-2801GW)效度=0.1111-0.0889+0.0444+0.1111=0.1777格力(KTx1)效度=0.1111+0.0000+0.0444+0.1111=0.2666格力(KTx2)效度=0.1111+0.0000+0.0000+0.1111=0.2222格力(KTx3)效度=0.1111+0.0000-0.0444+0.1111=0.1778(2)显见:格力(KTx3)效度>海信(KFR-2801GW)效度,即0.1778>0.1777,表明只要推出KTx3产品(3800元、噪声30分贝、冷暖式)的格力空调,就可以赢过海信KFR-2801GW产品(3800元、噪声20分贝、冷暖式)。但是格力(KTx3)的效度<<海尔(KFR-25GW)的效度,表明除非改进产品,否则这种格力空调根本战胜不了该海尔主流产品。2.答案见表16-2。习题17答案1.答:对于单因变量ANOVA的假设检验必须具备如下的必要条件:各组必须是来自有相同方差的、正态总体的、随机的样本。 2.答:对于复方差分析,仍然需要ANOVA的假设条件。由于是对几个因变量的联合处理,所以还必须假设“变量一起进入分析时呈现正态分布”。由ANOVA扩充到多因变量GLM(即MANOVA),要求因变量具有下列条件:(1)联合的多因变量呈现正态分布;(2)且每一组都有相同的方差-协方差矩阵。3.答:单因变量GLM检验近似于ANOVA检验,假设检验是检验各组对应的因变量的均值没有差异。而在多因变量GLM(或MANOVA)检验中,均值是用假定值(比如0)代替的,然后检验“因变量的均值与假定值之间的差等于0”的零假设。4.答:在方差-协方差矩阵中,对角项是变量的方差,对角项以外是配对变量的协方差。方差-协方差矩阵可转换为相关矩阵,转换法是(每个协方差÷对应的配对变量的标准偏差)。5.答:单样本t检验是检验“样本来自均值已知的总体”的假设。比如,可能需要如下的假设与检验。一个班级的平均成绩与整个年级的总平均成绩没有不同;或一个社会小群体的社会责任感,与大群体的社会责任感一样。Hotelling提出的一个检验法叫做Hotelling的T2,这种检验适用于一组被试对象同时进行几种不同的观测试验。由此检验各次观测值是否与某总体集合的常数值相同?*6.答:Bartlett的球状检验是用于检验总体相关矩阵是一个单位矩阵的假设,即对角项上的值为1,其余(非对角项)为0。如果因变量互为独立,则是一个单位矩阵。当因变量没有相关时,根本不必要进行MANOVA分析,因此研究因变量的相关矩阵是很有益处的。*7.答:当因变量互不相关时,由于不必采用多因变量MANOVA分析,因此在作MANOVA分析之前作Bartlett的球状检验则是十分必要的。Bartlett的球状检验是基于误差相关矩阵的行列式。因此,如果行列式值的显著性水平很小(小于α值0.05),相关矩阵则不是一个单位矩阵,即因变量互为相关。8.答:总体均值与假定值相同的假设被拒绝之后,往往要着手单变量t检验,以获得差异之所在。9.答:在单样本的HotellingT2检验中,由于只有一个矩阵,所以不需要担心方差-协方差矩阵的方差齐性(即等方差性)问题。但在双样本的t检验中,每组一个矩阵,一共有2个矩阵,因此需要检验方差齐性。10.答:它是检验几组均值相等的假设。当双样本的方差不等时,才需要继续进行HotellingT2检验。11.答:要作单变量的Hotelling的T2检验。12.答:Wilks的λ值若为0.9以上,说明有90%以上的变异性无法由组间差异解释。Wilks的λ值还可用于检验总体上两组均值没有不同的零假设。这时,是把Wilks的λ值转换为一个变量,此变量服从F分布。当有两组时,Wilksλ的F值等于Hotelliong的T2。13.答:多因变量是指一个模型中有2个或2个以上的因变量,多因素是指实验的对象分为两组或两组以上。14.答:下一步应通过转换因变量来稳定方差。15.答:主成分分析法通过单元内相关矩阵的主成分分析,进而研究因变量之间的依存性。一旦主成分分析指出:某变量可表示成其它变量的线性结合时,则“误差平方和”及叉积矩阵是奇异的(singular),而且,不能获得唯一的逆矩阵。16.答:对于更为复杂的模型,需要将常用的方差分析的F检验,推广到多因变量的分析中。ANOVA单变量的F检验值等于“假设的均方值÷误差均方值”的比率。但是,因变量多于一个时,将不再能用如此简单的数值来表示(假设的均方值MSH÷ 误差均方值MSE)之比率,而是采用Hotelling的T2检验。而且对于假设平方和及叉积矩阵,必须将它们组合成某个统计量。17.答:复方差分析与单变量的方差分析相似,是按逆序检验各个效应项的,即首先检验高次项效应,接着检验较低次项效应,最后检验最低次项效应;因为当存在高次项时,低次项便难于解释。例如,当存在性别BY年龄交互效应项时,若再去检验性别主效应项或年龄主效应项则不但毫无意义,而且往往会因假乱真而误入歧途。18.答:当多因变量分析的显著性水平小于α值0.05时,则有必要讨论单变量统计量,因为单变量统计量可帮助判断哪个因变量对总体方差贡献最大。19.答:应进行判别分析。因为通过判别分析中的特征值或典型相关(CanonCorr值),可知道交互效应的强弱程度。20.答:交互效应不存在,因此应检验各个主效应项。21.答:所谓不平衡数据,是指单元的样本容量不等。在多因变量复方差分析中,样本容量不等同样会导致总平方和不能分解的难题。因此,对于此类不平衡数据的平方和的计算,其算法有多种,且不同类型的平方和对应不同的假设检验。下面列举两种常用的算法:(1)Uniqure法:最常用的一种平方和计算法,又被称为回归法,即一个效应由其它所有效应修正。此为默认方法。(2)Sequential法:顺序法,即模型中,一个效应只修正前一个效应。22.答:一张残差分析表提供了单元的原始均值和期望的均值,通过两组均值的对照,就可看出哪个单元的实际观察值高于期望值,实际观察值越高,单元的效度也越高。注意:本书的习题答案也适用于“阮桂海.统计分析应用教程—SPSS,LISREL&SAS实例精选.北京.清华大学出版社.2003年7月版”一书相关篇章后面的习题答案。'