• 4.01 MB
  • 2022-04-22 11:42:00 发布

《生物统计学》(杜荣骞第三版)课后习题答案.doc

  • 140页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'第一章统计数据的收集与整理1.1算术平均数是怎样计算的?为什么要计算平均数?答:算数平均数由下式计算:,含义为将全部观测值相加再被观测值的个数除,所得之商称为算术平均数。计算算数平均数的目的,是用平均数表示样本数据的集中点,或是说是样本数据的代表。1.2既然方差和标准差都是衡量数据变异程度的,有了方差为什么还要计算标准差?答:标准差的单位与数据的原始单位一致,能更直观地反映数据地离散程度。1.3标准差是描述数据变异程度的量,变异系数也是描述数据变异程度的量,两者之间有什么不同?答:变异系数可以说是用平均数标准化了的标准差。在比较两个平均数不同的样本时所得结果更可靠。1.4完整地描述一组数据需要哪几个特征数?答:平均数、标准差、偏斜度和峭度。1.5下表是我国青年男子体重(kg)。由于测量精度的要求,从表面上看像是离散型数据,不要忘记,体重是通过度量得到的,属于连续型数据。根据表中所给出的数据编制频数分布表。666964656466686562646961616866576669666570645867666667666662666664626265646566726066656161666762656561646264656265686865676862637065646562666263686568576766686364666864636064696566676767656767666864675966656356666363666763706770626472696767666864657161636164646769706664656463706462697068656365666468696563676370656867696665676674646965646565686765656667726567626771696565756269686865636666656261686564676664606168676359656064636962716960635967616869666469656867646466697368606063386267656569656765726667646164666363666666636563676866626361666163686566696466706970636465646767656662616565606365626664答:首先建立一个外部数据文件,名称和路径为:E:dataexer1-5e.dat。所用的SAS程序和计算结果如下:procformat;valuehfmt56-57="56-57"58-59="58-59"60-61="60-61"62-63="62-63"64-65="64-65"66-67="66-67"-140- 68-69="68-69"70-71="70-71"72-73="72-73"74-75="74-75";run;dataweight;infile"E:dataexer1-5e.dat";inputbw@@;run;procfreq;tablebw;formatbwhfmt.;run;TheSASSystemCumulativeCumulativeBWFrequencyPercentFrequencyPercent-----------------------------------------------------56-5731.031.058-5941.372.360-61227.3299.762-634615.37525.064-658327.715852.766-677725.723578.368-694515.028093.370-71134.329397.772-7351.729899.374-7520.7300100.01.6将上述我国男青年体重看作一个有限总体,用随机数字表从该总体中随机抽出含量为10的两个样本,分别计算它们的平均数和标准差并进行比较。它们的平均数相等吗?标准差相等吗?能够解释为什么吗?答:用means过程计算,两个样本分别称为和,结果见下表:TheSASSystemVariableNMeanStdDev----------------------------------------Y11064.50000003.5039660Y21063.90000003.1780497----------------------------------------随机抽出的两个样本,它们的平均数和标准差都不相等。因为样本平均数和标准差都是统计量,统计量有自己的分布,很难得到平均数和标准差都相等的两个样本。1.7从一个有限总体中采用非放回式抽样,所得到的样本是简单的随机样本吗?为什么?本课程要求的样本都是随机样本,应当采用哪种抽样方法,才能获得一随机样本?答:不是简单的随机样本。从一个有限总体中以非放回式抽样方法抽样,在前后两次抽样之间不是相互独立的,后一次的抽样结果与前一次抽样的结果有关联,因此不是随机样本。应采用随机抽样的方法抽取样本,具体说应当采用放回式抽样。1.8证明若用或编码时,前式是否仍然相等?-140- 答:(1)令则平均数特性之③。(2)令则平均数特性之②。用第二种编码方式编码结果,两式不再相等。1.9有一个样本:,设B为其中任意一个数值。证明只有当最小。这是平均数的一个重要特性,在后面讲到一元线型回归时还会用到该特性。答:令,为求使p达最小之B,令则。1.10检测菌肥的功效,在施有菌肥的土壤中种植小麦,成苗后测量苗高,共100株,数据如下[1]:10.09.37.29.18.58.010.510.69.610.17.06.79.57.810.57.98.19.67.69.410.07.57.25.07.38.77.16.15.26.810.09.97.54.57.67.09.76.28.06.98.38.610.04.84.97.08.38.47.87.56.610.06.59.58.511.09.76.610.05.06.58.08.48.37.47.48.17.77.57.17.87.68.66.07.06.46.76.36.411.010.57.85.08.07.07.45.26.79.08.64.66.93.56.29.76.45.86.49.36.4-140- 编制苗高的频数分布表,绘制频数分布图,并计算出该样本的四个特征数。答:首先建立一个外部数据文件,名称和路径为:E:dataexr1-10e.dat。SAS程序及结果如下:optionsnodate;procformat;valuehfmt3.5-4.4="3.5-4.4"4.5-5.4="4.5-5.4"5.5-6.4="5.5-6.4"6.5-7.4="6.5-7.4"7.5-8.4="7.5-8.4"8.5-9.4="8.5-9.4"9.5-10.4="9.5-10.4"10.5-11.4="10.5-11.4";run;datawheat;infile"E:dataexr1-10e.dat";inputheight@@;run;procfreq;tableheight;formatheighthfmt.;run;proccapabilitygraphicsnoprint;varheight;histogram/vscale=count;insetmeanvarskewnesskurtosis;run;TheSASSystemTheFREQProcedureCumulativeCumulativeheightFrequencyPercentFrequencyPercent---------------------------------------------------------------------3.5-4.411.0011.004.5-5.499.001010.005.5-6.41111.002121.006.5-7.42323.004444.007.5-8.42424.006868.008.5-9.41111.007979.009.5-10.41515.009494.0010.5-11.466.00100100.00-140- 1.11北太平洋宽吻海豚羟丁酸脱氢酶(HDBH)数据的接收范围频数表[2]如下:(略作调整)HDBH数据的接收范围/(U·L-1)频数<2141<245.90913<277.818211<309.727319<341.636426<373.545522<405.454511<437.363613<469.27276<501.18183<533.09092根据上表中的数据作出直方图。答:以表中第一列所给出的数值为组界,直方图如下:-140- 1.12灵长类手掌和脚掌可以握物一侧的皮肤表面都有突起的皮肤纹嵴。纹嵴有许多特征,这些特征在胚胎形成之后是终生不变的。人类手指尖的纹型,大致可以分为弓、箕和斗三种类型。在手指第一节的基部可以找到一个点,从该点纹嵴向三个方向辐射,这个点称为三叉点。弓形纹没有三叉点,箕形纹有一个三叉点,斗形纹有两个三叉点,记录从三叉点到箕或斗中心的纹嵴数目称为纹嵴数(fingerridgecount,FRC)。将双手十个指尖的全部箕形纹的纹嵴数和/或斗形纹两个纹嵴数中较大者相加,称为总纹嵴数(totalfingerridgecount,TFRC)。下表给出了大理白族人群总纹嵴数的频数分布[3]:TFRC分组中值频数11~3020231~5040151~7060871~90802991~11010054111~13012063131~15014068151~17016051171~19018018191~2102006首先判断数据的类型,然后绘出样本频数分布图,计算样本的四个特征数并描述样本分布形态。答:总纹脊数属计数数据。计数数据的频数分布图为柱状图,频数分布图如下:样本特征数(以TFRC的中值计算)SAS程序:optionsnodate;datatfrc;doi=1to10;inputy@@;inputn@@;doj=1ton;output;end;end;cards;202401608-140- 802910054120631406816051180182006;run;procmeansmeanstdskewnesskurtosis;vary;run;结果见下表:TheSASSystemAnalysisVariable:YMeanStdDevSkewnessKurtosis------------------------------------------------------126.533333332.8366112-0.2056527-0.0325058------------------------------------------------------从频数分布图可以看出,该分布的众数在第七组,即总纹脊数的中值为140的那一组。分布不对称,平均数略小于众数,有些负偏。偏斜度为-0.2056527,偏斜的程度不是很明显,基本上还可以认为是对称的,峭度几乎为零。1.13海南粗榧叶长度的频数分布[4]:叶长度/mm中值频数2.0~2.22.13902.2~2.42.314342.4~2.62.526432.6~2.82.735462.8~3.02.956923.0~3.23.151873.2~3.43.343333.4~3.63.527673.6~3.83.716773.8~4.03.91137nag4.0~4.24.16674.2~4.44.33464.4~4.64.5181绘出频数分布图,并计算偏斜度和峭度。答:表中第一列所给出的数值为组限,下图为海南粗榧叶长度的频数分布图。-140- 计算偏斜度和峭度的SAS程序和计算结果如下:optionsnodate;datalength;doi=1to13;inputy@@;inputn@@;doj=1ton;output;end;end;cards;2.13902.314342.526432.735462.956923.151873.343333.527673.716773.911374.16674.33464.5181;run;procmeansnskewnesskurtosis;vary;run;TheSASSystemAnalysisVariable:YnSkewnessKurtosis---------------------------------300000.41064580.0587006---------------------------------样本含量n=30000,是一个很大的样本,样本的偏斜度和峭度都已经很可靠了。偏斜度为0.41,有一个明显的正偏。1.14马边河贝氏高原鳅繁殖群体体重分布如下[5]:体质量/g中值雌鱼雄鱼2.00~3.002.5014-140- 3.00~4.003.50674.00~5.004.5013115.00~6.005.5030256.00~7.006.5025257.00~8.007.5016238.00~9.008.5021179.00~10.009.50181610.00~11.0010.5012411.00~12.0011.50312.00~13.0012.502首先判断数据的类型,然后分别绘制雌鱼和雄鱼的频数分布图,计算样本平均数、标准差、偏斜度和峭度并比较两者的变异程度。答:鱼的体重为度量数据,表中第一列所给出的数值为组限。在下面的分布图中雌鱼和雄鱼的分布绘在了同一张图上,以不同的颜色表示。计算统计量的SAS程序与前面的例题类似,这里不再给出,只给出结果。雌鱼:TheSASSystemAnalysisVariable:YNMeanStdDevSkewnessKurtosis-----------------------------------------------------------1477.24149662.14568200.2318337-0.6758677-----------------------------------------------------------雄鱼:TheSASSystemAnalysisVariable:YNMeanStdDevSkewnessKurtosis-----------------------------------------------------------1326.78030301.9233971-0.1322816-0.5510332-----------------------------------------------------------直观地看,雄鱼的平均体重低于雌鱼。雌鱼有一正偏,雄鱼有一负偏。因此,相对来说雌鱼低体重者较多,雄鱼高体重者较多。但两者都有很明显的负峭度,说明“曲线”-140- 较平坦,两尾翘得较高。1.15黄胸鼠体重的频数分布[6]:组界/g频数0<≤151015<≤302630<≤453045<≤602260<≤752275<≤901790<≤10516105<≤12014120<≤1356135<≤1504150<≤1652总数169绘制频数分布图,从图形上看分布是对称的吗,说明什么问题?答:下面是频数分布图:从上图可见,图形不是对称的,有一些正偏。说明在该黄雄鼠群体中,低体重者分布数量,高于高体重者的数量。另外,似乎峭度也有些低。1.1625名患者入院后最初的白细胞数量(×103)[7]如下表:851241168771273111411966561014455计算白细胞数量的平均数、方差和标准差。答:用means过程计算,程序不再给出,只给出运行结果。TheSASSystemAnalysisVariable:Y-140- NMeanVarianceStdDev-------------------------------------------257.840000010.30666673.2103998--------------------------------------------1.17细胞珠蛋白基因(CYGB)可能是非小细胞肺癌(NSCLC)的抑制基因之一。一个研究小组研究了该基因的表达、启动子甲基化和等位基因不平衡状态等,以便发现它与肿瘤发病间的关联。下面列出了其中15名患者的基因表达(肿瘤患者/正常对照,T/N),肿瘤患者与正常对照甲基化指数差(MtIT-MtIN)[8]:样本号T/NMtIT-MtIN3570.0140.4193700.0190.0173670.0350.1053160.0440.3333690.0540.1703580.0840.2463030.1110.2423140.1350.3643080.2360.0513100.2530.5203410.2640.2003480.3150.1033230.3590.1673600.4220.1763360.4420.037计算以上两项指标的平均数和标准差并计算两者的变异系数,这两个变异系数可以比较吗?为什么?答:记T/N为,MtIT-MtIN为,用means过程计算,SAS运行的结果见下表:TheSASSystemVariableNMeanStdDevCV------------------------------------------------------Y1150.18580000.150562481.0346471Y2150.21000000.146527469.7749634------------------------------------------------------两个变异系数是可以比较的,因为它们的标准差都是用平均数标准化了的,已经不存在不同单位的影响了。第二章概率和概率分布2.1做这样一个试验,取一枚五分硬币,将图案面称为A,文字面称为B。上抛硬币,观察落下后是A向上还是B向上。重复10次为一组,记下A向上的次数,共做10组。再以100次为一组,1000次为一组,各做10组,分别统计出A的频率,验证2.1.3的内容。答:-140- 在这里用二项分布随机数模拟一个抽样试验,与同学们所做的抽样试验并不冲突。以变量Y表示图向上的次数,n表示重复的次数,m表示组数,每次落下后图向上的概率φ=1/2。SAS程序如下,该程序应运行3次,第一次n=10,第二次n=100,第三次n=1000。optionsnodate;datavalue;n=10;m=10;phi=1/2;doi=1tom;retainseed3053177;doj=1ton;y=ranbin(seed,n,phi);output;end;end;datadisv;setvalue;byi;iffirst.ithensumy=0;sumy+y;meany=sumy/n;py=meany/n;iflast.ithenoutput;keepnmphimeanypy;run;procprint;title"binomialdistribution:n=10m=10";run;procmeansmean;varmeanypy;title"binomialdistribution:n=10m=10";run;以下的三个表是程序运行的结果。表的第一部分为每一个组之Y的平均结果,包括平均的频数和平均的频率,共10组。表的第二部分为10组数据的平均数。从结果中可以看出,随着样本含量的加大,样本的频率围绕0.5做平均幅度越来越小的波动,最后稳定于0.5。binomialdistribution:n=10m=10OBSNMPHIMEANYPY110100.55.70.57210100.54.50.45310100.55.10.51410100.56.10.61510100.56.10.61610100.54.30.43710100.55.60.56810100.54.70.47910100.55.20.521010100.55.60.56binomialdistribution:n=10m=10VariableMean----------------------MEANY5.2900000PY0.5290000-----------------------140- binomialdistribution:n=100m=10OBSNMPHIMEANYPY1100100.549.710.49712100100.549.580.49583100100.550.370.50374100100.550.110.50115100100.549.700.49706100100.550.040.50047100100.549.200.49208100100.549.740.49749100100.549.370.493710100100.549.860.4986binomialdistribution:n=100m=10VariableMean----------------------MEANY49.7680000PY0.4976800----------------------binomialdistribution:n=1000m=10OBSNMPHIMEANYPY11000100.5499.2780.4992821000100.5499.6790.4996831000100.5499.1080.4991141000100.5500.0460.5000551000100.5499.8170.4998261000100.5499.2360.4992471000100.5499.5310.4995381000100.5499.9360.4999491000100.5500.0110.50001101000100.5500.3040.50030binomialdistribution:n=1000m=10VariableMean----------------------MEANY499.6946000PY0.4996946----------------------2.2每个人的一对第1号染色体分别来自祖母和外祖母的概率是多少?一位男性的X染色体来自外祖父的概率是多少?来自祖父的概率呢?答:(1)设A为一对第1号染色体分别来自祖母和外祖母的事件,则(2)设B为男性的X染色体来自外祖父的事件,则(3)设C为男性的X染色体来自祖父的事件,则-140- 2.3假如父母的基因型分别为IAi和IBi。他们的两个孩子都是A型血的概率是多少?他们生两个O型血女孩的概率是多少?答:父:母:2.4白化病是一种隐性遗传病,当隐性基因纯合时(aa)即发病。已知杂合子(Aa)在群体中的频率为1/70,问一对夫妻生出一名白化病患儿的概率是多少?假如妻子是白化病患者,她生出白化病患儿的概率又是多少?答:(1)已知所以(2)已知所以-140- 2.5在图2-3中,III1为Aa个体,a在群体中的频率极低,可排除a多于一次进入该系谱的可能性,问III2亦为a的携带者的概率是多少?答:设:事件A:III1含a,事件B:II2含a,事件C:I3含a,事件D:II2含a,事件E:III2含a,事件C’:I4含a,图2-3同理可得:故III2含a总的概率为:2.6一个杂合子AaBb自交,子代基因型中有哪些基本事件?可举出哪些事件?各事件的概率是多少?答:1.共有16种基因型,为16个基本事件。AABBAAbBaABBaAbBAABbAAbbaABbaAbbAaBBAabBaaBBaabB-140- AaBbAabbaaBbaabb2.可举出的事件及其概率:A1:包含四个显性基因={AABB}A2:包含三个显性基因={AABb,AAbB,AaBB,aABB}A3:至少包含三个显性基因={AABb,AAbB,AaBB,aABB,AABB}A4:包含两个显性基因={AaBb,AabB,aABb,aAbB,AAbb,aaBB}A5:至少包含两个显性基因={AaBb,AabB,aABb,aAbB,AAbb,aaBBAABb,AAbB,AaBB,aABB,AABB}A6:包含两个不同的显性基因={AaBb,AabB,aABb,aAbB}A7:包含两个相同的显性基因={AAbb,aaBB}⋮2.7一对表型正常的夫妻共有四名子女,其中第一个是隐性遗传病患者。问其余三名表型正常的子女是隐性基因携带者的概率是多少?答:样本空间W={AA,Aa,aA}2.8自毁容貌综合征是一种X连锁隐性遗传病,图2-4是一个自毁容貌综合征患者的家系图。该家系中III2的两位舅父患有该病,III2想知道她的儿子患该病的概率是多少?(提示:用Bayes定理计算II5在已生四名正常男孩的条件下是携带者的条件概率)图2-4答:若IV1是患者,III2必定是携带者,II5亦必定是携带者。已知II2和II3为患者,说明I2为杂合子,这时II5可能是显性纯合子也可能是杂合子。称II5是杂合子这一事件为A1,II5是显性纯合子这一事件为A2,则:-140- 设II5生4名正常男孩的事件为事件B,则II5为杂合子的条件下,生4名正常男孩(III3至III6)的概率为:II5为显性纯合子的条件下,生4名正常男孩的概率为:将以上各概率代入Bayes公式,可以得出在已生4名正常男孩条件下,II5为杂合子的概率:由此得出III2为杂合子的概率:P(III2为杂合子)以及III2的儿子(IV1)为受累者的概率:P(IV1为患者)2.9Huntington舞蹈病是一种由显性基因引起的遗传病,发病年龄较迟,图2-5为一Huntington舞蹈病的家系图。III1的外祖父I1患有该病,III1现已25岁,其母II2已43岁,均无发病迹象。已知43岁以前发病的占64%,25岁以前发病的占8%,问III1将发病的概率是多少?(提示:用Bayes定理先求出II2尚未发病但为杂合子的条件概率)答:根据以上资料可以得出:II2为杂合子的概率II2为正常纯合子的概率II2为杂合子,但尚未发病的概率=0.36II2为正常纯合子,但尚未发病的概率图2-5因此,II2尚未发病但为杂合子的概率III1为杂合子的概率-140- III1为正常纯合子的概率III1为杂合子,但尚未发病的概率III1为正常纯合子,但尚未发病的概率因此,III1尚未发病,但为杂合子的概率所以,III1为该病患者的概率为12%。2.10一实验动物养殖中心,将每30只动物装在一个笼子中,已知其中有6只动物体重不合格。购买者从每一笼子中随机抽出2只称重,若都合格则接受这批动物,否则拒绝。问:(1)检查第一只时就不合格的概率?(2)第一只合格,第二只不合格的概率?(3)接受这批动物的概率?答:(1)设A为第一只不合格的事件,则(2)设B为第二只不合格的事件,则(3)接受这批动物的概率2.11一名精神科医生听取6名研究对象对近期所做梦的叙述,得知其中有3名为忧郁症患者,3名是健康者,现从6名研究对象中选出3名,问:(1)一共有多少种配合?(2)每一种配合的概率?(3)选出3名忧郁症患者的概率?(4)至少选出两名忧郁症患者的概率?答:(1)(2)(3)(4)2.12图2-6-140- 为包含两个平行亚系统的一个组合系统。每一个亚系统有两个连续控制单元,只要有一个亚系统可正常工作,则整个系统即可正常运行。每一单元失灵的概率为0.1,且各单元之间都是独立的。问:(1)全系统可正常运行的概率?(2)只有一个亚系统失灵的概率?图2-6(3)系统不能正常运转的概率?答:(1)P(全系统可正常运行)=0.94+0.93×0.1×4+0.92×0.12×2=0.9639(2)P(只有一个亚系统失灵)=0.92×0.12×2+0.93×0.1×4=0.3078(3)P(系统不能正常运转)=0.14+0.13×0.9×4+0.12×0.92×4=0.0361或=1–0.9639=0.03612.13做医学研究需购买大鼠,根据研究的不同需要,可能购买A,B,C,D四个品系中的任何品系。实验室需预算下一年度在购买大鼠上的开支,下表给出每一品系50只大鼠的售价及其被利用的概率:品系每50只的售价/元被利用的概率A500.000.1B750.000.4C875.000.3D100.000.2问:(1)设Y为每50只大鼠的售价,期望售价是多少?(2)方差是多少?答:(1)(2)2.14Y为垂钓者在一小时内钓上的鱼数,其概率分布如下表:y0123456p(y)0.0010.0100.0600.1850.3240.3020.118问:(1)期望一小时内钓到的鱼数?(2)它们的方差?答:0×0.001+1×0.010+2×0.060+3×0.185+4×0.324+5×0.302+6×0.118=4.2σ2=02×0.001+12×0.010+22×0.060+32×0.185+42×0.324+52×0.302+62×0.118–4.22=1.2572.15一农场主租用一块河滩地,若无洪水,年终可望获利20000元。若出现洪灾,他将赔掉12000元(租地费、种子、肥料、人工费等)。根据常年经验,出现洪灾的概率为0.4。问:(1)农场主期望赢利?-140- (2)保险公司应允若投保1000元,将补偿因洪灾所造成的损失,农场主是否买这一保险?(3)你认为保险公司收取的保险金是太多还是太少?答:(1)未投保的期望赢利:E(X)=20000×0.6+(12000)×0.4=7200(元)(2)投保后的期望赢利:E(X)=(20000–1000)×0.6+(−1000)×0.4=11000(元)。当然要买这一保险。(3)保险公司期望获利:E(X)=1000×0.6+(−12000+1000)×0.4=−3800(元)收取保险金太少。第三章几种常见的概率分布律3.1有4对相互独立的等位基因自由组合,问有3个显性基因和5个隐性基因的组合有多少种?每种的概率是多少?这一类型总的概率是多少?答:代入二项分布概率函数,这里φ=1/2。结论:共有56种,每种的概率为0.00390625(1/256),这一类型总的概率为0.21875。3.25对相互独立的等位基因间自由组合,表型共有多少种?它们的比如何?答:(1)表型共有1+5+10+10+5+1=32种。(2)它们的比为:243∶81(×5)∶27(×10)∶9(×10)∶3(×5)∶1。-140- 3.3在辐射育种实验中,已知经过处理的单株至少发生一个有利突变的概率是φ,群体中至少出现一株有利突变单株的概率为Pa,问为了至少得到一株有利突变的单株,群体n应多大?答:已知φ为单株至少发生一个有利突变的概率,则1―φ为单株不发生一个有利突变的概率为:3.4根据以往的经验,用一般的方法治疗某疾病,其死亡率为40%,治愈率为60%。今用一种新药治疗染上该病的5名患者,这5人均治愈了,问该项新药是否显著地优于一般疗法?(提示:计算一般疗法5人均治愈的概率,习惯上当P(5人均治愈)>0.05时,则认为差异不显著;当P(5人均治愈)<0.05时,则认为差异显著)。答:设P(治愈)=φ=0.60,则5人均治愈的概率为:P=p5=(0.60)5=0.07776P>0.05所以该药物并不优于一般疗法。3.5给一组雌雄等量的实验动物服用一种药物,然后对存活的动物分成5只为一组,进行抽样试验。试验结果表明,5只均为雄性的频率为1/243,问该药物对雌雄的致死作用是否一致?答:设p为处理后雄性动物存活的概率,则因此,对雄性动物的致死率高于对雌性动物的致死率。3.6把成年椿象放在−8.5℃下冷冻15分钟,然后在100个各含10只椿象的样本中计算死虫数,得到以下结果:死虫数012345678910合计样本数421282214821000100计算理论频数,并与实际频数做一比较。答:先计算死虫数C:C=0×4+1×21+2×28+3×22+4×14+5×8+6×2+7×1=258死虫率φ=258/1000=0.258活虫率1–φ=0.742展开二项式(0.742+0.258)10得到以下结果:0.05059+0.17590+0.27522+0.25519+0.15528+0.06479+0.018774+3.7302×10-3+4.8638×10-4+3.7582×10-5+1.307×10-6将以上各频率乘以100得到理论频数,并将实际数与理论数列成下表。-140- 死虫数实际数理论数偏差045.1-1.112117.23.822827.50.532225.5-3.541415.5-1.5586.51.5621.90.1710.40.680009000100003.7人类染色体一半来自父亲,一半来自母亲。在减数分裂时,46条染色体随机分配到两极,若不考虑染色体内重组,父亲的22条常染色体重新聚集在一极的概率是多少?12条父亲染色体和11条母亲染色体被分配到同一极的概率又是多少?常染色体的组合共有多少种?从上述的计算可以看出变异的广泛性,若再考虑染色体内重组,新组合染色体的数目就更惊人了。答:(1)P(父亲22条常染色体重新聚集于同一极)=(2)P(12条父亲染色体和11条母亲染色体被分配到同一极)=(3)共有222=4194304种。3.8生男生女的概率各为1/2,问在一个医院中,连续出生30名男孩及30名性别交错的新生儿的概率各为多少?答:P(连续出生30名男孩)=P(30名性别交错不同者)=3.9在显性基因频率很低时,出现显性性状的个体一般为杂合子。一名女子是蓬发者(显性性状),在她的全部六名孩子中,(1)其中第一名孩子,(2)其中第一和第二名孩子,(3)全部六名孩子,(4)任何一名曾孙(或曾孙女)中,发生蓬发的概率是多少?答:设:P(子女蓬发)=φ=1/2P(子女非蓬发)=1–φ=1/2则(1)P(其中第一名子女蓬发)=(1/2)(1/2)5=0.015625(2)P(只有第一和第二名孩子蓬发)=(1/2)2(1/2)4=0.015625(3)P(全部六名子女)=(1/2)6=0.015625(4)P(任何一名曾孙蓬发)=P(任何一名儿子蓬发)P(任何一名孙子蓬发|蓬发的儿子)P(任何一名曾孙蓬发|蓬发的孙子)=(1/2×1/2)(1/2×1/2)(1/2×1/2)=0.015625-140- 3.10在数量性状遗传中,F1的性状介于双亲之间,F2的性状向双亲方向分离。这是一个二项分布问题,根据二项展开式,计算控制某性状的基因个数,假设出现亲本性状的频率为a。答:设:P(正效应基因频率)=p则3.11计算μ=0.1,0.2,1,2,5时,泊松分布的γ1和γ2,绘制概率分布图并做比较。答:泊松分布的概率函数:将μ=0.1,0.2,1,2,5分别代入上式。(1)μ=0.1时yp(y)00.904810.0904820.00452430.000150840.00000377(2)μ=0.2时yp(y)00.818710.163720.0163930.00109240.00005458(3)μ=1时yp(y)00.367910.367920.183930.0613140.01533-140- 50.00306660.000510970.00007299(4)μ=2时yp(y)yp(y)00.135360.0120310.270770.00343720.270780.000859330.180490.000190940.09022100.0000381950.03609(5)μ=5时yp(y)yp(y)00.00673890.0362710.03369100.0181320.08422110.00842430.1404120.00343440.1755130.00132150.1755140.000471760.1462150.000157270.1044160.0000491480.06528可见,随着μ的增大泊松分布越来越接近于“正态”的。3.12随机变量Y服从正态分布N(5,42),求P(Y≤0),P(Y≤10),P(0≤Y≤15),P(Y≥5),P(Y≥15)的值。-140- 答:或者使用SAS程序计算,结果见下表:OBSMUSIGMAY1LOWERPY2UPPERPMIDP154100.89435...25400.10565...35400.10565150.006210.88814454..50.50000.554..150.00621.3.13已知随机变量Y服从正态分布N(0,52),求y0分别使得P(Y≤y0)=0.025,P(Y≤y0)=0.01,P(Y≤y0)=0.95及P(Y≥y0)=0.90。答:3.14细菌突变率是指单位时间(细菌分裂次数)内,突变事件出现的频率。然而根据以上定义直接计算突变率是很困难的。例如,向一试管中接种一定量的细菌,振荡培养后铺平板。在平板上发现8个突变菌落。这8个突变细菌究竟是8个独立的突变事件呢,还是一个突变细胞的8个子细胞是很难确定的。但是有一点是可以肯定的,即,没有发现突变细胞的平皿一定没有突变事件出现。向20支试管中分别接种2×107 个大肠杆菌,振荡培养后铺平板,同时接种T1噬菌体。结果在9个平皿中出现数量不等的抗T1噬菌体菌落。11个平皿上没有出现。已知平皿上突变菌落数服从泊松分布并且细胞分裂次数近似等于铺平板时的细胞数。利用泊松分布概率函数计算抗T1突变率。答:已知接种细胞数为n,n即可认为是细胞分裂次数。若每一次细胞分裂的突变率为u,那么每一试管中平均有un次突变事件发生(μ)。从泊松分布概率函数可知,无突变发生的概率f(0)=E-un。实验结果无突变的平皿数为11个,即f(0)=11/20=0.55。解下式-140- 即可求出突变率u。已知n=0.2×108,代入上式得到u=3×10-8。3.15一种新的血栓溶解药t-pA,据说它能消除心脏病发作。在一次检测中的7名检测对象,年龄都在50岁以上,并有心脏病发作史。他们以这种新药治疗后,6人的血栓得到溶解,1人血栓没有溶解。假设t-pA溶解血栓是无效的,并假设,不用药物在短时间内心脏患者血栓自己溶解的概率φ是很小的,如φ=0.1。设y为7名心脏患者中血栓在短时间内可以自动溶解的患者数。问:(1)若药物是无效的,7名心脏患者中的6名血栓自动溶解的概率是多少?(2)Y≥6是否为一稀有事件,你认为药物是否有效?答:(1)ф=0.11-ф=0.9n=7y=6,(2)P(Y≥6)=0.0000063+0.0000001=6.4×10-6。结论:在不用药的情况下,7名病人中6名患者的血栓自动溶解的事件是一个小概率事件,因此药物有效。3.16一农药商声称,用他的农药喷洒玉米后,90%的玉米植株中不再有活的玉米螟。为了验证这种说法,喷药后随机抽出25株玉米,发现7株中仍有活的玉米螟。(1)若农药商的说法是正确的,在25株玉米中包含7株和7株以上有活玉米螟的概率是多少?(2)在25株玉米中有7株有活玉米螟,你是否认为农药有效率达不到90%?答:(1)(2)是3.17设计一实验用来检验号称心灵感应者是否有特异功能(ESP)。将5张卡片洗匀随机抽出一张,不准心灵感应者看,让他判断是哪一张。实验共重复20次,记录正确判断次数(假设20次重复间是随机的)。假设心灵感应者是猜的,没有ESP,那么(1)每次得到正确结果的概率是什么?(2)在20次重复中,期望正确判断数是多少?(3)正确判断6次和6次上的概率是多少?(4)假设心灵感应者在20次重复中判断正确6次,是否可以证明心灵感应者不是猜的,而是真正的ESP?答:(1)p=1/5。(2)E(Y)=np=20×1/5=4。-140- (3)(4)不能。因为在猜想的情况下,20次重复中判断正确6次的概率为0.196,将近20%,已不是小概率事件,非心灵感应者有可能得到这样的结果。3.18据一个生化制药厂报告,在流水线上每8小时的一个班中,破碎的安瓿瓶数服从泊松分布,μ=1.5。问:(1)夜班破碎2个瓶子的概率是多少?(2)在夜班打碎2个以下的概率是多少?(3)在早班破碎2个以上的概率是多少?(4)在一天连续三班都没有破碎的概率(假设三班间是独立的)?答:(1)(2)(3)(4)记A为每个班没有破碎的事件,则第五章统计推断5.1统计假设有哪几种?它们的含义是什么?答:有零假设和备择假设。零假设:假设抽出样本的那个总体之某个参数(如平均数)等于某一给定的值。备择假设:在拒绝零假设后可供选择的假设。5.2小概率原理的含义是什么?它在统计假设检验中起什么作用?答:小概率的事件,在一次试验中,几乎是不会发生的。若根据一定的假设条件,计算出来该事件发生的概率很小,而在一次试验中,它竟然发生了,则可以认为假设的条件不正确,从而否定假设。小概率原理是显著性检验的基础,或者说显著性检验是在小概率原理的基础上建立起来的。5.3什么情况下用双侧检验?什么情况下可用单侧检验?两种检验比较,哪一种检验的效率更高?为什么?答:以总体平均数为例,在已知μ不可能小于μ0时,则备择假设为HA:μ>μ0,这时为上尾单侧检验。在已知μ不可能大于μ0时,则备择假设为HA:μ<μ0,这时为下尾单侧检验。在没有关于μ不可能小于μ0或μ不可能大于μ0的任何信息的情况下,其备择假设为HA:μ≠μ0,这时为双侧检验。两种检验比较,单侧检验效率更高,因为在单侧检验时,有一侧的信息是已知的,信息量大于双侧检验,因此效率高于双侧检验。-140- 5.4显著性水平是一个指数还是一个特定的概率值?它与小概率原理有什么关系?常用的显著水平有哪几个?答:显著性水平是一个特定的概率值。在小概率原理的叙述中提到“若根据一定的假设条件,计算出来该事件发生的概率很小”,概率很小要有一个标准,这个标准就是显著水平。常用的显著水平有两个,5%和1%。5.5为什么会产生I型错误?为什么会产生II型错误?两者的关系是什么?为了同时减少犯两种错误的概率,应采取什么措施?答:在H0是真实的情况下,由于随机性,仍有一部分样本落在拒绝域内,这时将拒绝H0,但这样的拒绝是错误的。即,如果假设是正确的,却错误地据绝了它,这时所犯的错误称为I型错误。当μ≠μ0,而等于其它的值(μ1)时,样本也有可能落在接受域内。当事实上μ≠μ0,但错误地接受了μ=μ0的假设,这时所犯的错误称为II型错误。为了同时减少犯两种错误的概率,应当增加样本含量。5.6统计推断的结论是接受H0,接受零假设是不是表明零假设一定是正确的?为什么?“接受零假设”的正确表述应当是什么?答:统计推断是由样本统计量推断总体参数,推断的正确性是与样本的含量有关的。以对平均数的推断为例,当样本含量较少时,标准化的样本平均数u值较小,很容易落在接受域内,一旦落在接受域内,所得结论将是接受H0。如果抽出样本的总体参数μ确实不等于μ0,当增加样本含量之后,这种差异总能被检验出来。因此接受H0并不表明H0一定是正确的。接受H0的正确表述应当是:尚无足够的理由拒绝H0。尚无足够的理由拒绝H0并不等于接受H0。5.7配对比较法与成组比较法有何不同?在什么情况下使用配对法?如果按成组法设计的实验,能不能把实验材料随机配对,而按配对法计算,为什么?答:配对比较法:将独立获得的若干份实验材料各分成两部分或独立获得的若干对遗传上基本同质的个体,分别接受两种不同的处理;或者同一个实验对象先后接受两种不同处理,比较不同的处理效应,这种安排称为配对实验设计。成组比较法:将独立获得的若干实验材料随机分成两组,分别接受不同的处理,这种安排称为成组比较法。在生物统计学中,只有遗传背景一致的成对材料才能使用配对比较法。如果按成组比较法设计的实验,不能把实验材料进行随机配对而按配对法计算。因为这种配对是无依据的,不同配对方式所得结果不同,其结果不能说明任何问题。5.8如果一个配对实验设计,在处理数据时使用了成组法计算,后果是什么?答:对于一个配对设计,在处理数据时按成组法计算,虽然不能认为是处理错误,但会明显降低处理的敏感性,降低了检验的效率。5.9已知我国14岁的女学生,平均体重为43.38kg。从该年龄的女学生中抽取10-140- 名运动员,其体重(kg)分别为:39、36、43、43、40、46、45、45、42、41。问这些运动员的平均体重与14岁的女学生平均体重差异是否显著?答:H0:μ=μ0(43.38kg)HA:μ≠μ0正态性检验:从正态概率图看,抽出样本的总体近似服从正态分布。SAS程序为:optionslinesize=76nodate;datagirl;inputweight@@;diff=weight-43.38;cards;39364343404645454241;run;procmeansntprt;vardiff;title"T-TestforSingleMean";run;结果见下表:T-TestforSingleMeanAnalysisVariable:DIFFNTProb>|T|--------------------------10-1.41172830.1917--------------------------P>0.05,尚无足够的理由拒绝H0。5.10以每天每千克体重52mmol5-羟色胺处理家兔14天后,对血液中血清素含量的影响如下表[9]:/(mg·L-1)s/(mg·L-1)n对照组4.201.21125-羟色胺处理组8.491.119检验5-羟色胺对血液中血清素含量的影响是否显著?答:首先,假定总体近似服从正态分布(文献中没有给出)。方差齐性检验的统计假设为:-140- 根据题意,本题之平均数差的显著性检验是双侧检验,统计假设为:程序如下:optionsnodate;datacommon;inputn1m1s1n2m2s2;dfa=n1-1;dfb=n2-1;vara=s1**2;varb=s2**2;ifvara>varbthenF=vara/varb;elseF=varb/vara;ifvara>varbthenFutailp=1-probf(F,dfa,dfb);elseFutailp=1-probf(F,dfb,dfa);df=n1+n2-2;t=abs(m1-m2)/sqrt(((dfa*vara+dfb*varb)*(1/n1+1/n2))/df);utailp=1-probt(t,df);k=vara/n1/(vara/n1+varb/n2);df0=1/(k**2/dfa+(1-K)**2/dfb);t0=abs(m1-m2)/sqrt(vara/n1+varb/n2);utailp0=1-probt(t0,df0);f=f;Futailp=Futailp;df=df;t=t;tutailp=utailp;output;df=df0;t=t0;tutailp=utailp0;output;cards;124.201.2198.491.11;procprint;idf;varFutailptdftutailp;title"T-TestforNon-PrimalData";run;结果如下:T-TestforNon-PrimalDataFFUTAILPTDFTUTAILP1.188300.413208.3227719.00004.6339E-81.188300.413208.4311018.13695.4346E-8首先看F检验,方差齐性检验是双侧检验,当显著性概率P<0.025时拒绝H0,在这里P=0.41,因此方差具齐性。方差具齐性时的t检验,看第一行的结果,其上侧尾区的显著性概率P是一个非常小的值,远远小于0.005。因此拒绝H0,5-羟色胺对血液中血清素的含量有极显著的影响。5.11以每天每千克体重52mmol5-羟色胺处理家兔14天后,体重变化如下表[9]:/kgs/kgn对照组0.260.22205-羟色胺处理组0.210.1820检验5-羟色胺对动物体重的影响是否显著?答:首先,假定总体近似服从正态分布(文献中没有给出)。方差齐性检验的统计假设为:-140- 根据题意,本例平均数差的显著性检验是双侧检验,统计假设为:程序不再给出,结果如下:T-TestforNon-PrimalDataFFUTAILPTDFTUTAILP1.493830.194770.7866538.00000.218181.493830.194770.7866536.56620.21828方差齐性检验:P>0.025,方差具齐性。t检验:上侧尾区显著性概率P>0.025,因此,尚无足够的理由拒绝H0,5-羟色胺对动物体重的影响不显著。5.1218岁汉族男青年与18岁维族男青年50米跑成绩(s)如下表[10]:汉族:n=150=7.48s=0.48维族:n=100=7.41s=0.69问:(1)检验两者平均成绩差异是否显著?(2)检验两个民族个体间成绩的整齐程度差异是否显著?答:首先,假定总体近似服从正态分布(文献中没有给出),则方差齐性检验的统计假设为:根据题意,本例平均数差的显著性检验是双侧检验,统计假设为:结果如下:T-TestforNon-PrimalDataFFUTAILPTDFTUTAILP2.06641.0000294980.94606248.0000.172522.06641.0000294980.88213161.9810.18951从结果中可以看出:(1)方差齐性检验表明,两者方差不具齐性。这也就回答了第二问,两个民族个体间成绩的整齐程度差异显著。(2)由于方差不具齐性,应看结果的第二行。检验统计量t的显著性概率P=0.18951,P>0.025,结论是汉族和维族18岁男青年50米跑平均成绩差异不显著。5.13一种内生真菌(Piriformosporaindica)侵染大麦后,可以提高其产量。为此,做了以下试验对该假设进行检验,所得结果如下表[11]:/(g·pot-1)s/(g·pot-1)n侵染组59.91.736未侵染组53.93.616检验侵染组与未侵染组的产量差异是否显著?答:首先,假定总体近似服从正态分布(文献中没有给出),则方差齐性检验的统计假设为:-140- 根据题意,本例平均数差的显著性检验是双侧检验,统计假设为:结果如下:T-TestforNon-PrimalDataFFUTAILPTDFTUTAILP4.354340.0661153.6713710.0000.00215374.354340.0661153.671377.1815.0038003统计量F的显著性概率P=0.066115,P>0.025,结论是方差具齐性。在方差具齐性时,t检验使用第一行的结果。统计量t的显著性概率P=0.0021537,P<0.005。因此,侵染组与未侵染组的产量差异极显著。5.14在一项关于乳房X线照片计算机协助诊断(computer-aideddiagnosis,CAD)的研究中,得到下表中的结果[12]:由10名放射学医生对乳房X线照片采用三种读片方式所得到的的值医生编号独立阅读不用CAD连续阅读借助CAD连续阅读10.130.220.6320.410.350.5230.170.300.3040.460.450.7350.200.240.4860.480.220.3170.520.430.5680.540.490.4690.150.060.18100.220.170.21这是一项配对设计,在三种读片方式中两两比较它们的差异显著性。答:(1)独立阅读与不用CAD连续阅读间的差异显著性检验。所用程序如下:datasorty;inputy1y2@@;y=y1-y2;cards;0.130.220.410.350.170.300.460.450.200.240.480.220.520.430.540.490.150.060.220.17;procsort;byy;datanorm;n=10;doi=1tonby1;p=(i-1/3)/(n+1/3);u=probit(p);-140- output;end;datacombine;mergesortynorm;symbolv=star;procgplot;ploty*u;run;procmeansnmeanstderrtprt;vary;title1"PairedT-Test";title2"ReadIndependently-ReadwithoutCAD";run;在该程序中,第一个PROC语句是排序过程,第二个PROC语句是制图过程,第三个PROC语句是MEANS过程。GPLOT过程用来检验总体的正态性,MEANS过程用来做t检验。结果如下:PairedT-TestReadIndependently-ReadwithoutCADAnalysisVariable:YNMeanStdErrorTProb>|T|------------------------------------------------------100.03500000.03445611.01578560.3363------------------------------------------------------正态概率图中的散点虽然不甚集中,但趋势仍然是一条直线,可以认为是近似正态分布的。统计量t的显著性概率P=0.3363,P>0.05。因此,独立读片和不用CAD连续读片的结果差异不显著。(2)独立阅读与借助CAD连续阅读间的差异显著性检验。所用程序与(1)基本上是一样的,这里不再给出,只给出结果:-140- PairedT-TestReadIndependently-ReadwithCADAnalysisVariable:YNMeanStdErrorTProb>|T|------------------------------------------------------10-0.11000000.0621110-1.77102250.1103------------------------------------------------------差数的正态性检验表明,差数近似服从正态分布。统计量t的显著性概率P=0.1103,P>0.05。结论是尚无足够的理由拒绝H0。因此,独立读片与借助CAD连续读片间的差异不显著。(3)不用CAD连续阅读与借助CAD连续阅读间的差异显著性检验。PairedT-TestReadwithoutCAD-ReadwithCADAnalysisVariable:YNMeanStdErrorTProb>|T|------------------------------------------------------10-0.14500000.0427720-3.39006780.0080------------------------------------------------------正态性的条件基本可以满足,t的显著性概率P=0.0080,P<0.01。结论是不用CAD读片与借助CAD读片间的差异极显著。5.15用内生真菌(Piriformosporaindica)侵染大麦,播种三周后在植株的根和叶中谷胱甘肽的含量(nmol/g)如下表[11]:在根中sn对照223463处理309493在叶中sn对照510543处理7981133分别比较在根中和在叶中谷胱甘肽含量的提高是否显著。答:对照组命名为“1”,处理组命名为“2”,并假定总体近似服从正态分布(文献中没有给出)。-140- 方差齐性检验的统计假设为:根据题意,本例平均数差的显著性检验是单侧检验,统计假设为:所用程序与5.10题基本一致,这里不再给出。程序运行结果如下:(1)在根中:T-TestforNon-PrimalDataFFUTAILPTDFTUTAILP1.134690.468452.216334.000000.0454921.134690.468452.216333.984140.045626统计量F的显著性概率P=0.46845,P>0.025,方差具齐性。统计量t的显著性概率P=0.045492,P<0.05。结论是拒绝H0。在根中,谷胱甘肽含量的提高是显著的。(2)在叶中:T-TestforNon-PrimalDataFFUTAILPTDFTUTAILP4.378940.185913.983014.000000.0081804.378940.185913.983012.868190.015382统计量F的显著性概率P=0.18591,P>0.025,方差具齐性。统计量t的显著性概率P=0.008180,P<0.01。结论是拒绝H0。在根中,谷胱甘肽含量的提高是极显著的。5.16在SARS常规治疗的基础上,附加两种中草药配方,研究它们对治疗的辅助作用。一种是汤剂(NHMA),另一种是在台湾常用的保健品(NHMB)。将患者分成3组,A组接受NHMA,B组接受NHMB,C组接受安慰剂。记录病程改善的天数,结果如下表[13]:/ds/dnA组6.71.89B组9.25.99对照组11.24.910推断两种中草药对SARS症状的改善是否有辅助作用?答:处理组命名为“1”,对照组命名为“2”。并假定总体近似服从正态分布(文献中没有给出)。方差齐性检验的统计假设为:根据题意,本例平均数差的显著性检验是单侧检验,统计假设为:所用程序与5.10题基本一致,这里不再给出。程序运行结果如下:(1)A组与对照组比较:T-TestforNon-PrimalData-140- GroupA-ControlFFUTAILPTDFTUTAILP7.41049.00484272.5957617.0000.00942237.41049.00484272.7081911.6076.0097563方差齐性检验的结果表明,两者的方差不具齐性,应使用上表中的第二行结果,方差不具齐性时的t检验。t=2.70819,df=11.6076,t的显著性概率P=0.0097563,P<0.01,结论是拒绝H0,A组药物对改善病程有极显著的作用。(2)B组与对照组比较:T-TestforNon-PrimalDataGroupB-ControlFFUTAILPTDFTUTAILP1.449810.294960.8070217.00000.215401.449810.294960.7988015.65330.21818方差齐性检验指出,方差具齐性。t=0.80702,df=17,t的显著性概率P=0.21540,P>0.05。结论是尚无足够的理由拒绝H0。因此,B组药物对改善病程的效果不显著。5.17一项为促进肺癌筛查的非专业健康顾问培训项目,共有79名不同背景的人员参加。培训结束后,她(他)们对培训手册中的各项内容进行了评价,有46人认为手册中所提供的信息非常有用,34人认为手册中的家庭作业非常有用[14]。请检验培训人员对这两项内容的评价差异是否显著?答:H0:φ1=φ2HA:φ1≠φ2所用程序如下:optionsnodate;databinomial;inputn1y1n2y2;mp=(y1+y2)/(n1+n2);u=(abs(y1-y2)-0.5-mp*abs(n1-n2))/sqrt(mp*(1-mp)*(n1+n2));utailp=1-probnorm(u);keepuutailp;cards;79467934;procprint;idu;varutailp;title"SignificanceTestforBinomialData";run;结果见下表:SignificanceTestforBinomialDataUUTAILP1.829930.033630本例为双侧检验,当显著性概率P<0.025时拒绝H0,统计量u的显著性概率P=0.03363,P>0.025。因此,尚无足够的理由拒绝H0,培训人员对这两项的评价无显著性差异。-140- 5.18加入抗生素后的几个小时内,多形核白细胞迅速地提高了对Borrelia螺旋体的吞噬速度,在此期间血浆中螺旋体的总数明显减少。设计一实验:将被Borrelia螺旋体感染的血液,放在37℃培养两小时。在此期间,吞噬细胞不断地增加。如果在被感染的血液中添加青霉素G和四环素可促进吞噬细胞进一步地增加。以下是在感染的血液中分别添加青霉素G、四环素和不添加抗生素的三个处理,在培育两小时后多形核白细胞的个数[15]:处理sn添加青霉素G组31.70.7100添加四环素组26.74.1100不添加抗生素组12.72.9100检验添加抗生素是否显著提高多形核白细胞的数量?答:首先,假定总体近似服从正态分布(文献中没有给出)。方差齐性检验的统计假设为:根据题意,本题之平均数差的显著性检验是单侧检验,统计假设为:(1)添加青霉素G组(组1)与对照组(组2)间的比较:T-TestforNon-PrimalDataPenicillinG-ControlFFUTAILPTDFTUTAILP17.1633063.6881198.000017.1633063.6881110.4970从结果中可以看出,显然方差不具齐性。此时的df=110.497,P值为0,结论是添加青霉素G后,极显著地提高了多形核白细胞的数量。(2)添加四环素组(组1)与对照组(组2)间的比较:T-TestforNon-PrimalDataTetracycline-ControlFFUTAILPTDFTUTAILP1.99881.0003328227.8776198.00001.99881.0003328227.8776178.2280方差不具齐性,应使用方差不具齐性的t检验。统计量t的显著性概率P=0,拒绝H0。说明添加四环素后,极显著地提高了多形核白细胞地数量。5.19用免疫抑制药物单独或配伍处理被单纯疱疹病毒感染的小鼠,以下是用免疫抑制药物CTS和CTS+ATS处理小鼠,其红斑持续的天数[16]:处理/ds/dn单独使用CTS4.663.5672混合使用CTS+ATS9.046.8753注:CTS:cellophanetapestripping,透明胶带剥离。推断两种不同处理,在红斑持续天数上的效应差异是否显著?答:首先,假定总体近似服从正态分布(文献中没有给出)。方差齐性检验的统计假设为:-140- 根据题意,本题之平均数差的显著性检验是双侧检验,统计假设为:程序前面已经给过,这里不再给出,只给出结果。T-TestforNon-PrimalDataFFUTAILPTDFTUTAILP3.72403.000000189024.63436123.000.0000044923.72403.000000189024.2411972.514.000032349首先,可以判断出方差不具齐性。这时的t=4.24199,df=72.514,检验统计量t的显著性概率P=0.000032349,远远小于0.005,拒绝H0。结论是:CTS单独使用与CTS+ATS混合使用,在红斑持续天数上的差异极显著。5.20一项关于手术后患者药物直接从小肠吸收的研究,得到下表中的结果[17](节录的一部分):药物代谢动力学参数:口服庆大霉素80mg后的Cmax和MRT受试者Cmax/(mg·mL-1*)MRT**/min手术前手术后手术前手术后013.84.31371080211.69.411091034.82.7172455044.95.29885055.94.8144132066.74.1122126073.33.7138122087.86.010194093.36.624485105.54.6121133117.64.893112126.34.0119150注:*Cmax:maximumplasmaconcentrationachieved(达到的最大血浆浓度)。**MRT:meanresidencetime(平均残留时间)。答:(1)检验Cmax:因数据无法进行正态性变换,需用非参数统计。这里从略。(2)检验MRT:数据严重偏离正态性,无法进行正态性变换,需用非参数统计。这里从略。(注:遇到这种情况应分析造成严重偏离正态性的原因。是整个趋势?还是个别数据?如果是个别数据,还要从生物学角度分析出现这种情况的原因。)5.21根据IKDC(internationalkneedocumentationcommittee)膝盖损伤客观评分标准,评价了外科手术前和手术24个月后膝盖退行性变异的得分。共有32名患者接受手术,术前评分属于近似正常者6人,术后为15人[18];推断手术效果是否显著?答:H0:φ1=φ2-140- HA:φ1≠φ2程序与17题相似,不再给出过程。以下是计算的结果:SignificanceTestforBinomialDataUUTAILP2.262900.011821P<0.05,手术效果是显著的。5.22一项旨在研究夜间血液透析,在肉毒碱代谢上短期效果的工作。给出了采用常规透析方法和在夜间透析方法,患者的一些生化指标[19]。以下仅摘录了其中的白蛋白。病人序号白蛋白/(g·L-1)CHD*NHD**141392354034139439375383563537736398373794239注:*CHD:常规的血透析。**NHD:在夜间血透析。对于白蛋白,采用不同的透析方式,所得结果差异是否显著?答:SAS程序为:optionsnodate;datasorty;inputy1y2@@;y=y1-y2;cards;413935404139393738353537363937374239;procsort;byy;datanorm;n=9;doi=1tonby1;p=(i-1/3)/(n+1/3);u=probit(p);output;end;datacombine;mergesortynorm;symbolv=star;procgplot;ploty*u;run;procmeansnmeanstderrtprt;vary;-140- title1"PairedT-Test:Albumin";run;从正态概率图可以看出,分布稍有负偏和负的峭度,但还可以认为是近似服从正态分布的。计算结果如下:PairedT-Test:AlbuminAnalysisVariable:YNMeanStdErrorTProb>|T|-----------------------------------------------------90.22222220.96864420.22941570.8243-----------------------------------------------------t的双侧显著性概率P=0.8243,显然两种透析方法之间的差异是不显著的。5.23女性在绝经前后很多生理指标都发生了改变,下面摘录了体重指数(BMI),血清瘦素(Lep)和血清雌二醇(E2)含量。其中的Lep和E2的原始数据不符合正态分布,因此做了对数变换,下面给出的数据是经对数变换后的结果[20](平均数±标准差):样本含量(n)BMILep/(mg·L-1)E2/(pmmol·L-1)绝经前2223.40±3.080.91±0.182.27±0.16绝经后7024.90±3.180.87±0.252.05±0.18请推断,上述指标在绝经前和绝经后个体之间变差的差异是否显著?答:可以使用本章第10题的程序,只利用其中方差齐性检验部分,不考虑对平均数的检验。统计假设为:(1)“体重指数”结果见下表:F-TestforNon-PrimalData:BMIFFUTAILPTDFTUTAILP1.065990.453751.9439790.00000.0275111.065990.453751.9770036.19180.027849(2)“Lep”结果见下表:F-TestforNon-PrimalData:LepFFUTAILPTDFTUTAILP1.929010.0466880.6948290.00000.24448-140- 1.929010.0466880.8224148.73040.20742(3)“E2”结果见下表:F-TestforNon-PrimalData:E2FFUTAILPTDFTUTAILP1.265630.278595.1276790.0000.00000083471.265630.278595.4550239.1439.0000014622从备择假设可以看出,本题的F检验为双侧检验。当F的显著性概率P<0.025时拒绝H0。以上三项指标的F显著性概率都大于0.025。因此,在绝经前后,这三项指标在个体间的波动都未达到显著。5.24对人体面部的若干特征进行了测量,下面列举出其中三个特征的测量结果[21](cm):项目男女nsns额最小宽18611.700.8618511.590.98面宽18612.670.9918512.010.70容貌面高18618.101.0818517.811.73分别推断以上三个特征在男女两性中的整齐程度是否一致?答:可以使用本章第10题的程序。首先,假定总体近似服从正态分布(文献中没有给出)。F检验的统计假设为:程序不再给出,下面只给出结果。(1)额最小宽:F-TestforNon-PrimalData:WFHFFUTAILPTDFTUTAILP1.298540.0383931.14925369.0000.125601.298540.0383931.14885362.3720.12569(2)面宽:F-TestforNon-PrimalData:WOFFFUTAILPTDFTUTAILP2.00020.00000162387.41045369.0004.3332E-132.00020.00000162387.41713333.1045.0082E-13(3)容貌面高:F-TestforNon-PrimalData:HOFFFUTAILPTDFTUTAILP2.56593.000000000167901.93784369.0000.0267032.56593.000000000167901.93554308.2310.026919-140- 以上3个特征,除额最小宽外,面高和容貌面高在男女两性中的整齐度极不一致。5.25广西壮族404名男性和汉族700名男性手掌的一些特征比较,摘录部分数据如下表[22]:项目壮族/mm汉族/mm掌正中长101.55±0.42103.90±4.38掌最大宽95.00±0.4695.56±4.55大鱼际厚39.00±0.2942.70±2.95比较壮族男子和汉族男子上述手掌三个特征平均数的差异显著性。答:首先,假定总体近似服从正态分布(文献中没有给出)。方差齐性检验的统计假设为:根据题意,本题之平均数差的显著性检验是双侧检验,统计假设为:下面就以上3个特征分别检验:(1)掌正中长:T-TestforNon-PrimalData:LOPFFUTAILPTDFTUTAILP108.755010.75361102.000108.755014.0835721.130(2)掌最大宽:T-TestforNon-PrimalData:WOPFFUTAILPTDFTUTAILP97.837902.466091102.00.006905697.837903.22785723.58.0006517(3)大鱼际厚:T-TestforNon-PrimalData:THPFFUTAILPTDFTUTAILP103.478025.13511102.000103.478032.9096722.250从以上结果可以看出,三个特征的方差均不具齐性。用不具齐性的t检验方法,检验的结果表明:三个特征的平均值在壮族和汉族男子间,差异都是极显著的。另外,我们还可以分析一下,为什么壮族的标准差那么小?而汉族的标准差那么大?以至于F的显著性概率等于0。5.26盆栽试验中,对菌肥采用灭菌和不灭菌两种处理,每一处理各种植50株小麦,测量小麦的株高,结果如下表[1]:灭菌7.54.65.25.47.26.85.85.04.67.97.04.45.75.26.67.16.55.07.04.0-140- 7.55.17.26.74.65.15.64.74.58.07.57.75.15.51.77.27.27.57.54.85.56.06.36.13.45.65.66.68.36.3不灭菌10.09.37.29.18.58.010.510.69.610.17.06.79.57.810.57.98.19.67.69.410.07.57.25.07.38.77.16.15.26.810.09.97.54.57.67.09.76.28.06.98.38.610.04.84.97.08.38.47.87.5先分别检验数据的正态性,然后检验两种处理之小麦平均苗高的差异显著性。答:数据近似服从正态分布,检验过程这里不再给出。方差齐性检验的统计假设为:根据题意,本题之平均数差的显著性检验是双侧检验,统计假设为:所用程序如下:optionslinesize=76nodate;datawheat;infile"E:dataexr5-26e.dat";inputdisinfheight@@;procttest;classdisinf;varheight;title"T-TestforPooledData";run;程序运行结果见下表:T-TestforPooledDataTTESTPROCEDUREVariable:HEIGHTDISINFNMeanStdDevStdError--------------------------------------------------------------------------1505.978000001.344116430.190086772508.016000001.608061320.22741421VariancesTDFProb>|T|---------------------------------------Unequal-6.876095.00.0001Equal-6.876098.00.0000ForH0:Variancesareequal,F"=1.43DF=(49,49)Prob>F"=0.2130表的最后一行给出方差齐性检验的结果,统计量F的显著性概率(双侧)大于0.05,因此方差具齐性。表的倒数第二行是方差具齐性时的t检验结果,t的显著性概率为0,因此灭菌与不灭菌处理,株高平均数的差异极显著。5.27接触稀土的人群(处理组)与不接触稀土的人群(对照组),他们的肝功能指标分别为[23]:组别样本含量GTP*/(U·L-1)GOT**/(U·L-1)对照5818.66±15.7816.45±11.29-140- 处理10219.26±18.3920.57±15.50注:*GTP:丙氨酸氨基转移酶。**GOT:谷草转氨酶。数据为。分别比较两项肝功能指标在对照组和处理组之间的差异显著性。答:首先,假定总体近似服从正态分布(文献中没有给出)。方差齐性检验的统计假设为:根据题意,本题之平均数差的显著性检验是双侧检验,统计假设为:(1)GTP:T-TestforNon-PrimalData:GTPFFUTAILPTDFTUTAILP1.358160.103810.20856158.0000.417531.358160.103810.21752133.9500.41407首先,方差是具齐性的。t的显著性概率P=0.41753,P>0.025。因此接触与不接触稀土的人群其肝GTP活性差异不显著。(2)GOT:T-TestforNon-PrimalData:GOTFFUTAILPTDFTUTAILP1.88484.00494551.77343158.0000.0390421.88484.00494551.93084148.4330.027705从表中可以得出,方差是不具齐性的。这时t的显著性概率P=0.027705,比0.025稍大。结果是尚无足够的理由拒绝H0。因此接触与不接触稀土的人群其肝GOT活性差异不显著。5.28雌性大腹园(蜘)蛛和百额巨蟹(蜘)蛛的性腺宽、头胸宽和腹宽如下[24]:毒腺宽/cm头胸宽/cm腹宽/cm大腹园蛛白额巨蟹蛛大腹园蛛白额巨蟹蛛大腹园蛛白额巨蟹蛛0.060.180.360.900.640.630.070.290.340.550.590.490.100.270.300.510.610.380.050.310.400.420.311.13检验两种蜘蛛平均毒腺宽、头胸宽和腹宽的差异显著性。答:方差齐性检验的统计假设为:根据题意,本题之平均数差的显著性检验是双侧检验,统计假设为:-140- (1)毒腺宽:T-TestforPooledDataTTESTPROCEDUREVariable:WIDTHDISINFNMeanStdDevStdError--------------------------------------------------------------------------140.070000000.021602470.01080123240.262500000.057373050.02868652VariancesTDFProb>|T|---------------------------------------Unequal-6.28003.80.0041Equal-6.28006.00.0008ForH0:Variancesareequal,F"=7.05DF=(3,3)Prob>F"=0.1429方差是具齐性的,t的显著性概率P=0.0008,P<0.01。因此,毒腺宽在两种蜘蛛间差异极显著。(2)头胸宽:T-TestforPooledDataTTESTPROCEDUREVariable:WIDTHDISINFNMeanStdDevStdError--------------------------------------------------------------------------140.350000000.041633320.02081666240.595000000.210475650.10523783VariancesTDFProb>|T|---------------------------------------Unequal-2.28383.20.1014Equal-2.28386.00.0625ForH0:Variancesareequal,F"=25.56DF=(3,3)Prob>F"=0.0245F的显著性概率P=0.0245,小于0.05,因此方差不具齐性。在不具齐性时,t的显著性概率P=0.1041,大于0.05。因此,头胸宽差异不显著。(3)腹宽:T-TestforPooledDataTTESTPROCEDUREVariable:WIDTHDISINFNMeanStdDevStdError--------------------------------------------------------------------------140.537500000.153052280.07652614240.657500000.331197320.16559866VariancesTDFProb>|T|---------------------------------------Unequal-0.65784.20.5451Equal-0.65786.00.5351ForH0:Variancesareequal,F"=4.68DF=(3,3)Prob>F"=0.2370结果指出,方差具齐性,此时t的显著性概率P=0.5351。结论是腹宽的差异不显著。-140- 5.29用两种不同方法回收污水中病毒的比较,结果如下表[25]:检测号病毒回收方法和吸收条件/PFU**·L-1污水烟煤(pH3.5+MgCl2*)Millipore(pH3.5+MgCl2*)17064273373561464781685629554612020673422198157289911414910418454注:*MgCl2浓度为0.05mol/L。**PFU:plaque-formingunit(空斑形成单位)。检验两种过滤方法回收病毒效率上的差异,如果两种方法差异不显著,则可以用烟煤代替昂贵的millipore过滤器。答:方差齐性检验的统计假设为:根据题意,本题之平均数差的显著性检验是双侧检验,统计假设为:首先检验分布的正态性。用正态概率图检验,发现分布是正偏的。对数据做了对数变换,变换后的数据近似服从正态分布,以下是用变换后的数据所进行的分析。程序和运行结果如下:optionslinesize=76nodate;datavirus;inputadsorby@@;PFU=log10(y);cards;17017315617816291120134211571114141826423721462168255422062219228921492454;procttest;classadsorb;varPFU;title"T-TestforPooledData";run;T-TestforPooledDataTTESTPROCEDUREVariable:PFUADSORBNMeanStdDevStdError--------------------------------------------------------------------------1102.163454230.366261360.115822012102.245300490.356126240.11261700-140- VariancesTDFProb>|T|---------------------------------------Unequal-0.506618.00.6186Equal-0.506618.00.6186ForH0:Variancesareequal,F"=1.06DF=(9,9)Prob>F"=0.9347结果显示,方差是具齐性的。检验统计量t的显著性概率P=0.6186,大于0.05,没有足够的理由拒绝H0。因此,用烟煤和Millipore回收病毒的效率没有显著不同。5.30对胎儿臂丛神经上干做拉伸实验,其中“最大应力”(MPa)的结果如下[26]:男性8个月以上胎龄组女性8个月以上胎龄组男性6.5-7个月以上胎龄组女性6.5-7个月以上胎龄组3.7513.1563.1752.3683.0213.6732.5412.6944.1383.0822.4732.5723.5744.2692.7143.0453.8753.8422.9282.2144.0123.9462.6362.7172.9963.7412.4442.4623.6873.4722.8732.831分别检验相同胎龄、不同性别组之间,相同性别、不同胎龄组之间的最大应力差异是否显著?个体间的变异程度是否一致?答:方差齐性检验的统计假设为:根据题意,本题之平均数差的显著性检验是双侧检验,统计假设为:首先检验分布的正态性。四组数据的正态分布图如下:总的来看正态性近似的都比较好。下面是t检验的结果。(1)男婴8个月/女婴8个月:-140- T-TestforPooledDataTTESTPROCEDUREVariable:NERVESEXAGENMeanStdDevStdError--------------------------------------------------------------------------183.631750000.423902200.14987206283.647625000.399061380.14108950VariancesTDFProb>|T|---------------------------------------Unequal-0.077113.90.9396Equal-0.077114.00.9396ForH0:Variancesareequal,F"=1.13DF=(7,7)Prob>F"=0.8775(2)男婴6.5~7个月/女婴6.5~7个月T-TestforPooledDataTTESTPROCEDUREVariable:NERVESEXAGENMeanStdDevStdError--------------------------------------------------------------------------382.723000000.253530500.08963657482.612875000.265984120.09403959VariancesTDFProb>|T|---------------------------------------Unequal0.847714.00.4109Equal0.847714.00.4109ForH0:Variancesareequal,F"=1.10DF=(7,7)Prob>F"=0.9026(3)男婴8个月/男婴6.5~7个月T-TestforPooledDataTTESTPROCEDUREVariable:NERVESEXAGENMeanStdDevStdError--------------------------------------------------------------------------183.631750000.423902200.14987206382.723000000.253530500.08963657VariancesTDFProb>|T|---------------------------------------Unequal5.203811.40.0003Equal5.203814.00.0001ForH0:Variancesareequal,F"=2.80DF=(7,7)Prob>F"=0.1984(4)女婴8个月/女婴6.5~7个月T-TestforPooledDataTTESTPROCEDUREVariable:NERVESEXAGENMeanStdDevStdError---------------------------------------------------------------------------140- 283.647625000.399061380.14108950482.612875000.265984120.09403959VariancesTDFProb>|T|---------------------------------------Unequal6.102712.20.0001Equal6.102714.00.0000ForH0:Variancesareequal,F"=2.25DF=(7,7)Prob>F"=0.3065从以上结果可以得出:不同性别、相同月龄的婴儿间,臂丛神经上干的最大平均应力差异不显著;相同性别、不同月龄的婴儿间,臂丛神经上干的最大平均应力差异极显著。如何得到这样的结论,请读者自行判断。5.31CYGB(细胞珠蛋白)基因可能是非小细胞肺癌(NSCLC)的抑制基因之一,研究CYGB启动子甲基化程度与肿瘤发病间的关系,以推断CYGB抑制肿瘤的作用。下面给出了受检的52名患者甲基化指数与能够与之配对的52名正常对照甲基化指数的差(MtIT−MtIN)[8]:0.4190.0170.1050.3330.1700.2460.2420.3640.0510.5200.2000.1030.1670.1760.0370.4670.1660.2100.0500.0630.0640.0570.0330.0670.2420.0060.1170.0800.0880.0860.1960.3770.0190.0170.5930.0590.3420.0600.0210.0350.0460.0770.0000.0620.0520.0110.0020.3380.0020.0640.0720.146推断病人的CYGB启动子甲基化程度是否显著高于正常人群,由此你可以得到什么推论?答:统计假设:使用的程序和结果如下:datasorty;infile"E:dataexr5-31e.dat";inputx@@;y=sqrt(x);procsort;byy;datanorm;n=52;doi=1tonby1;p=(i-1/3)/(n+1/3);u=probit(p);output;end;datacombine;mergesortynorm;symbolv=star;procgplot;ploty*u;run;procmeansnmeanstderrtprt;vary;title1"PairedT-Test";title2"MtIT-MtIN";run;-140- 原始数据有明显的负偏,因此做了平方根变换,变换后的数据,已经近似服从正态分布了,如上图所示。PairedT-TestMtIT-MtINAnalysisVariable:YNMeanStdErrorTProb>|T|------------------------------------------------------520.33280440.025889512.85481650.0001------------------------------------------------------检验统计量t的显著性概率P=0.0001,P<0.01,拒绝H0。说明患者细胞珠蛋白基因启动子的甲基化程度极显著地高于正常人。由于非小细胞肺癌的抑制基因启动子活性降低,有可能提高非小细胞肺癌的发病率。5.32羊毛在处理前后的含脂率如下表:处理前0.190.180.210.300.660.420.080.120.300.27处理后0.150.130.070.240.190.080.20问处理后的含脂率是否显著低于处理前?答:方差齐性检验的统计假设为:根据题意,本题之平均数差的显著性检验是单侧检验,统计假设为:首先检验数据的正态性,利用正态概率图发现分布有些正偏,经对数变换后,得到了较好的正态性。程序和结果如下:optionslinesize=76nodate;datawool;inputtreaty@@;fat=log(y);cards;10.1910.1810.2110.3010.6610.4210.0810.1210.3010.2720.1520.1320.0720.2420.1920.0820.20;procttest;classtreat;varfat;title"T-TestforPooledData";run;-140- T-TestforPooledDataTTESTPROCEDUREVariable:FATTREATNMeanStdDevStdError----------------------------------------------------------------------------110-1.458246450.603953990.1909870227-1.974230710.468046610.17690499VariancesTDFProb>|T|---------------------------------------Unequal1.982014.80.0664Equal1.891315.00.0781ForH0:Variancesareequal,F"=1.67DF=(9,6)Prob>F"=0.5506方差齐性检验的结果,方差具齐性。在方差具齐性时得到的t=1.8913,其单侧显著性概率P=0.0391,小于0.05,拒绝H0。因此,羊毛在处理前后的含脂率有显著性差异。5.33为了检验正常成人男、女性血液红细胞平均数之间的差异,随机抽取60对健康青年夫妻进行检测,得到以下结果:夫/(104·mm-3)妻/(104·mm-3)d/(104·mm-3)(夫-妻)n1=60n2=60nd=60使用适当的检验方法,检验其差异显著性。答:夫妻之间是不能配成对子的,因此只能按成组数据处理。假定数据是从正态总体中获得的。方差齐性检验的统计假设为:根据题意,本题之平均数差的显著性检验是双侧检验,统计假设为:结果如下:T-TestforNon-PrimalDataFFUTAILPTDFTUTAILP1.133320.316155.24957118.000.000000341221.133320.316155.24957117.541.00000034296方差是具齐性的。t=5.24957,t的显著性概率P=0.00000034122,远远小于0.005,因此拒绝H0。结论是男女两性血红细胞平均含量差异极显著。5.34随机选择11名25岁健康男性,抽取静脉血并制成血滤液。随机抽取其中1人作为对照,制成血滤液后马上测定血糖浓度,结果为102(10-2mg/mL)。另外10份滤液放置2小时后再测定,结果为:83、84、90、90、88、94、88、80、81、87(10-2mg/mL)。问酵解作用对血糖浓度是否有影响?答:对照组无重复,无法计算s2,故不能进行统计推断。-140- 第六章参数估计6.1以每天每千克体重52mmol5-羟色胺处理家兔14天后,对血液中血清素含量的影响如下表[9]:/(mg·L-1)s/(mg·L-1)n对照组4.200.35125-羟色胺处理组8.490.379建立对照组和5-羟色胺处理组平均数差的0.95置信限。答:程序如下:optionsnodate;datacommon;alpha=0.05;inputn1m1s1n2m2s2;dfa=n1-1;dfb=n2-1;vara=s1**2;varb=s2**2;ifvara>varbthenF=vara/varb;elseF=varb/vara;ifvara>varbthenFutailp=1-probf(F,dfa,dfb);elseFutailp=1-probf(F,dfb,dfa);df=n1+n2-2;t=tinv(1-alpha/2,df);d=abs(m1-m2);lcldmseq=d-t*sqrt(((dfa*vara+dfb*varb)/(dfa+dfb))*(1/n1+1/n2));ucldmseq=d+t*sqrt(((dfa*vara+dfb*varb)/(dfa+dfb))*(1/n1+1/n2));k=vara/n1/(vara/n1+varb/n2);df0=1/(k**2/dfa+(1-K)**2/dfb);t0=tinv(1-alpha/2,df0);lcldmsun=d-t0*sqrt(vara/n1+varb/n2);ucldmsun=d+t0*sqrt(vara/n1+varb/n2);cards;124.200.3598.490.37;procprint;idf;varFutailpalphalcldmsequcldmseqlcldmsunucldmsun;title1"ConfidenceLimitsontheDifferenceofMeans";title2"forNon-PrimalData";run;结果见下表:ConfidenceLimitsontheDifferenceofMeansforNon-PrimalDataFFUTAILPALPHALCLDMSEQUCLDMSEQLCLDMSUNUCLDMSUN1.117550.420660.053.959074.620933.953364.62664首先,方差是具齐性的。在方差具齐性的情况下,平均数差的0.95置信下限为3.95907,置信上限为4.62093。0.95置信区间为3.95907~4.62093。-140- 6.2不同年龄的雄岩羊角角基端距如下表[27]:年龄/a/cms/cmn4.528.922.17135.531.812.4411建立平均数差的0.95置信区间,对应于H0:μ1-μ2=0,HA:μ1-μ2≠0的假设,推断两者间的差异显著性。答:结果如下:ConfidenceLimitsontheDifferenceofMeansforNon-PrimalDataFFUTAILPALPHALCLDMSEQUCLDMSEQLCLDMSUNUCLDMSUN1.264330.345280.050.938734.841270.909104.87090因为方差具齐性,所以平均数差的0.95置信区间为:0.93873~4.84127。置信区间内不包括0,因此两者间的差异是显著的。6.3了解我国风险识别、风险评价和风险缓解的现状,对于应对突发事件有重要作用。以下是关于应对突发公共卫生事件能力调查(共调查了60个单位)的部分数据[28]:项目单位数识别了当地可能发生的突发公共卫生事件35对所识别的突发公共卫生事件进行了风险评价17根据风险评价结果确定了当地突发公共卫生事件的工作重点6分别计算上述三个项目的0.95置信区间。答:程序如下:optionsnodate;dataclbi;n=60;m=35;p=m/n;alpha=0.05;dolphi=0.0001topby0.00001;ltailp=1-probbnml(lphi,n,m-1);ifabs(ltailp-alpha/2)<0.00001thengotolower;end;lower:putmnpltailplphi;douphi=pto0.9999by0.00001;utailp=probbnml(uphi,n,m);ifabs(utailp-alpha/2)<0.00001thengotoupper;end;upper:putmnputailpuphi;procprint;idm;varnpltailputailplphiuphi;title"ConfidenceLimitsforBinomialPopulation";run;结果如下:项目(1):ConfidenceLimitsforBinomialPopulationMNPLTAILPUTAILPLPHIUPHI-140- 35600.583330.0249930.0250060.448830.70931项目(2):ConfidenceLimitsforBinomialPopulationMNPLTAILPUTAILPLPHIUPHI17600.283330.0249930.0250020.17450.41443项目(3):ConfidenceLimitsforBinomialPopulationMNPLTAILPUTAILPLPHIUPHI6600.10.0249960.0250080.037590.205056.4乳腺癌患者有着沉重的心理负担,主要表现为:焦虑、怀疑和否认、恐惧、依赖、自私、悲观失望等。经心理护理后,在很多方面都到改善,护理前和护理后的评分()见下表[29]:表现心理护理前/评分心理护理后/评分样本含量(n)健康25.71±2.3128.51±9.0462抑郁10.54±4.924.61±1.6362恐怖12.10±2.2410.76±3.0862强迫15.29±4.5310.33±4.8362焦虑14.41±2.479.26±3.3562怀疑16.75±3.694.92±2.1162神经衰弱11.73±2.468.84±3.8362计算上述各种表现平均数差的0.95置信区间。(注意方差不具齐性的情况。)答:结果见下表:表现FFUTAILPALPHALCLDMSEQUCLDMSEQLCLDMSUNUCLDMSUN健康15.314900.050.454235.145770.436015.16399抑郁9.110771.3323E-150.054.626957.233054.618507.24150恐怖1.89063.00701200.050.382532.297470.381622.29838强迫1.136840.309030.053.295196.624813.295126.62488焦虑1.83948.00932430.054.103606.196404.102686.19732怀疑3.05835.0000110680.0510.761312.898710.758612.9014神经衰弱2.42397.000349690.051.745594.034411.743604.036406.5紫杉烷类物质具有优良的抗癌作用,近年来已成功地开发出紫杉烷类抗癌新药紫杉醇和多烯紫杉醇。由此也引起人们对药源植物云南红豆杉的关注,测定了紫杉烷类物质在不同类型云南红豆杉中的含量。下面给出其中的两种物质的测定结果[30]:种类/%s/%n紫杉醇0.00620.0051203三尖杉宁碱0.00500.0045203计算两种物质平均数差的0.95置信区间,并以H0:μ1-μ2=0,HA:μ1-μ2≠0的假设推断两者间的差异显著性。-140- 答:结果见下表:ConfidenceLimitsontheDifferenceofMeansforNon-PrimalDataFFUTAILPALPHALCLDMSEQUCLDMSEQLCLDMSUNUCLDMSUN1.284440.0379990.05.00026156.0021384.00026152.0021385F的显著性概率P=0.037999,P>0.025,方差具齐性。方差具齐性时的0.95置信区间为:0.00026156~0.0021384。在置信区间内不包括0,因此紫杉醇和三尖杉宁碱的含量差异显著。6.6流行病学调查表明,高同型半胱氨酸(Homocysteine,Hcy)是导致动脉粥样硬化性血管病的一个新的独立危险因素。测定了脑梗死组和对照组的Hcy,结果()如下表[31]:组别nHcy/(μmol·L-1)脑梗死9521.10±5.58对照9015.83±3.40计算两组平均数差的0.95置信区间,并解释所计算的结果。答:结果如下:ConfidenceLimitsontheDifferenceofMeansforNon-PrimalDataFFUTAILPALPHALCLDMSEQUCLDMSEQLCLDMSUNUCLDMSUN2.69346.00000200080.053.920686.619323.935896.60411可以很明显看出,方差是不具齐性的。0.95置信区间为:3.93589~6.60411。置信区间内不包含0,因此脑梗死病人的同型半胱氨酸显著高于对照组。高同型半胱氨酸很可能是动脉粥样硬化性血管病的危险因素之一。6.730名受试者同时采取两份静脉血,分别用传统的魏氏法和自动血沉仪测定血沉[32],结果为分别:,。在α=0.05水平上,通过置信区间检验两种方法的差异显著性。答:所用程序如下:optionsnodate;dataesr;inputnmeanstd;alpha=0.05;talpha=-tinv(alpha/2,n-1);lclm=mean-talpha*std/sqrt(n);uclm=mean+talpha*std/sqrt(n);cards;300.26672.9935;procprint;idn;varmeanstdalphalclmuclm;-140- title1"ConfidenceLimitsforMu";title2"SigmaIsUnknown";run;结果见下表:ConfidenceLimitsforMuSigmaIsUnknownNMEANSTDALPHALCLMUCLM300.26672.99350.05-0.851091.38449在置信区间内包含0,因此传统魏氏法和自动血沉仪法测得的结果差异不显著。6.8生长激素缺乏症的患儿,在用生长激素治疗前和治疗6个月后的身高和体重数据如下表[33]:项目治疗前()治疗后()样本含量n身高/cm108±12114±1320体重/kg20.9±2.224.2±4.320先用t检验,推断治疗前和治疗后的平均身高和平均体重在α=0.05水平上的差异显著性,再用治疗前和治疗后的平均数差数的0.95置信区间验证。你认为这是一种很好的实验设计吗?怎样做检验的效果可能会更好?答:1.先做成组数据t检验:(1)身高:T-TestforNon-PrimalDataFFUTAILPTDFTUTAILP1.173610.365361.5166838.00000.0688121.173610.365361.5166837.75910.068838(2)体重:T-TestforNon-PrimalDataFFUTAILPTDFTUTAILP3.82025.00266733.0554238.0000.00204823.82025.00266733.0554228.3091.00243042.计算置信区间:(1)身高:ConfidenceLimitsontheDifferenceofMeansforNon-PrimalDataFFUTAILPALPHALCLDMSEQUCLDMSEQLCLDMSUNUCLDMSUN1.173610.365360.05-2.0085214.0085-2.0102014.0102(2)体重:ConfidenceLimitsontheDifferenceofMeansforNon-PrimalDataFFUTAILPALPHALCLDMSEQUCLDMSEQLCLDMSUNUCLDMSUN-140- 3.82025.00266730.051.113565.486441.088715.51129根据问题的要求,本例的t检验应为双侧检验,当t的显著性概率小于0.025时拒绝H0。检验的结果,身高治疗前后的差异不显著。从置信区间计算的结果,可以看出,身高的置信区间包含0,因此身高的差异不显著,体重的置信区间不包含0,因此体重的差异显著。统计假设检验与置信区间得到的结果是一致的。另外,本例的实验设计是配对设计,但在处理数据时,作者按成组设计计算的,虽不能算是错误,但减低了检验效率。6.9血小板可能是冠心病(CHD)血栓形成的关键因素。一项研究,测定了92例CHD患者血小板的一些相关指标,结果如下[34]:123456项目结果()0.95置信区间PLT①/(109·L-1)177±49166.852187.148MPV③/fL8.70±1.308.430788.96922PDW②0.67±0.060.657570.68243MPC④/(g·L-1)265±19261.065268.935MPM⑤/pg2.20±0.352.127522.27248L-PLT⑥/(109·L-1)8.50±1.808.127238.87277注:①PLT:血小板数。②MPV:平均血小板体积。③PDW:血小板分布宽度。④MPC:平均血小板内容物浓度。⑤MPM:平均血小板内容物含量。⑥L-PTL:大血小板将表中各个项目的0.95置信区间填入表中。答:所用程序如下:optionsnodate;datachd;inputnmeanstd;alpha=0.05;talpha=-tinv(alpha/2,n-1);lclm=mean-talpha*std/sqrt(n);uclm=mean+talpha*std/sqrt(n);cards;9217749;procprint;idn;varmeanstdalphalclmuclm;title1"ConfidenceLimitsforMu";title2"SigmaIsUnknownandNon-primalData";run;更换项目时,只要将CARDS语句后的数据行,更改为相应的数据即可。6.10同型半胱氨酸(Hcy)含量可能与心脑血管疾病、慢性肾病、糖尿病以及神经精神疾病等都有关系,下面给出了抑郁症患者在治疗前和治疗后Hcy的含量[35]:-140- 组别nHcy/(μmol·L-1)治疗前()1819.22±8.36治疗6周后()1815.39±6.68推断治疗前和治疗后个体间变异的0.95置信区间,根据置信区间推断个体间变异的显著性。答:所使用的程序如下:optionsnodate;dataclrs;inputn1s1n2s2@@;alpha=0.05;dfa=n1-1;dfb=n2-1;vara=s1**2;varb=s2**2;F=vara/varb;sqrtf=sqrt(f);uf=finv(1-alpha/2,dfa,dfb);lf=finv(alpha/2,dfa,dfb);uclrs=sqrt(f/lf);lclrs=sqrt(f/uf);cards;188.36186.68;procprint;iddfa;vardfbvaravarbsqrtFlclrsuclrs;title"ConfidenceLimitsontheRatiooftwosigmas";run;结果见下表:ConfidenceLimitsontheRatiooftwosigmasDFADFBVARAVARBSQRTFLCLRSUCLRS171769.889644.62241.251500.765432.04623在置信区间内包含1,因此个体间变异的程度差异不显著。第七章拟合优度检验7.12000年在5760295名成年人群中和1596734名儿童群体中严重CDH(先天性心脏病)和其他程度CDH的流行病学患者数如下表[36]:受严重损害的人数受其它程度损害的人数合计尚存活的成年人22052135823563尚存活的儿童23161666318979合计45213802142542检验在尚存活的成年人和儿童中受损害的程度,差异是否显著?答:这是2×2列联表χ2检验,使用程序如下:optionslinesize=76nodate;data;doa=1to2;dob=1to2;inputcase@@;output;end;-140- end;cards;220521358231616663;procfreqformchar(1,2,7)="|-+";weightcase;tablesa*b/cellchi2expectednocolnorownopercentchisq;title"2*2ContingencyTableTest";run;程序运行结果见下表:2*2ContingencyTableTestTABLEOFABYBABFrequency|Expected|CellChi-Square|1|2|Total---------------+--------+--------+1|2205|21358|23563|2504.1|21059||35.72|4.2474|---------------+--------+--------+2|2316|16663|18979|2016.9|16962||44.347|5.2733|---------------+--------+--------+Total45213802142542STATISTICSFORTABLEOFABYBStatisticDFValueProb------------------------------------------------------Chi-Square189.5880.001LikelihoodRatioChi-Square189.0700.001ContinuityAdj.Chi-Square189.2890.001Mantel-HaenszelChi-Square189.5860.001Fisher"sExactTest(Left)2.21E-21(Right)1.000(2-Tail)4.20E-21PhiCoefficient-0.046ContingencyCoefficient0.046Cramer"sV-0.046SampleSize=42542从“A×B列联表的统计量”部分可以得出,连续性矫正的χ2显著性概率P=0.001,P<0.01,故拒绝H0,在尚存活的成年人和儿童中受损害的程度差异极显著。7.22000年在成年人和儿童中CDH(先天性心脏病)的发病患者数如下表[36]:先天心脏病患者数无先天心脏病患者数合计成年人2656357337325760295儿童1897915777551596734合计4554273114877357029问:在成年人和在儿童中先天心脏病的发病率差异是否显著?-140- 答:本题为2×2列联表X2检验,需做连续性矫正。结果如下表:2*2ContingencyTableTestTABLEOFABYBABFrequency|Expected|CellChi-Square|1|2|Total---------------+--------+--------+1|26563|5733732|5760295|35658|5724637||2319.7|14.449|---------------+--------+--------+2|18979|1577755|1596734|9884.2|1586850||8368.4|52.125|---------------+--------+--------+Total4554273114877357029STATISTICSFORTABLEOFABYBStatisticDFValueProb------------------------------------------------------Chi-Square110754.6710.001LikelihoodRatioChi-Square19187.3830.001ContinuityAdj.Chi-Square110753.4880.001Mantel-HaenszelChi-Square110754.6690.001Fisher"sExactTest(Left)0.00E+00(Right)1.000(2-Tail)0.00E+00PhiCoefficient-0.038ContingencyCoefficient0.038Cramer"sV-0.038SampleSize=7357029连续性矫正的χ2显著性概率P=0.001,P<0.01,故拒绝H0,在成年人和在儿童中先天心脏病的发病率差异极显著。7.3在关于II型糖尿病与患帕金森氏病风险的研究中,共有50454名非糖尿病患者和1098名糖尿病患者参与实验,在无糖尿病的参与者中有609名患帕金森氏病,在糖尿病患者中有24名还患有帕金森氏病[37]。请推断患帕金森氏病的风险是否与患糖尿病有关?答:本题为2×2列联表χ2检验,需做连续性矫正。结果如下表:2*2ContingencyTableTestTABLEOFABYBABFrequency|Expected|CellChi-Square|1|2|Total---------------+--------+--------+1|609|50454|51063|619.39|50444||0.1743|0.0021|---------------+--------+--------+2|24|1098|1122-140- |13.61|1108.4||7.9323|0.0974|---------------+--------+--------+Total6335155252185STATISTICSFORTABLEOFABYBStatisticDFValueProb------------------------------------------------------Chi-Square18.2060.004LikelihoodRatioChi-Square16.7230.010ContinuityAdj.Chi-Square17.4350.006Mantel-HaenszelChi-Square18.2060.004Fisher"sExactTest(Left)5.92E-03(Right)0.997(2-Tail)8.05E-03PhiCoefficient-0.013ContingencyCoefficient0.013Cramer"sV-0.013SampleSize=52185连续性矫正的χ2显著性概率P=0.006,P<0.01,故拒绝H0。在糖尿病患者和非糖尿病患者中,帕金森氏病的发病率有极显著不同。由此推断患帕金森氏病的风险可能与糖尿病有关。7.4将患有慢性心力衰竭的门诊患者随机分为两组,采用两种方法护理。一种是用通常的护理方法护理,共758名患者;另一种是用电话参与护理,心内科医生经常打电话访问、指导,共760名患者。在该研究项目结束时,前一组有235名患者病情恶化甚至死亡,而后一组出现这种情况的是200名患者[38]。问:用电话参与的护理方法与通常的护理方法,护理的效果有无显著不同?答:本题为2×2列联表χ2检验,需做连续性矫正。结果如下表:2*2ContingencyTableTestTABLEOFABYBABFrequency|Expected|CellChi-Square|1|2|Total---------------+--------+--------+1|235|523|758|217.21|540.79||1.4565|0.585|---------------+--------+--------+2|200|560|760|217.79|542.21||1.4526|0.5835|---------------+--------+--------+Total43510831518STATISTICSFORTABLEOFABYBStatisticDFValueProb------------------------------------------------------Chi-Square14.0780.043LikelihoodRatioChi-Square14.0810.043ContinuityAdj.Chi-Square13.8520.050-140- Mantel-HaenszelChi-Square14.0750.044Fisher"sExactTest(Left)0.981(Right)0.025(2-Tail)0.047PhiCoefficient0.052ContingencyCoefficient0.052Cramer"sV0.052SampleSize=1518表中的χ2的显著性概率刚好为0.050,依据χ2=3.852,从χ2分布的分布函数可以计算出P=0.0496867092,P<0.05。结论是,用电话参与的护理方法与通常的护理方法,护理的效果有显著不同。7.5人类面型大致可以分为5类,将186名男性和185名女性的面型进行了分类,所得数据见下表[21]:超狭面型狭面型中面型扩面型超扩面型合计男性人数2652544212186女性人数343645619185请推断面型的分布在两性之间差异是否显著?答:这是2×5列联表χ2检验,所用的程序与2×2列联表的程序没有很大的不同,只要把循环语句的“dob=1to2;”改为“dob=1to5;”便可以了。程序运行的结果如下表。2*5ContingencyTableTestTABLEOFABYBABFrequency|Expected|CellChi-Square|1|2|3|4|5|Total---------------+--------+--------+--------+--------+--------+1|26|52|54|42|12|186|14.539|47.628|59.159|49.132|15.542||9.0344|0.4013|0.4499|1.0353|0.8071|---------------+--------+--------+--------+--------+--------+2|3|43|64|56|19|185|14.461|47.372|58.841|48.868|15.458||9.0833|0.4035|0.4523|1.0409|0.8115|---------------+--------+--------+--------+--------+--------+Total29951189831371STATISTICSFORTABLEOFABYBStatisticDFValueProb------------------------------------------------------Chi-Square423.5200.001LikelihoodRatioChi-Square426.2130.001Mantel-HaenszelChi-Square115.8790.001PhiCoefficient0.252ContingencyCoefficient0.244Cramer"sV0.252SampleSize=371χ2的显著性概率P=0.006,P<0.01,故拒绝H0。不同面型在两性间的分布差异极显著。-140- 7.6马边河贝氏高原鳅繁殖群体的体长组成数据见下表[5]:体长分布>102.5>97.5>92.5>87.5>82.5>77.5>72.5>67.7雌鱼尾数163223173317127雄鱼尾数3025262112846检验马边河贝氏高原鳅在繁殖期,雌、雄鱼体体长分布差异是否显著?答:程序与上题类似,只是下标变量由5改为8。结果如下:2*8ContingencyTableTestTABLEOFABYBABFrequency|Expected|CellChi-Square|1|2|3|4|Total---------------+--------+--------+--------+--------+1|16|32|23|17|157|24.99|30.965|26.619|20.644||3.2339|0.0346|0.4921|0.6431|---------------+--------+--------+--------+--------+2|30|25|26|21|132|21.01|26.035|22.381|17.356||3.8463|0.0411|0.5853|0.7649|---------------+--------+--------+--------+--------+Total46574938289(Continued)TABLEOFABYBABFrequency|Expected|CellChi-Square|5|6|7|8|Total---------------+--------+--------+--------+--------+1|33|17|12|7|157|24.446|13.581|8.692|7.0623||2.9929|0.8606|1.2589|0.0005|---------------+--------+--------+--------+--------+2|12|8|4|6|132|20.554|11.419|7.308|5.9377||3.5597|1.0235|1.4974|0.0007|---------------+--------+--------+--------+--------+Total452516132892*8ContingencyTableTestSTATISTICSFORTABLEOFABYBStatisticDFValueProb------------------------------------------------------Chi-Square720.8350.004LikelihoodRatioChi-Square721.3990.003Mantel-HaenszelChi-Square110.0350.002PhiCoefficient0.269ContingencyCoefficient0.259Cramer"sV0.269-140- SampleSize=289χ2的显著性概率P=0.004,P<0.01,故拒绝H0。马边河贝氏高原鳅在繁殖期,雌、雄鱼体体长分布差异极显著。7.7将由白芥子、细辛、甘遂、延胡索和生姜制成的药膏在每年的头伏、中伏和末伏贴敷在风门穴和肺俞穴,进行三伏灸(sanfujiu)治疗。三伏灸治疗结束后,一些过敏症状的疗效(节选4项)见下表[39]:症状与治疗前比较症状改变程度总人数改善人数无改善人数加重人数气喘1915439流涕3940382鼻塞3941383咳嗽2520348检验三伏灸对不同过敏症状的效果是否相同?在这个表中出现了很多小于5的数据,考虑应如何处理。答:这是一个4×3列联表χ2检验,由于有些格的理论数小于5,需要做精确χ2检验。结果如下表:4*3ContingencyTableTestTABLEOFABYBABFrequency|Expected|CellChi-Square|1|2|3|Total---------------+--------+--------+--------+1|19|15|4|38|18.47|17.562|1.9681||0.0152|0.3737|2.0977|---------------+--------+--------+--------+2|39|40|3|82|39.857|37.896|4.247||0.0184|0.1168|0.3661|---------------+--------+--------+--------+3|39|41|3|83|40.343|38.359|4.2988||0.0447|0.1819|0.3924|---------------+--------+--------+--------+4|25|20|3|48|23.331|22.183|2.4861||0.1194|0.2149|0.1062|---------------+--------+--------+--------+Total12211613251STATISTICSFORTABLEOFABYBStatisticDFValueProb------------------------------------------------------Chi-Square64.0470.670LikelihoodRatioChi-Square63.6610.722Mantel-HaenszelChi-Square10.1730.677Fisher"sExactTest(2-Tail)0.684PhiCoefficient0.127ContingencyCoefficient0.126-140- Cramer"sV0.090SampleSize=251WARNING:33%ofthecellshaveexpectedcountslessthan5.Chi-Squaremaynotbeavalidtest.表中有4个格的理论数小于5,对于4×3列联表的精确χ2检验,只要在TABLES语句的“/”后加上EXACT选项即可。双尾精确检验的P=0.684,P>0.05,尚无足够的理由拒绝H0。结论是,表中的4个过敏症状改善的程度是一致的。7.83种方法治疗慢性鼻炎的疗效比较如下表[40]:人数治愈显效有效无效微波治疗组13623激光治疗组10514下鼻甲部分切除组4112检验3种治疗方法的疗效差异是否显著?答:结果见下表:3*4ContingencyTableExactTestTABLEOFABYBABFrequency|Expected|CellChi-Square|1|2|3|4|Total---------------+--------+--------+--------+--------+1|13|6|2|3|24|12.462|5.5385|1.8462|4.1538||0.0233|0.0385|0.0128|0.3205|---------------+--------+--------+--------+--------+2|10|5|1|4|20|10.385|4.6154|1.5385|3.4615||0.0142|0.0321|0.1885|0.0838|---------------+--------+--------+--------+--------+3|4|1|1|2|8|4.1538|1.8462|0.6154|1.3846||0.0057|0.3878|0.2404|0.2735|---------------+--------+--------+--------+--------+Total27124952STATISTICSFORTABLEOFABYBStatisticDFValueProb------------------------------------------------------Chi-Square61.6210.951LikelihoodRatioChi-Square61.6820.946Mantel-HaenszelChi-Square10.5640.453Fisher"sExactTest(2-Tail)0.945PhiCoefficient0.177ContingencyCoefficient0.174Cramer"sV0.125SampleSize=52WARNING:75%ofthecellshaveexpectedcountslessthan5.Chi-Squaremaynotbeavalidtest.精确χ2检验的结果,P=0.945,P>0.05。结论是,三种治疗方法的疗效差异不显著。-140- 7.9用齿科充填材料氢氧化钙及樟脑酚根管内封药治疗急性牙髓炎,治疗后0.5年,1年和3年成功率(成功人数/总人数)如下表[41]:0.5年1年3年氢氧化钙组71/7568/7567/75樟脑酚组70/7569/7567/75分别检验0.5年、1年和3年两组的治疗成功率差异是否显著?答:(1)0.5年:Fisher"sExactTest(2-Tail)P=1.000(2)1年:StatisticDFValueProbContinuityAdj.Chi-Square10.0001.000(3)3年:StatisticDFValueProbContinuityAdj.Chi-Square10.0001.000从以上结果可知,两个治疗组在治疗后0.5年,1年和3年后的治疗成功率差异不显著。7.10用近视灵保健液和离子眼药水治疗学生近视眼,得到以下结果:用近视灵保健液治疗的,共60只眼睛,其中51只眼睛有效;用离子眼药水治疗的,共66只眼睛,其中44只有效[42],问两种药物对治疗近视眼的效果差异是否显著?答:结果如下:STATISTICSFORTABLEOFABYBStatisticDFValueProb------------------------------------------------------Chi-Square15.6950.017LikelihoodRatioChi-Square15.8540.016ContinuityAdj.Chi-Square14.7490.029Mantel-HaenszelChi-Square15.6490.017Fisher"sExactTest(Left)0.014(Right)0.996(2-Tail)0.022PhiCoefficient-0.213ContingencyCoefficient0.208Cramer"sV-0.213SampleSize=126连续性矫正的χ2显著性概率P=0.029,P<0.05。因此,两种药物治疗近视眼的效果差异显著。7.11拉菲和舒巴酮是两种治疗呼吸系统和泌尿系统感染的药物,下表给出了这两种药物治疗淋菌性尿道炎的结果[43]:药物人数痊愈显效无效拉菲830舒巴酮1383推断这两种药物治疗淋菌性尿道炎的疗效差异是否显著?-140- 答:结果见下表:STATISTICSFORTABLEOFABYBStatisticDFValueProb------------------------------------------------------Chi-Square21.8960.387LikelihoodRatioChi-Square22.7730.250Mantel-HaenszelChi-Square11.6780.195Fisher"sExactTest(2-Tail)0.641PhiCoefficient0.233ContingencyCoefficient0.227Cramer"sV0.233SampleSize=35WARNING:50%ofthecellshaveexpectedcountslessthan5.Chi-Squaremaynotbeavalidtest.Fisher"sExactTest(2-Tail)的显著性概率P=0.641,P>0.05。因此,两种药物治疗淋菌性尿道炎的效果差异不显著。7.12人类指尖的皮纹(由皮肤纹嵴所构成的纹嵴花纹),粗略分型可分为弓(arch)、箕(loop)和斗(whorl)。在一般人群中弓形纹频率较低,主要为箕和斗,但在染色体异常的病人中弓形纹出现的频率较高。下表中给出了闽南人男女两性的不同皮纹类型[44]:性别皮纹类型(手指数)弓型箕型斗型男16502482女29501470检验两性不同皮纹类型差异是否显著?答:结果如下:STATISTICSFORTABLEOFABYBStatisticDFValueProb------------------------------------------------------Chi-Square23.9080.142LikelihoodRatioChi-Square23.9620.138Mantel-HaenszelChi-Square11.0670.302Fisher"sExactTest(2-Tail)0.145PhiCoefficient0.044ContingencyCoefficient0.044Cramer"sV0.044SampleSize=2000χ2显著性概率P=0.142,P>0.05。因此,尚无足够的理由拒绝H0,男女两性的皮纹类型差异不显著。7.13由于社会竞争加剧,就业困难,贫富差距加大等社会因素,造成心理疾病患者明显加多。很多心理疾病患者往往表现为躯体上的一些症状,下表给出了在不同科室就医的患者中有心理障碍患者的人数[45]:检测例数心理障碍者数内外科门诊416140-140- 妇产科门诊326132中医科门诊258140检验心理疾患与躯体症状表现类型之间是否存在关联?答:结果如下:3*2ContingencyTableTestTABLEOFABYBABFrequency|Expected|CellChi-Square|1|2|Total---------------+--------+--------+1|140|276|416|171.39|244.61||5.7497|4.0287|---------------+--------+--------+2|132|194|326|134.31|191.69||0.0398|0.0279|---------------+--------+--------+3|140|118|258|106.3|151.7||10.687|7.488|---------------+--------+--------+Total4125881000STATISTICSFORTABLEOFABYBStatisticDFValueProb------------------------------------------------------Chi-Square228.0210.001LikelihoodRatioChi-Square227.8930.001Mantel-HaenszelChi-Square126.9230.001Fisher"sExactTest(2-Tail)9.14E-07PhiCoefficient0.167ContingencyCoefficient0.165Cramer"sV0.167SampleSize=1000χ2显著性概率P=0.001,P<0.01。因此,拒绝H0,心理疾患与躯体症状表现类型之间存在关联。7.14海南粗榧叶长度的频数分布[4]:叶长度/mm频数2.0~2.23902.2~2.414342.4~2.626432.6~2.835462.8~3.056923.0~3.251873.2~3.443333.4~3.627673.6~3.816773.8~4.01137-140- 4.0~4.26674.2~4.43464.4~4.6181用正态分布拟合,检验海南粗榧叶长度是否服从正态分布?答:所用程序见“SAS实用程序”子目录中的“7.3例7.3e正态性的拟合优度检验”。将该程序的相关语句做相应修改,便成为下述程序。其中红字标出的地方是修改部分。optionsnodate;datanorm;infile"e:dataexr7-14e.dat";doy=0to12;inputfy@@;fy=f*y;fsqy=f*y*y;sumf+f;sumfy+fy;sumfsqy+fsqy;m=sumfy/sumf;vace=(sumfsqy-m*sumfy)/sumf;std=sqrt(vace);doj=0.5to11.5;ify=12thenoutput;end;end;run;datax;setnorm;u=(j-m)/std;p=probnorm(u);t0=sumf*p;run;datab;setx;keept0;run;dataa;inputt0;cards;30000;dataa1;setba;run;dataa2;seta1;renamet0=fir;run;datac;inputt0;cards;0;datac1;setcb;run;datac2;setc1;renamet0=las;run;datafreq;infile"e:dataexr7-14e.dat";inputfy@@;run;datacomb;mergefreqa2c2;t=fir-las;chi=(f-t)*(f-t)/t;chisq+chi;num+1;df=num-3;p=1-probchi(chisq,df);ifnum=13thenoutput;keepchisqdfp;procprint;iddf;varchisqp;title1"GoodnessofFitTest";title2"FortheNormality";run;计算结果见下表:GoodnessofFitTestFortheNormalityDFCHISQP101168.860χ2显著性概率P=0,P<0.01。因此,拒绝H0,海南粗榧叶长度的分布不服从正态分布。-140- 7.15姊妹染色单体交换(SCE)可以“自发”产生,也可以由诱变因素诱导产生。下表给出了在单个细胞内“自发”和诱发产生的SCE数(略作调整)[46]:“自发的”诱发的单个细胞内的SCE数频数单个细胞内的SCE数频数6147578868109109121015101411111151214127136138147157总数78168总数89利用拟合优度检验“自发”和诱发产生的SCE数是否服从正态分布?答:“自发的”:GoodnessofFitTestFortheNormalityDFCHISQP57.029830.21843诱发的:GoodnessofFitTestFortheNormalityDFCHISQP76.713770.45928从以上结果可知,“自发”和诱发产生的SCE数都是服从正态分布的。7.16检验例3.2的实验结果是否符合二项分布。正常直毛后代数(y)观察频数(f)0011223441256657280总数N=32答:所用的程序与“SAS实用程序”子目录中的“7.2例7.2e理论数小于5的拟合优度检验”程序基本一致。下述程序中红字的部分是结合本题所做的修改。因为本题的参数φ是已知的,所以df=k-1,与“SAS实用程序”中的7.2节不同,在那里df=k-1-1。-140- optionsnodate;dataabc;n=8;phi=0.5;sumo=32;doi=1to15until(sumt>5);sumi+1;inputyo@@;p2=probbnml(phi,n,y);p1=probbnml(phi,n,y-1);ify=0thenpr=p2;elsepr=p2-p1;t=pr*sumo;sumt+t;ifi=sumithenoutputa;elseoutputbc;end;cards;0011223441256657280;run;databc;setbc;index_t=sumo-sumt;ift>=5andindex_t>=5thenoutputb;elseoutputc;datad;seta;t0+t;dropt;o0+o;dropo;ifsumt>=5thenoutputd;datae;setb;o0=o;t0=t;outpute;dataf;setc;t0+t;dropt;o0+o;dropo;ifn=sumi-1thenoutputf;datacombin;setdef;chi=(o0-t0)**2/t0;chisq+chi;j+1;df=j-1;ifn=sumi-1thenoutput;dataend;setcombin;p=1-probchi(chisq,df);procprintdata=end;idchisq;vardfp;title1"GoodnessofFitTest";title2"ForTable3-2";run;计算结果见下表:GoodnessofFitTestForTable3-2CHISQDFP3.2098320.20091χ2=3.20983,χ2显著性概率P=0.20091,P>0.05。尚无足够理由拒绝H0,正常直毛后代数服从二项分布。第八章单因素方差分析8.1黄花蒿中所含的青蒿素是当前抗疟首选药物,研究不同播期对黄花蒿种子产量的影响,试验采用完全随机化设计,得到以下结果(kg/小区)[47]:重复播种期2月19日3月9日3月28日4月13日10.260.140.120.0320.490.240.110.0230.360.210.150.04-140- 对上述结果做方差分析。答:所用程序及结果如下:optionslinesize=76nodate;datamugwort;dodate=1to4;dorepetit=1to3;inputyield@@;output;end;end;cards;0.260.490.360.140.240.210.120.110.150.030.020.04;run;procanova;classdate;modelyield=date;meansdate/duncan;run;One-WayANOVAAnalysisofVarianceProcedureClassLevelInformationClassLevelsValuesDATE41234Numberofobservationsindataset=12One-WayANOVAAnalysisofVarianceProcedureDependentVariable:YIELDSumofMeanSourceDFSquaresSquareFValuePr>FModel30.185158330.0617194414.990.0012Error80.032933330.00411667CorrectedTotal110.21809167R-SquareC.V.RootMSEYIELDMean0.84899335.480880.064160.18083SourceDFAnovaSSMeanSquareFValuePr>FDATE30.185158330.0617194414.990.0012One-WayANOVAAnalysisofVarianceProcedureDuncan"sMultipleRangeTestforvariable:YIELDNOTE:ThistestcontrolsthetypeIcomparisonwiseerrorrate,nottheexperimentwiseerrorrate-140- Alpha=0.05df=8MSE=0.004117NumberofMeans234CriticalRange.1208.1259.1287Meanswiththesameletterarenotsignificantlydifferent.DuncanGroupingMeanNDATEA0.3700031B0.1966732BCB0.1266733CC0.0300034对于方差分析表中各项内容的含义,在“SAS程序及释义”部分已经做了详细解释,这里不再重复。如果有不明白的地方,请复习“SAS程序及释义”的相关内容。SAS分析结果指出,不同播种期其产量差异极显著。多重比较表明,2和3间差异不显著,3和4间差异不显著,1和其他各组间差异都显著。以上结果可以归纳成下表。变差来源平方和自由度均方FP播期间0.1851583330.0617194414.990.0012重复间0.0329333380.00411667总和0.2180916711多重比较:12348.2下表是6种溶液及对照组的雌激素活度鉴定,指标是小鼠子宫重。对表中的数据做方差分析,若差异是显著的,则需做多重比较。鼠号溶液种类Ⅰ(ck)ⅡⅢⅣⅤⅥⅦ189.984.464.475.288.456.465.6293.8116.079.862.490.283.279.4388.484.088.062.473.290.465.64112.668.669.473.887.885.670.2答:所用程序及结果如下:optionslinesize=76nodate;datauterus;infile"e:dataexr8-2e.dat";dosolution=1to7;dorepetit=1to4;inputweight@@;output;end;end;run;procanova;classsolution;modelweight=solution;meanssolution/duncan;-140- run;TheSASSystemAnalysisofVarianceProcedureClassLevelInformationClassLevelsValuesSOLUTION71234567Numberofobservationsindataset=28TheSASSystemAnalysisofVarianceProcedureDependentVariable:WEIGHTSumofMeanSourceDFSquaresSquareFValuePr>FModel62419.10500403.184172.770.0385Error213061.30750145.77655CorrectedTotal275480.41250R-SquareC.V.RootMSEWEIGHTMean0.44140915.0311812.073880.3250SourceDFAnovaSSMeanSquareFValuePr>FSOLUTION62419.10500403.184172.770.0385TheSASSystemAnalysisofVarianceProcedureDuncan"sMultipleRangeTestforvariable:WEIGHTNOTE:ThistestcontrolsthetypeIcomparisonwiseerrorrate,nottheexperimentwiseerrorrateAlpha=0.05df=21MSE=145.7765NumberofMeans234567CriticalRange17.7518.6419.2019.6019.8920.12Meanswiththesameletterarenotsignificantlydifferent.DuncanGroupingMeanNSOLUTIONA96.17541ABA88.25042BABA84.90045BABA78.90046BB75.40043BB70.20047BB68.45044溶液种类的显著性概率P=0.0385,P<0.05,不同种类的溶液影响显著。其中1、2、5、6间差异不显著;2、5、6、3、7、4间差异不显著。以上结果可以归纳成下表:-140- 变差来源平方和自由度均方FP溶液间2419.105006403.184172.770.0385重复间3061.3075021145.77655总和5480.41250271(ck)2563748.3人类绒毛组织培养,通常的方法是,向培养瓶中接入大量组织碎片,加入适当的基质使组织碎片贴壁,经过一段时间,将贴壁的组织块浸入到培养基中。下表给出了贴壁的组织块,其细胞已开始分裂的百分数:例数基质种类鸡血浆人血浆鼠尾胶原不加基质14.62.62.60214.612.511.24.5311.18.71.21.144.72.21.80.0458.80.090.02062.64.83.43.373.25.44.01.1对以上数据做方差分析。(提示:这里的数据是百分数,见§9.7)答:因为数据是百分数,为了满足方差齐性的要求,需做反正弦变换。这时需要在DATA步中加入赋值语句,(变量)=arsin(sqrt(y/100))*180/3.14159265。程序和计算结果如下:optionslinesize=76nodate;datachorion;infile"e:dataexr8-3e.dat";docolloid=1to4;dorepetit=1to7;inputpercen@@;y=arsin(sqrt(percen/100))*180/3.14159265;output;end;end;run;procanova;classcolloid;modely=colloid;meanscolloid/duncan;run;TheSASSystemAnalysisofVarianceProcedureClassLevelInformationClassLevelsValuesCOLLOID41234Numberofobservationsindataset=28TheSASSystem-140- AnalysisofVarianceProcedureDependentVariable:YSumofMeanSourceDFSquaresSquareFValuePr>FModel3353.750262117.9167543.920.0208Error24722.84131030.118388CorrectedTotal271076.591572R-SquareC.V.RootMSEYMean0.32858453.197765.4880210.3163SourceDFAnovaSSMeanSquareFValuePr>FCOLLOID3353.750262117.9167543.920.0208基质项的F值为3.92,F的显著性概率P=0.0208,故拒绝H0。在不同基质中已贴壁的组织块,其细胞分裂的百分数不同。以上结果可以归纳成下表:变差来源平方和自由度均方FP基质间353.7502623117.9167543.920.0208重复间722.8413102430.118388总和1076.591572278.4不同年龄马鹿的下臼齿齿尖高度(mm)如下表所示[48],用单因素方差分析推断,不同年龄组之间,下臼齿齿尖高度差异是否显著。重复年龄/a2.53.54.55.56.57.58.50116.7014.5313.8811.7210.309.0010.950218.9014.5015.8012.327.9011.008.900316.0514.8513.5011.658.558.8811.550415.4514.2011.4312.4711.129.1310.370514.8015.2212.3512.089.359.880614.7511.3512.3012.807.100714.9011.2811.128.787.600814.8514.3010.0810.150914.7014.108.901014.9013.6511.301114.4011.8510.581211.151311.601411.171511.151613.151713.78答:计算结果见下表:TheSASSystemAnalysisofVarianceProcedureClassLevelInformationClassLevelsValuesAGES71234567-140- Numberofobservationsindataset=56TheSASSystemAnalysisofVarianceProcedureDependentVariable:HIGHTSumofMeanSourceDFSquaresSquareFValuePr>FModel6253.76636042.29439323.370.0001Error4988.6716611.809626CorrectedTotal55342.438021R-SquareC.V.RootMSEHIGHTMean0.74105811.079291.3452212.1418SourceDFAnovaSSMeanSquareFValuePr>FAGES6253.76636042.29439323.370.0001年龄项的F=23.37,其显著性概率P=0.0001。故拒绝H0。不同年龄马鹿的下臼齿齿尖高度差异极显著。以上结果可以归纳成下表:变差来源平方和自由度均方FP年龄间253.766360642.29439323.370.0001重复间88.671661491.809626总和342.438021558.5由5个雄性和3个雌性黑线鳕的配子杂交,获得15个半同胞家系。研究同一个父亲不同母亲及同一个母亲不同父亲的后代在若干性状上的差异显著程度,推断双亲对后代各性状影响的大小。调查时间为幼鱼孵化出当天(0dph)和孵化出第五天(5dph)。下面仅列出其中5dph幼鱼眼睛直径的单因素方差分析结果[49]。5dph幼鱼眼睛直径(mm)的方差分析分组变差来源平方和自由度P雌鱼1雄鱼间5.1×10-440.015雄鱼内6.0×10-419总和1.1×10-323雌鱼2雄鱼间1.6×10-420.053雄鱼内2.3×10-411总和3.9×10-413雌鱼3雄鱼间1.7×10-540.842雄鱼内2.3×10-418总和2.5×10-422雄鱼1雌鱼间1.0×10-31<0.001雌鱼内1.8×10-48总和1.2×10-49雄鱼2雌鱼间7.9×10-42<0.001雌鱼内1.3×10-412总和9.2×10-414雄鱼3雌鱼间1.1×10-32<0.001-140- 雌鱼内2.0×10-49总和1.3×10-311雄鱼4雌鱼间1.7×10-32<0.001雌鱼内2.8×10-412总和2.0×10-314雄鱼5雌鱼间1.3×10-310.001雌鱼内2.7×10-47总和1.5×10-38根据上表中的数据和对单因素方差分析的理解,判断幼鱼的眼睛直径是受父亲的影响大?还是受母亲的影响大?为什么?答:同一雌鱼不同雄鱼之间差异显著,说明雄鱼的影响大。反之,说明雌鱼影响大。本例的5组同一雄鱼、不同雌鱼的影响均达到极显著;而3组同一雌鱼不同雄鱼的影响,除一组达到显著外,另两组都未达到显著。由此判断5dph幼鱼眼睛直径这一性状,雌鱼的影响更大。2348.6白三烯B4受体1的缺失,形成了对(肺)气道应答亢奋和Th2-型免疫应答的抗性。在这一研究中,记录了从支气管肺泡冲洗液中得到的总细胞数和分化细胞数,部分数据如下表[50]:基因型处理方式样本含量(n)总细胞数/×105/巨噬细胞数/×104/BL1+/+①SAL71.27±0.0512.5±0.45BLT1−/−②SAL61.24±0.1012.1±0.94BLT1+/+③OVA122.16±0.2910.3±1.26BLT1−/−④OVA121.44±0.1413.2±1.14注:数值为平均数±标准误差。①BLT1+/+:野生型小鼠。②BLT1-/-:BLT1缺失小鼠。③SAL:盐免疫和盐气溶胶处理。④OVA:白蛋白免疫和白蛋白气溶胶处理。由两种基因型和两种处理方式组合成该因素的4个水平。首先判断这是一种什么模型,再对以上数据做单因素方差分析,推断4个水平间的差异显著性。答:(1)总细胞数:固定模型总平均数=(1.27×7+1.24×6+2.16×12+1.44×12)/(7+6+12+12)=1.6089SS水平=7×(1.27-1.6089)2+6×(1.24-1.6089)2+12×(2.16-1.6089)2+12×(1.44-1.6089)2=0.8040+0.8165+3.6445+0.3423=5.6073SS误差=(0.05×)2×6+(0.10×)2×5+(0.29×)2×11+(0.14×)2×11=0.1050+0.3000+11.1012+2.5872=14.0934变差来源平方和自由度均方FP水平间5.607331.86914.37630.0106误差14.0934330.4271总和19.700736(2)巨噬细胞数:固定模型-140- 变差来源平方和自由度均方FP水平间53.6724317.89081.41890.2547误差416.12343312.6098总和469.7958368.7在一项关于KiSS-1基因mRNA的表达,受雄鼠脑中的性类固醇差异调节的研究中,得到以下结果[51](截取一部分数据):KiSS-1mRNA未加处理去势的去势+DHT①去势+E②/(gr·KiSS-1·细胞-1)n=6n=6n=7n=5在弓状核中36±394±1173±737±5注:①DHT:二氢睾酮。②E:雌激素。数据为:平均数±标准误差。用单因素方差分析,推断4种处理之间mRNA的表达差异是否显著。答:方差分析结果如下表:变差来源平方和自由度均方FP水平间141663472214.622.84E-5误差645820322.9总和20624238.8为了鉴定四种果酒品质,随机抽取36名品酒师,分为四组,每组9名,四种果酒的得分如下表:重复酒名IIIIIIIV152662613536443434655334562344756558232393445用方差分析,推断以上四种果酒的平均得分差异是否显著?答:方差分析结果见下表:TheSASSystemAnalysisofVarianceProcedureDependentVariable:SCORESumofMeanSourceDFSquaresSquareFValuePr>FModel37.333333332.444444441.330.2808Error3258.666666671.83333333CorrectedTotal3566.00000000-140- R-SquareC.V.RootMSESCOREMean0.11111133.850161.354014.00000SourceDFAnovaSSMeanSquareFValuePr>FCATEGORY37.333333332.444444441.330.2808F的显著性概率P=0.28,P>0.05,尚无足够的理由拒绝H0。四种果酒的得分差异不显著。以上结果可以归纳成下表:变差来源平方和自由度均方FP类别间7.3332.441.330.2808误差58.67321.83总和66.00358.9一个单因素实验设计共11个水平,每一水平重复5次,由以上数据计算得到的总方差。各水平平均数的方差。由以上数据列出方差分析表,检验不同水平间的差异是否达到显著?答:变差分别为:SS总和=54.14×54=2923.56SS水平=53.58×10×5=2679.00SS误差=2923.56-2679.00=244.56变差来源平方和自由度均方FP水平间2679.0010267.9048.20误差244.56445.56总和2923.5654由表中结果可知P=0,因此,不同水平间的差异极显著。第九章两因素及多因素方差分析9.1双菊饮具有很好的治疗上呼吸道感染的功效,为便于饮用,制成泡袋剂。研究不同浸泡时间和不同的浸泡温度对浸泡效果的影响,设计了一个两因素交叉分组实验,实验结果(浸出率)见下表[52]:浸泡温度/℃浸泡时间/min1015206023.7225.4223.588024.8428.3229.559530.6431.5832.21对以上结果做方差分析及Duncan检验。该设计已经能充分说明问题了吗?是否还有更能说明问题的设计方案?答:无重复二因素方差分析程序及结果如下:optionslinesize=76nodate;datahermed;dotemp=1to3;-140- dotime=1to3;inputeffect@@;output;end;end;cards;23.7225.4223.5824.8428.3229.5530.6431.5832.21;run;procanova;classtemptime;modeleffect=temptime;meanstemptime/duncanalpha=0.05;run;TheSASSystemAnalysisofVarianceProcedureClassLevelInformationClassLevelsValuesTEMP3123TIME3123Numberofobservationsindataset=9TheSASSystemAnalysisofVarianceProcedureDependentVariable:EFFECTSumofMeanSourceDFSquaresSquareFValuePr>FModel487.070777821.767694412.560.0155Error46.93217781.7330444CorrectedTotal894.0029556R-SquareC.V.RootMSEEFFECTMean0.9262564.7418811.3164527.7622SourceDFAnovaSSMeanSquareFValuePr>FTEMP278.720288939.360144422.710.0066TIME28.35048894.17524442.410.2058TheSASSystemAnalysisofVarianceProcedureDuncan"sMultipleRangeTestforvariable:EFFECTNOTE:ThistestcontrolsthetypeIcomparisonwiseerrorrate,nottheexperimentwiseerrorrateAlpha=0.05df=4MSE=1.733044NumberofMeans23CriticalRange2.9843.050Meanswiththesameletterarenotsignificantlydifferent.-140- DuncanGroupingMeanNTEMPA31.47733B27.57032C24.24031TheSASSystemAnalysisofVarianceProcedureDuncan"sMultipleRangeTestforvariable:EFFECTNOTE:ThistestcontrolsthetypeIcomparisonwiseerrorrate,nottheexperimentwiseerrorrateAlpha=0.05df=4MSE=1.733044NumberofMeans23CriticalRange2.9843.050Meanswiththesameletterarenotsignificantlydifferent.DuncanGroupingMeanNTIMEA28.44733AA28.44032AA26.40031从方差分析结果可以得知,温度是极显著的影响因素,时间是不显著因素。在Duncan检验中,温度的三个水平之间差异是显著的。时间的三个水平间差异不显著。本实验是二因素固定模型设计,如果设置重复,会得到两个因素之间的交互作用(如果存在的话),其结果能更好地说明问题。以上方差分析的结果可以归纳成下表:变差来源平方和自由度均方FP温度(temp)78.7202889239.360144422.710.0066时间(time)8.350488924.17524442.410.2058误差6.932177841.7330444总和94.002955689.2研究浙江蜡梅大苗移栽技术,处理方式包括移栽后的不同覆盖方式和做床方法,统计每100株移栽苗的成活率,结果见下表[53]:做床方法精细作床仅挖穴覆盖方法遮阴93%85%未遮阴90%81%根据以往经验在覆盖方法与作床方法之间不存在交互作用,对上述结果做方差分析。请注意,这里的结果是百分数。答:本例需对数据做反正弦变换,程序和结果如下:optionslinesize=76nodate;-140- dataplum;docover=1to2;doseedbed=1to2;inputy@@;surrate=arsin(sqrt(y/100))*180/3.14159265;output;end;end;cards;93859081;run;procanova;classcoverseedbed;modelsurrate=coverseedbed;run;TheSASSystemAnalysisofVarianceProcedureClassLevelInformationClassLevelsValuesCOVER212SEEDBED212Numberofobservationsindataset=4TheSASSystemAnalysisofVarianceProcedureDependentVariable:SURRATESumofMeanSourceDFSquaresSquareFValuePr>FModel264.595344532.297672290390.150.0024Error10.00035730.0003573CorrectedTotal364.5957018R-SquareC.V.RootMSESURRATEMean0.9999940.0272380.0189069.3987SourceDFAnovaSSMeanSquareFValuePr>FCOVER19.45155129.451551226451.660.0039SEEDBED155.143793355.143793399999.990.0001从结果可以看出,覆盖方式和做床方式都是极显著因素。以上结果可以归纳成下表:变差来源平方和自由度均方FP覆盖方法(cover)9.451551219.451551226451.660.0039做床方法(seedbed)55.1437933155.143793399999.990.0001误差0.000357310.0003573总和64.595701839.3为了研究不同NaCl质量浓度对小麦愈伤组织生长的影响。配制质量浓度分别为0、-140- 0.1%、0.3%和0.5%的NaClMS培养基,接种15天后,测定每块愈伤组织平均增重百分率,结果见下表[54]:材料名称NaCl质量浓度/%/H8706-34/%G8901/%极早熟/%中国春/%0103.8063.7067.3267.100.199.3156.2752.2452.300.352.2645.0124.1734.300.518.3815.3720.4013.22对上述结果进行方差分析。作者已经给出四种实验材料都是盐敏感型小麦,但是不同的小麦品种必定对盐的抗性不同。也就是说,品种与盐浓度之间存在交互作用,更完善的实验应当怎样设计?答:这是一个固定模型设计,程序不再给出,结果如下。TheSASSystemAnalysisofVarianceProcedureClassLevelInformationClassLevelsValuesCONCEN41234MATERIAL41234Numberofobservationsindataset=16TheSASSystemAnalysisofVarianceProcedureDependentVariable:INCREASESumofMeanSourceDFSquaresSquareFValuePr>FModel610411.90811735.318014.180.0004Error91101.6046122.4005CorrectedTotal1511513.5126R-SquareC.V.RootMSEINCREASEMean0.90432122.5454511.063549.0719SourceDFAnovaSSMeanSquareFValuePr>FCONCEN38374.158672791.3862222.810.0002MATERIAL32037.74942679.249815.550.0196方差分析结果指出,盐浓度是极显著的影响因素,不同基因型的愈伤组织是显著影响因素。根据以往的研究工作的经验,盐浓度与基因型之间可能存在交互作用,最理想的设计应当设置重复,从总平方和中分离出交互作用平方和,问题可以说明得更确切。以上结果可以归纳成下表。变差来源平方和自由度均方FP浓度间8374.158732791.386222.810.0002-140- 品系间2037.74943679.24985.550.0196误差1101.60469122.4005总和11513.5127159.4为了研究植物的光合作用,设计了一个实验。将烟草的两个变种种植在田间,利用CO2-depletion技术检测单位叶面积捕获CO2的比率。实验共涉及两个因素:一个是变种,选用了两个变种;另一个是抽样时期,在整个生长季共进行40次田间抽样。这是一个无重复两因素实验设计,方差分析表如下[55]:变差来源平方和自由度均方F抽样时期3.356390.060433.25*变种0.015710.01578.66*误差0.0711390.00182总和2.44379注:*P<0.01。根据实验设计,该设计是一种什么模型?实验所涉及的两个因素属于哪一种类型的因素?为什么?答:这是一个混合模型实验。变种是固定因素,抽样时期是随机因素。因为实验没有设置重复,在无重复的情况下,三种模型的检验统计量是一样的,不知作者为什么不考虑设置重复。两个变种是人为选定的,是固定因素。田间抽样是随机抽取的,是随机因素。9.5野生型C57BL/6及STAT-1-/-型小鼠胰岛,在移入四氧嘧啶糖尿病的BALB/c小鼠中之后的存活天数见下表[56]:实验材料养生处理未处理IL-1ra*IL-1ra+CsA野生型C57BL/661111111212131313141414151517101412141415151621STAT-1–/–型11121313131014101214171723注:*IL-1ra:interleukin-1receptorantagonist(白介素-1受体拮抗物)。**CsA:cyclosporineA(环孢菌素A)。对上述结果进行方差分析,判断两种类型小鼠的胰岛存活天数差异是否显著?不同养生处理对移植的胰岛存活天数的影响是否显著?不同养生处理与不同型小鼠之间是否存在交互作用?答:这是一个重复数不等的两因素固定模型实验,所用程序及计算结果如下。optionslinesize=76nodate;datamouse;infile"e:dataexr9-5e.dat";dotreat=1to3;dotype=1to2;inputn@@;dorepetit=1ton;inputdays@@;output;end;-140- end;end;run;procglm;classtreattype;modeldays=treattypetreat*type;run;TheSASSystemGeneralLinearModelsProcedureClassLevelInformationClassLevelsValuesTREAT3123TYPE212Numberofobservationsindataset=37TheSASSystemGeneralLinearModelsProcedureDependentVariable:DAYSSumofMeanSourceDFSquaresSquareFValuePr>FModel570.127284414.02545691.670.1724Error31261.06190488.4213518CorrectedTotal36331.1891892R-SquareC.V.RootMSEDAYSMean0.21174421.431622.9019613.5405SourceDFTypeISSMeanSquareFValuePr>FTREAT226.515169613.25758481.570.2233TYPE13.21912273.21912270.380.5409TREAT*TYPE240.392992120.19649612.400.1075SourceDFTypeIIISSMeanSquareFValuePr>FTREAT210.56031975.28015980.630.5408TYPE10.00899150.00899150.000.9741TREAT*TYPE240.392992120.19649612.400.1075在方差分析表中我们选用I型可估函数,从F的显著性概率可以得出,不论是养生处理、小鼠类型还是两者的交互作用都是不显著因素。上述结果可以归纳成下表:变差来源平方和自由度均方FP处理间26.5151696213.25758481.570.2233类型间3.219122713.21912270.380.5409处理×类型40.3929921220.19649612.400.1075误差261.0619048318.4213518总和331.1891892369.6野生型C57BL/6及STAT-1-/-型小鼠胰岛,在移入自发糖尿病的NOD#小鼠中之后的存活天数见下表[56]:-140- 实验材料养生处理未处理IL-1ra*CsA**IL-1ra+CsA野生型C57BL/60025511111213131517058121215888101011185101111121620STAT-1–/–型6101013101251314101111121213注:#NOD:nonobesediabetic(非肥胖糖尿病)。*IL-1ra:interleukin-1receptorantagonist(白介素-1受体拮抗物)。**CsA:cyclosporineA(环孢菌素A)。对上述结果进行方差分析,判断两种类型小鼠的胰岛存活天数差异是否显著?不同养生处理对移植的胰岛存活天数的影响是否显著?不同养生处理与不同型小鼠之间是否存在交互作用?答:本题与第5题的程序基本一样,下面只给出计算的结果。TheSASSystemGeneralLinearModelsProcedureDependentVariable:DAYSSumofMeanSourceDFSquaresSquareFValuePr>FModel781.745947311.67799250.550.7939Error39833.488095221.3714896CorrectedTotal46915.2340426R-SquareC.V.RootMSEDAYSMean0.08931745.646594.6229310.1277SourceDFTypeISSMeanSquareFValuePr>FTREAT367.988010822.66267031.060.3770TYPE18.04102568.04102560.380.5432TREAT*TYPE35.71691091.90563700.090.9656SourceDFTypeIIISSMeanSquareFValuePr>FTREAT360.485164820.16172160.940.4290TYPE18.07626988.07626980.380.5423TREAT*TYPE35.71691091.90563700.090.9656本题的两个主效应和它们的交互作用都是不显著因素。以上结果可以归纳成下表:变差来源平方和自由度均方FP处理间67.9880108322.66267031.060.3370类型间8.041025618.04102560.380.5432处理×类型5.716910931.90563700.090.9656误差833.48809523921.3714896总和915.2340426469.7一项音乐心理学研究,实验是这样设计的:为了避免熟悉的音乐环境,实验安排在两种非典型的音乐练习和演出环境中进行。一种环境是在剧场底层敞开的大厅中(环境A),另一种是在办公室中(环境B-140- )。要求实验参与者学习并回忆所学习的练习曲。学习和回忆包括在相同环境中(AA,BB)和不同环境中(AB,BA),评判学习和回忆的得分,从而判断得分与环境之间的关系[57]。该实验是一个典型的两因素交叉分组实验设计,方差分析表如下:变差来源平方和自由度均方FP学习环境180.2671180.2671.4410.275回忆环境640.2671640.2675.1200.064学习环境×回忆环境1008.60011008.6008.0650.030误差750.3336125.056总和2579.4679问:(1)本实验共有几次重复?为什么?(2)本实验属于哪一种模型?为什么?(3)本实验的两个因素中哪些因素是显著因素?在本实验中显著因素的意义是什么?你可以得到什么结论?答:(1)因为本实验共有4种条件组合,df误差=(组合1重复数-1)+(组合2重复数-1)+(组合3重复数-1)+(组合4重复数-1)=重复数-4=6。因此,重复数=6+4=10。(2)属固定模型。因为:①根据作者所用的检验统计量,②由①推断,环境的水平是人为选定的。(3)只有交互作用是显著的。说明音乐的学习是与环境的两种特定水平有关的。结论:音乐的学习属本例的两种特定环境依赖型记忆。作者的结论是:音乐的学习属环境依赖型记忆。这样的叙述不够严格,只有随机模型才能够得到这样的结论,固定模型只能说“音乐的学习属本例的两种特定环境依赖型记忆”。9.8与上一实验类似,这次是记忆一段16小节的钢琴曲。在同一房间中放置两台钢琴,一台是平台式大钢琴(环境A),一台是播音室钢琴(环境B)。参与者在一台钢琴上学习这段曲谱之后,在同一台钢琴上(AA,BB)或不同钢琴上(AB,BA),回忆这段曲子。根据回忆的正确性获得评分[57]。变差来源平方和自由度均方FP学习环境22.791122.7980.6520.426回忆环境0.28310.2830.0080.929学习环境×回忆环境1188.15911188.15933.9680.000误差979.3962834.978总和2190.63731问:(1)本实验共有几次重复?为什么?(2)本实验与上一实验比较有什么不同,可以改变结论的性质吗?答:(1)总的重复数为32次。(2)结论与上一实验结果类似,只能说不同钢琴的这一环境所产生的交互作用更显著。同样不能把这一结论推广到水平总体。9.9研究3~18岁健康个体尿中Adrenarche标记物的值。其中两性24小时尿样中DHEA*的平均含量**如下[58]:-140- 年龄/a性别男孩/(mg·d-1)女孩/(mg·d-1)3~40.910.905~60.900.997~81.081.029~101.531.4711~121.901.5713~142.271.8615~162.092.1617~182.552.31注:*DHEA:Dehydroepiandrosterone(脱氢表雄酮),是合成人体雌激素,雄激素,以及其他一些人体激素的最基本物质。**该值已经过对数变换。用两因素方差分析判断不同年龄组和不同性别的DHEA差异是否显著?答:结果如下表:TheSASSystemAnalysisofVarianceProcedureClassLevelInformationClassLevelsValuesAGE812345678SEX212Numberofobservationsindataset=16TheSASSystemAnalysisofVarianceProcedureDependentVariable:DHEASumofMeanSourceDFSquaresSquareFValuePr>FModel84.902950000.6128687535.440.0001Error70.121043750.01729196CorrectedTotal155.02399375R-SquareC.V.RootMSEDHEAMean0.9759078.2476780.131501.59438SourceDFAnovaSSMeanSquareFValuePr>FAGE74.846543750.6923633940.040.0001SEX10.056406250.056406253.260.1139从计算结果可以得知,年龄是极显著因素,性别是不显著因素。以上结果可以归纳成下表。变差来源平方和自由度均方FP年龄间4.8465437570.6923633940.040.0001性别间0.0564062510.056406253.260.1139误差0.1210437570.01729196总和5.02399375159.10嗜乳酸杆菌在体内处于一种酸性环境,一项关于嗜乳酸杆菌(Lactobacillusacidophilus)Ind-I在体外模拟环境中,在不同pH和不同时间的活菌数(活菌数/mL-140- )变化情况如下表[59]:时间/hpH4.53.52.51.522.40×1091.34×1091.68×1081.08×1081.18×1081.02×1084.58×1043.24×10447.00×1094.14×1082.24×1091.48×1094.60×1073.98×1075.96×1032.36×10362.10×10102.38×1096.80×1084.88×1091.32×1071.30×1072.10×1031.92×103对表中的数据进行方差分析,数据是服从泊松分布的。答:对于服从泊松分布的数据,应进行平方根变换。程序与结果如下:optionslinesize=76nodate;datalacto;infile"E:dataexr9-10e.dat";dotime=1to3;dopH=1to4;don=1to2;inputy@@;number=sqrt(y);output;end;end;end;run;procanova;classtimepH;modelnumber=timepHtime*pH;run;TheSASSystemAnalysisofVarianceProcedureClassLevelInformationClassLevelsValuesTIME3123PH41234Numberofobservationsindataset=24TheSASSystemAnalysisofVarianceProcedureDependentVariable:NUMBERSumofMeanSourceDFSquaresSquareFValuePr>FModel112.0166E+101.8333E+092.860.0424Error127.7030E+096.4191E+08CorrectedTotal232.7869E+10R-SquareC.V.RootMSENUMBERMean0.72360196.4727725336.026262.3-140- SourceDFAnovaSSMeanSquareFValuePr>FTIME21.7452E+098.7262E+081.360.2937PH31.5229E+105.0763E+097.910.0036TIME*PH63.1921E+095.3201E+080.830.5696只有“pH”是极显著因素,“时间”和“时间×pH”都是不显著因素。以上结果可以归纳成下表。变差来源平方和自由度均方FP时间1.7452X10928.7262X1081.360.2937pH1.5229X10935.0763X1097.910.0036时间×pH3.1921X10965.3201X1080.830.5696误差7.7030X109126.4191X108总和2.7869X1010239.11布氏轮藻(CharabrauniiGm.)的托叶长度与生态环境的状况有密切关系。实验选择4种药物(A:Cd2+,B:Hg2+,C:Cr6+,D:敌枯双),每种药物(因素)选择4个水平,两次重复。加药培养5个月后,托叶的长度(mm)如下[60]:因素水平1234A62426030012076377021300722B19040078010922505008582210C650600410104010404809101300D780947650300832124818201300这是一个有重复的两因素交叉分组实验设计,对上述数据进行分析,并解释为什么会得到这样的结果?答:结果如下:TheSASSystemAnalysisofVarianceProcedureClassLevelInformationClassLevelsValuesDRUG41234LEVEL41234Numberofobservationsindataset=32TheSASSystemAnalysisofVarianceProcedureDependentVariable:LENGTHSumofMeanSourceDFSquaresSquareFValuePr>F-140- Model153672745.22244849.681.390.2613Error162823335.50176458.47CorrectedTotal316496080.72R-SquareC.V.RootMSELENGTHMean0.56537951.03545420.070823.094SourceDFAnovaSSMeanSquareFValuePr>FDRUG3310025.34103341.780.590.6331LEVEL31435384.09478461.362.710.0796DRUG*LEVEL91927335.78214148.421.210.3519根据以往的经验,重金属和农药对植物的生长应当有影响。然而,实验结果却是药物、水平及药物×水平三个因素都是不显著因素。造成这种结果的原因是实验的误差平方和过大。我们知道,误差平方和是重复间的平方和。在原始数据中,有些重复的数据相差甚大,例如,A3和D4的两次重复间竟然相差4倍有余,相差2~3倍的也有不少。重复间存在如此之大的偏差,说明实验材料、实验环境(条件)或实验操作存在不一致性。重复间过大的偏差,造成过大的误差均方,使本来存在的效应被误差掩盖,而不能被检验出来。在设计实验时,除所研究的因素外,一定要保证各方面的均一性。这一点在设计实验和完成实验的过程中是至关重要的,一定要特别注意。人们在接受误差很大的背景下所得到的结论时,会持保留态度的。以上数据可以归纳成下表:变差来源平方和自由度均方FP药物310025.343103341.780.590.6331水平1435384.093478461.362.710.0796药物×水平1927335.789214148.421.210.3519误差2823335.5016176458.47总和6496080.72319.12六味木香袋泡剂是一种中药新剂型。药物的浸出率与粒度的大小、浸泡时间、浸泡水温等因素有关。以下数据是不同粒度及不同水量的浸出率(%)[61],对这些数据进行分析,推断因素的显著性。粒度/目10203040加水量/mL10041.8339.1034.9334.8840.1438.2135.7932.6615041.1840.3035.3334.4037.8938.0834.6832.0520033.8532.9027.2334.2735.2731.0331.0031.36答:这里的因变量是浸出率,它不是二项分布数据,不需做变换。结果如下:TheSASSystemAnalysisofVarianceProcedureClassLevelInformation-140- ClassLevelsValuesWATER3123GRANULE41234Numberofobservationsindataset=24TheSASSystemAnalysisofVarianceProcedureDependentVariable:PERCENTSumofMeanSourceDFSquaresSquareFValuePr>FModel11278.90193325.35472110.280.0002Error1229.6040002.467000CorrectedTotal23308.505933R-SquareC.V.RootMSEPERCENTMean0.9040414.4434021.5706735.3483SourceDFAnovaSSMeanSquareFValuePr>FWATER2126.37390863.18695425.610.0001GRANULE3118.52060039.50686716.010.0002WATER*GRANULE634.0074255.6679042.300.1037结果指出,加水量和粒度都是极显著因素,但两者的交互作用是不显著的。交互作用不显著的含义是,不是只有在特定的加水量和特定的粒度下才有最佳的浸出率。以上结果可以归纳成下表:变差来源平方和自由度均方FP加水量126.373908263.18695425.610.0001粒度118.520600339.50686716.010.0002加水量×粒度34.00742565.6679042.300.1037误差29.604000122.467000总和308.505933239.13长沙市2005年7月份不同地点、不同日期和每一天三个时间的空气温度测量结果列在下表中[62]:地点日期/日温度/℃8:0014:0020:00长沙汽车西站429.434.132.5629.735.932.91630.436.333.71831.536.033.22729.236.033.42930.536.633.5岳麓金峰小区429.039.232.0630.335.832.61630.536.933.81832.137.133.62729.836.833.8-140- 2931.237.033.7五一中路袁家岭430.537.532.8630.637.433.11631.038.634.21830.939.134.82729.837.834.22930.638.834.6解放中路浏城桥430.437.432.4630.537.231.91630.838.534.01830.739.034.62729.537.634.02930.438.534.2马坡岭430.235.832.3630.335.932.71630.437.133.71830.737.534.02729.236.533.62930.037.434.2首先判断这是一个什么模型,然后对上述记录结果,做无重复三因素交叉分组方差分析。答:程序和结果如下:optionslinesize=76nodate;datachangsha;infile"e:dataexr9-13e.dat";doplace=1to5;dodate=1to6;dotime=1to3;inputtemp@@;output;end;end;end;run;procanova;classplacedatetime;modeltemp=placedatetime;run;TheSASSystemAnalysisofVarianceProcedureClassLevelInformationClassLevelsValuesPLACE512345DATE6123456TIME3123Numberofobservationsindataset=90TheSASSystemAnalysisofVarianceProcedureDependentVariable:TEMP-140- SumofMeanSourceDFSquaresSquareFValuePr>FModel11741.25155667.386505148.380.0001Error7835.4244440.454160CorrectedTotal89776.676000R-SquareC.V.RootMSETEMPMean0.9543902.0021200.6739133.6600SourceDFAnovaSSMeanSquareFValuePr>FPLACE415.7615563.9403898.680.0001DATE522.0240004.4048009.700.0001TIME2703.466000351.733000774.470.0001从结果来看,地点、日期和时间都是极显著因素。以上结果可以归纳成下表:变差来源平方和自由度均方FP地点15.76155643.9403898.680.0001日期22.02400054.4048009.700.0001时间703.4660002351.733000774.470.0001误差35.424444780.454160总和776.676000899.14已知一个有重复二因素固定模型方差分析表如下:变差来源平方和自由度均方FA因素1143384.75*B因素1083364.50*A×B3789425.25**误差128168总和72831注:*α=0.05。**α=0.01。若由于实验者缺乏足够的生物统计学知识,错误地使用了重复平均数做无重复的方差分析,上述方差分析表中的各项值有何变化?说明什么问题?答:如果用重复的平均数计算,将得到以下方差分析表:变差来源平方和自由度均方FA因素573190.91B因素543180.86误差189921总和30015这样计算会产生以下后果:若两因素间存在交互作用而不设置重复,这时作为误差的残余项包含着A、B因素间的交互作用,其结果①交互作用不能检出,结果②若交互作用是显著的话,会降低检验主效应的F值,检验效率降低。本来显著的两个主效应,有可能检验不出来,正像本例那样。另一个后果是,如果实验设置了n次重复,说明实验者投入了n倍的经费、时间和人力。目的就是为了检验交互作用,如果利用平均数做方差分析,其后果事倍功半。-140- 9.15在一个两因素无重复交叉分组实验中已知:。根据以上数据列出方差分析表。答:变差分别为:SSA=1×2×10=20SSB=220×9×3=5940SST=207×29=6003变差来源平方和自由度均方FA因素202104.17*B因素59409660275**误差43182.4总和600329注:*α=0.05。**α=0.01。9.16已知一个三因素实验的统计模型为:其中,A,C为固定因素,B为随机因素。写出各因素及交互作用的均方期望并给出它们的检验统计量。答:各因素的均方期望:因素FRFR均方期望abcnijklαi0bcnσ2+cnσ2αβ+bcnη2αβja1cnσ2+acnσ2βγkab0nσ2+abnη2γ(αβ)ij01cnσ2+cnσ2αβ(αγ)ik0b0nσ2+bnη2αγε(ijk)l1111σ2检验统计量分别为:9.17为了检测三种肥料A1、A2、A3在不同类型土壤中的肥效,随机选择了三种不同的土壤B1、B2、B3,设计一交叉分组试验。以小麦为指示植物,统计盆栽产量。所得方差分析表如下:变差来源平方和自由度均方F肥料179.45289.7396.48土壤3.9621.982.13肥料×土壤19.1744.795.15误差16.70180.93总和219.2826-140- 以上方差分析表存在严重错误,在方差分析表的空白处,予以纠正,并相加解释。答:对于混合模型,固定因素是用交互作用检验的,即F肥=18.73。而本题却按固定模型检验的,这是一个严重的错误。9.18一个两因素混合模型实验(A固定,B随机),因素A、B间存在交互作用,但设计者没有设置重复,问该结果对结论会有什么影响?请用检验统计量及均方期望解释。答:有重复混合模型的均方期望分别为:E(MSA)=σ2+nσ2αβ+bnη2αE(MSB)=σ2+anσ2βE(MSAB)=σ2+nσ2αβE(MSE)=σ2则当无重复时:则1.A、B间交互作用无法检验。因无重复,无法得到真实的MSE。在无重复的实验中,残余项中不仅包含误差,还包含交互作用。2.FA是用MSAB检验的,MSAB是残余项,即用残余项检验A因素。在无重复的实验中,因素A是用MSE检验的,这时的MSE即残余项,与有重复时是一样的。因此,对因素A的结论影响不大。3.B因素是用MSE检验的。在不设置重复时,B因素是用残余项(MSAB)检验的,若MSAB是一个显著因素,就有可能使本来显著的B因素,其显著性不能被检验出来。9.19已知大白鼠品系与雌激素注射量之间不存在交互作用。选择4个大白鼠品系和三个雌激素注射量,构成一无重复交叉分组实验设计,记录子宫重量,原始数据减去80以后构成下表:剂量0.20.40.8品系12636651271612961972-38-1235-1522528133-10315374547638704-38-17-13-6846241902-60381401182645414782360014441960024644366426903842814782得到以下方差分析表:变差来源平方和自由度均方F品系5000.5731666.8910.38剂量7657.6723828.8423.85误差963.336160.56总和13621.6711-140- 以上结果正确吗?为什么?答:品系和剂量的平方和颠倒了,以至于后来的结果都错了。正确的结果如下:变差来源平方和自由度均方F品系7657.6732552.5615.90剂量5000.5722500.3315.57误差963.336160.56总和13621.67119.20下面给出一个试验结果(死虫数)及其方差分析表[63]:浓度200倍液600倍液800倍液1600倍液3200倍液药剂绿宇21.4419.7817.8911.784.89卵螨同除19.2217.6715.3311.443.56灭扫利17.7816.7813.5611.002.33文中所给出的方差分析表如下:变异来源dfssMSFF0.05F0.01药剂间420.795.210.903.847.01浓度间2490.58245.29514.289.5530.82机误83.820.48总变异14515.19请同学们分析一下,方差分析表中存在什么错误?答:药剂间的自由度应为“2”,而不是“4”;浓度间的自由度应为“4”而不是“2”。由于自由度搞错了,造成F的临界值也查错了。即使按错误的自由度查临界值,其结果也不对。药剂间的临界值是“对”的,但浓度间的临界值出现明显错误。“正确”的应当是:F2,8,0.05=4.459,F2,8,0.01=8.649。第十章一元回归及简单相关分析10.1对尿毒症患者采用低蛋白并补加基本氨基酸的食物进行治疗,分析该疗法对患者体内一些成分的影响。以下数据是在治疗前患者的基本数据[64]:体重(BW)/kg体内总钾(TBK)/mmol血清尿素(UREA)/(mmol·L-1)733147197036473672326625532650259737383477398236632900495431943866393016533419347039783463274726-140- 65418146883678418235403969391219914138356228964374341050903679237438553871275050593583318032684766284645115480465111529038642960457136102469290531计算三者之间的相关系数,并检验相关的显著性。答:所用程序及计算结果如下:optionslinesize=76nodate;datauremia;infile"e:dataer10-1e.dat";inputbwtbkurea@@;run;proccorrnosimple;varbwtbkurea;run;TheSASSystemCorrelationAnalysis3"VAR"Variables:BWTBKUREAPearsonCorrelationCoefficients/Prob>|R|underHo:Rho=0/N=30BWTBKUREABW1.000000.705940.285820.00.00010.1257TBK0.705941.000000.096610.00010.00.6116UREA0.285820.096611.000000.12570.61160.0三个变量间,只有体重(BW)和体内总钾(TBK)间相关显著,r=0.70594。相关系数的显著性概率P=0.0001。10.2还是上例,经过一年的饮食治疗后,体内总钾量与治疗前的总钾量,如下表[64]:病人号治疗后/mmol治疗前/mmol16324631472232723647-140- 2531103266282006265039287929004736203930513597397853308027475634203678382280240054236021055824902530以治疗前为自变量,治疗后为因变量,计算回归方程,并检验回归的显著性。答:计算结果如下:TheSASSystemTheREGProcedureModel:MODEL1DependentVariable:afterAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel12573589257358939.40<.0001Error1065326465326CorrectedTotal113226853RootMSE255.59029R-Square0.7976DependentMean2946.66667AdjR-Sq0.7773CoeffVar8.67388ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept1560.15163387.316121.450.1787before10.774470.123396.28<.0001回归方程为:t检验的显著性概率P<0.0001。故回归系数极显著。10.3调查河流中悬浮物每月沉淀的量与水流速度的关系,得到以下结果[65]:流量/(m3·min-1)每月上层沉积物/t流量/(m3·min-1)每月主流沉积物/t流量/(m3·min-1)每月下层沉积物/t1651.342546812181.6199030023640.12010730848.62094559902.3162678611269.9671.326832.61834123592.44885993405.2148.755621.41477993325.34715491398.639156598.61080251763.81124041144.624843574.32005371429.7892011126.432939228.4503861404.479615675.49913204.8576081337.684191285.61189188.1309471128.662034174.0264-140- 16.31826823.187925104.2881655.95239597.4259595.16637947.1367569.12991345.970273.92049741.3136265.82246932.670236.7227043.413236.2275661.24145.87463142.71128197.2925770.0369963.7395532.8263627.2123218.0106817.058415.640010.24567.91956.6114以流量为自变量,月沉积物为因变量,计算回归方程。答:首先对自变量和因变量做双对数变换,获得经对数变换后的回归方程,再通过反对数得到原始单位的回归方程。程序和结果如下:optionslinesize=76nodate;datariver;infile"E:dataer10-3e.dat";inputupflowupsedimmidflowmidsedimlowflowlowsedim@@;x1=log10(upflow);y1=log10(upsedim);x2=log10(midflow);y2=log10(midsedim);x3=log10(lowflow);y3=log10(lowsedim);procreg;modely1=x1;procreg;modely2=x2;procreg;modely3=x3;run;(1)上层沉积物:TheSASSystemModel:MODEL1DependentVariable:Y1AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValueProb>FModel13.921283.92128382.2950.0001Error80.082060.01026CTotal94.00334RootMSE0.10128R-square0.9795DepMean4.89337AdjR-sq0.9769C.V.2.06970-140- ParameterEstimatesParameterStandardTforH0:VariableDFEstimateErrorParameter=0Prob>|T|INTERCEP11.8908410.1568676012.0540.0001X111.1750100.0600955419.5520.0001从参数估计列,得到如下回归方程:变换为原单位后的方程为:由t检验的显著性概率可知,回归系数和常数项都是显著的。(2)主流沉积物:TheSASSystemModel:MODEL1DependentVariable:Y2AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValueProb>FModel135.5858435.585841438.7270.0001Error280.692560.02473CTotal2936.27840RootMSE0.15727R-square0.9809DepMean4.19618AdjR-sq0.9802C.V.3.74797ParameterEstimatesParameterStandardTforH0:VariableDFEstimateErrorParameter=0Prob>|T|INTERCEP11.3669660.0799251017.1030.0001X211.1942880.0314861637.9310.0001从参数估计列得到回归方程如下:变换为原单位后的方程为:由t检验的显著性概率可知,回归系数和常数项都是显著的。(3)底层沉积物:TheSASSystemModel:MODEL1DependentVariable:Y3AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValueProb>FModel120.9958820.9958826.4140.0001Error1511.923280.79489CTotal1632.91916-140- RootMSE0.89156R-square0.6378DepMean2.92730AdjR-sq0.6137C.V.30.45683ParameterEstimatesParameterStandardTforH0:VariableDFEstimateErrorParameter=0Prob>|T|INTERCEP10.5931560.503014461.1790.2567X310.9964790.193889075.1390.0001从参数估计列得到回归方程如下:变换为原单位后的方程为:由t检验的显著性概率可知,回归系数是显著的。10.4一种治疗肺动脉高血压的药物treprostinilsodium,研究给药剂量与血浆浓度之间的关系,当用静脉给药时得到以下结果[66](近似值):剂量/(ng·kg-1·min-1)血浆药物浓度/(pg·mL-1)204750242500498000535500709000781250084800090132509618250102145001221750012617000以剂量为自变量,血浆药物浓度为因变量,计算的回归方程,检验回归的显著性并绘出回归线。答:计算结果如下:TheSASSystemModel:MODEL1DependentVariable:CONCENAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValueProb>FModel1263507305.51263507305.5152.3870.0001Error1050299986.1535029998.6153CTotal11313807291.67RootMSE2242.76584R-square0.8397DepMean10895.83333AdjR-sq0.8237C.V.20.58370-140- ParameterEstimatesParameterStandardTforH0:VariableDFEstimateErrorParameter=0Prob>|T|INTERCEP189.0365171627.41203990.0550.9574DOSAGE1141.88354719.602869077.2380.0001回归方程为:从回归系数和常数项的显著性概率可知,回归系数是显著的,常数项是不显著的。散点图和回归线如下:10.5继续上题,这次是皮下给药,结果如下表[66](近似值):剂量/(ng·kg-1·min-1)血浆药物浓度/(pg·mL-1)剂量/(ng·kg-1·min-1)血浆药物浓度/(pg·mL-1)5075001210005277501317506414250152500173750661025028625067130006710000293250675750302500701000032525036425073875038625075100008016250387000801025038675080850044350044975087110004750009515250951575049575010011250506000问:(1)计算血浆药物浓度对剂量的回归方程,检验回归的显著性并绘出回归线。(2)比较10.5和10.4两种给药方式的回归系数差异是否显著?答:计算结果如下:TheSASSystemModel:MODEL1-140- DependentVariable:CONCENAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValueProb>FModel1401262581.37401262581.3784.9350.0001Error32151178595.14724331.0969CTotal33552441176.47RootMSE2173.55264R-square0.7263DepMean7823.52941AdjR-sq0.7178C.V.27.78225ParameterEstimatesParameterStandardTforH0:VariableDFEstimateErrorParameter=0Prob>|T|INTERCEP1301.527681897.279705170.3360.7390DOSAGE1139.90594015.180706609.2160.0001回归方程为:从回归系数和常数项的显著性概率可知,回归系数是显著的,常数项是不显著的。散点图和回归线如下:比较两个回归系数:令10.4的回归系数为b1,10.5的回归系数为b2。统计假设为:H0:β1-β2=0HA:β1-β2≠0显著性概率P=0.9366,P>0.05,尚无足够理由拒绝H0。结论:两个回归系数的差异不显著。10.6粤东近海渔场雄性条尾鲱鲤4月份和9月份的体重和体长的测定结果如下表[67]:序号4月份9月份体重/g体长/cm体重/g体长/cm159.714.038.912.7250.113.031.911.9337.112.021.210.3-140- 436.211.617.29.9541.211.211.79.6626.610.614.69.1726.510.210.28.6824.19.99.18.2920.19.18.48.11016.58.99.08.01111.77.68.38.0125.06.66.27.2一般来说,鱼的体重(Y)在体长(X)上的回归符合以下关系:Y=aXb。计算回归方程,绘出对数尺度下的回归线,检验回归的显著性,并比较4月份和9月份两个回归系数的差异是否显著。答:记4月份的样本为样本1,9月份的样本为样本2。程序和结果如下:optionslinesize=76nodate;datariver;infile"E:dataer10-6e.dat";inputfwflnwnl@@;y1=log10(fw);x1=log10(fl);y2=log10(nw);x2=log10(nl);procreg;modely1=x1;modely2=x2;symbolv=stari=rll=1w=2c=black;procgplot;ploty1*x1;ploty2*x2;run;(1)4月份的回归分析和回归线:TheSASSystemTheREGProcedureModel:MODEL1DependentVariable:y1AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel10.940590.94059260.55<.0001Error100.036100.00361CorrectedTotal110.97669RootMSE0.06008R-Square0.9630DependentMean1.39473AdjR-Sq0.9593CoeffVar4.30790ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept1-1.723190.19394-8.89<.0001x113.094390.1917016.14<.0001对数尺度下的回归方程和回归线为:-140- 从t的显著性概率可以得知,常数项和回归系数都是显著的。(2)9月份的回归分析和回归线:TheSASSystemTheREGProcedureModel:MODEL1DependentVariable:y2AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel10.659940.65994320.79<.0001Error100.020570.00206CorrectedTotal110.68051RootMSE0.04536R-Square0.9698DependentMean1.12048AdjR-Sq0.9667CoeffVar4.04795ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept1-2.045920.17727-11.54<.0001x213.289930.1836817.91<.0001对数尺度下的回归方程和回归线为:从t的显著性概率可以得知,常数项和回归系数都是显著的。-140- (3)回归系数的比较:统计假设为:H0:β1-β2=0HA:β1-β2≠0显著性概率P=0.47,P>0.05,尚无足够理由拒绝H0。结论:两个回归系数的差异不显著。10.7新疆维吾尔族和哈萨克族男生各100名,他们的立定跳远平均成绩与年龄之间的关系如下表所示[10]:年龄/a789101112维吾尔族/cm124.51132.65138.59143.39151.74160.91哈萨克族/cm135.80146.52153.34162.88171.10174.29年龄/a131415161718维吾尔族/cm169.31184.22195.57200.51207.84217.24哈萨克族/cm185.88190.24211.21228.63235.07233.65分别计算两个民族的成绩与年龄之间的相关系数,并检验两个相关系数的显著性。答:程序和结果如下:optionslinesize=76nodate;datajump;infile"e:dataer10-7e.dat";inputageweiha@@;run;proccorrnosimple;varageweiha;run;TheSASSystemTheCORRProcedure3Variables:ageweihaPearsonCorrelationCoefficients,N=12-140- Prob>|r|underH0:Rho=0ageweihaage1.000000.994940.98708<.0001<.0001wei0.994941.000000.98651<.0001<.0001ha0.987080.986511.00000<.0001<.0001维吾尔族男生年龄与成绩间的相关系数r维=0.99494;哈萨克族男生年龄与成绩间的相关系数r哈=0.98708。这两个相关系数都是极显著的。10.8心脏的冠状窦口直径(d)与冠状窦瓣宽(w)和窦瓣高(h)存在一定关联,下面测量了从新生儿到儿童末期的6个年龄组的窦口直径、窦瓣宽和窦瓣高,结果见下表[68]:组别ⅠⅡⅢⅣⅤⅥ窦口直径/mm3.194.434.965.816.307.98窦瓣宽/mm4.646.427.327.688.9910.30窦瓣高/mm1.683.934.084.414.945.02分别计算窦瓣宽和窦瓣高与窦口直径间的相关系数,并检验相关系数的显著性。答:所用程序与第7题一样,这里仅给出结果。TheSASSystemTheCORRProcedure3Variables:diameterwidthheightPearsonCorrelationCoefficients,N=6Prob>|r|underH0:Rho=0diameterwidthheightdiameter1.000000.986600.871170.00030.0238width0.986601.000000.913580.00030.0109height0.871170.913581.000000.02380.0109从程序运行的结果可以得出:rd-w=0.98660,P=0.0003,相关极显著;rd-h=0.87117,P=0.0238,相关显著。10.9Cu2+和Zn2+对尾草履虫的急性毒性试验结果如下[69]:Cu2+Zn2+浓度/(mg·L-1)死亡率/%浓度/(mg·L-1)死亡率/%02.504.20.145.11.85.20.1815.43.221.70.2440.25.633.00.3250.410.046.10.4263.018.062.6-140- 0.5679.532.073.00.7593.256.089.6分别计算Cu2+和Zn2+对尾草履虫的半致死剂量。答:利用SAS软件包中正态分布的分位数函数,对死亡率做概率变换,对浓度做常用对数变换。以正态尺度的死亡率为自变量,以对数尺度的浓度为因变量,计算回归方程。程序和结果如下:optionslinesize=76nodate;dataparameci;infile"e:dataer10-9e.dat";inputcuconcencudearatznconcenzndearat@@;xcu=probit(cudearat/100);ycu=log10(cuconcen);xzn=probit(zndearat/100);yzn=log10(znconcen);run;procreg;modelycu=xcu;modelyzn=xzn;run;(1)Cu2+:TheSASSystemTheREGProcedureModel:MODEL1DependentVariable:ycuAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel10.408350.40835241.67<.0001Error50.008450.00169CorrectedTotal60.41679RootMSE0.04111R-Square0.9797DependentMean-0.49525AdjR-Sq0.9757CoeffVar-8.30000ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept1-0.486620.01555-31.30<.0001xcu10.245450.0157915.55<.0001当死亡率为50%时,故Cu2+对草履虫的半致死剂量为0.32612mg/L。(2)Zn2+:TheSASSystemTheREGProcedureModel:MODEL2-140- DependentVariable:yznAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel11.703011.70301213.00<.0001Error50.039980.00800CorrectedTotal61.74299RootMSE0.08942R-Square0.9771DependentMean1.00246AdjR-Sq0.9725CoeffVar8.91979ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept11.062620.0340531.21<.0001xzn10.559440.0383314.59<.0001当死亡率为50%时,故Zn2+对草履虫的半致死剂量为11.55101mg/L。10.10在一项关于碳酸利多卡因注射液热稳定性的实验研究中,发现NaHCO3的比值(自变量)与相变点温度(因变量)存在以下关系[70]:序号NaHCO3的比值(自变量)相变点温度/℃(因变量)11.0054.121.5048.031.8146.642.5041.152.9139.163.8735.575.0032.985.8029.697.5026.8108.3925.11110.0022.4做出散点图,并求出回归方程。答:程序不再给出,这里只给出结果。散点图和回归线如下:-140- 回归分析见下表:TheSASSystemTheREGProcedureModel:MODEL1DependentVariable:tempAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel1966.81811966.8181197.17<.0001Error989.543719.94930CorrectedTotal101056.36182RootMSE3.15425R-Square0.9152DependentMean36.47273AdjR-Sq0.9058CoeffVar8.64825ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept151.316441.7809928.81<.0001rate1-3.247430.32943-9.86<.0001由此得出回归方程:回归系数的t检验和回归模型的方差分析都指出,回归是极显著的。10.114到10月龄胎儿的肝重与肝的Ca含量存在以下关系[71]:肝重/g6.4813.0224.1744.8658.3975.5886.47Ca含量/(mg·g-1干重)1271.01440.91016.6663.7516.3535.9492.5求钙含量在肝重上的回归方程并检验回归的显著性。答:结果如下:optionslinesize=76nodate;datafetus;inputlivercalcium@@;cards;6.481271.013.021440.924.171016.644.86663.7-140- 58.39516.375.58535.986.47492.5;procreg;modelcalcium=liver;run;TheSASSystemTheREGProcedureModel:MODEL1DependentVariable:calciumAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel178898478898428.650.0031Error513767927536CorrectedTotal6926663RootMSE165.93934R-Square0.8514DependentMean848.12857AdjR-Sq0.8217CoeffVar19.56535ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept11364.29113115.0304111.86<.0001liver1-11.694142.18466-5.350.0031由此得出回归方程:对回归模型的方差分析和回归系数的t检验都指出,回归是极显著的。10.12青菜对14CO2的富集系数(CF值)如下[72]:时间/d菜心叶子624.613.81253.430.91882.041.924100.163.236114.196.848156.4135.6以时间为自变量,菜心和叶子分别为因变量,计算回归方程,并比较两者回归系数的差异显著性。答:程序不再给出,这里只给出结果。(1)菜心:TheSASSystemTheREGProcedureModel:MODEL1DependentVariable:cfheartAnalysisofVarianceSumofMean-140- SourceDFSquaresSquareFValuePr>FModel1102801028086.050.0008Error4477.84863119.46216CorrectedTotal510758RootMSE10.92987R-Square0.9556DependentMean88.43333AdjR-Sq0.9445CoeffVar12.35945ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept118.880398.725132.160.0965time12.898040.312419.280.0008由上表得出回归方程:回归系数b1是极显著的。(2)叶子:TheSASSystemTheREGProcedureModel:MODEL2DependentVariable:cfleafAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel110269102691108.25<.0001Error437.065599.26640CorrectedTotal510307RootMSE3.04408R-Square0.9964DependentMean63.70000AdjR-Sq0.9955CoeffVar4.77877ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept1-5.817652.43003-2.390.0748time12.896570.0870133.29<.0001由上表得出回归方程:回归系数b2是极显著的。(3)回归系数的比较:统计假设为:H0:β1-β2=0HA:β1-β2≠0-140- 显著性概率P=0.9965,P>0.05,尚无足够理由拒绝H0。结论:两个回归系数的差异不显著。10.13人工测定蚊密度与气温存在以下关系[73]:序号蚊密度*气温/℃序号蚊密度*气温/℃序号蚊密度*气温/℃152.823.011134.325.321193.727.92104.423.512162.727.222165.127.4374.721.913341.428.32374.928.7479.623.714292.429.324102.126.8543.822.515265.227.825185.024.4647.521.016230.628.326175.825.07191.524.917259.830.127203.526.38157.825.618148.529.428138.523.39204.326.019331.430.22993.126.610232.825.520326.327.53097.024.8注:*单位:只/h。以气温作为自变量,蚊密度作为因变量,求回归方程并对回归方程做方差分析。答:结果如下:TheSASSystemTheREGProcedureModel:MODEL1DependentVariable:densityAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel110356510356525.51<.0001Error281136744059.77886CorrectedTotal29217239RootMSE63.71639R-Square0.4767DependentMean170.35000AdjR-Sq0.4580CoeffVar37.40323ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept1-459.98640125.34184-3.670.0010temp124.175524.786535.05<.0001由以上结果得到回归方程:方差分析表:变差来源平方和自由度均方FP回归103565110356525.51<0.0001-140- 剩余113674284059.77886总和2172392910.14马鹿下臼齿咀嚼面宽度与年龄之间存在以下关系[48]:序号年龄/a下臼齿咀嚼面宽度/mm12.58.658.908.308.8023.59.608.307.808.408.709.407.507.908.908.358.4034.510.138.6510.0010.909.9210.0010.1410.1210.159.1010.179.809.729.8210.0010.158.8045.510.7511.6810.3010.2210.0011.9011.8511.9011.8510.6856.511.3012.7011.4811.8710.2010.8211.5211.6010.2511.0011.3067.510.4011.0012.5013.509.9878.512.1612.8011.8811.1011.4811.4012.1010.1589.512.7211.6812.8011.3513.33913.512.201017.514.03以年龄为自变量,咀嚼面宽度为因变量,计算回归方程。这是一个有重复数据的回归问题,它的计算与无重复时相似,只是DATA步略有不同。答:程序如下:optionslinesize=76nodate;datadeer;infile"E:dataer10-14e.dat";doi=1to10;inputnage@@;doj=1ton;inputwidth@@;output;end;end;procreg;modelwidth=age;run;TheSASSystemTheREGProcedureModel:MODEL1DependentVariable:widthAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>F-140- Model198.0938198.09381113.00<.0001Error7161.635520.86811CorrectedTotal72159.72934RootMSE0.93172R-Square0.6141DependentMean10.53699AdjR-Sq0.6087CoeffVar8.84240ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept17.817800.2780828.11<.0001age10.455800.0428810.63<.0001由以上数据得到回归方程:经t检验回归系数和常数项都是显著的。10.15端粒(telomere)的长度随着年龄的增长而逐渐缩短,因此有可能根据端粒的大小推断出个体的年龄。采用末端限制片段(terminalrestrictionfragment,TRF)长度来确定不同年龄组端粒的大小。年龄组(岁)和各年龄组外周血白细胞TRF平均长度(kb)的测定结果见下表[74]:序号年龄组中值/aTRF/kb12.014.2929.012.92319.012.16429.011.91539.011.68649.011.25759.010.94869.010.39977.510.31以TRF为自变量,年龄为因变量,求出最佳拟合回归方程。答:求最佳拟合方程,可以通过绘图法,也可以通过比较剩余均方来确定。绘图法比较直观,在这里我们采用绘图法。(1)不变换:-140- (2)log10(age)变换:(3)sqrt(age)变换:比较以上三个图形,显然对年龄做平方根变换后,直线化的效果最好,则方差分析表为:ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept128.650831.4236720.12<.0001trf1-1.942970.12043-16.13<.0001变换后的回归方程为:10.16用18种不同水体配制成培养基,培养基中的磷(P)浓度及用该培养基培养的玫瑰拟衣藻(Chloromonasrosae)的生长速率见下表[75]:水体号P浓度/(mg·L-1)生长速率/(m)10.10100.244020.08200.198930.06100.238240.02800.246050.03000.171660.03200.216370.21000.413880.15000.332890.16000.2684-140- 100.01680.0948110.01200.0993120.01280.1650130.00840.0915140.00600.0067150.00640.0592160.00420.0333170.00300.0198180.0032-0.0147以P浓度为自变量,生长速率为因变量,在直角坐标系中画出散点图,求出回归方程,并检验回归的显著性。答:对自变量(P浓度)做自然对数变换,用变换后的数据进行分析。程序和结果如下:optionslinesize=76nodate;dataleaves;infile"e:dataer10-16e.dat";inputprate@@;x=log(p);y=rate;run;procgplot;ploty*x;procreg;modely=x;run;TheSASSystemTheREGProcedureModel:MODEL1DependentVariable:yAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel10.216850.21685128.01<.0001Error160.027100.00169CorrectedTotal170.24395RootMSE0.04116R-Square0.8889DependentMean0.16027AdjR-Sq0.8820CoeffVar25.67984-140- ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept10.465810.0286916.23<.0001x10.080590.0071211.31<.0001回归方程为:回归系数显著性检验表明,回归是显著的。10.17用不同浓度的草甘膦异丙胺盐(除草剂)溶液处理后,中华大蟾蜍心电图的三项指标平均值如下表[76]:浓度/(mL·L-1)P波/mVR波/mVP-R间期/ms00.1601.3190.1820.820.1470.9650.1561.230.1180.7250.1961.640.1040.8040.2232.050.1170.6830.2302.460.1020.7970.2552.870.0950.6510.258分别计算P波,R波及P-R间期对浓度的回归方程,并检验回归系数的显著性。答:下面给出程序和有关结果。optionslinesize=76nodate;dataECG;infile"e:dataer10-17e.dat";inputxprpr@@;sqrtx=sqrt(x);lnx=log(x);procgplot;plotp*x;plotr*sqrtx;plotpr*lnx;procreg;modelp=x;modelr=sqrtx;modelpr=lnx;run;(1)因变量:P波-140- TheSASSystemParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept10.151760.0125512.100.0003x1-0.020560.00636-3.230.0319由此得到回归方程:,回归系数在α=0.05水平上显著。(2)因变量:R波TheSASSystemParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept11.142210.179506.360.0031sqrtx1-0.278900.13215-2.110.1024由此得到回归方程:,回归系数不显著。(3)因变量:P-R间期-140- TheSASSystemParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept10.176180.0037846.61<.0001lnx10.082170.0055714.760.0001由此得到回归方程:,回归系数极显著。10.18据说罗布麻有降血压的功能。为了检验服药后的血压值是否与服药前有关,随机抽取10名受试者,测其服药前、后的收缩压如下表:受试者12345678910服药前/mmHg137147161127130134135158147142服药后/mmHg143138146127120119122172134127问服药后的血压值是否与服药前的血压值有关?答:计算服药前后的相关系数,结果如下:TheSASSystemTheCORRProcedure2Variables:xyPearsonCorrelationCoefficients,N=10Prob>|r|underH0:Rho=0xyx1.000000.777930.0081y0.777931.000000.0081两者的相关系数r=0.77793,显著性概率P=0.0081,P<0.01。结论:服药后的血压值与服药前的血压值存在极显著的相关。10.19在曲线回归中,为了将曲线直线化,需进行几种不同的坐标变换。然后比较误差均方MSE的大小,MSE最小的那种是最理想的变换方式。在这里,为什么不能用公式SSE-140- =SYY-bSXY计算MSE,而必须用来计算?答:因为SSE=SYY-bSXY是在直线回归中使用的公式。对于曲线回归,通过坐标变换,将曲线回归直线化以后,其单位也随之改变。对不同的坐标变换,变换后的单位不一致,由此计算出来的误差平方和的单位也不一致,无法相比较。只有将经变换后求出的线性回归方程,变回原单位的非线性方程之后,用观测点与回归估计点之间离差的平方和进行比较才有意义。第十一章多元回归及复相关分析11.1嗜酸乳杆菌(LactobacillusacidophilusLakcid)是存在于肠道中的一种重要益生菌,为研究肠道中的条件对该菌生存的影响,设计了在体外不同的胆汁盐浓度和不同时间该菌的存活数(活菌数/mL),结果如下表[59]:时间/h胆汁盐/(g·kg-1)123417.20×1081.04×1091.76×1092.04×1096.40×1068.40×1062.62×1031.74×10321.64×1091.92×1099.60×1087.40×1081.22×1079.20×1062.09×1031.89×10331.30×1091.42×1093.46×1086.00×1082.26×1062.04×1061.86×1031.82×10349.80×1087.80×1081.02×1083.82×1081.30×1061.26×1061.32×1031.22×103以该菌的存活数为因变量,胆汁盐浓度和时间为自变量,求二元回归方程并检验偏回归系数的显著性。答:程序和结果如下:optionslinesize=76nodate;datamulreg;infile‘e:dataer11-1e.dat’;inputnumtimebile@@;run;procreg;modelnum=timebile;run;TheSASSystemTheREGProcedureModel:MODEL1DependentVariable:numAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel29.070013E184.535006E1827.66<.0001-140- Error294.754238E181.639392E17CorrectedTotal311.382425E19RootMSE404894110R-Square0.6561DependentMean524158580AdjR-Sq0.6324CoeffVar77.24649ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept120204936452373902158.51<.0001time1-14494782264019380-2.260.0312bile1-45358620464019380-7.09<.0001由以上结果得出回归方程:其中:X1为时间,X2为胆汁盐浓度。从偏回归系数的t检验结果可以得知,时间在α=0.05水平上显著,而胆汁盐浓度的显著性概率P<0.0001。11.210名浙江女大学士的身体体积、身高和体重的测量结果列在下表中[77],以身高和体重为自变量,身体体积为因变量,计算二元回归方程,并检验偏回归系数的显著性。(注:对于二元回归来说,只有10组观测值数量有些少,作为练习,姑且不去考虑样本的大小。)身体体积/m3身高/cm体重/kg0.05529165.055.00.04324151.845.00.05174159.053.50.05458164.055.00.04962158.550.50.04607155.047.00.05387158.356.00.05245161.553.50.04749157.548.00.06096169.062.0答:程序不再给出,结果如下:TheSASSystemTheREGProcedureModel:MODEL1DependentVariable:vAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel20.000236700.000118351553.36<.0001Error75.333339E-77.619056E-8CorrectedTotal90.00023724RootMSE0.00027603R-Square0.9978DependentMean0.05153AdjR-Sq0.9971CoeffVar0.53565ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|-140- Intercept1-0.036510.00484-7.540.0001h10.000310620.000042177.370.0002w10.000729840.0000422817.26<.0001由参数估计列可以得到回归方程:其中X1为身高,X2为体重,身高和体重的偏回归系数都极显著。11.3社鼠头骨若干特征的度量值与年龄存在相关性,下表列出了40只社鼠的鉴定年龄(a)和头骨8个特征的度量值(mm)[78]:序号鉴定年龄YX1X2X3X4X5X6X7X81334.6033.6231.2616.105.448.746.126.742334.5033.4431.6815.924.829.005.826.483437.3636.3634.2817.465.489.966.086.724436.9435.8034.1017.145.289.805.466.625538.0037.7235.7417.465.149.925.846.686538.3037.4435.6417.085.1410.265.726.907539.7239.1836.7217.845.6010.505.766.628127.3426.4223.5013.464.707.594.505.129436.7836.3634.5216.485.369.445.966.7810437.1236.1234.2416.445.149.525.906.3811334.7833.5631.4015.465.148.425.685.8812231.3830.8628.5614.545.087.825.786.0013436.5035.7233.4816.425.068.905.446.4014233.8032.9230.7016.885.088.245.666.0015232.2831.1428.5015.384.887.685.605.3816437.8837.0634.5416.605.669.925.526.8417232.7431.8229.5815.305.148.006.005.0818130.0028.5626.1813.924.987.125.105.1219233.2232.1029.6215.584.968.005.565.6620437.0836.9033.7817.385.729.606.046.6821335.3234.3232.1815.705.008.886.026.4622232.6631.0828.9215.344.767.805.725.4223232.6431.5029.4614.645.087.405.745.2024232.6831.5029.1814.944.767.865.825.6825130.9430.2027.7014.365.227.225.704.9226436.8435.9634.0417.025.369.086.166.0027537.5836.8834.4416.725.4610.005.606.3628537.8837.0634.5416.605.669.925.526.8429334.2833.3431.3016.645.189.225.586.4630335.8035.0032.7016.645.8210.005.686.0031334.1233.1031.1415.685.469.325.626.0032334.2233.2631.6016.005.229.125.566.2833437.5436.8034.6216.445.2410.005.746.7034333.9433.3831.3616.845.088.725.706.2435334.0033.0230.5415.565.128.865.966.4236231.5430.4628.0415.204.927.785.465.6837538.1037.6234.8617.445.7210.166.147.1638230.5030.0027.9214.845.007.125.705.3039232.2630.8228.6215.304.947.825.505.4640437.3836.2034.2216.905.309.445.546.42注:X1:颅全长。X2:颅基长。X3:基底长。X4:颧宽。X5:眶间宽。X6:齿隙长。X7:上裂齿长。X8:门齿孔长。-140- 计算多元回归方程,复相关系数,并用逐步回归方法选出包含3个自变量的回归方程。答:(1)计算多元回归方程的程序和结果:optionslinesize=76nodate;datamulreg;infile"e:dataer11-3e.dat";inputyx1-x8@@;run;procreg;modely=x1-x8;run;TheSASSystemTheREGProcedureModel:MODEL1DependentVariable:yAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel853.172316.6465464.33<.0001Error313.202690.10331CorrectedTotal3956.37500RootMSE0.32142R-Square0.9432DependentMean3.12500AdjR-Sq0.9285CoeffVar10.28553ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept1-6.149271.68879-3.640.0010x11-0.222960.20853-1.070.2932x210.568130.250382.270.0304x310.017710.192070.090.9271x41-0.120070.12562-0.960.3466x51-0.397540.31415-1.270.2151x610.209350.193461.080.2875x71-0.341980.23671-1.440.1586x810.214640.200761.070.2932从参数估计列可以得到回归方程:复相关系数:(2)逐步回归分析:optionslinesize=76nodate;datastepreg;infile"e:dataer11-3e.dat";inputyx1-x8;run;procreg;modely=x1-x8/selection=stepwiseslentry=0.05slstay=0.05;-140- run;TheSASSystemTheREGProcedureModel:MODEL1DependentVariable:yStepwiseSelection:Step1Variablex2Entered:R-Square=0.9188andC(p)=8.2905AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel151.7992351.79923430.17<.0001Error384.575770.12041CorrectedTotal3956.37500ParameterStandardVariableEstimateErrorTypeIISSFValuePr>FIntercept-10.245790.6470030.19713250.78<.0001x20.394830.0190451.79923430.17<.0001Boundsonconditionnumber:1,1---------------------------------------------------------------------------StepwiseSelection:Step2Variablex7Entered:R-Square=0.9294andC(p)=4.5012AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel252.3973426.19867243.70<.0001Error373.977660.10750CorrectedTotal3956.37500ParameterStandardVariableEstimateErrorTypeIISSFValuePr>FIntercept-8.339021.013527.2776767.70<.0001x20.418890.0206844.11123410.32<.0001x7-0.477510.202450.598115.560.0237Boundsonconditionnumber:1.3218,5.2873----------------------------------------------------------------------------StepwiseSelection:Step3Variablex8Entered:R-Square=0.9369andC(p)=2.4570AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel352.8151617.60505178.04<.0001Error363.559840.09888CorrectedTotal3956.37500ParameterStandardVariableEstimateErrorTypeIISSFValuePr>FIntercept-8.426720.972977.4172675.01<.0001-140- x20.357660.035799.8751399.87<.0001x7-0.459880.194350.553675.600.0235x80.336390.163650.417824.230.0471Boundsonconditionnumber:4.3043,28.581----------------------------------------------------------------------------Allvariablesleftinthemodelaresignificantatthe0.0500level.Noothervariablemetthe0.0500significancelevelforentryintothemodel.SummaryofStepwiseSelectionVariableVariableNumberPartialModelStepEnteredRemovedVarsInR-SquareR-SquareC(p)FValuePr>F1x210.91880.91888.2905430.17<.00012x720.01060.92944.50125.560.02373x830.00740.93692.45704.230.0471引入方程中的三个变量没有剔除,最终保留在方程中的三个变量,在α=0.05水平上全都是显著的。方程如下:11.4下表给出了高山姬鼠头骨8个特征的测量值和鉴定年龄[79],用逐步回归方法从8个特征中选出与鉴定年龄关系最密切的变量,并对结果做回归的方差分析。序号鉴定年龄/a头骨特征/mmX1X2X3X4X5X6X7X81530.6430.0028.3414.324.308.784.525.662328.7828.5626.7814.004.568.064.345.463328.0027.1225.0413.864.487.564.345.024226.6426.1624.5213.144.687.064.464.865226.0825.5023.7613.284.526.944.364.946429.4028.7027.8614.144.868.244.685.487124.8224.0422.0612.444.526.384.344.748226.5625.7423.7813.024.587.164.185.149227.1826.2624.4413.064.747.344.205.2010226.4625.8224.1213.064.587.064.204.5011429.6228.8227.0413.524.448.284.345.4812530.1029.8828.2414.024.668.824.385.4613531.1830.6229.0614.604.868.864.825.9214327.5426.9225.3014.144.587.544.525.1615328.4027.9426.3013.844.467.844.545.6816328.1227.6425.9613.764.427.964.365.1417227.5027.0025.3613.164.447.684.325.4418429.1828.3626.4614.704.707.864.605.4619530.3429.9228.2415.004.789.264.386.0420532.5032.0230.1415.345.148.964.786.1021531.2830.9629.0215.084.729.184.626.0022227.3826.8825.1413.384.587.244.425.2023124.4223.8822.1212.404.626.284.204.4624226.8826.2224.4413.344.627.564.165.0025227.5027.0025.3613.164.447.684.325.4426328.3427.6625.7813.824.887.764.525.60-140- 27328.5827.7225.7814.584.767.004.085.2428328.4828.0426.2813.784.767.804.345.6829328.8028.0826.3014.004.827.264.605.92注:X1:颅全长。X2:颅基长。X3:基底长。X4:颧宽。X5:眶间距。X6:齿隙长。X7:上裂齿长。X8:门齿孔长。答:结果如下:TheSASSystemTheREGProcedureModel:MODEL1DependentVariable:yStepwiseSelection:Step1Variablex1Entered:R-Square=0.9111andC(p)=11.3797AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel139.9626539.96265276.71<.0001Error273.899420.14442CorrectedTotal2843.86207ParameterStandardVariableEstimateErrorTypeIISSFValuePr>FIntercept-14.876811.0811427.34609189.35<.0001x10.634130.0381239.96265276.71<.0001Boundsonconditionnumber:1,1----------------------------------------------------------------------------StepwiseSelection:Step2Variablex6Entered:R-Square=0.9259andC(p)=7.3289AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel240.6112220.30561162.40<.0001Error263.250850.12503CorrectedTotal2843.86207ParameterStandardVariableEstimateErrorTypeIISSFValuePr>FIntercept-13.313311.2178614.94162119.50<.0001x10.440660.092052.8653022.92<.0001x60.503250.220960.648575.190.0312Boundsonconditionnumber:6.7351,26.941StepwiseSelection:Step3Variablex8Entered:R-Square=0.9375andC(p)=4.5706AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel341.1212513.70708125.03<.0001-140- Error252.740820.10963CorrectedTotal2843.86207ParameterStandardVariableEstimateErrorTypeIISSFValuePr>FIntercept-13.506691.1439215.28437139.41<.0001x10.566480.104083.2477229.62<.0001x60.513470.206960.674826.160.0202x8-0.643090.298160.510034.650.0408Boundsonconditionnumber:9.8194,62.516----------------------------------------------------------------------------Allvariablesleftinthemodelaresignificantatthe0.0500level.Noothervariablemetthe0.0500significancelevelforentryintothemodel.SummaryofStepwiseSelectionVariableVariableNumberPartialModelStepEnteredRemovedVarsInR-SquareR-SquareC(p)FValuePr>F1x110.91110.911111.3797276.71<.00012x620.01480.92597.32895.190.03123x830.01160.93754.57064.650.0408在α=0.05水平上筛选出三个变量,它们分别是:X1,X6和X8。回归方程为:方差分析表:变差来源平方和自由度均方FP回归41.12125313.70708125.03<0.0001误差2.74082250.10963总和43.862072811.5土壤根际微生物的生物量氮与季节变化有如下关联[80]:月份生物量氮/(10-4mg·100g-1)56.5767.4478.72810.68911.55109.15115.87124.42生物量氮与月份之间存在怎样的回归关系?求出回归方程。答:先绘出散点图,然后求回归方程。-140- 从散点图上可见,生物量氮与月份呈抛物线关系,应当用一元二次方程拟合。程序与结果如下:optionslinesize=76nodate;datastepreg;infile"e:dataer11-5e.dat";inputx1y;x2=x1**2;run;procreg;modely=x1x2;run;TheSASSystemTheREGProcedureModel:MODEL1DependentVariable:yAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel235.6153517.8076715.610.0071Error55.702251.14045CorrectedTotal741.31760RootMSE1.06792R-Square0.8620DependentMean8.05000AdjR-Sq0.8068CoeffVar13.26607ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept1-19.570605.70767-3.430.0187x117.293811.410325.170.0035x21-0.443570.08239-5.380.0030回归方程为:一次项和二次项的回归系数都是极显著的。11.6两种农药“呋喃丹”和“铁灭克”,在不同pH-140- 条件下对土壤磷酸酶活性(mg/g)的影响如下表所示[81]:缓冲液pH呋喃丹(Y1)铁灭克(Y2)7.90.190.108.31.370.798.71.311.099.11.651.219.31.491.299.61.120.8710.01.070.7810.50.310.2211.00.120.10分别绘出呋喃丹和铁灭克对pH的散点图,计算出回归方程并求出磷酸酶活性达到最大值时的pH值,以及在该pH时磷酸酶的活性值。答:计算程序与上题一样,不再给出,只给出结果。(1)呋喃丹:TheSASSystemTheREGProcedureModel:MODEL1DependentVariable:y1AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel22.258591.1292912.370.0074Error60.547700.09128CorrectedTotal82.80629RootMSE0.30213R-Square0.8048DependentMean0.95889AdjR-Sq0.7398CoeffVar31.50847ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept1-41.710199.89391-4.220.0056x119.343952.108524.430.0044x21-0.505950.11147-4.540.0039-140- 回归方程为:一次项和二次项的回归系数都是极显著的。最大值的计算:1.0119X=9.34395X=9.23406Y=1.43113故当pH9.23406时磷酸酶活性有最大值,其最大值为1.43113。(2)铁灭克:TheSASSystemTheREGProcedureModel:MODEL2DependentVariable:y2AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel21.465640.7328215.380.0044Error60.285960.04766CorrectedTotal81.75160RootMSE0.21831R-Square0.8367DependentMean0.71667AdjR-Sq0.7823CoeffVar30.46194ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept1-35.503327.14903-4.970.0025x117.881571.523555.170.0021x21-0.424190.08054-5.270.0019回归方程为:一次项和二次项的回归系数都是极显著的。最大值的计算:0.84838X=7.88157X=9.29014Y=1.10713故当pH9.29014时磷酸酶活性有最大值,其最大值为1.10713。11.7“武运粳7号”考种相关数据见下表[82]:-140- 序号产量/(kg·hm-2)千粒重/g每穗总粒数/粒亩有效穗/(104·hm-2)株高/cm19787.525.9125.7372.30102.529390.025.8131.3363.75105.639607.526.3122.5370.8099.349547.525.9128.3377.7098.959237.026.5127.8358.65103.568947.525.8137.5340.05100.378277.525.7118.2372.9098.888475.526.2113.6373.9597.698415.025.9118.9373.0597.3108040.025.4118.5356.7095.3118167.526.1121.3333.6095.6127845.025.3124.7345.7595.1137927.525.8121.6343.5094.7147327.525.6112.5343.2094.5157305.025.9103.8362.4093.6167125.025.4123.1319.2092.5177140.026.1113.8308.5589.6186945.026.4111.5306.4590.5以产量为因变量,计算多元回归方程,通过逐步回归筛选出对产量影响的重要因素。答:(1)多元回归方程见下表:TheSASSystemTheREGProcedureModel:MODEL1DependentVariable:yAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel414038414350960350.79<.0001Error1389823969095CorrectedTotal1714936652RootMSE262.85981R-Square0.9399DependentMean8305.97222AdjR-Sq0.9214CoeffVar3.16471ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept1-312455522.29553-5.66<.0001x11839.98368215.863583.890.0019x2165.8977014.605974.510.0006x3123.223495.130904.530.0006x4117.3875637.836320.460.6534从参数估计列可以得出回归方程:(2)用逐步回归方法筛选最优回归方程:①首先以sle=0.25和sls=0.25显著水平进行筛选,结果见下表:TheSASSystem-140- TheREGProcedureModel:MODEL1DependentVariable:yStepwiseSelection:Step1Variablex4Entered:R-Square=0.8102andC(p)=27.0270AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel1121018801210188068.31<.0001Error162834772177173CorrectedTotal1714936652ParameterStandardVariableEstimateErrorTypeIISSFValuePr>FIntercept-105872288.08824379286121.410.0003x4194.8582223.577161210188068.31<.0001Boundsonconditionnumber:1,1----------------------------------------------------------------------------Allvariablesleftinthemodelaresignificantatthe0.2500level.Noothervariablemetthe0.2500significancelevelforentryintothemodel.SummaryofStepwiseSelectionVariableVariableNumberPartialModelStepEnteredRemovedVarsInR-SquareR-SquareC(p)FValuePr>F1x410.81020.810227.027068.31<.0001筛选的结果,只有X4一个变量保留在方程中。②进一步提高显著水平,这次使用sle=0.01和sls=0.01筛选,结果见下表:TheSASSystemTheREGProcedureModel:MODEL1DependentVariable:yStepwiseSelection:Step1Variablex4Entered:R-Square=0.8102andC(p)=27.0270AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel1121018801210188068.31<.0001Error162834772177173CorrectedTotal1714936652ParameterStandardVariableEstimateErrorTypeIISSFValuePr>FIntercept-105872288.08824379286121.410.0003x4194.8582223.577161210188068.31<.0001-140- Boundsonconditionnumber:1,1----------------------------------------------------------------------------Allvariablesleftinthemodelaresignificantatthe0.0100level.Noothervariablemetthe0.0100significancelevelforentryintothemodel.SummaryofStepwiseSelectionVariableVariableNumberPartialModelStepEnteredRemovedVarsInR-SquareR-SquareC(p)FValuePr>F1x410.81020.810227.027068.31<.0001其结果X4仍保留在方程中。实际上,在第一步的结果中已经给出X4的显著性概率P<0.0001,这一步完全可以省略。③选择sle=0.30和sls=0.25。TheSASSystemTheREGProcedureModel:MODEL1DependentVariable:yStepwiseSelection:Step1Variablex4Entered:R-Square=0.8102andC(p)=27.0270AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel1121018801210188068.31<.0001Error162834772177173CorrectedTotal1714936652ParameterStandardVariableEstimateErrorTypeIISSFValuePr>FIntercept-105872288.08824379286121.410.0003x4194.8582223.577161210188068.31<.0001Boundsonconditionnumber:1,1----------------------------------------------------------------------------StepwiseSelection:Step2Variablex3Entered:R-Square=0.8262andC(p)=25.5717AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel212340628617031435.65<.0001Error152596025173068CorrectedTotal1714936652ParameterStandardVariableEstimateErrorTypeIISSFValuePr>FIntercept-105612261.52833377445621.810.0003x37.257796.179362387481.380.2585-140- x4168.3044032.46742465064226.870.0001Boundsonconditionnumber:1.9413,7.7652----------------------------------------------------------------------------StepwiseSelection:Step3Variablex3Removed:R-Square=0.8102andC(p)=27.0270AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel1121018801210188068.31<.0001Error162834772177173CorrectedTotal1714936652ParameterStandardVariableEstimateErrorTypeIISSFValuePr>FIntercept-105872288.08824379286121.410.0003x4194.8582223.577161210188068.31<.0001Boundsonconditionnumber:1,1----------------------------------------------------------------------------Allvariablesleftinthemodelaresignificantatthe0.2500level.Thestepwisemethodterminatedbecausethenextvariabletobeenteredwasjustremoved.SummaryofStepwiseSelectionVariableVariableNumberPartialModelStepEnteredRemovedVarsInR-SquareR-SquareC(p)FValuePr>F1x410.81020.810227.027068.31<.00012x320.01600.826225.57171.380.25853x310.01600.810227.02701.380.2585其结果虽然X3被引进,由于sls=0.25,与上一步是相同的,最后仍被剔除,方程中仍然只有X4一个变量。④以下是sle=0.30和sls=0.30的结果:TheSASSystemTheREGProcedureModel:MODEL1DependentVariable:yStepwiseSelection:Step1Variablex4Entered:R-Square=0.8102andC(p)=27.0270AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel1121018801210188068.31<.0001Error162834772177173CorrectedTotal1714936652ParameterStandardVariableEstimateErrorTypeIISSFValuePr>F-140- Intercept-105872288.08824379286121.410.0003x4194.8582223.577161210188068.31<.0001Boundsonconditionnumber:1,1----------------------------------------------------------------------------StepwiseSelection:Step2Variablex3Entered:R-Square=0.8262andC(p)=25.5717AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel212340628617031435.65<.0001Error152596025173068CorrectedTotal1714936652ParameterStandardVariableEstimateErrorTypeIISSFValuePr>FIntercept-105612261.52833377445621.810.0003x37.257796.179362387481.380.2585x4168.3044032.46742465064226.870.0001Boundsonconditionnumber:1.9413,7.7652----------------------------------------------------------------------------StepwiseSelection:Step3Variablex2Entered:R-Square=0.8698andC(p)=18.1420AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel312992174433072531.18<.0001Error141944479138891CorrectedTotal1714936652ParameterStandardVariableEstimateErrorTypeIISSFValuePr>FIntercept-104882026.24419372104326.790.0001x239.8737818.409946515464.690.0481x315.412596.694787361295.300.0372x488.3183847.008414902603.530.0813Boundsonconditionnumber:5.071,31.81----------------------------------------------------------------------------StepwiseSelection:Step4Variablex1Entered:R-Square=0.9399andC(p)=5.0000AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel414038414350960350.79<.0001Error1389823969095CorrectedTotal1714936652-140- ParameterStandardVariableEstimateErrorTypeIISSFValuePr>FIntercept-312455522.29553221185532.01<.0001x1839.98368215.86358104624015.140.0019x265.8977014.60597140646320.360.0006x323.223495.13090141552020.490.0006x417.3875637.83632145920.210.6534Boundsonconditionnumber:6.6037,58.735----------------------------------------------------------------------------StepwiseSelection:Step5Variablex4Removed:R-Square=0.9389andC(p)=3.2112AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel314023822467460771.69<.0001Error1491283065202CorrectedTotal1714936652ParameterStandardVariableEstimateErrorTypeIISSFValuePr>FIntercept-321605003.04317269421641.32<.0001x1887.77442183.75513152190823.340.0003x271.486287.85845539552182.75<.0001x325.185452.76451541159083.00<.0001Boundsonconditionnumber:1.0452,9.2712----------------------------------------------------------------------------Allvariablesleftinthemodelaresignificantatthe0.3000level.Noothervariablemetthe0.3000significancelevelforentryintothemodel.SummaryofStepwiseSelectionVariableVariableNumberPartialModelStepEnteredRemovedVarsInR-SquareR-SquareC(p)FValuePr>F1x410.81020.810227.027068.31<.00012x320.01600.826225.57171.380.25853x230.04360.869818.14204.690.04814x140.07000.93995.000015.140.00195x430.00100.93893.21120.210.6534这次变量X4首先被引进,然后逐次引进X3,X2和X1,引进X1后,X4反倒变得不显著,从方程中被剔除了。为了说明其原因,我们先看一看下面的相关系数矩阵表。从该表中可以看出,X4与另外三个自变量的相关系数,除X1外都达到了极显著,而另外的三个自变量间的相关都不显著。这就说明在把X1,X2和X3引进方程中之后,X4的对Y的贡献在很大程度上被另外的三个自变量取代,使X4变得不那么重要了。换句话说,变量X4在很大程度上代表了另外三个自变量对Y的贡献。因此,在方程中只要保留X4已经是一个很有代表性的方程了。根据以上的分析,最优方程应当是:PearsonCorrelationCoefficients,N=18-140- Prob>|r|underH0:Rho=0yx1x2x3x4y1.000000.250260.683280.717520.900120.31650.00180.0008<.0001x10.250261.00000-0.11527-0.000530.146160.31650.64880.99830.5628x20.68328-0.115271.000000.173200.675920.00180.64880.49190.0021x30.71752-0.000530.173201.000000.696330.00080.99830.49190.0013x40.900120.146160.675920.696331.00000<.00010.56280.00210.0013-140-'