• 1.84 MB
  • 2022-04-22 11:29:36 发布

《抽样技术》第四版习题答案.doc

  • 37页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'第2章解:这种抽样方法是等概率的。在每次抽取样本单元时,尚未被抽中的编号为1~64的这些单元中每一个单元被抽到的概率都是。这种抽样方法不是等概率的。利用这种方法,在每次抽取样本单元时,尚未被抽中的编号为1~35以及编号为64的这36个单元中每个单元的入样概率都是,而尚未被抽中的编号为36~63的每个单元的入样概率都是。这种抽样方法是等概率的。在每次抽取样本单元时,尚未被抽中的编号为20000~21000中的每个单元的入样概率都是,所以这种抽样是等概率的。解:项目相同之处不同之处定义都是根据从一个总体中抽样得到的样本,然后定义样本均值为。抽样理论中样本是从有限总体中按放回的抽样方法得到的,样本中的样本点不会重复;而数理统计中的样本是从无限总体中利用有放回的抽样方法得到的,样本点有可能是重复的。性质(1)样本均值的期望都等于总体均值,也就是抽样理论和数理统计中的样本均值都是无偏估计。(2)不论总体原来是何种分布,在样本量足够大的条件下,样本均值近似服从正态分布。(1)抽样理论中,各个样本之间是不独立的;而数理统计中的各个样本之间是相互独立的。(2)抽样理论中的样本均值的方差为,其中。在数理统计中,,其中为总体的方差。解:首先估计该市居民日用电量的95%的置信区间。根据中心极限定理可知,在大样本的条件下,近似服从标准正态分布,的的置信区间为。36 而中总体的方差是未知的,用样本方差来代替,置信区间为。由题意知道,,而且样本量为,代入可以求得。将它们代入上面的式子可得该市居民日用电量的95%置信区间为。下一步计算样本量。绝对误差限和相对误差限的关系为。根据置信区间的求解方法可知根据正态分布的分位数可以知道,所以。也就是。把代入上式可得,。所以样本量至少为862。解:总体中参加培训班的比例为,那么这次简单随机抽样得到的的估计值的方差,利用中心极限定理可得在大样本的条件下近似服从标准正态分布。在本题中,样本量足够大,从而可得的的置信区间为。而这里的是未知的,我们使用它的估计值36 。所以总体比例的的置信区间可以写为,将代入可得置信区间为。解:利用得到的样本,计算得到样本均值为,从而估计小区的平均文化支出为144.5元。总体均值的的置信区间为,用来估计样本均值的方差。计算得到,则,,代入数值后计算可得总体均值的95%的置信区间为。解:根据样本信息估计可得每个乡的平均产量为1120吨,该地区今年的粮食总产量的估计值为(吨)。总体总值估计值的方差为,总体总值的的置信区间为,把代入,可得粮食总产量的的置信区间为。解:首先计算简单随机抽样条件下所需要的样本量,把带入公式,最后可得。如果考虑到有效回答率的问题,在有效回答率为70%时,样本量应该最终确定为。解:去年的化肥总产量和今年的总产量之间存在较强的相关性,而且这种相关关系较为稳定,所以引入去年的化肥产量作为辅助变量。于是我们采用比率估计量的形式来估计今年的化肥总产量。去年化肥总产量为36 。利用去年的化肥总产量,今年的化肥总产量的估计值为吨。解:本题中,简单估计量的方差的估计值为=37.17。利用比率估计量进行估计时,我们引入了家庭的总支出作为辅助变量,记为。文化支出属于总支出的一部分,这个主要变量与辅助变量之间存在较强的相关关系,而且它们之间的关系是比较稳定的,且全部家庭的总支出是已知的量。文化支出的比率估计量为,通过计算得到,而,则,文化支出的比率估计量的值为(元)。现在考虑比率估计量的方差,在样本量较大的条件下,,通过计算可以得到两个变量的样本方差为,之间的相关系数的估计值为,代入上面的公式,可以得到比率估计量的方差的估计值为。这个数值比简单估计量的方差估计值要小很多。全部家庭的平均文化支出的的置信区间为,把具体的数值代入可得置信区间为。接下来比较比估计和简单估计的效率,,这是比估计的设计效应值,从这里可以看出比估计量比简单估计量的效率更高。解:利用简单估计量可得,样本方差为,,样本均值的方差估计值为。利用回归估计的方法,在这里选取肉牛的原重量为辅助变量。选择原重量为辅助变量是合理的,因为肉牛的原重量在很大程度上影响着肉牛的现在的重量,二者之间存在较强的相关性,相关系数的估计值为,而且这种相关关系是稳定的,这里肉牛的原重量的数值已经得到,所以选择肉牛的原重量为辅助变量。36 回归估计量的精度最高的回归系数的估计值为。现在可以得到肉牛现重量的回归估计量为,代入数值可以得到。回归估计量的方差为,方差的估计值为,代入相应的数值,,显然有。在本题中,因为存在肉牛原重量这个较好的辅助变量,所以回归估计量的精度要好于简单估计量。第3章3.1解:在分层随机抽样中,层标志的选择很重要。划分层的指标应该与抽样调查中最关心的调查变量存在较强的相关性,而且把总体划分为几个层之后,层应该满足:层内之间的差异尽可能小,层间差异尽可能大。这样才能使得最后获得的样本有很好的代表性。对几种分层方法的判断如下:(1)选择性别作为分层变量,是不合适的。首先,性别这个变量与研究最关心的变量(不同职务,职称的人对分配制度改革的态度)没有很大的相关性;其次,用性别作为分层变量后,层内之间的差异仍然很大,相反,层之间的差异不是很大,因为男性和女性各自内部的职务,职称也存在很大的差别;最后,选择性别作为分层变量后,需要首先得到男性和女性的抽样框,这样会更加麻烦,也会使抽样会变得更加复杂。(2)按照教师、行政管理人员和职工进行分层,是合适的。这种分层的指标与抽样调查研究中最关心的变量高度相关,而且按照这种方法分层后,可以看出层内对于分配制度改革的态度差异比较小,因为他们属于相同的阶层,而层之间的态度的差异是比较大的。这样选取出来的样本具有很好的代表性。(3)按照职称(正高、副高、中级、初级和其他)分层,也是合理的。理由与(2)相同,这样进行分层的变量选择与调查最关心的变量是高度相关的,分层后的层满足分层的要求。所以,按照职称进行分层是合理的。(4)按照部门进行分层,是合理的。因为学校有很多院、系或者所,直接进行简单随机抽样,有可能样本不能很好地代表各个院系,最关心的变量与部门也存在一定的相关性。这样分层后,每个层的总体数目和抽取的样本量都较小,最终的样本的分布比较均匀,比简单随机抽样更加方便实施。36 3.2解:设计的方案如下:第一种方案:可以按照不同的专业进行分层,但是考虑到如果在每层都抽取,不能保证每个新生的入样概率相等,因为每个专业的人数比例未知,8个人的样本量无法在每个层之间进行分配。所以采取如下方法:对所有的新生按照专业的先后顺序进行编号,使得每个专业的人的编号在一起,然后随机选取出一个号码,然后选取出这个号码所在的专业,选取出这个专业,再在这个专业的所有新生中按照简单随机抽样的方法选取出8个人。这样就可以保证每个人入选的概率是相等的。第二种方案:也可以按照性别进行分类,对他们进行编号,为1~800,使得男生的编号都在一起,女生的编号也都在一起,然后随机选取出一个号码,然后看这个号码所对应的性别,然后从这个性别的所有人中按照简单随机抽样的方法选取出8个新生。这样就可以保证所有的新生的入样概率是相同的。第三种方案:随机地把所有的人分成8组,而且使得每组的人都是100个人,这样分组完成后,每个组的新生进行编号为1~100,然后随机抽取出一个号码,再从所有的小组中抽取出号码所对应的新生,从而抽取出8个人。3.3解:(1)首先计算出每层的简单估计量,分别为,其中,,则每个层的层权分别为;则利用分层随机抽样得到该小区居民购买彩票的平均支出的估计量,代入数值可以得到。购买彩票的平均支出的的估计值的方差为,此方差的估计值为,根据数据计算可以得到每层的样本方差分别为:其中,代入数值可以求得方差的估计值为,则估计的标准差为。(2)由区间估计可知相对误差限满足36 所以,。样本均值的方差为,从而可以得到在置信度为,相对误差限为条件下的样本量为。①对于比例分配而言,有成立,那么,把相应的估计值和数值代入后可以计算得到样本量为,相应的在各层的样本量分别为。②按照内曼分配时,样本量在各层的分配满足,这时样本量的计算公式变为,把相应的数值代入后可得,在各层中的分配情况如下:。3.4解:(1)首先计算得到每层中在家吃年夜饭的样本比例为,那么根据每一层的层权,计算得到该市居民在家吃年夜饭的样本比例为。每一层中在家吃年夜饭的样本比例的方差为,则该市居民在家吃年夜饭的比例的方差,在的条件下,36 ,而其中每层的吃年夜饭的样本比例的方差的估计值为,则样本比例的方差的估计值为,把相应的数值代入计算可得方差的估计值为,从而可以得到该估计值的标准差为。(2)利用上题的结果,,这里的方差是,在的条件下,近似有。①比例分配的条件下,有成立,那么,把相应的估计值和数值代入可以求得最终的样本量应该是,样本量在各层的分配是,,。②内曼分配条件下,,则,代入相应的估计值和数值可以计算得到样本量为,在各层中样本量的分配为。3.5解:总体总共分为10个层,每个层中的样本均值已经知道,层权也得到,从而可以计算得到该开发区居民购买冷冻食品的平均支出的估计值为。下一步计算平均支出的95%的置信区间,首先计算购买冷冻食品的平均支出的估计值的方差,其中,但是每层的方差是未知,则样本平均支出的方差的估计值为36 ,每个层的样本标准差已知,题目中已经注明各层的抽样比可以忽略,计算可以得到。则这个开发区的居民购买冷冻食品的平均支出置信区间为代入数值后,可得最终的置信区间为。3.6解:首先计算简单随机抽样的方差,根据各层的层权和各层的总体比例可以得到总体的比例为,则样本量为100的简单随机样本的样本比例的方差为,不考虑有限总体校正系数,,其中,在的条件下,通过简单随机抽样得到的样本比例的方差为通过分层抽样得到的样本比例的方差为,但是因为不考虑有限总体校正系数,而且抽样方式是比例抽样,所以有成立,样本比例的方差近似为。对于每一层,分别有,在的条件下,近似的有成立,有样本量应该满足,同时这里要求分层随机抽样得到的估计的方差和简单抽样的方差是相同的,,层权分别为,代入数值,可以计算得到最终的样本量为。3.7解:事后分层得到的总体均值的估计量和估计量的方差分别为36 ,估计量的方差的估计值。对于几种说法的判断如下:(1)事后分层比简单随机抽样产生更加精确的结果,这个说法是错误的。从事后分层得到估计量的方差的估计值来看,它的方差不一定比简单随机抽样的要小,而且从事后分层得到的样本是利用简单随机抽样的方法得到的,只是在计算估计量和估计量的方差时是按照分层随机抽样来处理,而且事后分层要求层权是已知的,但是当层权未知从而利用样本来估计层权时,就会产生偏差,事后分层不见得比简单随机抽样产生更精确的结果。(2)事后分层比按比例分配产生更精确的结果,这个说法是错误的。从事后分层得到的估计量的方差的估计值可以看出,它的第一项就是按照比例分层抽样得到的估计量方差的估计值,公式中的第二项表示的是按事后分层时各层样本量与按照比例分层时各层样本量发生偏差所引起的方差的增量。(3)事后分层的最优分配产生更精确的结果,这种说法是错误的。事后分层在样本量足够大的条件下是与比例分层相当的,但是在一般条件下,事后分层的精度仍然低于比例分层的,那么事后分层的精度也会高于最优分配的精度。(4)在抽样时不能得到分层变量,这个说法是正确的。事后分层在抽样时,是利用简单随机抽样的方法,在抽样时不涉及按照变量进行分层,至于按变量进行分层,是在抽样完成后,然后根据具体的变量来对样本进行分层。(5)它的估计量的方差与真正按照比例分层随机抽样的方差差不多,只有在样本量足够大的条件下才成立。在样本量足够大的条件下,从事后分层的方差的计算公式可以看出,它的第二项会趋于0,这时事后分层的估计量的方差和分层随机抽样的方差差不多。3.8解:(1)根据简单随机抽样的公式,登记原始凭证的差错率的估计值为,在考虑到的条件下,登记的原始凭证的差错率的估计量的方差近似为则估计量的方差的估计值为,计算得,则原始凭证的差错率的估计的标准差为。(2)这里,每个层的层权是事先知道的,那么利用事后分层来计算登记原始凭证的差错率的估计值为,在这里。利用事后分层得到的原始凭证的差错率的估计量的方差的估计值为,在不考虑有限校正系数的条件下,又可以写为,其中36 ,可以得到,则相应的标准差为。3.9解:(1)所有可能的样本的数量为,所有的样本如下:(2)我们用9个样本中的一个来计算,假定抽中的样本为。首先按照分别比估计来估计,首先可以得到分层后的辅助变量的总体均值分别为。在这个样本中,经计算得到,,而且,则根据分别比估计可得的估计值为。利用联合比估计时,首先计算得到辅助变量的总体均值,然后利用样本得到的主要变量和辅助变量的样本均值为,则利用联合比估计得到的的估计值为。在计算分别比估计和联合比估计的偏差,这里的方法是利用所有可能的样本,然后计算出比估计和联合估计的估计值,按照与上面相同的计算方法,计算得到其他样本时比估计和联合估计值(按照上面的样本的排列顺序)为:分别计算可得,而且可以计算得到,。总体的实际均值为36 。则分别比估计和联合比估计的偏差分别为。,所以联合比估计的偏差比分别比估计的偏差要小。接下来计算分别比估计和联合比估计的均方误差。在这里样本量很小,不可以利用教材中的近似公式。(3)从分别比估计和联合比估计的偏差和均方误差可以看出,联合比估计的偏差和均方误差都要小于分别比估计,也就是说在本题中,联合比估计要比分别估计好。在本题中,各层的比率和总体的比率相差基本差不多,从整个样本出发进行的联合比估计比基于每层的分别比估计更好一些,偏差更小,均方误差也更小。第4章4.1解:由题意知,平均每户家庭的订报份数为:(份)总的订报份数为:(份)=0.358333所以估计方差为:=0.00886936 =1419004.2解:单位总人数赞成人数赞成比例151420.823529262530.854839349400.816327473450.6164385101630.623762648310.645833765380.584615849300.612245973540.7397261061450.7377051158510.879311252290.5576921365460.7076921449370.7551021555420.763636(1)=60.73333所以该系统同意这一改革人数的比例为:=70.91%其估计的方差为:=0.00137所以其估计的标准误为:=3.7%(2)=8%36 =0.0064得n=6.2,所以应抽取7个单位作样本。4.3解:该集团办公费用总支出额为:=48/10×(83+62+…+67+80)=3532.8(百元)=72765.44=269.7507(百元)所以其置信度为95%的置信区间为:[3004.089,4061.511]4.4解:=52.3所以整个林区树的平均高度为:=5.9(米)其估计的方差为:=0.06所以其估计的标准误为:=0.246(米)其95%的置信区间为:[5.42,6.38]4.5解:拍摄过艺术照的女生比例为:=9/30=30%其估计的方差为:=0.00589136 其估计的标准差为:=7.68%4.6解:其中,所以最优的样本学生数为2。代入得到所以最优的样本宿舍数为20。4.7解:(1)简单估计:居民总的锻炼时间为:=1650居民平均每天用于锻炼的时间为:=3.3(即33分钟)=0.163421其估计的标准差为:=0.404254(2)比率估计:居民总的锻炼时间为:居民平均每天用于锻炼的时间为:=3.95(即39.5分钟)36 =0.071509其估计的标准差为:=0.267411(3)简单估计下的相对误差为:r=0.404254/3.3=12.25%比估计下的相对误差为:r=0.267411/3.95=6.77%所以比估计的估计效果好。第5章5.1解:(1)代码法列出下表:PUSZiZi×1000000累计Zi×1000000代码10.0001101101101~11020.0185561855618666111~1866630.062999629998166518667~8166540.0782167821615988181666~15988150.07524575245235126159882~23512660.07398373983309109235127~30910970.07658076580385689309110~38568980.03898138981424670385690~42467090.04077240772465442424671~465442100.02287622876488318465443~488318110.0037213721492039488319~492039120.02497124971517010492040~517010130.04065440654557664517011~557664140.01480414804572468557665~572468150.0055775577578045572469~578045160.07078470784648829578046~648829170.06963569635718464648830~718464180.03465034650753114718465~753114190.06949269492822606753115~822606200.03659036590859196822607~859196210.03385333853893049859197~893049220.01695916959910008893050~910008230.0090669066919074910009~91907436 240.02179521795940869919075~940869250.059185591851000054940870~1000054表中,Zi不是整数,乘以1000000使其变为整数,这样就可以赋予每个单元与其相等的代码数。先在[1,1000054]中产生第一个随机数为825011,其对应的单元为20号,则得到第一个入样单元20;把单元20去掉,剩余的24个单元,累计代码数为1000054-36590=963464,在[1,963464]中产生第二个随机数为456731,得到第二个入样单元9;再把单元9去掉,剩余的23个单元,累计代码数为963464-40772=922692,在[1,922692]中产生第三个随机数为857190,得到第三个入样单元24;依此类推,直至抽出所需的样本。最后抽得的10个入样单元为20,9,24,3,4,25,21,16,7,5。(2)“拉希里法”。令,,在[1,25]和[1,0.078216]中分别产生随机数,,第6号单元入样;把单元6去掉,剩余的24个单元,仍旧等于0.078216,在[1,24]和[1,0.078216]中分别产生随机数,,第10号单元不入样,重新抽取随机数;依此类推,直至抽出所需的样本。最后抽得的10个入样单元为6,9,18,4,1,5,19,21,16,13。5.2.解:首先计算出各PSU单元的入样概率,。PSU150.23,5,4,6,220240.167,4,7,725380.327,2,9,4,5,3,2,638450.22,5,3,6,824530.129,7,521由可得所有可能样本的:样本1,20.068091128.1251,30.192926109.3751,40.09043411036 1,50.048549137.52,30.147531137.52,40.068091138.1252,50.036286165.6253,40.192926119.3753,50.106617146.8754,50.048549147.5霍维茨-汤普森估计量的方差为。5.3解:代码法列出下表:iZiZi×1000累计Zi×1000代码10.1041041041~10420.192192296105~29630.138138434297~43440.06262496435~49650.05252548497~54860.147147695549~69570.08989784696~78480.03838822785~82290.05757879823~879100.1211211000880~1000表中,Zi不是整数,乘以1000使其变为整数,这样就可以赋予每个单元与其相等的代码数。在[1,1000]之间产生三个随机数659,722,498,则它们所对应的第6,7,5号单元被抽中,即得到的n=3的PPS样本包括单元6、单元7和单元5。5.4解:由题意知n=3,总体总量的估计为:总量估计的标准差为:36 5.5解:由题意知,,,每个单元的入样概率。120.086956520.173913290.391304350.782609330.130434780.26087420.086956520.173913510.043478260.086957660.260869570.521739所有可能的样本及每对单元入样概率为:样本1,20.10460765.805561,30.01538386.251,40.00968663.251,50.004612109.251,60.03962482.416672,30.16075771.555562,40.10460748.555562,50.05126694.555562,60.36137167.722223,40.015383693,50.0073461153,60.06288.166674,50.004612924,60.03962465.166675,60.01912111.1667以实例验证式(5.5)、式(5.6):设分别为7,20,12,4,6,22,当入样单元为单元1和单元2时,由式(5.5)可得。若由式(5.3036 )进行计算,有。二者的计算结果是一致的。当入样单元为其他情况时,计算过程同上,二者结果仍保持一致,从而验证了式(5.5)。由式(5.6)可得。若直接进行计算,有。二者计算结果不一致,可见式(5.6)不适用于π抽样的情况。5.6解:(1)简单随机抽样简单估计量为:10,9,5,2,4。均方误差为:(2)简单随机抽样比估计为:①联合比估计:联合比估计估计量为:,因此均方误差为:②分别比估计:分别比估计估计量为:12.45333,8.895238,5.337143,1.779048,3.558095,因此,36 均方误差为:(3)pps抽样。1070.388889950.277778530.166667210.055556420.111111PPS抽样汉森-赫维茨估计量:5.142857,6.48,6,7.2,7.2,因此均方误差为:通过以上计算可以看出,PPS抽样汉森-赫维茨估计量的均方误差最小;其次是简单估计量的均方误差;两种比估计的均方误差相差不大,但都要大于汉森-赫维茨和简单估计量的均方误差。5.7解:设5个部门的职工总人数为150。由题意得:,,,,由于该样本为自加权的,则由于,,估计的方差为:36 估计的标准差为:则该公司职工上班交通平均所需的时间为34分钟,估计的标准差为6分钟。5.8解:由题意得:,。首先计算出抽中的10个单位的概率:。单位编号车辆数单位运量总和平均每车运量150.026882142302846280.043011213362667350.026882136502730440.021505115682892560.032258152162536690.048387230492566750.026882136502730830.01612974432481970.0376341672323891030.01612983912797根据汉森-赫维茨估计量的计算公式可得即全集团的季度总运量为495299.4吨。方差估计量的估计为:其95%的置信区间为:。第6章6.1解:(1)系统抽样设计原理:见教材第164页定义6.1。(2)系统抽样与整群抽样、分层抽样的关系:系统抽样按行来看,可看作一种特殊的整群抽样;将每一行的单元视为群,则总体由k36 个群组成,每个群的大小都是n,即系统抽样可看作从k个群中随机抽取1个群的特殊整群抽样。系统抽样按列来看,可看作一种特殊的分层抽样;将每一列单元视为一层,则总体由n个层组成,每个层的大小都是k,则系统抽样可看作从n个层中随机抽取一个单元的特殊分层抽样。6.2解:见教材第170页定理6.2的证明。6.3解:将40个人依次编号为1~40号,且将这些编号看成首尾相接的一个环。已知总体容量N=40,样本量n=7。由于N/n=5.7,取最接近5.7的整数6,则抽样间距k=6。由于随机起点r=5,则其余样本点依次为11,17,23,29,35,1。因此,用循环等距抽样方法抽出的样本单元序号为5,11,17,23,29,35,1。6.4解:对于总体,容量N=360,汉族住户总数A=81,汉族比重P=A/N=0.225。对于样本,抽样间距k=8,样本量n=N/k=45。简单随机抽样:系统抽样:则。其中“系统样本”随机起点号码r“系统样本”的单元组成“系统样本”中汉族住户总数“系统样本”中汉族住户比例12345678略(样本量45)713101012910107/4513/4510/4510/4512/459/4510/4510/456.5解:(1)估计汉族所占比例,采用等距抽样效果最好。理由:系统抽样可看作一种特殊的整群抽样,则希望系统抽样抽取的样本能更好地体现总体性质。由于三个民族的居民居住地紧邻,采取等距抽样能使样本中三个民族的分布与总体分布类似,即差异较小。若采用简单随机抽样,可能出现的情况是,抽取的样本中有过多的汉族居民,而等距抽样会避免该现象的发生。(2)估计男性所占比例,采用简单随机抽样效果最好。36 理由:由题意知,每户人口登记顺序为:丈夫、妻子、孩子、其他人,且平均每户有5口人。若采取等距抽样,由于抽样间距k=5,若随机起点号码为1,则第一户抽取丈夫,第二胡抽取丈夫的可能性较大,依此类推,抽取的样本中,丈夫所占的比重较大,估计时误差会很大。而简单随机抽样会避免该情况的发生。(3)估计孩子所占比例,理由同(2)。6.6解:(1)估计男性所占比例。已知总体容量N=50,男性总数A=24,男性所占比例P=A/N=0.48。抽样间距k=5,样本量n=N/k=10。简单随机抽样:系统抽样:则。其中“系统样本”随机起点号码r“系统样本”的单元组成“系统样本”中男性总数“系统样本”中男性比例12345MMMFfMFFfMFFFMMFmmMFffmFFffMFfmmfmffmFfMffMmmMMmmF552570.50.50.20.50.7(2)估计孩子所占比例。已知总体容量N=50,孩子总数A=24,孩子所占比例P=A/N=0.48。简单随机抽样:系统抽样:则。(3)估计职业住户中人员所占比例。已知总体容量N=50,职业住户总数A=19,职业住户所占比例P=A/N=0.38。36 简单随机抽样:系统抽样:则。6.7解:已知总体容量N=15,总体均值。样本量n=3,抽样间距k=N/n=5。简单随机抽样:系统抽样:其中“系统样本”随机起点号码r“系统样本”的单元组成“系统样本”样本均值123451,6,112,7,123,8,134,9,145,10,156789106.8解:书稿平均错字数抽样方差的估计如下:(1)合并层方法估计抽样方差为:(2)连续差方法估计抽样方差为:36 (3)交叉子样本方法估计抽样方差为:第7章7.1解:根据表中数据,可计算各层的权重:=0.17,=0.25,=0.28,=0.22,=0.08全县棉花的种植面积为:=0.17×90/17+0.25×1806/25+0.28×4423/28+0.22×5607/22+0.08×4101/8=164.27根据式(7.4),的抽样方差为:=14.5785+25.14146=39.71996所以全县棉花种植面积的抽样标准误的估计为:12604.757.2解:(1)由题意知,,,,,36 根据公式(7.10)有根据公式(7.8),有≈≈0.000667(2)调查总费用为3000元,每一个抽样单元的调查费用为10元,采用简单随机抽样,样本量可以达到300,估计量的方差为:则有由此可知二重抽样效率更高。7.3解:由题知=602,由表内数据计算得=568.5833,=568.25,1.000587,=256154.9,=278836.9,=256262根据式(7.11),该地区当年平均每村牛的年末头数为:36 602(头)所以该地区年末牛的总头数为:745713(头)根据式(7.15),的方差估计为:所以该地区年末牛的总头数估计的标准差为:46398(头)7.4解:(1)根据公式(7.10),有根据公式(7.8),有即二重抽样的样本最优分配方案是第一层分配63个样本,第二层分配31个样本。(2)令c1/c2h=a,则c1/=c2h=a,若二重抽样的精度高于简单随机抽样,则有36 7.5解:由题意知:n1=300,n2=200,m=62,该保护区现有羚羊总数为:(头)其抽样的标准误为:(头)7.6解:(1)由题意知:n1=7,n2=12,m=4,该地区渔民总数为:(人)36 其抽样的标准误为:(人)其95%的置信区间为:=[12,28](2)由题意知:n1=16,n2=19,m=11,该地区渔民总数为:(人)其抽样的标准误为:(人)其95%的置信区间为:=[22,34](3)计算这些估计时的前提假设:①总体是封闭的——两次抽样间没有渔民进入或离开该地区,即对每次抽样而言,N是相同的。这要求渔民在两次抽样间不能离开该地区,其他渔民也不能进入,但这在实际中是很难做到的。②每个样本都是来自总体的简单随机抽样,即该地区每个渔民都有同样的机会被找到。在实际中由于渔民所在地和作业时间的不同,不可能每一个渔民在调查时都能被找到,比如某些住在偏僻位置的渔民被找到的机会就会小些。③两个样本是独立的,即渔民第一次被找到的概率跟第二次能否被找到的概率没有关系。④不会丢失第一次被找到的渔民资料,即第一次被找到的渔民,在第二次被找到时可识别。⑤近似服从正态分布。7.7解:(1)如果NCRSR和BDMP登记体系是两个独立的系统,也就是两个系统在登记病人时是独立进行的,病人出现在NCRSR中的概率与出现在BDMP中的概率无关,那么作者的认识就是正确的。第一,满足总体是封闭的假设,NCRSR和BDMP登记系统都是针对全国人口进行登记,而且是在同一段时间范围内进行,因此总体单元数是一样的。第二,满足标识不丢失的假设,先天性风疹综合征在出生时就会被确定出,不会因为以后是否恢复而被更改。第三,可能不满足每个样本都是来自总体的简单随机样本。简单随机样本要求每个样本入样概率相同,从全国范围看,这一假设不一定能满足。比如由于抽样框的原因,偏远地区或者欠发达地区的人群被登记的概率会低于中心地区或者发达地区。(2)由公式(7.21)得每年的如下表:年份NCRSR(n1)BDMP(n2)两者均有(m)36 19704515224419712330951972206248197322133801974126145197522911141976157242197713833119781892621979391121591980124132198140041982112035198330031984300319851001(3)累计所有年份的数据,得到n10=263,n20=93,m0=19,由公式(7.21)得到1970—1985年间先天性风疹综合征的总病例数为:(人)累计(2)的估计结果得到1970—1985年间先天性风疹综合征的总病例数为998人。从结果上看,我们认为(3)的计算结果更可信,因为(3)的样本量足够大。(4)直观上由下图发现先天性风疹综合征的患病人数是在下降。第8章36 8.13解:(1)原假设:患有妇科疾病与是否遭受配偶性虐待相互独立。在原假设成立条件下,各单元格的期望频数为:(2)如果显著性水平,拒绝原假设,即认为妇科疾病与是否遭受配偶性虐待不独立。(3)应用传统的卡方检验方法的前提是样本中各观测值的权数相等。本题中样本由于存在无回答情形,各观测值的权数不一定相等,因此传统的卡方检验方法不合适。8.14解:设总体相关系数为,其中,为总体标准差。又所以36 (2),这里。(3)第9章9.1解:首先计算每套子样本中的居民家庭平均年总收入,结果如下表所示:子样本12345平均收入17.818.719.31919用(=1,2,3,4,5)表示每套子样本中的居民家庭平均年总收入,则=18.76从而=0.0666的95%置信区间为:9.2解:要估计的比率是,其中,X和Y分别是该地区的劳动人口数和失业人数。由于每层的权重一样,故R的估计为:36 =359/3643=0.09854516现采用刀切法估计失业率的方差,将每个层视为一组,从而有==271/2681=0.1010817==259/2691=0.09624675==276/2777=0.09938783==271/2780=0.09748201因此有0.0909360.105440.0960170.101735根据刀切法,估计该区的人口出生率为:0.098532的刀切法方差估计为:36 ====9.3解:要估计的比率是,其中,x和y分别是该区的人口数和新生婴儿数。由于每个初级抽样单元的大小相等,且第二阶段抽取的样本量也一样。因而,R的估计为:==0.009723187现采用刀切法估计人口出生率的方差。将每个街道中的所有居委会视为一组,从而有==0.009675282==0.0100601==0.009425196==0.009726849因此有0.0098670.00871236 0.0106170.009712根据刀切法,估计该区的人口出生率为:0.009727的刀切法方差估计为:====第10章10.6解:该总体真实均值为(1)对于一个在60%层中抽样的方法:bias=40.7-46.08=-5.38(2)当回答率为60%时,由(1)有即均方误差的根不可能达到5%。当回答率为80%时bias=43.5-46.08=-5.38当回答率高于80%时36 |bias|<2.58而对于所有的回答率方法均有因而当采用80%或更高回答率时只要当n稍稍大于100,便有(3)采用90%方法时bias=44.8-46.08=-1.28得n=1047采用95%方法时bias=45.4-46.08=-0.68得n=70110.7解:由上题(3)知,当回答率为90%时n=1047,则总费用=5×1047=5235当回答率为95%时,n=701,则总费用=36'