• 1.16 MB
  • 2022-04-22 11:41:47 发布

卫生管理统计及软件应用_贺佳_课后习题答案

  • 39页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'第一章一、名词解释参数:指总体中全部观察单位的观测值所得的特征值,是一个固定的常数,通常是未知的。统计量:指由样本计算得到的反映样本资料特征的统计指标,为随机变量,取值在参数附近波动,可作为参数的估计值。同质:指观察单位通常具有某种共性,即相同的状况或属性等,观察单位之间常常“大同小异”。变异:指同质观察单位之间的差异。概率:是描述随机事件发生可能性大小的一个度量,为一个固定的常数,取值在0到1之间,常用p来表示。频率:在相同的条件下,独立地重复进行n次实验,随机事件A出现了f次,则称f/n为事件A出现的频率。抽样误差:指由抽样引起的样本统计量与总体参数之间的差异,或者不同样本统计量之间的差异。二、单项选择题1.E2.E3.B4.A5.D6.D7.B8.D9.C10.D三、简答题1.卫生管理统计的基本步骤一般分为统计设计、收集资料、整理资料和分析资料四个步骤。这四个步骤紧密联系,前一步是后一步的基础,每一个步骤的工作质量都会影响最终结论的正确性。2.卫生管理统计中通常将资料分为定量资料、定性资料和等级资料三种类型。定量资料是测量每个观察单位某项指标得到定量的测量值,表现为数值大小,且有度量衡单位,如某医院出院患者的住院日。定性资料是将观察单位按某种属性或类别分组计数,分组汇总各组观察单位数后得到的资料,测量值为定性的,表现为互不相容的属性或类别,如某医院住院患者中A型、B型、AB型和O型人数。等级资料是将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察档位数后得到的资料,具有半定量性质,表现为等级大小,如某病患者治愈、好转、无效、死亡的人数。 第二章一、单项选择题1.C2.B3.E4.B二、简单题1.利用SPSS直接建立数据库一般分为两步,第一步变量设置,在变量视图(VariableView)中完成,第二步数据录入,在数据视图(DataView)中完成。在建立数据库过程中要注意以下问题:建立数据库之前应先确定研究中需要的指标,哪些是重要指标,哪些是次要指标,哪些是标识变量,尽量做到数据库中含有研究所需要的每一个指标,同时尽量避免冗余无用的指标。2.数据录入基本原则一个观测的数据在一行显示,一个指标即一个变量的数据在一列显示,录入完成后产生一个标准数据格式数据集。数据录入过程中要注意尽可能用数值变量代替字符变量,便于数据录入;要有标识变量,便于核查;对于多项选择题的录入要采用多重二分法或者多重分类法,切忌将多个选项录入一个变量。三、上机应用题在变量视图中做以下设置变量名数据类型小数点变量标签值标签资料类型No数值型0编号,标识变量NominalGender数值型0性别1=男,0=女NominalNation数值型0民族0=汉族,1=其它NominalIDno数值型0身份证号码NominalBirthd日期型0出生年月NominalAddress字符型0居住地NominalTel1数值型0电话(家)NominalTel2数值型0电话(手机)NominalTel3数值型0电话(其他)Nominal Relative数值型0亲属关系1=子,2=女,3=其它人NominalA1数值型2身高ScaleA2数值型2体重ScaleA3数值型2腰围ScaleA4数值型2臀围ScaleA51数值型2SBP1ScaleA52数值型2SBP2ScaleA61数值型2DBP1ScaleA62数值型2DBP2ScaleA7数值型0服用降压药0=无,1=有NominalA8数值型0职业1=行政或其它管理,2=医护人员,3=教师,4=军警保安,5=文化艺术,6=理工技术人员,7=金融法律,8=文员或秘书,9=工厂工人,10=个体经营者,11=商业或服务人员,12=农民或渔民,13=家庭主妇,14=其它,99=不详Nominal注:其余各项默认即可。第三章一、名词解释1.单纯随机抽样:又称简单随机抽样,是按等概率原则直接从含有N个观察单位的总体中抽取n个观察单位组成样本。单纯随机抽样是最基本的抽样方法,也是其他抽样方法的基础。优点:均数(或率)及标准误的计算简便。缺点:总体较大时抽得的样本单元很分散,给实施调查带来困难。2.分层抽样:按与研究目的明显有关的因素(或特征),将观察单位分为若干的类型或组别(统计学上称“层”,stratum),然后从每一层中按比例抽取一定数量的观察单位组成样本。优点:抽样误差较小,样本对总体有较好的代表性;便于在不同的层内采用不同的抽样方法,有利于调查组织工作的实施;可以对各层独立进行分析。3. 非抽样误差:指除抽样误差以外的,由各种非随机因素引起的误差,主要包括抽样框误差、无应答误差和计量误差。非抽样误差成因复杂,可产生于调查工作的各个阶段、各个环节。非抽样误差难以测度,但可以控制,比如设计科学的调查研究方案、开展预调查、调查人员严格选择与培训、加强调查实施过程的组织管理、监督和检查及资料整理录入加强编码及双录等措施均可减少非抽样误差。二、简答题1.调查研究的质量控制应贯穿于调查工作的各个阶段、各个环节,比如设计科学的调查研究方案、开展预调查、调查人员严格选择与培训、加强调查实施过程的组织管理、监督和检查及资料整理录入加强编码及双录等措施,以减少非抽样误差。2.(1)估计的容许误差。容许误差越大,估计精度越低,需要的样本量越小;反之,容许误差越小,估计精度越高,需要的样本量越大。(2)估计的置信度。置信度要求越高,即的取值越小,则样本含量要求越大。置信水平一般取95%。(3)总体的变异程度。当总体率越接近0.5,变异程度越大,需要样本量越大;值偏离0.5越远,变异程度越小,样本量越小。(4)应答率。在估算样本量时通常需要根据可能的应答率增加样本量。设估算出的样本量为,应答率为,则校正的样本量为。(5)设计效率。在估算样本量时,应考虑复杂抽样设计的设计效率对研究结果的影响,一般先按照单纯随机抽样设计估计出初始样本量,再乘以设计效率Deff得到最终的样本量。3.抽样调查中的误差有两大类:抽样误差和非抽样误差。抽样误差是由于抽样使样本统计量与总体参数之间的差异。由于每次抽取样本所包含的观察单位是随机的,所以,不同样本之间以及样本与总体之间会存在偏差,由此产生了抽样误差。非抽样误差产生比较复杂,有以下几类:由于抽样框不完善导致的抽样框误差;由于调查获得的数据与所欲调查项目的真值之间不一致而导致的计量误差;由于无应答导致的无应答误差等。非抽样误差不仅在抽样调查中,在全面调查中也是存在的。三、选择题1.D2.E3.B4.B5.E6.D7.A8.B四、应用题1.已知,,,, ,代入公式(3-11)有因此,需要调查683名6-11岁儿童。2.根据题意可以整理如下:年龄段(岁)18-308002000.2290.0860.000376431-4510004000.2860.1820.000372246-6012004500.3430.3560.000509560以上5003000.1430.4630.0008288根据公式(3-5)(3-6)可计算总体两周患病率的估计值及标准误:=0.229*0.086+0.286*0.182+0.343*0.356+0.143*0.463=0.259==0.008785两周患病率的95%置信区间为(0.259-1.96×0.008785,0.259+1.96×0.008785),即(0.242,0.276)。因此,该居民社区总的两周患病率为25.9%,95%置信区间为(24.2%,27.6%)。第四章一、单项选择题1.A2.A3.D4.C5.C6.E二、简答题 1.定量资料频数分布表的编制:(1)求出全距(range)。(2)确定组段数(k)根据样本含量多少确定组段数,一般设8~15个组段,不宜过粗或过细。(3)求组距(classinterval):根据资料的分布类型,组距分为相等与不等两种。(4)确定组限:数量分组的组限一定要清楚明确,组间的衔接必须严密,不遗漏,也不重复:即要求第一个组段应包括资料中的最小值,最后一个组段应包括最大值;此外,应遵循“上限不在本组”的规则。规范的表示方法是采用半开半闭区间(右开左闭区间)的形式,即各组段只写明下限值,而不标出上限值,如0~,15~,30~,但是最后一个组段必须采用闭区间。(5)列频数表统计各组段频数,在此基础上计算频率、累计频数和累计频率。2.参见教材表4-4及4-5对集中趋势及离散趋势统计量的总结。3.中位数和均值都是数据集中趋势的描述统计量,中位数是位置代表值,不考虑极端值,可以适用于不拘分布或分布类型不明的资料;均值考虑全部数据,包括极端值,但是一般适用于对称分布资料,尤其是正态分布资料。4.这四个指标都是反映计量资料的离散程度。极差和四分位差可用于任何分布,后者比前者稳定,但均不能综合反映各观察值的变异程度;标准差最为常用,要求资料服从对称分布,尤其是正态分布。5.变异系数可用于多组资料间度量衡单位不同或均数相差悬殊时的变异程度比较。三、计算题1.根据原始数据资料,对数据进行排序、分组后,得到频数分布表如下:表4-9某地120名正常成年人血清铜含量(μmol/L)组段频数f频率P(%)⑴⑵⑶9.00~32.5010.00~43.33 11.00~1210.0012.00~1310.8313.00~1714.1714.00~2218.3315.00~1815.0016.00~1310.8317.00~119.1718.00~54.1719.00~21.67合计120100.002.3.抗体滴度倒数的几何平均数为:故平均抗体滴度为1:70.53第五章一、名词解释相对数:是指两个有联系的指标之比。它可以是两个有联系的绝对数之比,也可以是两个统计指标之比。率:是指某种现象在一定条件下,实际发生的观察单位数与可能发生该现象的总观察单位数之比,用于说明某种现象发生的频率大小或强度,故又称频率指标。构成比:也称为构成指标,是指一 事物内部某一组成部分的观察单位数与该事物各组成部分的观察单位总数之比,用以说明某一事物内部各组成部分所占的比重或分布,常用百分数表示。相对比:是指两个有关联的指标之比,用以描述两者的对比水平,是对比的最简单形式。常以百分数或倍数表示,说明一个指标是另一个指标的百分之几或几倍。二、简答题(略)三、单项选择题1.A2.C3.A4.C5.D6.B7.D四、计算分析题1.(1)表1某中学各类口腔卫生状况者的患龋情况口腔卫生情况调查人数患龋人数患龋人数构成比(%)患龋率(%)良好者205636124.4717.56中等者216063543.0529.40不好者96347932.4849.74合计51791475100.0028.48(2)患龋人数百分比是构成比,患龋率是率,分别从构成比和率的定义上进行解释。2.表2某地2001~2011年医院床位统计数据年份(1)符号(2)年末床位数(3)绝对增长量发展速度(%)增长速度(%)累计(4)逐年(5)定基比(6)环比(7)定基比(8)环比(9)200136107——100.0100.0——20024174456375637115.6115.615.615.6200350715146088971140.5121.540.521.5200456707206005992157.1111.857.111.8200560830247234123168.5107.368.57.3 200665841297345011182.3108.282.38.2200770721346144880195.9107.495.97.4200875887397805166210.2107.3110.27.3200983488473817601231.2110.0131.210.0201087633515264145242.7105.0142.75.0201192715566085082256.8105.8156.85.83.表3某三甲医院与某乡镇卫生院急性心肌梗死标准化治愈率严重程度(1)标准治疗人数(2)某三甲医院某乡镇卫生院原治愈率(%)(3)预期治愈数(4)=(2)×(3)原治愈率(%)(5)预期治愈数(6)=(2)×(5)轻10080.08070.070重10060.06040.040合计200—140—110某三甲医院心肌梗死治愈率高于某乡镇卫生院。第六章一、名词解释1.统计指标:是反映总体现象综合数量特征的基本概念,用于获取总体现象的实际数量状况及其发展变化情况,包括三个构成要素,即指标名称、计量单位和计算方法。2.孕产妇死亡率:是指某年中由于怀孕和分娩及并发症造成的孕产妇死亡人数与同年出生的活产数之比。3. 续发率:是指在一定观察期内某种传染病在易感接触者中二代病例的百分率。4.人口总数:又称总人口数,一般是指一定地域范围内(国家或地区)在某一特定时间的人口数量,是人口统计中最基本的指标。5.患病率:又称为现患率或流行率,是指某特定时间内受检人群中现患某种疾病的频率,可以用于描述病程较长或发病时间不易明确的疾病的患病情况。6.寿命表:又称为生命表,是指根据特定人群的年龄别死亡率计算出来的一种统计表,用于说明在特定人群年龄别死亡率的条件下人的生命过程。二、单项选择题1.A2.A3.C4.D5.B6.B7.E8.D9.A10.C三、简答题1.医院统计主要包括工作效率统计、诊断质量统计、治疗质量统计、医疗管理质量统计、护理质量统计和卫生经济管理统计等内容。2.传染病预防与控制的统计指标主要包括传染病报告质量指标,如传染病漏报率、居民漏报率、医院漏报率、迟报率、漏诊率等;传染病疫情指标,如传染病感染率、发病率、续发率、死亡率、病死率等;预防接种指标,如疫苗接种率、保护率、抗体阳转率等。3.疾病统计的常用指标包括发病率、患病率、累积发病率、治愈率、有效率、死亡率、生存率等。4.寿命表的主要指标包括年龄组尚存人数、年龄组平均存活年数、年龄组生存人年数、年龄组生存总人年数、年龄组平均期望寿命、年龄组死亡率、年龄组死亡概率、年龄组死亡人数等。四、计算分析题第七章一、单项选择题 1.B2.A3.C4.D5.B6.C7.D8.D9.D10.C二、简答题1.应根据资料的性质和分析目的选择合适的统计图。2.(1)标题,它位于图的下方中间,概括地说明图的内容。一般情况下,标题应包含图的编号,以便在文字说明时使用方便。有时标题也包含资料产生的时间、地点或来源。(2)图域,以纵横轴为坐标绘制的图形,一般取第一象限为作图区,两轴的交点为起点,考虑到图形的美观,长宽之比一般是7:5。(3)标目描述被研究的事物与指标,横标目位于横轴的下方,纵标目置于纵轴的左侧。(4)刻度,指纵横轴上的坐标,刻度数值按从小到大的顺序。(5)图例,在同一图形中比较两种或多种事物时,需用不同的线形、图示或颜色区分不同内容,应附图例加以说明。图例可放在图域的右上角空隙处或图中其它适当的位置。3.普通线图:用线段的升降表示某现象随另一现象变化而变化的趋势,纵横坐标均为算术尺度。半对数线图:一种特殊的线图,其纵坐标变量取对数尺度,横坐标变量为算数尺度,表示某现象随另一现象变化而变化的速度。4.直条图:用等宽直条的长短表示相互独立的各项指标数量的大小,其横轴表示分类资料的分组,纵轴表示各指标数量的大小,各组之间是间断的,各直条间留有空隙。直方图:用矩形面积表示连续变量的频数(频率)分布,其横轴表示连续变量值的分组,纵轴表示频数或频率,各直条间不留空隙。5.联系:描述计数资料的构成比。区别:比较多个计数资料的构成比时,构成直条图较圆图更适用。第八章一、名词解释1.抽样误差:由随机抽样造成的样本均数与样本均数之间,样本均数与总体均数之间的差异称为均数的抽样误差。2.置信区间:按照给定的概率()所确定的包含总体参数的一个范围,该范围称为总体参数的置信区间,也称作可信区间。 3.假设检验:又称作显著性检验,是用于判断样本指标与总体指标之间或样本指标与样本指标之间的差异有无统计学意义的一种统计方法。4.检验水准:进行假设检验时,预先设定的小概率事件发生的概率值。5.I类错误:又称假阳性错误,即拒绝了原本成立的时犯的错误。二、单项选择1.B2.D3.E4.D5.A6.B三、简答题1.样本均数的抽样分布有如下特点:(1)各样本均数未必等于总体均数;(2)各样本均数之间未必相等;(3)样本均数的分布具有一定的规律,围绕着总体均数,中间多、两边少,左右基本对称,也服从正态分布;(4)样本均数之间的变异比较原变量明显缩小。2.假设检验的基本思想有:(1)小概率事件小概率事件是指在一次随机试验中被认为基本上不会发生的事件,或者发生的概率非常小,可以认为不会发生。具体发生概率小于多少才算是小概率事件,是需要在解决实际问题时预先设定的,即检验水准,实际工作当中常取0.01或0.05,无特殊说明,一般为0.05。设定即规定发生概率不超过0.05的事件即是小概率事件。(2)反证法思想是指首先提出假设,假定某事实成立(即原假设),在此基础上选用适当的统计方法来估计该事件发生的概率。如果,说明该事件不是小概率事件,尚不能认为该事实不成立;如果,说明该事件的发生属于小概率事件,我们就有理由怀疑原假设的正确性,即该事实不成立。3.分布曲线的特点有:(1)分布是一簇曲线,而不是单条曲线;(2)以0为中心,单峰分布,左右对称;(3)自由度越小,越大,值越分散,曲线的峰越矮,尾部越粗;(4)随着自由度的增大,分布逐渐逼近标准正态分布,当趋近于无穷大时,t分布就完全称为标准正态分布。 4.假设检验的基本步骤有:(1)建立检验假设,确定检验水准α;(2)选择检验方法,计算统计量;(3)根据统计量与α大小关系确定P值;(4)作出推断结论。四、计算题1.一般采用均数的标准误来表征抽样误差大小,由于总体标准差未知,以样本标准差代替,计算结果如下:2.采用正态分布近似法估算总体率的95%置信区间,结果如下:即全体居民的超重率总体率的置信区间为(28.8%,46.2%)。第九章一、名词解释方差齐性:指被比较的各组数据其总体的方差相等。在统计学上,若各方差之间在给定检验水准下没有统计学差异,则称为方差齐性,亦称等方差性、同方差性或方差一致性。二、单项选择题1.C2.C3.C4.C5.D6.A7.C8.B9.C10.B三、简答题1.基本思想:t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否是由抽样误差造成的,从而判断差异是否有统计学意义。应用条件:①观测个体间独立,即任一个体的观测值不受其他个体观测值的影响;②研究中的分析变量为服从正态分布的定量变量;③两独立样本t检验还要求样本所来自的总体方差相等,即总体方差齐性。2. 实际工作中,配对样本常见于三种情况。第一种情况主要在实验研究中,研究者将受试对象按某些特征(如性别、年龄等可能对研究结果有影响的因素,也称混杂因素)配成对子,再随机分配对子中的每个个体至处理因素的两个不同水平。除实验研究外,流行病学中常用的1:1匹配的病例对照研究虽为观察性研究,也可视为配对样本;第二种情况是将每份被测样品一分为二,再分配至不同的方法检测;第三种情况属于自身配对形式,每个受试对象在因素处理前和处理后的比较。第一种情况又称异源性配对,后两种情况又称同源性配对。四、计算分析题1.本题是单样本与已知总体均数比较的t检验。t=3.077,v=35,P<0.05,按=0.05水准拒绝H0,认为该地活动型结核患者与一般活动型结核患者的心率不同,该地患者心率较高。2.本题属配对设计资料,故应用配对t检验方法计算。t=2.157,v=19,P<0.05,按=0.05水准拒绝H0,认为左、右肾重量差别不同,右较左肾轻。3.对表中治疗前后差值做两组比较。t==-1.602,v=18,得0.2>P>0.1,按=0.05水准,不拒绝H0,甲、乙两药疗效相同。第十章一、名词解释1.组间变异:处理因素和随机误差引起的变异。2.组内(误差)变异:个体差异和测量误差引起的变异。3.均方:其实质是方差,由各离均差平方和除以相应自由度获得,反映了变异大小。二、最佳选择题1.C2.B3.C4.D5.A6.C7.C8.D三、简单题1.方差分析的基本思想 :根据研究设计类型和研究目的将总变异分解为两个或两个以上部分。不同部分的变异可用不同因素的作用或随机误差的作用来解释,通过比较某因素所致变异与随机误差,来判断该因素对研究结果是否有影响。应用条件:1.各样本来自正态总体。2.各样本所来自总体的方差相等。2.在随机区组设计的方差分析中,的含义是什么?:总变异,即总离均差平方和;:处理组间的变异;:区组间的变异;:误差的变异。3.单因素方差分析时总变异分解为两个部分,即组间变异和组内变异,组内变异即随机误差引起的变异,分解过程可以表示为;随机区组设计方差分析总变异分解为三个部分,即处理组间变异、区组间变异和组内变异,此处的组内变同样由随机误差引起,具体分解过程可以表示为。四、计算分析题1.本题为采用完全随机化设计获得的计量资料,共有4组数据,可以采用单因素方差分析。采用SPSS分析的主要结果为:表10-1统计描述(Descriptives)谷酰转肽酶NMeanStd.DeviationStd.Error95%ConfidenceIntervalforMeanMinimumMaximumLowerBoundUpperBound病毒性2033.982520.332684.5465224.466543.49856.5682.05酒精性2034.706028.981476.4804521.142348.26978.60133.57非酒精性2054.008524.660075.5141642.467265.549816.47111.68健康人2023.659011.992162.6815318.046529.27153.5450.85Total8036.589024.577312.7478331.119642.05843.54133.57表10-1为对四个变量进行统计描述的结果,主要给出了四个变量的名称、样本量、均数、标准差、标准误、95%置信区间的下限、上限以及最小值、最大值等。表10-2方差齐性检验结果(TestofHomogeneityofVariances)谷酰转肽酶 LeveneStatisticdf1df2Sig.2.14376.1024表10-2为方差齐性检验的结果,其中第一列为Levene统计量,第二列和第三列为两个自由度,第四列是检验的值(Sig.),本例,因此不能认为方差不齐,可以直接进行完全随机设计的方差分析。表10-3完全随机设计资料的方差分析(ANOVA)谷酰转肽酶SumofSquaresdfMeanSquareFSig.BetweenGroups9619.26833206.4236.40.0006WithinGroups38100.20976501.319Total47719.47879表10-3为完全随机设计资料方差分析的主要结果,列出了组间变异、组内(即误差)变异、总变异及各自对应的自由度(df),组间均方、组内(误差)均方,值和值(Sig.)。本例。按判断水准,拒绝,差异有统计学意义,可以看出,四个组的GGT含量不同。表10-4SNK-检验结果(HomogeneousSubsets)谷酰转肽酶Student-Newman-Keulsa分组NSubsetforalpha=0.0512健康人2023.6590病毒性2033.9825酒精性2034.7060非酒精性2054.0085Sig..26911.0000Meansforgroupsinhomogeneoussubsetsaredisplayed.a.UsesHarmonicMeanSampleSize=20.000.表10-4为两两比较SNK-检验的结果。可以看出,健康人、病毒性脂肪肝患者以及酒精性脂肪肝患者的GGT含量相同,而健康人、病毒性脂肪肝患者、酒精性脂肪肝患者与非酒精性脂肪肝患者的GGT含量均不相同。2. 本题为采用随机化区组设计获得的计量资料,可以采用两因素方差分析。采用SPSS分析的主要结果为:表10-5随机区组设计资料的方差分析(TestsofBetween-SubjectsEffects)DependentVariable:满意度分值SourceTypeIIISumofSquaresdfMeanSquareFSig.CorrectedModel169.400a1214.1179.44.0000Intercept3367.22513367.2252251.77.0000block24.52592.7251.82.1100group144.875348.29232.29.0000Error40.375271.495Total3577.00040CorrectedTotal209.77539a.RSquared=.808(AdjustedRSquared=.722)表10-5为随机化区组设计方差分析的主要结果,表中列出处理组间[group]变异、区组间[block]变异、误差变异、总变异及各自对应的自由度(df),处理组间均方、区组间均方、误差均方,值和值(Sig.)。本例处理组间:;按判断水准,拒绝,差异有统计学意义,说明不同年龄段之间满意度总分分值不同;区组间:,按判断水准,不拒绝,差异无统计学意义,说明10个自然村之间满意度总分相同。表10-6MultipleComparisons满意度分值Dunnettt(2-sided)a(I)年龄段(J)年龄段MeanDifference(I-J)Std.ErrorSig.95%ConfidenceIntervalLowerBoundUpperBound>=20and<35>=655.3000*.54688.00003.93926.6608>=35and<50>=652.7000*.54688.00011.33924.0608>=50and<65>=651.9000*.54688.0048.53923.2608Basedonobservedmeans.TheerrortermisMeanSquare(Error)=1.495.a.Dunnettt-teststreatonegroupasacontrol,andcompareallothergroupsagainstit. *.Themeandifferenceissignificantatthe.05level.表10-6为采用Dunnett-检验得到的多个样本均数的多重比较结果,三个不同的年龄段的满意度分值均与65岁及以上年龄段的满意度分值比较,表中列出了比较的均数差值(MeanDifference)、均数差值标准误(Std.Error)、P值(Sig.),及均数差值95%置信区间(95%ConfidenceInterval)。可以看出,三个年龄段与65岁及以上年龄段比较,满意度分值均不相同。第十一章一、简答题(略)二、单项选择题1.D2.C3.C4.A5.D6.A7.D8.D9.D三、计算分析题1.检验统计量的计算用式11-3,得c2=2.77,P>0.05。2.检验统计量的计算用式11-5,得c2=0.0008,P=0.9781。3.检验统计量的计算用式11-6,得c2=3.945,P=0.0470。4.检验统计量的计算用式11-7,得c2=75.03,P<0.0001。5.检验统计量的计算用式11-9,得c2=0.9286,P=0.6286。6.检验统计量的计算用式11-12,得c2=15.55,P<0.0001。7.检验统计量的计算用式11-9,得c2=32.56,P<0.0001。8.略。 第十二章一、名词解释(略)二、简答题(略)二、最佳选择题1.A2.B3.E4.E5.E6.D7.D8.A四、计算分析题(略)第十三章一、名词解释1.相关系数是表示两变量间的相关程度和方向的统计指标。2.决定系数是回归平方和与总离均差平方和之比,它反映了回归贡献的相对程度,即在因变量的总变异中回归关系所能解释的比例。是对回归模型拟合程度的综合度量,可决系数越大,模型拟合程度越高。3.回归系数是表示_应变量对自变量在数值上的依存关系_的统计指标。二、填空题1.两变量间无直线相关关系。2.是表示两变量间的相关程度和方向。3.应变量对自变量在数值上的依存关系。4.两变量存在线性相关。三、单项选择题1C2E3D4B5C6B7C8D9A10B四、问答题1.因为有两种可能性会造成样本相关系数r或回归系数b不等于零,一种是抽样误差,一种是本质差。因此得到一个不等于零的r或b时,不能立即下结论说变量x和变量y存在直线相关关系或直线回归关系,必须先作假设检验后再下结论。 2.(1)相关与回归分析要有实际意义。不要将毫无关联的两个事物或现象进行相关或回归分析。(2)对相关分析的作用要正确理解。相关分析只是以相关系数来描述两个变量间相互关系的密切程度和方向,并不能阐明两事物或现象间存在联系的本质。而且相关并不一定就是因果关系。(3)注意相关与回归的区别和联系。(4)作相关与回归分析时,必须关注异常点,异常点即为一些特大特小的离群值。(5)回归方程的适用范围有其限度,直线回归与相关分析一般是在一定取值区间内对两个变量间的关系进行描述,超出这个区间,变量间关系类型可能会发生改变。(6)一个有统计学意义的回归方程并不一定具有实践上的预测意义。3.两者区别:(1)在意义上,相关反映两变量间的相互关系,回归反映两变量间的依存关系。(2)在应用上,说明两变量间的相互关系用相关,说明两变量间的依存变化的数量关系用回归。(3)资料要求上回归要求因变量Y服从正态分布;X是可以精确测量和严格控制的变量,一般称为一型回归。相关要求两个变量X、Y服从双变量正态分布。这种类型资料若进行回归分析称为二型回归。两者联系:(1)同一资料计算的r和b,它们的正负号是一致的。r为正号说明两变量的相互关系同向变化的。b为正号,说明X增(减)一个单位,Y平均增(或减)b个单位。(2)对同一资料,r和b的假设检验结果(t值)是一样的。即对同一样本,二者的t值是相等的(3)可用回归解释相关,r的平方称为决定系数,r2=SS回/SS总回归平方和的大小取决于决定系数。回归平方和越接近总平方和,则r2越接近1,说明引入的相关效果越好。4. 直线相关(积差法)要求资料符合双变量正态分布,秩相关的资料无特殊要求。秩相关把计量资料变为等级资料处理,丢失了部分信息。使用时应注意,能用直线相关(积差法)的尽量不使用秩相关;要进行回归分析的资料,更不宜作秩相关。5.相关分析的任务:是分析两个变量间相互关系的密切程度和方向。回归分析的任务:是分析两变量间的依存变化的数量关系。6.回归分析的应用条件?(1)线性(linear)反应变量的总体平均值与自变量呈线性关系,可通过散点图判断。(2)独立性(independent)指任意两个观察值互相独立,可利用专业知识来判断。(3)正态性(normal)在一定范围内任意给定值,则对应的随机变量服从正态分布,可通过专业知识、正态性检验、残差散点图来判断。(4)等方差性(equalvariance)在一定范围内对应于不同值,总体变异程度相同,可通过残差分析来判断。五、应用题1.经统计软件分析,双变量正态分布,符合直线相关条件。计算得到相关系数为0.98,P<0.0001,拒绝H0,接受H1,认为高中与大学的英语成绩之间有直线正相关关系。2.(1)画图略(2)经SPSS软件,首先进行正态性检验,得知双变量为正态分布。计算相关系数r=0.8677,P<0.01,拒绝H0,接受H1,认为身长与胸围之间有直线正相关关系。(3)经SPSS软件计算,由身长(x)推算胸围(y)的回归方程式为:ÿ=a+bx=18.75+0.3408x3.(1)画出散点图略(2)经正态性检验两变量均为正态分布,故应用简单相关分析:,说明两变量间高度相关(3)求出回归方程 (4)估计出利润率为4.19%4.该资料为等级资料,故应用秩相关分析:,说明两变量间高度相关。第十四章一、单项选择题1.B2.D3.D4.E5.C6.E7.C8.B9.E10.B二、简答题1.典型的多重线性回归所使用的自变量类型应该是连续型定量变量,但是如果自变量中含有分类变量,经过适当的处理后仍然适合进行回归分析,二分类变量可以直接使用,名义分类变量可将其转化为若干个二分类变量(哑变量),有序分类变量可以根据不同级别赋予不同数值后按连续变量处理,也可按名义变量的方式处理。2.回归方程中引入什么变量,理想的做法是由研究者根据理论和经验决定。在缺乏专业依据的情况下,可采用变量筛选技术。一为全局择优法,二为逐步择优法,理论上讲,全局择优法是对自变量各种不同组合情况进行比较后,从中挑选出一个最优回归方程,但当自变量数目较大时计算量大,此时可以考虑采用逐步择优法,有前进法、后退法和逐步回归法。3.偏回归系数的意义是当其他自变量固定时,某自变量每改变一个计量单位所引起的Y的平均变化量。如研究者感兴趣各自变量对反应变量贡献大小的相互比较,由于各自变量的计量单位及变异度可能不同,回归方程中各自变量的偏回归系数不具可比性。为此可将原始观测数据进行标准化,然后用标准化后的数据拟合回归方程,此时所获得的回归系数称为标准化偏回归系数。标准化偏回归系数绝对值越大,所对应的自变量对反应变量Y的影响越大。4.多重线性回归具有与简单线性回归相同的前提条件:线性、独立性、正态性和等方差,即LINE。但是上述前提条件在进行回归分析之前难以直接考察,通常是在回归方程确定之后通过残差分析来核查。三、计算分析题 整体回归方程假设检验的方差分析表变异来源df回归33.88348.4716.960.001残差30.417251.217总64.30029偏回归系数的t检验变量回归系数标准误t值P值标准化偏回归系数常数项1.8801.3981.350.191-年龄0.0670.0252.650.0140.677文化程度0.2100.1611.310.2020.183婚姻1.2210.8671.410.1710.382慢性病1.7910.4573.920.0010.599列出回归方程:经假设检验,总体模型有意义,说明整体而言,这四个变量建立的方程解释反应变量有统计学意义。但只有年龄、慢性病的偏回归系数假设检验有统计学意义。原则上应考虑回归方程的实际意义,建立包含有统计学意义自变量的回归方程。第十五章一、单项选择题1.D2.E3.D4.D5.A二、简答题1.logistic回归与多重线性回归的区别:(1)反应变量的类型不同:logistic回归适用于反应变量为分类变量的资料,多重线性回归适用于反应变量为连续性定量变量的资料。(2)模型的基本形式不同:logistic回归模型的基本形式为,,多重线性回归模型的基本形式为,。(3)回归模型的参数估计方法不同:logistic回归模型采用极大似然估计法估计参数;多重线性回归模型采用最小二乘法估计参数。 (4)模型和回归系数的的假设检验方法不同:logistic回归采用似然比法对模型整体进行假设检验,采用wald检验对每个回归系数假设检验;多重线性回归采用方差分析对模型整体进行假设检验,采用检验对每个回归系数假设检验。2.logistic回归主要用途是筛选危险因素、调整或校正混杂因素及预测和判别。3.logistic回归系数与优势比的关系为,回归系数的解释为其他自变量不变时,自变量每增加1个单位得到的优势比的自然对数。,,自变量(因素)为危险因素;,,因素为保护因素;,,因素与结局无关联。三、分析题1.(1)列出logistic回归模型为(2)解释各回归系数的含义年龄()的回归系数,,解释为:年龄每增加1岁,老年人患糖尿病的危险性增加,患糖尿病的可能性是不患病的2.2713倍;糖尿病家族史()的回归系数,,解释为:有糖尿病家族史相比无家族史者,患糖尿病的危险性增加,有家族史者患糖尿病的可能性是无家族史者患病可能性的2.6654倍;BMI()的回归系数,,解释为:BMI每增加一个等级,患糖尿病的危险性增加,BMI等级高者患糖尿病的可能性是低一个等级者患病可能性的1.5261倍。2.(1)找出有统计学意义的影响因素按的检验水准,多因素logistic回归分析中对骨质疏松患病有影响的因素为承担家务量、体质指数BMI、绝经年限和身高缩减量。(2)解释各回归系数的含义 控制或调整其他自变量(影响因素)作用后,承担家务量对是否患骨质疏松有影响,相比承担家务量少者,承担家务量较少和中等者更不容易患骨质疏松,而承担家务量较多和多者,患骨质疏松的可能性与家务量少者相比,差异无统计学意义。体质指数BMI越大者更不容易患骨质疏松。而绝经年限越长,身高缩减量越大更容易患骨质疏松。第十六章一、单项选择题1.C2.B3.A二、简答题1.主成分个数的确定方法一是按照特征值的大小,通常会保留大于特征值1的主成分;另外一个是根据累计贡献率,考虑实际问题的需要确定累计贡献率标准。2.因子旋转的目的是使因子载荷的绝对值差别尽可能大,理想状况是某些因子载荷接近±1,而另外的因子载荷接近0,使各指标和因子的关系变得清楚。3.聚类分析是事先不知道研究对象的类别,是根据研究对象的某些特征进行归类的一种统计方法。而判别分析则是事先知道研究对象的类别,然后根据研究对象的观测指标建立判别函数,以用于对新研究对象进行类型识别的一种统计方法。4.结构方程模型一般按以下五个基本步骤进行:(1)模型设定;(2)模型识别;(3)模型估计;(4)模型评价和模型修正;(5)模型解释。三、计算分析题1.采用系统聚类分析方法。从图16-37中可清楚地看出整个聚类过程和聚类效果,可将这80个10岁男孩分成3群。P4、8、9、21-24、26、28、30-34、36、37、39、40、43、45-47、49-52、55、59、63、67、68、80聚为一群,P1-3、5-7、10-20、25、27、29、38、41、42、44、48、53、54、56-58、60、61、65、66、69-79聚在另一群,35、62、64聚为第三群。 图16-3680个10岁男孩的系统聚类图 2.图16-38为根据这4个指标拟合得到的Bayes判别函数的系数矩阵,据此可得到以下判别函数;Y1=-214.791+1.961X1+8.807X2+5.094X3-18.179X4Y2=-220.353+1.846X1+5.315X2+7.729X3-11.809X4Y3=-257.341+1.498X1+3.335X2+8.019X3-5.738X4ClassificationFunctionCoefficientsclass123X11.9611.8461.498X28.8075.3153.335X35.0947.7298.019X4-18.179-11.809-5.738(Constant)-214.791-220.353-257.341Fisher"slineardiscriminantfunctions图16-37Bayes判别函数的系数矩阵图16-39为自身验证法和刀切法两种考核方法的考核结果,可见两种考核方法的预测正确率都是100%。ClassificationResultsa,cclassPredictedGroupMembershipTotal123OriginalCount150052050530055%1100.0.0.0100.02.0100.0.0100.03.0.0100.0100.0Cross-validatedCount15005 b2050530055%1100.0.0.0100.02.0100.0.0100.03.0.0100.0100.0a.100.0%oforiginalgroupedcasescorrectlyclassified.b.Crossvalidationisdoneonlyforthosecasesintheanalysis.Incrossvalidation,eachcaseisclassifiedbythefunctionsderivedfromallcasesotherthanthatcase.c.100.0%ofcross-validatedgroupedcasescorrectlyclassified.图16-39判别效果评价结果第十七章一、简单题1.综合评价的一般步骤包括:(1)明确评价目的、确定评价对象;(2)建立评价指标体系;(3)估计指标权重;(4)选择综合评价模型;(5)完善综合评价模型。2.筛选评价指标主要依据专业知识,分析各评价指标对结果的影响,筛选代表性和确定性好,有一定区别能力又互相独立的指标组成评价指标体系。常用的评价指标筛选方法有系统分析法和文献资料分析优选法。3.确定指标权重的方法有主观定权法和客观定权法两类。前者主要由相关专家或评价者对评价指标的重视程度来确定,包括专家评分法、成对比较法、Saaty权重法等;后者主要包括模糊定权法、秩和比法、熵权法、相关系数法等。二、计算分析题1.秩和比法1)列原始数据表;2)编秩:高优指标从小到大编秩,低优指标从大到小编秩,同一指标数值相同者编以平均秩。 高优指标:门诊人次(X1)、出院人次(X2)、手术人次(X3)、病床周转次数(X4)、床位使用率(%,X5)、诊断符合率(%,X6)、治疗好转率(%,X9)和抢救成功率(%,X10);低优指标:平均住院费用(元,X7)、平均住院日(天,X8)。3)计算加权秩和比,计算公式为:式中n为评价单位数为7,m个评价指标,rij表示第i行第j列元素的秩。根据RSR的大小对评价对象进行排序。表17-157家医院2011年医疗质量秩和比法综合评价结果医院X1X2X3X4X5X6X7X8X9X10RSRRANK一院93155612291171320.4992.799.212629.516.795.776.40.535二院4916694277254420.3771.0100.07751.612.883.358.80.407三院4183765770289629.6296.899.97869.411.899.696.40.662四院80501510454468929.9092.396.45413.011.395.291.80.671五院6516784059164230.9889.292.56889.910.490.669.00.486六院2776583092226930.9294.497.05761.511.197.899.20.634七院4718676096106530.4889.599.84954.510.497.181.50.6432.低优指标包括平均住院日、病死率和院内感染率,其他指标为高优指标。TOPSIS法综合评价结果见表17-17。表17-173家医疗机构的、和接近程度及排序机构排序结果A0.15240.16820.52462B0.23020.09500.29213C0.09770.21710.68951第十八章一、填空题1.确定型决策、不确定型决策、风险型决策2.确定决策的目标、建立可行性方案、方案的评价和选择、方案实施 二、单选题1.C2.E3.C4.A5.A三、简答题1.统计预测是通过对事物大量的历史数据资料进行统计分析,力求达到对未来发展做出比较准确的预测结果的理论和方法。2.一次移动平均法是指依次取时间序列的几个观测值予以平均,并依次移动得到一个平均数序列,然后以个观测值的平均数作为下一期预测值的一种简单预测方法。加权移动平均法是指在数据处理上考虑各期数据的重要性,根据数据离预测期的远近而分别给以不同大小的权数。所谓二次移动平均法就是利用移动平均滞后偏差的规律建立趋势预测模型(主要是直线趋势),以便用直线形式对以后若干期进行预测,它是在一次移动平均数的基础上,再进行一次简单移动平均。3.一次指数平滑法是对第期观测值和预测值,用平滑系数为权重计算出第期平滑值,并以此平滑值作为第期的预测值的一种加权平均预测方法。对一次指数平滑序列,再进行一次指数平滑,所以称为二次指数平滑。值应根据时间序列的具体性质进行合适的选择。一般来说,如果时间序列资料波动较小,比较平稳,值可取小一些,如取;如果时间序列具有迅速且明显的变动倾向,则值应取大一些,如取。另外还要分析时间序列不稳定的原因,如果是序列本身固有的轨迹变动,可按上述方法确定,如果前后时期之间有联系,应取较小的值,以减少这种联系的影响。具体说,月度值应比季度值小,季度值应比年度值小,这是因为时期单位越小,其彼此之间的联系就越大。实践中,应多试算,选择误差较小的值。4.在增长型曲线外推预测模型主要有:多项式增长曲线、简单指数曲线、修正指数曲线、Gompertz曲线和Logistic曲线等五种模型类别;最小二乘法、三和法和三点法是三种常用的参数估计方法。5.决策模型的基本结构:表示决策者可以控制的因素,称为决策方案;表示决策者不可以控制的因素,称为自然状态; 表示概率,是各状态出现的概率(可以是客观的,也可以是主观的),;表示损益值,是和的函数,。6.处理不确定型决策的准则:(1)悲观准则;(2)乐观准则;(3)折衷准则;(4)等可能准则;(5)遗憾准则。7.处理风险型决策有:(1)概率最大原则;(2)最大期望收益原则。8.风险型决策面临的是多种可能的自然状态,可选的方案在不同的自然状态下的结果不同,未来会出现哪种自然状态,事前是难以确定的,但却可以预测其出现的概率;不确定型决策与风险型决策条件基本相似,不同的只是不能预测其未来自然状态出现的概率,因而不确定性因素更多,决策风险更大。四、计算题1.(1)取,按公式计算5个月移动平均预测值。其结果见表18-15。表18-15某医药公司某药品销售量、一次移动平均及一次指数预测值计算表月份销售量移动平均预测值的预测值的预测值14.52—4.524.5222.91—4.524.5234.42—4.364.0443.93—4.374.1553.51—4.324.0964.243.864.243.9173.983.804.244.0184.324.024.214.009—4.004.234.10(2)取初始值,分别取,按公式计算一次指数平滑预测值。其结果见表18-15。 (3)预测误差为:,为时间序列的项数。当时,当时,计算结果表明,当时,较小,故取。预测下一月份该药品销售量为4.10万元。2.(1)取,按公式和计算一次、二次移动平均值。其结果见表18-16。表18-16某医院2001-2011年入院人次、一次和二次移动平均值计算表年份序号入院人次一次移动平均值二次移动平均值200110.91——200221.02——200331.040.99—200441.061.04—200551.071.061.03200661.081.071.06200771.091.081.07200881.101.091.08200991.131.111.092010101.231.151.122011101.241.201.15由上表知,,代入公式得: 于是得时,直线趋势预测模型为:预测2012年()的入院人次为:(2)取初始值,分别取,按公式和计算一次、二次指数平滑预测值。其结果见表18-17。表18-17某医院2001-2011年入院人次、一次和二次指数平滑值计算表年份序号入院人次的平滑值的平滑值的平滑值的平滑值200110.910.9820.9890.9660.983200221.020.9860.9890.9820.983200331.040.9910.9891.0000.988200441.060.9980.9901.0180.997200551.071.0050.9911.0331.008200661.081.0130.9941.0471.020200771.091.0200.9971.0601.032200881.101.0281.0001.0721.044200991.131.0391.0041.0891.0572010101.231.0581.0091.1321.0802011111.241.0761.0161.1641.105由上表知时,,,代入公式得 于是得时,直线趋势预测模型为:由上表知时,,,代入公式得于是得时,直线趋势预测模型为:(3)由作图表明,时,预测模型效果更好。3.由散点图和取对数后的散点图知,该时间序列发展趋势与一次直线近似,以此为预测模型。计算结果见表18-18。表18-18某地区2000年至2008年的传染病标化死亡率计算表 年份200015.611.7211.72200125.351.6843.35200235.111.6394.89200344.431.49165.95200453.991.38256.92200563.951.37368.24200673.711.31499.18200783.31.19649.55200893.191.168110.44合计4512.9428560.26故预测模型为即2009年传染病死亡率为:,2010年传染病死亡率为:。4.设所求模型为:,利用三和法求模型系数。 故所求模型为:()。预测第13年的病床需求数为:(百张)。5.本问题是风险型决策问题,我们分别用最大概率准则和最大期望值准则进行决策。表“B超”科室如何配置“B超”机决策表(单位:万元)损益值患者人数状态/概率(人多)(一般)(人少)决策方案-配置二台“B”超240200160-配置五台“B”超420360120-配置八台“B”超560260100用最大概率准则决策:患者人数一般的概率为0.5最大,在这种状态配置五台“B超”机收益最高为360万元/年3年=1080万元,因此选择方案,配置五台“B超”为最优决策。用最大期望值准则决策:方案:万元方案:万元方案:万元根据最大期望值准则配置五台“B超”机期望收益为最大,三年共990 万元,因此也是选择方案,配置五台“B超”为最优决策。6.画出该问题的决策树,见下图。计算各种状态的期望损益值节点2:节点3:比较上述两方案的期望损益值(单位:万元),可知购置新医疗设备比改造旧医疗设备的期望利润大,故应选购置新医疗设备这个方案。7.先绘制的决策树如下图。如果以短期死亡的人数越少越好为目标,则根据概率的原理,从左往右逐一计算各种方案下平均每10万人中短期死亡人数及存活人数。用试剂筛查:非癌症患者人数,其中:假阳性人数,手术存活人数 手术死亡人数真阴性人数(存活)癌症患者人数,其中:假阴性人数(死亡)真阳性人数,手术存活人数手术死亡人数手术无效人数用试剂筛查的死亡人数合计为:人。不用试剂筛查:非癌症患者人数(存活)癌症患者人数(死亡)不用试剂筛查的死亡人数为100人。因此,不在该人群中用该试剂做早期胰腺癌筛查为最优方案。第十九章一、名词解释(略)二、简答题(略)三、单项选择题1.B2.D3.C4.D四、计算分析题(略)第二十章一、单项选择题:1.A2.D3.C4.A5.E二、简答题(略) 第二十一章略'