• 243.22 KB
  • 2022-04-22 13:39:53 发布

GBT6380-1986数据的统计处理和解释I型极值分布样本异常值的判断和处理.pdf

  • 7页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'中华人民共和国国家标准UDC519.25数据的统计处理和解释工型极值分布样本异常值的判断和处理GB6380-86Statisticalinterpretationofdata一DetectionandhandlingofoutlyingobservationsinthesampleoftypeIextremevaluedistribution1引言1.1本标准规定了判断和处理I型极值分布总体的随机样本中所出现的异常值的一般原则和实施方法。工型极值分布也称贡贝尔(Gumbe1)分布,其分布函数为尸(,x)二exp(一e,)概率密度函数为f(x)一会exp‘一、一“一“,其中:4二(x一的/b,b>o,一--x.〔十况。当a二o,b二I时的概率密度函数曲线如下If(T)0.40一———一一一、2一1012315ti图II型极值分布在水文、气象、地震以及可靠性等很多领域内有着广泛的应用。1.2异常值(或异常观测值)是指样本中的个别值,其数值明显偏离它(或它们)所属样本的其余观测值。异常值可能是总体固有的随机变异性的极端表现。这种异常值和样本中其余观侧值属于同一总体异常值也可能是由于试验条件和试验方法的偶然偏离所产生的后果,或产生于观测、计算、记录国家标准局1一986~05-13发布1987‘一05一01实施 GB6380一L中的失误。这种异常值和样木中其余观测值不属于同总体。本标准使用的其它统计学名词,见GB3308-82《统计学名词和符号》。}一:应用条件:当有充分理论根据或经验确信所检验样本中诸观测值,除了个别异常值外,其余大部分值—称为样本主休—来自同一个[型极值分布总体。当样木卜休来自同一个工型极小位分布时,经过变换Z--X后所得的样本主体可以认为是工型极了4分布。丁型极小值分布的分布函数为F(x)=1一exp(一ev)其概率密度函数为/(x)二借exp(、一)其中:刀二(x一a)b,b,o,一二‘_x、、当。0b1时的概率密度曲线如ri,(二)(1钊认朋仇2a认10泣宜二一一43一2一102X图22判断异常值的统计学原则2.1执行本标准时,应规定在样本中检出异常值的个数的上限(占样本观测值个数的较小比例),当超过了这个L限,对此样本的代表性应作慎重的研究和处理。22判断单个异常值的检验规则根据实际情(R,选定适宜的异常值检验规则(见本标准4);指定一个为检出异常值的统计检验的显著性水平a,简称检出水平。根据a和观测值的个数n确定统计童的临界值。将各观测值代人检验规则中给出的统计最,所得值若超过临界值,则判断事先确定待检验的最大观测值为异常值;否则就判断没有异常值。检出水平宜取为1%或5%。2.3判断多个异常族的检验规则在允许检出异常值个数可大于1的情况下,本标准规定的方法是重复使用同一种判断单个异常俏约检验规则:即用抬定的检出水平和符合2.2规定的检验规则检验全体观测值,若没有检出异常值,则整个检验停正;若检出了一个异常值,就再用相同的检出水平和相同的规则,对除去F-出的异常Sit GB8380-86后余下的观测值继续检验·、‘⋯,a到没有检出异常值,或检出的异常值个数超过卜限为止。3处理异常值的一般规则3.1对用统计方法检出的异常值,应尽可能详找产生异常值的技术上的、物理上的原因,作为处理异常值的依据。3.2处理异常值的方式有:异常值保留在样本中,并参加其后的数据分析;允许剔除异常值,即把异常值从样木中剔除;允许剔除异常值,并追加适宜的观测值计人样本;在找到实际原因时修正异常值。3.3标准使用者应根据实际问题的性质,权衡详找产生异常值原因的花费,:!确判断异常值的得益及错误剔除正常观侧值的风险,确定实施下述三个规则中的一个:a对任何异常值,若无充分说明其异常的技术土的、物理上的原因,则不得剔除或进行修正。b.异常值中除有充分说明其异常的技术七的、物理上的原因者可以剔除或进行修正外,如果在统计上表现为高度异常的,也允许剔除或进行修正。统计上表现为高度异常的意义是:指定一个为检验异常值是否高度异常的统计检验的显著性水中a*,简称剔除水平,其值小于检出水平a,实施时,按2.2规定进行检验后,再按2.2规定以剔除水平a*代替检出水平a,对检出的异常值进行检验,若在剔除水乎a*-F此检验是显著的,则此异常值表现为高度异常。在重复使用同一检验规则的情况下,每次检出了异常值后都要再检验它在剔除水平下是否高度异常,若某次检验中检出的异常值为高度异常,则这个异常值及在它前面检出的异常值都可被剔除或进行修正。除特殊悄况外,剔除水`t=一般宜取为1%,而不宜取大于5%的值口在选用剔除水平的情况下,检出水平可取5或再稍大些。c.检出的异常值都可被剔除或进行修正。3.4被检出的异常值及剔除,修正的理由应予以记录,以备查询。4判断和处理异常值的规则4.1本标准规定:当样本大小50.681、;(6),D故判断X,R;-329.73为异常值。又取剔除水平a.=1“、,查附表1得从彭6)二。.796,山{`D,(6),故判断X〔)二329.73为高度异常。经复核查实,此数据系误记,实际值为319.7%例2(重复使用狄克逊型检验法以判断多个异常值的示例)从某种绝缘材料III随机地取出11个样品,在t定条件FR行寿命试验,其失效时间分别为(单位:h)4.09,17.31,60.78,62.16,64,15,70.67,71.85,75.50,79.35,80.00,88.川。现在检验4.09,17.31是否异常。理论f表明这种绝缘材料的寿命T服从I型极小值分布,因此经变换X=一T后所得的样本可Gl认为是1型极侦分布的,即对来自[型极伯分布的样木X((,=一88.01,X(:,80.00,,··⋯,X‘,〕一62,16,从,,二一60.78,X(m。二一17.31,X、、二一4.09,检验最大观测仇X(I、及次大观测值刃〔。)是否异常。这里n二11,计算统计鼠X(1一X。)4.09)一(一60.78)D-rm0675X(。一X〔9.09)一(一88.0011)取检出水平。=5%,杳附表1得D的临界值D-.,(11)=0.656,由子II.D},(11),故判断万1,〕二一4.09为异常值。再对余下的10个数据继续检验,仍取检出水平a=5。,对n二10,计"0.4ftL十{;;x(。一X(,)D二r2,.(-17.31)-(-62.16)二()634X(一17.31)一(一88.01)查附表1得D的临界旋Do,:(10)二0.676,由于/)D,,。(10),故不能认为X、17.31为异常值。欧文3}!i检验法—样本人小30。气50情形:‘:.,检r步骤a.从样本观测仇!}挑选出最小观测值尤(1),最大观测值X〔。),以及次大观测俏X日算统计1嘶X。〕一X,"期S,S2,n-3(-V,、X,)X,2--1_X, Gs6380一8I这里求和是对除去最小观测值x〕以及最大观测俏X〔。)后的所有样本观测值进行的。b.确定检出水平a,由附表2查出对应于n,a的临界值Ii。(n)。。.当I一I卜。(OH寸,ki]断最大观测值X<})为异常值,否则就不能判为异常值。d.在给出剔除水平a*的情况下,由附表2查出对应于n,。*的临界值I。。·(n)。当1,-,I卜。·(n)时,判断尤〔n为高度异常,否则就判断为没有高度异常的异常值‘.3.2示例例3(使用欧文型检lk法的示例)某地某河流年最大经流靛的逐年观Mil数据如F:〔单位:kml/is)1.69,1.22,0.75,1.26,1.73,1.74,3.09,1.57,1.97,2.23,2.03,1.58,0.90,2.40,1.6.5,1.96,2.30,1.79,1.48,2.22,1.91,3.06,2.08,1.06,4.31,1.56,1.88,2.10,2.02,1.74,1.18,2.12,1.38,0.90,1.45,1.78,1.97,2.27,2.34,2.440现在检验最大值X(4u,二4.31是否异常。可以认为年最大经流量的逐年观测数据近似地服从I型极值分布。对h述观测数据稍加枯理可以看出,其最小值X〔:)=0.75,最大值X和二4.31以及次大值X,,二3.09,对除去尤〔1〕和X后的所有数据,先计算SI,=0.502,再算得统计量I的值X101-X131〕4.31一3.09I二In—一二243S=0.502取检出水平a=5%,查附表2得I的临界值Ia.,,(40)=2.84,由F-I=_In.,,(40),故不能认为X(a0)二4.31是异常值。 GB8380-86附录A(补充件)衷A1狄克逊型检验法的临界值表统‘干量0.900.950.99呵0.60.7390.850凡n一X<}”0.6810.796()=卜。=何X伽一X}n何0.6390.7560.6060.726,0.6440.7000.790加0.6190.7671.:::0.5970.748120.5810.731招:‘:::0.5670.717讨0.6l0.5540.705伟D600.5430‘6g416﹃0.5330.68417Xro>-X‘。一z05810.5240.675D二ra比X切)一X=,0.5160.66719:.:;:0.5090.660200.5020.5580.654210.4960.5520.64820.4900.5460.642器0.4850.5410.636时0.4800.5360.631250.4750.5310.626260.4710.5270.622罗0.4670.5230.618路0.4630.5190.614290.4590.5150.610300.4560.5110.60625】 GB6880-86表A2欧文型检验法的临界值表洲I=0.950.99-30翻珊3.054了431川3.03471况珊3.DI4.68驹撒2.991.65洲冻2.974.6235洲2.95牛.6()362.32.93土.58舒2.91156朋2.90才.5439::一2.吕91.52402.2028845口412.192.874.48妮2.8石J.4643.:一2162.851.44封2162.844.42朽一2.834.102.824.392.811.38:::2.801.372.792.132.78:.::注本表是在DPS8一45计算机上统计模拟M二10000次的结果附加说明:本标准由全国统计方法应用标准化技术委员会提出。本标准由全国统计方法应用标准化技术委员会数据的处理和解释分委员会工作组起tli本标准土要起草人马逢时、许其洲、史道济。1112'