• 278.17 KB
  • 2022-04-22 13:32:25 发布

GBT18790-2002联机手写汉字识别技术要求与测试规程.pdf

  • 8页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'ICS35.240.30免费标准网(www.freebz.net)L67中华人民共和国国家标准Gs/T18790-2002联机手写汉字识别技术要求与测试规程Requirementsandtestprocedureofon-linehandwritingChineseideogramrecognition2002一07一18发布2002一12一01实施中华人民共和国发布国家质量监督检验检疫总局免费标准网(www.freebz.net)无需注册即可下载 免费标准网(www.freebz.net)ca/T18790-2002前言本标准规定了联机手写汉字识别系统的汉字识别技术要求、测试规程该标准的制定和实施将规范联机手写汉字识别系统的研究、开发和应用。本标准的附录A和附录B是标准的附录,附录C是提示的附录。本标准由中华人民共和国信息产业部提出。本标准由中国电子技术标准化研究所归口。本标准起草单位:中国电子技术标准化研究所、北京汉王科技有限公司、清华大学电子工程系。本标准主要起草人:刘迎建、王立建、张立清、刘长松、钮兴显、王宝艾。标准分享网www.bzfxw.com免费下载免费标准网(www.freebz.net)无需注册即可下载 免费标准网(www.freebz.net)中华人民共和国国家标准联机手写汉字识别技术要求与测试规程GB/T18790--2002Requirementsandtestprocedureofon-linehandwritingChineseideogramrecognition范围1.,本标准规定了联机手写汉字识别系统的汉字识别技术要求和测试规程。1.2本标准适用于微型计算机、手持式信息处理设备和数字化电器配置的联机手写汉字识别系统。2引用标准下列标准所包含的条文,通过在本标准中引用而构成为本标准的条文。本标准出版时,所有版本均为有效。所有标准都会被修订,使用本标准的各方应探讨使用下列标准最新版本的可能性。GB2312-198。信息交换用汉字编码字符集基本集GB12345-199。信息交换用汉字编码字符集辅助集GB13000.1--1993信息技术通用多八位编码字符集(UCS)第1部分:体系结构(idtISO/IEC10646:1993)GB18030-2000信息技术信息交换用汉字编码字符集基本集的扩充3定义本标准采用下列定义。3.1联机手写数据采集设备on-linehandwritingdatacapturedevice是指鼠标、手写板、触摸屏等具备实时地将人们书写的汉字及字符轨迹转换成坐标点序列、形成电子数据的设备。3.2联机手写汉字识别系统on-linehandwritingChineseideogramrecognitionsystem是指使用微型计算机或具有计算能力的系统,对联机手写电子数据采集设备采集的手写电子数据进行处理与辨识,获得相应的标准内码的系统。3.3样本sample一个完整的、山联机手写电子数据采集设备采集的、符合第4章中的汉字或字符的电子数据称为一个样本。3.4样本文件samplefile是指由多个样本按附录B数据格式组成的文件,称为样本文件3.5样本库libraryofsamplefile多个同类型样本文件组成的文件集合称为样本库。4识别字符集的范围联机手写汉字识别系统识别的最小字符集应是GB2312中全部汉字字符(包括偏旁部首)以及附录A中的非汉字字符。字符扩展时,联机手写汉字识别系统应识别GB12345,或GB18030,或GB中华人民共和国国家质f监督检验检疫总局2002-07-18批准2002-12-01实施t免费标准网(www.freebz.net)无需注册即可下载 免费标准网(www.freebz.net)GB/T18790-200213000.1字符集中的全部汉字。识别技术要求5.1识别率5.1.1对工整样本库的识别要求a)对GB2312中所有汉字的识别率应大于9400;b)对附录A中的非汉字字符的识别率应大于80%;c)若厂商声明支持GB12345,或GB13000.1,或GB1803。字符集,则以上字符集的识别率应大于850o0山对任何字符集而言,单字识别率应大于50%.5.1.2对乱笔顺样本库的识别要求对乱笔顺样本库,识别率应大于600005.2识别速度在测试软件运行的平台上,识别速度应优干1.5s/字。6测试规程6门标准测试样本库的建立a)由信息处理产品标准符合性检测中心分别用压力式手写板、电磁感应手写板等设备各采集由一定数量的人、在工整书写提示下自然书写的汉字样本,经整理后,建成标准测试样本库;b)标准测试样本库中包括两部分样本,其中一部分是工整书写的样本,称为工整样本库;少部分是人工方式处理的、打乱了笔划顺序的工整样本,称为乱笔顺样本库。6.2由信息处理产品标准符合性检测中心提供标准测试样本文件的数据格式及结果文件格式,并提供至少一个样本文件,供参测单位调试测试程序。6.3参测单位向标准符合性测试机构提交联机手写汉字识别技术的测试软件,由信息处理产品标准符合性检测中心测试.并提供测试结果。非微型计算机平台上的参测单位,除测试软件外,还应提供能完成测试工作的运行平台。6.4测试结果计算6.4.1识别速度识别速度测试结果按下式计算;识别速度=TIN式中:N一测试样本库中样本总数;T—识别系统从开始读取测试数据至将识别结果记录到媒体上所用的时间。6.4.2识别率识别率测试结果按下式计算:识别率=CNINN式中:NN-一样本库中样本总数;CN一一经统计第一选识别结果正确的样本数6.4.3单字识别率单字识别率测试结果按下式计算:单字识别率一CSINS式中:NS一一样本库中某一汉字的样本总数;(几S经统计第一选识别结果正确的该汉字样本数。标准分享网www.bzfxw.com免费下载免费标准网(www.freebz.net)无需注册即可下载 免费标准网(www.freebz.net)GB/T18790-2002附录A(标准的附录)联机手写汉字识别系统的识别字符集的非汉字字符集联机手写汉字识别系统至少识别如下非汉字字符:A,.数字:0123456789A门‘大写英文字符:ABCDEFGHIJK1,MN0PQRSTUVWXYZA﹃口小写英文字符:abcdefghijkImnopqrstuvwxyzA月q标点符号:!”,:;?、。’()·一⋯()《》#$%&.,+一./<二>@Y「习一’{一}~£A5手势(箭头代表书写方向,括八号内为该手势的内码):空格(oxoo2o):刻回车(ox0o0D);︸回删(0x0008):尹删除(Ox001e):附录B(标准的附录)标准测试样本文件格式本附录规定了标准测试样本库中的样本文件的扩展名和文件格式。本附录对于提供和使用联机手写汉字识别系统的各方提出共同遵守的约定。B1标准测试样本文件的扩展名标准测试样本文件的扩展名统一为“.POT",B2标准测试样本文件格式文件格式:标准测试样本文件中存放的是连续的POT数据块;无其他额外的格式信息POT数据块定义:每个POT数据块中包含一个手写汉字的字型采样数据和内码等信息,详见下表。位移内容0WORD数据块长度,以字节(BYTE)为单位,假设为。2DWORD本数据块所代表的汉字内码,例如“啊”二oxooooboa16WORD手写样本的总笔划数,假设为N免费标准网(www.freebz.net)无需注册即可下载 免费标准网(www.freebz.net)GB/T18790-20028WORD第一笔的第一个点的X方向坐标值10WORD第一笔的第一个点的Y方向坐标值、VORDOxFFFF,第一笔的结束标志i+lWORD0x0000,第一笔的结束标志n-7WORDOxFFFF,第N笔的结束标志n-5WORD0x0000,第N笔的结束标志。一3WORDOxFFFF,本字的结束标志,一1WORDOxFFFF,本字的结束标志其中:1WORD=2BYTE(低字节在前,高字节在后),例如:0x1234,在文件中的字节排列顺序为34H,12H;1DWORD=2WORD(低字在前,高字在后),例如:0x12345678,在文件中的字节排列顺序为78H,56H,34H,12He附录C(提示的附录)联机手写汉宇识别系统程序接口规范本附录定义了基于标准C语言的联机手写汉字识别程序接口规范。本附录对于提供和使用联机手写汉字识别系统的各方提出共同遵守的约定。ClAPI文本细则全部接口函数共10个,分列如下:Cl.1char,OLGetBrand(void)说明:获得识别程序的提供厂商和版本说明。返回值;成功,返回一个字符串指针,最多1024个字符;否则,返回。。Cl.2DWORDOL,GetVersion(void)说明:获取识别程序版本号。返回值:成功,返回识别程序版本号,高字为主版本号,低字为子版本号;否则,返回。。Cl.3char-OLGetDate(void)说明:获取识别程序的提交时间。返回值:成功,返回一个字符串指针,其中时间以“yyyy-mm-dd”形式提供;否则,返回。。Cl.4intOLInit(void)说明:本函数用来初始化识别程序,装人识别字典。返回值:标准分享网www.bzfxw.com免费下载免费标准网(www.freebz.net)无需注册即可下载 免费标准网(www.freebz.net)GB/T18790-2002成功,返回一个非零值;否则,返回0,Cl.5intOLClose(void)说明:本函数用来释放识别字典。返回值:成功,返回非零;否则,返回。。参见:OLInitC1.6DWORDOI.SetRange(DWORDrange)说明:本函数用来设置识别字符集的范围。参数:range:指定的识别范围。定义如下:bit0:小写英文bitl:大写英文bit2:数字bit3:常用标点S个,包括:,。、?!”:;bit4:扩展标点,包括:’().二(·)《》一bits:常用符号,包括:£y#一/>$一写+<‘@&bit6:扩展符号,包括:一{}一’〕一「!bit7:手势4个,包括:空格(0x0020)、回车(Ox00W)、回删(0x0008)、删除(0x0010)bit8:偏旁部首bit9:GB2312一级国标简体汉字bitlo:GB2312二级国标简体汉字bitll:GBK3区中的汉字bitl2:GBK4区中的汉字bitl3以上:保留返回值:成功,返回旧的识别范围;否则,返回。。参见:OLRecognize,OLGetRangeC1.7DWORDOI.GetRange(void)说明:本函数用来读取识别字符集的范围。返回值:成功,返回当前的识别范围,参见OLSetRange;否则,返回。。参见:OLSetRangeC1.8intOLSetCandidateNum(intnum)说明:本函数用来设置识别候选字的数量。参数:num:设置识别候选字的数量,缺省值为10,最大值为20.返回值:成功,返回旧的候选字的数量;否则,返回。。免费标准网(www.freebz.net)无需注册即可下载 免费标准网(www.freebz.net)GB/T18790-2002参见:OLGetCandidateNum,OLRecognizeC1.9int01.GetCandidateNum(void)说明:本函数用来读取识别候选字的数量。返回值:成功,返回当前的候选字的数量,参见OLSetCandidateNum;否则,返回。。参见:OLSetCandidateNumC1.10intOl_Recognize(WORD,1pTrace,WORD*IpResult)说明:本函数用来识别输人的笔迹。参数:IpTrace输人的笔迹数据指针,其空间由应用程序申请,数据类型为WORD(2byte),格式如下:(XO,YO(xl,yl)...(Oxffff,O...(Oxffff,O...(Oxffff,Oxffff)笔划结束标志一字结束标志IpResult:存放识别结果的数据指针,其空间由应用程序申请,不应少于由OLSetCandidateNum设字的候选字个数二6;识别程序将识别结果及可信度得分填人其中。每个结果占2-4个字节(参见GB18030);半角字符和手势结果均为两字节,其高位均为。。全部识别结果之后是每个结果的可信度得分,每个得分表示为1个WORD,按照识别结果排列的顺序排列。例如,共有4个识别结果:“啊阿可何”,可信度得分分别为:100,90,80,70;那么,如Result中的排列顺序就是:啊,阿,可,何,100,90,80,70.返回值:成功,返回识别结果的个数;拒识,返回。。参见:OLSetRange,OLSetCandidateNum备注:1WORD=2BYTE;可定义为#defineWORDunsignedshortinto1DWORD=2WORD.可定义为#defineDWORDunsignedint(32位系统)或#defineDWORDunsignedlongint(16位系统)标准分享网www.bzfxw.com免费下载免费标准网(www.freebz.net)无需注册即可下载'