• 77.00 KB
  • 2022-04-22 13:46:54 发布

开发人机交互的标注工具设计毕业论文.doc

  • 14页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'开发人机交互的标注工具设计毕业论文目录目录2摘要2Abstract3第一章绪论11.1前言11.2研究背景11.2.1信息抽取概述11.2.2基于内容的文本信息提取21.3开发人机交互的标注工具的意义31.4任务描述31.5论文的组织和安排3第二章标注工具的设计原则和设计思想52.1研究方法和指导思想52.2标注工具的设计原则52.2.2文本标注工具的设计原则52.3人机交互界面设计原则5第三章标注工具的具体开发53.1开发环境的选择53.2标注工具的设计53.2.1标注工具的界面算法53.2.2结构设计5 3.3标注工具的详细设计63.3.1人机交互界面详细设计63.3.2菜单和工具栏的设计63.4标注过程文本的处理63.4.1实体标注详细设计63.4.2关系标注详细设计63.4.3事件标注详细设计63.5标注结果63.6技术难点讨论6第四章标注工具的缺陷分析和功能展望7结束语2致谢2参考文献2 人机交互文本标注工具开发作者:***指导教师:*****(指导教师职称)摘要:基于内容的文本信息提取是当前的一个研究热点,无论搜索引擎还是问答系统,其根本的基础是有效的获取文本中的信息。使用机器学习的方法从语料库中获取有效的知识,以支持文本信息的处理已经成为计算语言学的一个主流技术,而带标语料库则是这一技术的基础。带标语料库的建设的基础就是对大量的文本进行标注,并以一定的结构来存储。这样一来就需要开发一个具有友好的人机交互界面的文本标注工具来辅助文本标注,在一定程序上减轻标注工作者的负担。这次文本标注工具的设计,处理的目标是纯文本文件,以一篇文档为单位提供用户进行实体,事件,关系的标注,并在标注过程中给出标注的中间结果,最后在保存标注文件的时候进行处理,以xml语言格式进行输出存储。标注工具的功能包括对文本的实体,事件,关系三大类的标注,对标注过的文本进行标记,提醒用户标注进度,最后对标注中间结果的处理与保存。本文是对这次人机交互文本标注工具的设计与实现的详细的阐述。首先对背景及理论知识作了具体的介绍。然后,分别进行文本标注工具的系统分析、总体架构分析,并对每个模块的具体实现做详细地讲解。最后,本文还介绍本次文本标注工具设计的缺陷以及未来改进的方案,并对本次标注工具的开发作总结。关键词:人机交互,文本标注,MFC编程 TheInteractiveTexttaggingToolDevelopmentAuthor:*****Tutor:*****Abstract:Thetextinformationextrationbasedoncontentisacurrentstudyhotspot.Regardlessofthesearchengineortheinterrogator-respondersystem,theirbasicfoundationisgaintextinformationineffective.UsethemethodofmachinelearningtogainstheeffectiveknowledgefromCorpus,supportingthetextinformationprocessingisalreadybecomecomputaionallinguisticsamainstreamtechnology.Thetaggedcorpusisthetechnicalfoundation.Thetargetofthistexttaggingtooldesignistheprocessedcorpora(text).Takingthesinglepieceoftextforuserstotagentities,relations,events,andshowintermediateresultsduringtaggingprocess.culminatinginthepreservationoftaggingdocumentsprocessedxmllanguagetotheoutputformatforstorage.Thetool"sfunctionalannotationincludingtaggingtheentities,theevents,therelationslabeledthetaggingofftext,remindusersthetaggingprogress,anddealingtheintermediateresultsprocessingandpreservation.Thepaperwilldescribeanddiscussoverthedesignandrealizationofthisinteractivetexttaggingtool.Firstly,detailedtheoreticalbackgroundswillbegiven;secondly,analysisofthistoolandgeneralstructureforitandthefulldescriptionsabouttherealizationofeachmodelwillbeintroduced;finally,thedefectsofthedesignofthetoolandimprovementtoitsfuturedevelopmentwillbegivenandasummaryofthestructureandtheperformanceofthesystemwillbedeliveredaswell.Keyword:HumancomputerInteractive,Texttagging,MFC 人机交互文本工具开发第一章绪论1.1前言随着互联网的广泛普及,语言信息处理的社会需求越来越大,人们迫切需要用自动化的手段处理海量的语言信息。语言资源有计划有规模的开发对于语言信息处理领域的研究和开发具有重要意义。对文本进行标注就是语言资源建设的一个方面,人机交互式的标注工具是进行语料标注的有效手段,从一定程度上可以的减轻标注工作者的负担,同时还可以辅助检查标注结果。开发界面友好的标注工具可以进一步的提高标注工作者的效率,同时结构化的输出更方便标注数据的后续使用。1.2研究背景1.2.1信息抽取概述信息抽取是指从一段文本中抽取指定的事件,事实等信息,形成结构化的数据并填入一个数据库中供用户查询使用的过程。即它从文本中抽取用户感兴趣的事件,实体和关系,被抽取出来的信息以结构化的形式描述,然后存储在数据库中,为情报分析和监测、比价购物、自动文摘、文本分类等各种应用提供服务。例如,灾害预防部门可以从自然灾害的新闻报道中抽取出灾害的类型、时间、地点、人员伤亡、经济损失等情况;医生可以从病人的医疗记录中抽取出症状、诊断记录和检验结果;安全部门分析有线新闻和广播电视的文本来找到和总结恐怖分子活动记录等。一般来说,信息抽取系统的处理对象是自然语言文本尤其是非结构化文本。但广义上讲,除了电子文本以外,信息抽取系统的处理对象还可以是语音、图像、视频等其他媒体类型的数据。 人机交互文本工具开发1.2.2基于内容的文本信息提取基于内容的文本信息提取是当前的一个研究热点,无论搜索引擎还是问答系统,其根本的基础是有效的获取文本中的信息。使用机器学习的方法从语料库中获取有效的知识,以支持文本信息的处理已经成为计算语言学的一个主流技术,而带标语料库则是这一技术的基础。由于语言本身的复杂性和富含信息的特点,使得语料库标注的内容、对象可以在语法、语义、语用等各个层次上进行,语料库标注的内容和程度,从根本上决定了从文本中可以提取出的信息内容和信息粒度,也决定了进行文本内容计算的对象、方法。比如,对于文本片断,据美国加利福尼亚州罗斯维尔市警方说,一架单引擎飞机12日在罗斯维尔市郊坠毁,机上2人全部死亡,被飞机撞毁的一座房屋中2人失踪。其中所包含的信息有:飞机坠毁的时间(12日)、地点(罗斯维尔市郊)、伤亡情况(2人死亡,2人失踪)、该消息的来源(警方)、飞机本身的状态属性(单引擎)、消息来源的属性(美国加利福尼亚州罗斯维尔市警方)、死亡人员的属性(机上2人)、失踪人员的属性(被飞机撞毁的一座房屋中2人)、……。这些信息直接反映了文本片断的意义,包括了命名实体、实体(如“罗斯维尔市”、“飞机”);实体的属性及其间的关系(如“罗斯维尔市警方”与“警方”,失踪人员和房屋的关系);事件(如“坠毁”事件)及其属性(事件的时间、地点、伤亡情况等)。表达这些信息的语言形式是丰富多样的,我们将其称为意义单元。因此,有效地标注文本中的意义单元,是面向文本内容计算进行资源建设的一个尝试。根据突发事件的类型,对真实文本中意义单元的属性、特征、相关连方式进行研究,并通过标注体系将其表现出来,是前人没有做过的。从真实文本的实际数据出发,探索支持文本内容计算、具有意义信息标注的语料库建设是一个新的尝试。 人机交互文本工具开发目前,面向文本信息提取的带标语料库的研究,ACE项目进行的较为深入。ACE对语料库标注形式、方法、内容、对象都作了大量的研究,其标注内容包括文本中的实体表达、实体间的关系表达、事件的表达等。本文受ACE标注内容的启发,通过对ACE已标数据的分析,确定了以意义单元作为标注对象,期望在标注内容上更加精炼,标注的语言层次上能够贯通各个层级,同时面对不同的事件信息,能有更精确的表达形式。此外,从资源建设的角度来看,我们必须建设我们自己的语料库。1.3开发人机交互的标注工具的意义目前语料加工的方式主要有三种方式,即人工、自动、和人机结合的半自动方式。由于自然语言处理技术的限制,自动加工方式会给语料库标注带来一些错误,而人工加工方式非常昂贵,需要大量的人力资源。相比之下,半自动加工方式则兼顾两者的优点。人机结合的方式有两种:一种是计算机自动选择语料库中需要人工干预的自动加工方式不能解决的部分,从而减少人的工作;另一种反是则实现由计算机对加工的语料进行自动加工,然后由人工校对。对文本进行标注就是语言资源建设的一个方面。人工标注的过程是一个艰苦的、费时费力的,然而从语言信息处理发展的观点来看,是一个必须进行的过程。h"_L%}`V/Ypz因此开发一个可以辅助标注工作的工具就有它的意义。人机交互式的标注工具是进行语料标注的有效手段,从一定程度上可以的减轻标注工作者的负担,同时还可以辅助检查标注结果的一致性等问题。开发界面友好的标注工具可以进一步的提高标注工作者的效率,同时结构化的输出更方便标注数据的后续使用。1.4任务描述本次标注工具开发的主要工作是windows风格的交互环境设计与实现和适用于文本成分的标注风格的设计与实现。具体就是要完成以下的这些任务:A.人机交互界面的设计B.人机交互界面的实现C.实体,关系,实现具体标注的实现D.标注中间结果的显示E.标注结果的结构化输出 人机交互文本工具开发1.5论文的组织和安排整个论文分为四个部分,绪论介绍了这个标注工具出现的背景,解释了我们构造这个工具的必要性,后面各章节全部围绕标注工具设计开发的各个细节来描述。分别为第2章标注工具的设计原则和设计思想,包括用户的各种需求和工具要具备的功能,预先估计工具开发过程中可能会遇到的困难,为工具的具体开发和实现打好基础。第3章标注工具的具体开发,包括开发环境的选择,设计思想的详细实现,技术难点的分析讨论。第4章对这次标注工具开发的总结,分析工具的缺陷以及没有解决的问题,以及对系统以后改进发展的看法。第二章标注工具的设计原则和设计思想2.1研究方法和指导思想……2.2标注工具的设计原则……2.2.2文本标注工具的设计原则…… 人机交互文本工具开发2.3人机交互界面设计原则……第三章标注工具的具体开发3.1开发环境的选择……3.2标注工具的设计3.2.1标注工具的界面算法 ……3.2.2结构设计……3.3标注工具的详细设计3.3.1人机交互界面详细设计……3.3.2菜单和工具栏的设计……3.4标注过程文本的处理…… 人机交互文本工具开发3.4.1实体标注详细设计……3.4.2关系标注详细设计……3.4.3事件标注详细设计……3.5标注结果……3.6技术难点讨论……第四章标注工具的缺陷分析和功能展望尽管工具经过反复的设计和考虑,性能进行尽可能的优化,但是本次的标注工具的缺陷还是非常多的,由于时间的紧张和能力的有限,还有许多的功能可以去实现,还有许多的地方需要改进。本次标注工具实现了简单的人机交互环境,但还有许多需要处理的过程。如用户标注之后发现标注出错撤销标注的操作,标注过程中的一些用户提示和交互。标注中间结果的处理,如对标注中间结果按标注内容在原始文本中的位置排序的实现。 人机交互文本工具开发人机交互文本工具开发 结束语本论文工作实现了三个功能模块:1.标注模块:标注模块实现文本的实体、关系、事件三部分的标注。这个模块要主要是对文本进行处理,文本的选择,光标在文本中的位置,文本的获得,文本位置的比较等等。2.菜单模块:根据用户标注的需要,设计上下文菜单来实现功能。用户通过使用上下文菜单来进行标注工作。3.用户界面模块:提供用户良好的界面环境和输入环境,这次标注工具的界面由两个窗口组成,方便用户对照标注结果进行标注。虽然完成了论文预定目标,但是在人机交互上的处理上还有待进一步完善。10致谢10 致谢致谢这次毕业设计是在杨尔弘老师的热心指导下才能够得以完成的。首先感谢她对我学习上的教育和帮助。在这次毕业设计中,我多次在交互界面的设计和文本信息处理上和杨老师进行深入的讨论。由于这次设计周期很长,杨老师一直是耐心的等待我的设计和测试的结果。再者要感谢这大学四年来在生活和学习上帮助我的院系老师,是他们教授的本领陪伴我度过了这充实的大学生活。我在这四年中的收获也是很大的。综合素质有很大的提高,这和老师们的关心教导是分不开的。最后感谢与我一起共度四年的同学们,是我们的互相帮助让我们一起成长,一起进步,最终顺利的毕业。10参考文献参考文献10 参考文献[1]JeffProsise著《MFCWindows程序设计》北京:清华大学出版社2002年2月[2]郑阿奇主编《VisualC++使用教程第二版》北京:电子工业出版社2003年8月[3]朱巧明李培峰吴娴朱晓旭等主编《中文信息处理技术教程》北京:清华大学出版社2005年9月[4]方可燕主编《VisualC++6.0实战与精通》北京:清华大学出版社[5]http://community.csdn.net查阅了CRichEditView类中相关函数的用法[6]http://www.ergocn.com   查阅了关于“软件人机界面设计”的技术文章以及“设计为人”的关于界面设计的文章10'