• 324.50 KB
  • 2022-04-22 13:33:04 发布

语音识别的特征参数的提取与研究的毕业论文.doc

  • 31页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'桂林航天工业学院毕业设计(论文)语音识别的特征参数的提取与研究的毕业论文目录评语                            Ⅰ答辩记录                            Ⅱ毕业设计任务书Ⅲ毕业设计开题报告Ⅳ中英文摘要  V引言11绪论21.1语音识别发展历史及发展趋势21.2语音识别系统的原理组成31.3语音特征参数的提取在语音识别中的作用42语音信号预处理52.1语音信号的预加重62.2语音信号的采样与滤波72.3语音信号的加窗与分帧82.4语音端点检测92.4.1语音信号短时平均能量102.4.2语音信号短时平均过零率123语音特征参数提取133.1线性预测倒谱系数LPCC143.1.1线性预测分析153.1.2线性预测倒谱分析153.2MEL倒谱系数MFCC163.2.1MEL频率163.2.2MFCC参数提取173.2.3实验仿真结果与分析184结论20谢辞23参考文献24附录26第I页 桂林航天工业学院毕业设计(论文)引言语音信号处理是语音学与数字信号处理技术相结合的交叉学科,它和认知科学、心理学、语言学、计算机科学、模式识别和人工智能等学科联系紧密。语音信号处理技术的发展依赖于这些学科的发展,而语音信号处理技术的进步也会促成这些学科的进步。语音信号处理的目的是要得到某些语音特征参数以便高效地传输或存储;或者是通过某种处理运算以达到某种用途的要求,如人工合成语音、辨识出讲话者、识别出讲话的内容等。语音合成技术、语音编码技术及语音识别技术作为语音信号处理的三个分支。语言作为人类最重要的交流工具,是人类获得信息的重要来源之一,让计算机能“听懂”人类的语言,也是人与计算机之间进行沟通最方便的形式之一。用语音来实现人与计算机之间的交互,主要包括三项技术,即语音识别、自然语言理解和语音合成。随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展。20世纪90年代,语音识别技术从实验室走向应用,今天,语音识别技术受到了国内外研究机构的广泛关注和高度重视,其应用也必将带来良好的社会和经济效益。30 桂林航天工业学院毕业设计(论文)1绪论人类的语言在人们的生活中起着极其重要的作用,人与人之间的交流方式有很多种,但是70%都是通过语音来有效的完成的。语音是人类相互之间进行交流时,使用最多、最自然、最基本的信息载体。与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。而语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。1.1语音识别发展历史及趋势语音识别,就是让计算机听得懂人说的话,并能做出相应的处理,也是人机交互最重要的第一步。它是语音信号处理的一个重要研究方向,是模式识别的一个分支,它涉及到生理学、心理学、语言学、计算机科学、通信科学以及信号处理等诸多领域,甚至还涉及到人的体态语言。就语音识别技术而言,其基本任务是将输入语音转化为相应的文本或命令。语音识别的市场前景广泛,在一些应用领域中正迅速成为一个关键的具有竞争力的技术。例如在声控应用中,计算机识别输入的语音内容,并根内容来执行相应的动作,这包括声控电话转换、声控语音拨号系统、声控智能玩具、信息网络查询、家庭服务、宾馆服务、医疗服务等等。语音识别也可用于将文字以口授的方式输入到计算机中,即广泛开展的听写机研究,如声控打字机等。语音识别技术还可以用于自动口语翻译,即通过将口语识别技术、机器翻译技术、语音合成技术等相结合,可将一种语言输入的语音翻译成另一种语言的语音输出,实现跨语言的交流。对说话人识别技术,近年来已经在安全加密、银行信息电话查询服务等方面得到了很好的应用。此外,在公安机关破案和法庭取证方面也发挥着重要的作用。语音识别技术的研究开始于上世纪40年代末,起初发展很慢。到了上世纪50年代初,当时AT&TBell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统,也标志着语音识别技术的研究真正开始了。到了60年代,计算机应用更加的普遍,也推动了语音识别技术的发展,人们完成了几项对今后20年语音识别发展产生重要影响的工作。到了70年代,语音识别领域取得了更大的突破在理论上,LP技术得到进一步发展,人们将在语音压缩领域取得了巨大成功的线性预测编码技术(LPC)引入了语音识别。动态时间归整技术(DTW)基本成熟,并且在语音识别领域得到了全面的应用。80年代,语音识别研究更加的深入,语音识别领域出现了里程碑式的成果。进入90年代,多媒体时代的到来,人们对智能化的需求越来越迫切,这就要求语音识别系统走出实验室走向市场。30 桂林航天工业学院毕业设计(论文)随着科技的发展和人们对语音识别理论的逐渐深入化的研究,理论体系的日趋成熟,随着数字信号处理技术的发展,在未来20年,语音识别技术将逐渐的进入工业、家电、通信、汽车电子、医疗以及各种电子设备中。可以肯定地说,语音识别技术必将成为未来信息产业中的一项关键的技术。但是也不可否认,它还有很长的一段路需要走,要真正的商业化,还需要在多方面取得突破性的进展,还需要借助于其它相关学科的发展。1.2语音识别系统原理的组成语音识别本质上是一种模式识别的过程,它主要包括语音信号预处理、特征提取、特征建模、测度估计、识别判决等几个功能模块。一个语音识别主要由学习和识别两个过程组成,学习阶段就是要采用语言的分析方法分析出某种识别方法所要求的语音特征参数,这些参数被存储起来作为模板。识别过程就是模式匹配的过程,它也是整个系统的核心,其作用是根据语音和不同的层面按照相应的准则求取待测语音特征参数和语音信息与模式库中相应模板之间的测度,形成系最佳的识别输出。语音识别基本结构预处理特征提取模式匹配后处理语音模式库语音识别系统本质上是一种多维模式识别系统,基本结构如图1.1所示。图1.11.预处理预处理包括预加重、反混叠滤波、模/数转换、自动增益控制等处理过程,用于去除声门激励、口鼻辐射、高于1/2采样频率的高频和噪声信号的影响,实现语音信号的数字化。在语音识别中,预处理还包括在声学参数分析之前正确选择识别基本的问题。2.特征提取经过预处理后的语音信号,要对其进行特征提取,即特征参数分析。该过程就是从原始语音信号中抽取出能够反映语音本质的特征参数,形成特征矢量序列。3.语音模型库30 桂林航天工业学院毕业设计(论文)语音模型库即声学参数模板,它是用聚类分析等方法,从一个讲话者或多个讲话者的多次重复的语音参数,经过长时间的训练得到的。4.模式匹配将输入语音的特征参数同训练得到的语音模式库进行比较分析,从而得到初步识别结果。根据模式识别方法的不同,用于语音识别系统时有统计模式识别法和句法模式识别法两类。(1)统计模式识别法:建立在最大似然决策贝叶斯判决基础之上,大致的识别过程是:首先,提取语音的特征,并训练识别用的参数模板;然后,利用可以衡量未知模式和参考模式的似然度来测量函数;最后,选用一种最佳准则及专家知识作为识别决策,对识别候选者进行最后判决,得到最好的识别结果作为输出。(2)句法模式识别法:类似于文章中的句法分析。它不仅应用于语音识别,还广泛的应用于手写文字及图像的识别上。5.后处理在大词汇量连续语音识别系统中,为了提高识别正确率需要使用语言模式,利用语言识别单位之间连接时的相互制约关系,采取统计方法与语法相结合的方法建立语言模型,达到限制识别器译码时的自由度,提高系统的性能。目前后处理在嵌入式语音系统中还很难使用。1.3语音特征参数的提取在语音识别中的作用语音特征参数的提取是语音识别的一个重要步骤。所谓特征提取,即对不同的语音寻找其内在特征,由此来差别出未知语音,所以每个语音识别系统都必须进行特征提取。特征的选择对识别效果至关重要,选择的标准应体现对异音字之间的距离尽可能大,而同音字之间的距离应尽可能小。同时还要考虑特征参数的计算量,应在保持高识别率的情况下,尽可能减少特征以减小存储要求和利于实时实现。孤立词语音识别系统的特征提取一般需要解决两个问题,一个是从语音信号中提取(或测量)有的合适的特征参数;另一个是进行适当的数据压缩。而对于非特定人语音识别来讲,则希望特征参数尽可能多地反映主义信息,尽量减少说话人的个人信息。30 桂林航天工业学院毕业设计(论文)计算机语音识别是一个模式识别匹配的过程。在这个过程中,计算机首先要根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征参数,在此基础上才能建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的整体模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入的语音匹配的模板,求出识别结果。显然,这种最优的结果与特征的选择、语音模型和语言模型的好坏、模板是否准确等都有直接的关系。因此,语音的特征提取在语音识别处理中具有举足轻重的作用。语音的特征提取实质上是起降维的作用,用较少的维数来表示说话人的特征。常用的语音特征包括Pitch(基音)、Formant(共振峰)、LPCC(线性预测倒谱系数)、MFCC(Mel频率倒谱系数)。近几年,科学工作者在研究语音识别时,用的最多的特征提取方法就是基于线性预测倒谱系数方法。语音信号完成分帧处理和端点检测后,下一步就是特征参数的提取。在语音识别中,我们不能将原始波形直接用于识别,必须通过一定的变换,提取语音特征参数来进行识别,而提取的特征必须满足:1.特征参数应当反映语音的本质特征,对于非特定人语音识别,特征参数则应尽量不含有说话人的信息。2.特征参数各分量之间的耦合应尽可能地小,以起到压缩数据的作用。3.特征参数要计算方便,最好有高效的算法。语音特征参数可以是能量、基音频率、共振峰值等语音参数,目前在语音识别中较为常用的特征参数为线性预测倒谱系数(LPCC)与Mel倒谱系数(MFCC)。二者都是将语音从时域变换到倒谱域上,前者从人的发声模型角度出发,利用线性预测编码(LPC)技术求倒谱系数。后者则构造人的听觉模型,以语音通过该模型(滤波器组)的输出为声学特征,直接通过离散傅利叶变换(DFT)进行变换。2语音信号预处理在语音信号进行分析和处理之前,必须要对所采集的语音信号进行预处理。预处理阶段包括语音的采样、量化、反混叠滤波、预加重、加窗、及端点检测等。由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在8000以上按6dB/倍频程跌落,为此要在预处理中进行预加重。预加重的目的是提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。预加重可在A/D变换前,在反混叠滤波之后进行,也可在A/D变换之后进行。用具有6dB/倍频程的提升高频特性的预加重数字滤波器实现,它一般是一阶的,即:(2-1)式中,值接近1,典型值为0.96。30 桂林航天工业学院毕业设计(论文)由于语音信号是非平稳过程,是时变的,但是人的发音器官的肌肉运动速度较慢,所以语音信号可以认为是局部平稳的,或短时平稳。因此,语音信号分析常分段或分帧来处理,一般每秒的帧数约为33-100,视实际情况而定,分帧既可以是连续的,也可用交叠分段的方法,在语音信号分析中常用“短时分析”表述。短时分析实际上是用一个窗截取信号。数字信号处理理论告诉我们,两个信号的时域相乘,在频域相卷积,如果采用矩形窗,则矩形窗频谱高频成分必将影响语音信号的高频部分,一般用高频分量幅度较小的窗型,以避免这些影响。对语音信号的各短段进行处理,实际上就是对各短段进行某种变换或施以某种运算。设该变换用符号表示,它可以是线性或非线性的,可以是时不变的或者时变的,所有各段经处理后可以得到时间序列,用表示:(2-2)2.1语音信号的预加重预加重的目的是为了提高信号中的高频成分,语音信号的高频成分幅值比较低,为了提高高频分量的作用,有必要将其提升使得整个信号的频谱比较平坦。此外还能抑制随机噪声。其方法是将原始信号通过一个一阶FIR高通数字滤波器:(2-3)在时域内它可表示为(0.9=0b(i)=1;elseb(i)=-1;endifa(i+1)>=0b(i+1)=1;30 桂林航天工业学院毕业设计(论文)elseb(i+1)=-1;endw(i)=abs(b(i+1)-b(i));%求出每相邻两点符号的差值的绝对值endk=1;j=0;while(k+N-1)