'ICS13.310A91圆圄中华人民共和国国家标准GB/T25724—2010安全防范监控数字视音频编解码技术要求Technicalspecificationofsurveillancevideoandaudiocoding2010·12-23发布2011—05—01实施中华人民共和国国家质量监督检验检疫总局学右中国国家标准化管理委员会及111
标准分享网www.bzfxw.com免费下载目次前言⋯⋯⋯⋯⋯···⋯⋯⋯⋯⋯⋯⋯··⋯⋯⋯⋯‘引言⋯⋯⋯⋯⋯·⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯··1范围⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯··2规范性引用文件⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯··3术语、定义和缩略语⋯⋯¨⋯··⋯⋯⋯⋯⋯⋯3.1术语和定义⋯⋯⋯⋯⋯·⋯⋯⋯⋯⋯⋯⋯·3.2缩略语⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯4约定⋯⋯⋯⋯⋯⋯⋯⋯⋯·⋯⋯⋯⋯⋯⋯⋯-·4.1算术运算符⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯4.2逻辑运算符⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯4.3关系运算符⋯⋯⋯⋯⋯⋯⋯·⋯⋯⋯⋯⋯··4.4位运算符⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯4.5赋值运算符⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯4.6数学函数··⋯⋯⋯⋯⋯⋯⋯-⋯⋯·⋯⋯⋯··4.7语法元素、变量和表⋯⋯⋯⋯⋯⋯⋯⋯⋯4.8逻辑运算符的文字描述⋯⋯⋯⋯⋯⋯⋯⋯4.9过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯5视频部分⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯5.1编码比特流和输出数据的格式⋯⋯⋯⋯⋯5.2语法和语义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯5.3解码过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯5.4解析过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯6音频部分⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯6.1总体描述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯6.2编码器功能描述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·-6.3解码器功能描述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一6.4比特分配描述⋯⋯⋯·⋯⋯⋯⋯⋯⋯⋯⋯·6.5存储、传输接口格式⋯⋯⋯⋯⋯⋯⋯⋯⋯··附录A(规范性附录)假设参考解码器(HRD)附录B(规范性附录)字节流的格式⋯⋯⋯-一附录c(规范性附录)视频档次与级别⋯⋯·一附录D(规范性附录)视频可用性信息(VUI)附录E(规范性附录)补充增强信息(SEl)⋯·附录F(规范性附录)变长码表⋯⋯⋯⋯⋯·附录G(规范性附录)音频档次和级别⋯⋯·附录H(规范性附录)异常声音事件类型定义附录I(资料性附录)VAD检测⋯⋯⋯⋯⋯-一附录J(资料性附录)噪声消除⋯⋯⋯⋯⋯⋯-参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·ⅢⅣ●,,,加¨un他地他地¨M坫坫坫狗钉阳盯盯∞u蛆∞%的阻%∞加n他M”%●
www.bzfxw.com前言Gn/l25724—2010请注意,本标准的某些内容有可能涉及专利,本标准的发布机构不承担识别这些专利的责任。本标准的附录A~附录H为规范性附录,附录I和附录J为资料性附录。本标准由中华人民共和国公安部提出。本标准由全国安全防范报警系统标准化技术委员会(SAC/TC100)归I=l。本标准起草单位:公安部第一研究所、北京中星微电子有限公司、北京中盾安全技术开发公司、中星电子股份有限公司、清华大学、香港大学、大连理工大学、江苏东奇信息科技有限公司、中国传媒大学信息工程学院、国家多媒体软件工程技术研究中心、宁波艾利特科技发展有限公司、杭州恒生数字设备科技有限公司、公安部第三研究所、浙江大华技术股份有限公司、北京声迅电子有限公司、天津市亚安科技电子有限公司、深圳市艾立克电子有限公司、浙江大立科技股份有限公司、北京国通创安信息技术有限公司、天津天地伟业数码科技有限公司、金鹏电子信息机器有限公司、北京蛙视通信技术有限责任公司、杭州海康威视数字技术股份有限公司、中国科学院软件研究所、深圳中兴力维技术有限公司、北京汉邦高科数字技术有限公司、宁波舜宇光电信息有限公司、数维科技(北京)有限公司、新太科技股份有限公司、星际控股集团有限公司、浙江警官职业学院、北京富盛星电子有限公司、杭州华三通信技术有限公司、广东志成冠军集团有限公司。本标准主要起草人:陈朝武、邓中翰、李晓峰、杨晓东、张跃、邱嵩、冯宇红、卢京辉、余子龙、袁丽蓉、费宝顶、高嵩、林冬、陈醋、钟兴业、王生进、杨磊、房子河、杨国胜、范京京、邹章彪、郅晨、王耀辉、王浩、李鹏飞、王建勇、高磊、王睨、魏一、孙大瑞、闫建新、余和初、戴林、陈瑞军、于烨、黄麒麟、季鹏飞、韩大炜、刘蕾营、陈玉、周志文、向稳新、吴参毅。Ⅲ
www.bzfxw.com标准分享网www.bzfxw.com免费下载GB/T25724—2010引言目前国内、国际没有专门针对安全防范监控应用的视音频编解码标准,现有的视音频编解码标准,都是针对广播电视和大众娱乐方面的应用,在安全防范领域直接采用具有很大的不适应性。本标准专门针对安防监控领域应用的特殊性,如:视频图像的实时传输性、全天候24h监控环境的适应性、场景视音频信息的忠实还原性等要求制定。本标准主要技术特点有:a)支持高精度视频数据编码,适应宽动态范围,保留更多的图像细节,满足忠实于场景的要求。视频支持8bit~10bit数据,并保留未来扩充到12bit~16bit的可能;b)支持帧内4×4预测与变换量化、自适应帧一场编码(AFF)和上下文自适应二进制算术编码(CABAC)等技术,获得更好的图像质量和更高的编码效率;c)支持感兴趣区域(ROD变质量编码,在传输网络带宽或数据存储空间有限的情况下,优先保证ROI图像质量,节省非ROI的开销,提供更符合监控需要的高质量视频编码,提高监控系统整体性能;d)支持可伸缩性视频编码(SVC),对视频数据分层次编码,满足不同传输网络带宽和数据存储环境的需求;e)支持代数码书激励线性预测(ACELP)和变换音频编码(TAc)切换的双核音频编码,既保证对语音信号具有较好的编码效果,也保证环境(背景)声音的编码效果;f)支持声音识别特征参数的编码,避免编码失真对语音识别和声纹识别的影响;g)支持绝对时间参考信息、特殊监控事件等监控专用信息。监控专用信息通过专门语法与视音频压缩编码数据一起传输和存储,便于快速检索、分类查询、视音频同步和监控数据的综合应用;h)支持数据安全保护,规定加密和认证接口及数据格式,保证数据的安全性、完整性和非否认性。既保证格式的统一,便于互联互通,也保留足够的扩展灵活性,支持更高性能的加密和认证方式的增加和扩充。相关专利情况说明本文件的发布机构提请注意,声明符合本文件时,可能涉及与5.2.3.1、5.2.3.2、5.2.3.8、5.2.4.2、5.2.4.4、5.2.4.10、5.3.6.7、6.1.2、6.1.4、6.2.6.1.3、6.2.6.1.4.10中有关内容相关的专利的使用。本文件的发布机构对于该专利的真实性、有效性和范围无任何立场。该专利持有人已向本文件的发布机构表示,他愿意同任何申请人在合理且无歧视的条款和条件下,就专利授权许可进行谈判。该专利持有人的声明已在本文件的发布机构备案。相关信息可以通过以下联系方式获得Ⅳ专利持有人名称联系地址北京中星微电子有限公司北京海淀学院路35号世宁大厦(100191)北京中盾安全技术开发公司北京海淀区首体南路1号(100048)天津经济技术开发区第四大街80号天大科技园A1中星电子股份有限公司座2层(300457)清华大学北京海淀区清华园(100084)数维科技(北京)有限公司北京海淀区中关村南大街2号(100086)武汉大学湖北武汉市武汉大学(430079)
www.bzfxw.com联系人:曾娟鹃通讯地址:北京海淀区学院路35号世宁大厦16层邮政编码:100191电子邮件:zengjuanjuan@vimicro.com电话:010—689488888950传真:01068944075联系人:马志江通讯地址:北京海淀区首体南路1号邮政编码:100048电子邮件:mzj76@yahoo.com电话:010—88513553—828传真:010—68454099GB/T25724—2010请注意除上述专利外,本文件的某些内容仍可能涉及专利。本文件的发布机构不承担识别这些专利的责任。
www.bzfxw.com标准分享网www.bzfxw.com免费下载安全防范监控数字视音频编解码技术要求GB/T25724—20101范围本标准规定了安全防范领域监控应用的数字视音频编码、解码过程的技术要求。本标准适用于安全防范领域的视音频实时压缩、传输、播放和存储等业务,对于其他需要视音频编解码的领域也可参考采用。2规范性引用文件下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。GB/T20090.2—2006信息技术先进音视频编码第2部分:视频3术语、定义和缩略语下列术语、定义和缩略语适用于本标准。3.1术语和定义3.1.1“z”宇形扫描zig-zagscan变换系数从较低的空域频率到较高空域频率(近似)的一个明确排列顺序。“z”字形扫描用于帧宏块中的变换系数。3.1.2B条带Bslice根据同一条带内的已解码样点利用帧内预测进行解码,或者根据先前解码的参考图像利用双向预测进行解码的条带,对每个块进行帧问预测时最多使用两个运动矢量和参考索引。3.1.3I条带Islice根据同一条带内的已解码样点利用帧内预测进行解码的条带。3.1.4P条带Pslice根据同一条带内的已解码样点利用帧内预测进行解码,或者根据先前解码的参考图像利用前向预测进行解码的条带,对每个块进行帧间预测时最多使用一个运动矢量和参考索引。3.1.5NAL单元NALunit一个语法结构,包含后续数据的类型指示和所包含的字节数,数据以RBSP形式出现,必要时其中还包括认证数据及散布的防伪字节。3.1.6NAL单元流NALunitstream由NAL单元组成的序列。1
www.bzfxw.comGB/T25724—20103.1.7保留reserved某些语法元素的特定取值,供中国安全防范监控数字视音频编解码技术标准工作组将来使用。符合本标准的比特流不应使用这些值,但是这些值将来可能在本标准的扩展版本中用到。3.1.8闭环基音搜索closed—looppitchsearch即自适应码书搜索,从加权输入信号和长时预测滤波器状态估计基音延迟的过程。3.1.9比特流bitstream编码视音频及其相关数据,构成一个或多个编码视音频序列的比特序列。比特流既可用来表示NAL单元流,也可表示字节流。3.1.10变换系数transformcoefficient频率域的标量,与解码过程的反变换部分中一个特定的一维或二维频率索引相关联的系数。3.1.11变换系数幅值transformcoefficientlevel一个与特定二维频率索引相关联的整数量值,解码过程中用于计算变换系数的值。3.1.12编码场codedfield一个场的编码表示。3.1.13编码过程encodingprocess产生符合本标准的比特流的过程,本标准对视频编码过程不做规定。3.1.14编码器encoder实现编码过程的实体,包括软件及硬件。3.1.15编码视频序列codedvideosequence按照解码顺序排列的IDR图像和紧随其后的零个或多个非IDR图像组成的图像序列。3.1.16编码条带NAL单元codedsliceNALunit包含编码图像的一个条带的NAL单元。一3.1.17编码图像codedpicture一幅图像的编码表示。一个编码图像可以是一个编码场,也可以是一个编码帧。3.1.18编码图像缓存区codedpicturebuffer一个先人先出缓存区,其存储方式按解码顺序排列。3.1.19编码帧codedframe一个帧的编码表示。3.1.20残差residual样点或数据元素预测值与解码值之间的差值。2
www.bzfxw.com标准分享网www.bzfxw.com免费下载GB/T25724--20103.1.21参考场referencefield一个标记为参考图像的场,用于编码场中P条带和B条带的解码过程中的帧间预测。3.1.22参考索引referenceindex参考图像的索引。3.1.23参考图像referencepicture对解码顺序上后续图像的解码过程进行帧间预测的样点图像。3.1.24参考帧referenceframe一个标记为参考图像的帧,用于编码帧中的P条带和B条带的解码过程中的帧间预测。3.1.25参数parameter序列参数集、图像参数集或安全参数集中的一个语法元素。参数也用于量化参数一词中。3.1.26层layer没有分支等级关系中的一组句法结构。高层包含低层。编码层指编码图像序列层、图像层、条带层和宏块层。对于可伸缩性视频编码图像,不同层的图像具有不同的可伸缩性(如不同的空间分辨率)。3.1.27场field一帧中的相隔行的集合。一帧由两场组成,包括一个顶场和一个底场。3.1.28场宏块fieldmacroblock所包含的样点仅来自一个编码场的宏块。一个编码场的所有宏块均为场宏块。3.1.29场扫描fieldscan变换系数的排列顺序。与“Z”字形扫描顺序不同的是,它对列的扫描快于对行的扫描。场扫描用于场宏块中的变换系数。3.1.30代数码书algebraiccodebook脉冲幅度和位置组成的一个集合。通过码字索引k按照一定的规则得到第k个激励码矢量的脉冲幅度和位置。3.1.31档次profile本标准中的一个特定语法子集。3.1.32底场bottomfield组成帧的两个场中的一个。底场的每一行在空间位置上均位于其对应的顶场行的下面。3.1.33电导频谱对immittancespectralpair线性预测系数的变换称为电导频谱对。将逆滤波器传输函数A(z)分解为一个偶对称和一个奇对称多项式函数,该函数在单位圆上的根,即电导频谱对。3
www.bzfxw.comGB/T25724—20103.1.34顶场topfield组成帧的两个场中的一个。顶场的每一行在空间位置上均位于其对应的底场行的上面。3.1.35短时合成滤波器shorttermsynthesisfilter对声道脉冲响应进行建模的滤波器。激励信号通过该滤波器可得到合成信号。3.1.36=进制位bin二进制位串中的lbit。3.1.37二进制位串binstring一串二进制位。二进制位串为二值化的语法元素值的二进制表示。3.1.38二值化binarization语法元素所有可能值与一组二进制位串之间的唯一映射。3.1.39反变换inversetransform解码过程的一部分,将变换系数矩阵转换为空域样点矩阵的过程。3.1.40防伪字节emulationpreventionbyte一个字节,其值等于0x03,可能在NAL单元中出现。防伪字节的出现可以保证在NAL单元的后续字节对齐的字节流中不会含有起始码前缀。3.1.41非参考图像nou-referencepicture不用于对任何其他图像进行帧闻编码的图像。3.1.42分■component图像的三个样点矩阵(一个亮度矩阵,两个色度矩阵)中的一个矩阵或矩阵中的单个样点。在音频部分,也指矢量中的元素或信号中的某些频率成分。3.1.43感知加权滤波perceptualweilghringfilter利用共振峰处的噪声掩蔽特性,在共振峰区域分配比较大的失真,来减少峰谷主观感觉噪声的滤波。3.1.44功率谱powerspectrum信号通过傅立叶变换后得到幅度谱的平方。3.1.45光栅扫描rasterscan矩形二维图像到一维图像的映射过程,一维图像的第一组值来自于二维图像最上边一行的从左到右扫描,然后依次是第二行、第三行等。对于图像每行(由上到下)都是从左到右扫描的。3.1.46宏块macroblock一个16×16的亮度样点块和相应的两个色度样点块。4
www.bzfxw.com标准分享网www.bzfxw.com免费下载GB/T25724--20103.1.47宏块索引macroblockindex编码帧中,宏块索引为帧图像的宏块光栅扫描顺序的序号,起始序号为0。编码场中,宏块索引为场图像的宏块光栅扫描顺序的序号,起始序号为0。3.1.48后向预测backwardprediction使用显示顺序上在后的解码图像中的样点对当前图像中的样点进行预测。3.1.49划分partitioning将一个集合分为子集的过程。集合中的每个元素属于且只属于某一个子集。3.1.50基本层图像baselayerpicture不需要参考其他图像层信息即可以解码的图像。3.1.51级别level本标准中的一个特定档次中的参数取值的限定集合。一个档次可以包含一个或多个级别。对所有档次定义了一组相同的级别,不同档次的每个级别大部分特性都是通用的。对于一个独立的实现,在一定的约束条件下,可以支持多个级别。3.1.52即时解码刷新(IDR)图像instantaneousdecodingrefresh(IDR)picture一幅编码图像,其中所有条带为l条带。IDR图像解码之后,解码顺序上所有后续的编码图像都可以不用根据任何在IDR图像之前解码的图像来进行帧间预测解码。每个编码视频序列的第一幅图像为IDR图像。3.1.53假设参考解码器hypotheticalreferencedecoder一个假设的解码器模型,规定了对于符合本标准的NAL单元流或字节流的可变性的约束。3.1.54解码过程decodingprocess读人编码的比特流后产生解码图像或者音频数据的过程。3.1.55解码器decoder实现解码过程的实体,包括软件及硬件。3.1.56解码顺序decodingorder解码过程中处理语法元素的顺序。3.1.57解码图像decodedpicture通过解码一幅编码图像得到的图像。一幅解码图像既可以是一个解码帧,也可以是一个解码场。一个解码场可以是顶场,也可以是底场。3.1.58解码图像缓存区decodedpicturebuffer保存解码图像的缓存区,用于附录A中规定的预测参考、输出重排序或输出延时等。5
www.bzfxw.comGB/T25724--20103.1.59开环基音搜索open—looppitchsearch直接从加权输入信号中估计最优基音延迟的过程。开环基音搜索简化了基音分析,并且将闭环基音搜索限定在开环基音搜索的延迟值附近。3.1.60可变长度编码variablelengthcoding可逆的熵编码过程,为出现概率大的符号分配较短的码字,为出现概率小的符号分配较长的码字。3.1.61可伸缩性视频编码scalablevideocoding编码序列中的图像具有一定的可伸缩性。具有可伸缩性的图像通常包含基本层图像和增强层图像。3.1.62块block在视频信号空间中,指一个M×N(M列N行)的样点矩阵,或者一个M×N的变换系数矩阵。在音频信号空间中,指一个一维矢量。·3.1.63亮度inma一个样点矩阵或单个样点,用于描述信号的单色表示。亮度所用符号为Y。3.1.64量化参数quantizationparameter解码过程中对变换系数幅值进行反量化时使用的参数。3.1.65零输入响应zeroinputresponse滤波器当前输入为零时,由过去输入而产生的输出。3.1.66美尔Mel一种非线性的频率刻度,根据主观音高进行划分。3.1.67美尔频率倒谱系数Mel—frequencycepstralcoefficients用FFT将时域信号转化到频域,对其对数能量谱依照Mel刻度分布的三角滤波器组进行卷积,对各个滤波器的输出构成的向量进行DCT得到的系数,即美尔频率倒谱系数。3.1.68内部采样频率internalsamplingfrequency音频编码器的采样频率,范围为IZ800Hz~38400Hz,采用F。表示。3.1.69逆滤波器inversefilter去除信号短时相关性的滤波器。3.1.70频率索引frequencyindex与解码过程中反变换之前的变换系数相关的一维或二维索引。3.1.71起始码前缀startcodeprefix字节流中唯一等于Ox000001的3个字节的序列,作为每个NAL单元的前缀。解码器可以利用起8
www.bzfxw.com标准分享网www.bzfxw.com免费下载GB/T25724—2010始码前缀的位置来确定一个新的NAI。单元的开始和前一个NAL单元的结束。NAL单元中通过加入防伪字节来防止假冒的起始码前缀出现。3.1.72前向预测forwardprediction使用显示顺序上在前的解码图像中的样点对当前图像中的样点进行预测。3.1.73前向帧问解码图像forwardinterdecodedpictureP图像帧间预测中只使用前向预测解码的图像。3.1.74色度chroma一个样点矩阵或单个样点,用于描述代表两个相对于基色的色差信号中的一个。色度所用符号为Cb和Cr。3.1.75上下文自适应二进制算术编码contextadaptivebinaryarithmeticcoding一种熵编码方法,根据上下文内容对二进制位进行编码,产生比特流。3.1.76声纹识别voiceprintrecognition根据语音的声学特征识别该段语音所对应的说话人的过程。3.1.77数据比特串stringofdatabits语法元素的若干比特位的序列,出现在原始字节序列负载中原始字节序列负载截止位之前。在SODB中,最左边的比特位表示第一位即最高位,最右边的比特位表示最后一位即最低位。3.1.78双向预测bidirectionalprediction使用显示顺序上在前及在后的解码图像中的样点对当前图像中的样点进行预测。3.1.79双向帧间解码图像bidirectionalinterdecodedpictureB图像帧间预测中使用双向预测解码的图像。3.1.80条带slice特定区域内部按照光栅扫描顺序排列的整数个宏块。虽然一个条带包含区域内部按照光栅扫描顺序排列的整数个宏块,但这些宏块在图像内部并不一定是按照光栅扫描顺序连续排列的。宏块索引可以通过条带的第一个宏块的索引以及宏块到条带的映射得到。3.1.81条带头sliceheader编码条带的一部分,包含与该条带中第一个或者全部宏块有关的数据元素。3.1.82跳过宏块skippedmacroblock没有编码数据的宏块。3.1.83图像picture源、编码或重构的图像数据,场或帧的通称。对于逐行扫描视频,一幅图像指一帧;而对于隔行扫描7
GB/T25724--2010视频,一幅图像指一帧,或组成该帧的顶场或底场。3.1.84图像参数集pictureparameterset一个语法结构,包含应用于零个或多个编码图像的语法元素,由每个条带头中的语法元素pic—parameter—set—id确定。3.1.85维纳滤波器wienerfilter根据最小均方误差准则,即滤波器的输出信号与期望信号之差的均方值最小,计算得到的最佳线性滤波器,称为维纳滤波器。3.1.86线性预测系数LPcoefficients短时预测滤波器系数,也称为LPC系数。3.1.87序列参数集sequenceparameterset一个语法结构,包含应用于零个或多个完整编码视频序列的语法元素,由条带头中的语法元素pic—parameter—set~id确定所引用的图像参数集,由图像参数集中的语法元素seq—parameter—set—id确定所引用的序列参数集。3.1.88音频超帧audiosuperframe由若干音频帧组成,目前本标准规定音频超帧中只包含一个音频帧。3.1.89音频子帧audiosubframe音频帧的一部分,在F。/2采样频率下,由64个样本构成的数据块。3.1.90游程rail解码过程中连续出现的数据元素的数目。在某些上下文环境中,游程指“z”字形扫描或场扫描后产生的变换系数数组中非0系数之前的0值变换系数的数目。3.1.91预测prediction使用预测值来提供当前解码的样点值或数据元素的估计。3.1.92预测值predictor以前解码的样点值或数据元素的线性组合。3.1.93语法结构syntaxstructure零个或多个语法元素按照规定顺序一起出现在比特流中。3.1.94语法元素syntaxelement比特流中表示数据的元素。3.1.95语音识别speechrecognition根据语音的声学特征和语言模型,将该段语音翻译为文本的过程。8
标准分享网www.bzfxw.com免费下载GB/T25724—20103.1.96源source编码前视音频素材或者素材的某些属性。3.1.97原始字节序列负载rawbytesequencepayload一个语法结构,包含整数个封装于NAL单元中的字节。RBSP或者为空,或者包含具有数据比特串形式的语法元素,其后跟随RBSP截止位和零个或多个连续的。值比特。3.1.98原始字节序列负载(RBSP)截止位rawbytesequencepayload(RBSP)stopbit值为1的一个比特,出现在原始字节序列负载(RBSP)中的数据比特串之后。RBSP中数据比特串的结束位置可以通过搜索RBSP中的RBSP截止位得到。3.1.99运动矢量motionvector二维矢量,用于帧问预测,表示匹配对象在解码图像和参考图像中的位置偏移。3.1.100增强层图像enhancelayerpicture需要参考其他图像层信息进行解码的图像。本标准中的一个增强层图像在解码时可以参考位于其下的相邻的图像层信息,同时该增强层图像的空间分辨率在水平和垂直方向上均为位于其下的相邻的(用来参考的)图像层的二倍。3.1.101帧frame在视频信号空间中由一个亮度样点矩阵(Y)和两个可能存在的色度样点矩阵(Cb和Cr)构成。在音频信号空间中,作为音频处理的基本数据块。在F。采样频率下,522个样本构成一帧,在F。/2采样频率下,256个样本构成一帧。3.1.102帧宏块framemacrobiock一个编码帧中的所有宏块均为帧宏块。3.1.103帧间编码intercoding使用帧间预测对块、宏块、条带或图像进行编码。3.1.104帧间预测interprediction利用已解码的参考图像得到当前样点的预测值的过程。3.1.105帧内编码intracoding使用帧内预测对块、宏块、条带或图像进行编码。3.1.106帧内解码图像intradecodedpicture’I图像只使用帧内预测解码的图像。3.1.107帧内预测intraprediction利用同一图像中已解码的样点得到当前样点的预测值的过程。9
GB/T25724—20103.1.108字节byte连续的8bit,读写时左边第一位为最高位,右边第一位为最低位。表示为比特序列时,字节的最高有效位为第一位。3.1.109字节对齐byte-aligned从比特流的第一个比特开始的8的倍数的位置为字节对齐的位置。比特或字节或语法元素为字节对齐的,指它出现在比特流中字节对齐的位置上。3.1.110字节流bytestreamNAL单元流的封装,包含起始码前缀和附录B定义的NAL单元。3.1.111自适应码书adaptivecedeb00k通过长时预测滤波器状态得到的码书,由每个子帧自适应的激励矢量构成。3.1.112直流偏置DC—offset‘音频信号的直流分量。3.2缩略语ACELPAlgebraicCodeExcitedLinearPrediction代数码书激励线性预测BWEBandwidthExtension带宽扩展CABACContextAdaptiveBinaryArithmeticCoding上下文自适应二进制算术编码CBRConstantBitRate恒定比特率CPBCodedPictureBuffer编码图像缓存区CRCCyclicRedundancyCode循环冗余校验码DCTDiscreteCosineTransform离散余弦变换DFTDiscreteFourierTransform离散傅立叶变换DPBDecodedPictureBuffer解码图像缓存区FFTFastFourierTransform快速傅立叶变换FIRFiniteImpulseResponse有限冲击响应HRDHypotheticalReferenceDecoder假设参考解码器IDCTInverseDiscreteCosineTransform离散余弦逆变换IDFTInverseDiscreteFourierTransform离散傅立叶逆变换IDRInstantaneousDecodingRefresh即时解码刷新IFFTInverseFastFourierTransform快速傅立叶逆变换ISFImmittaneeSpectralFrequency电导谱频率ISPImmittanceSpectralPair电导谱对LPLinearPrediction线性预测LPCLinearPredictiveCoding线性预测编码LSBLeastSignificantBit最低有效位LTPLongTermPredictor长时预测MAMovingAverage滑动平均MBMacrobloek宏块MFCCMelFrequencyCepstralCoefficients美尔频率倒谱系数10
标准分享网www.bzfxw.com免费下载MSBMostSignificantBit最高有效位MSVQMultiStageVectorQuantization多级矢量量化NAI,NetWorkAbstractionLayer网络抽象层PCMPulseCodeModulation脉冲编码调制RBSPRawByteSequencePayload原始字节序列负载ROIRegionOfInterest感兴趣区域SEISupplementEnhancementInformation补充增强信息SNRSignalNoiseRatio信噪比SODBStringOfDataBits数据比特串SVCScalableVideoCoding可伸缩性视频编码TACTransformAudioCoding变换域音频编码TVcTransformVectorCoding变换域矢量编码VADVoiceActivityDetection语音活动检测VBRVariableBitRate可变比特率VCLVideoCodingI,ayer视频编码层VI。CVariableLengthCoding可变长度编码VQVectorQuantization矢量量化VuIVideoUsabilityInformation视频可用性信息4约定4.1算术运算符算术运算符定义见表1。表1算术运算符定义GB/T25724—2010编号符号说明1+加法运算2减法运算(二元运算符)或取反(一元前缀运算符)3×乘法运算4o卷积运算5z,指数运算,表示z的Y次幂。在不是表示指数的情况下也可表示上标6/除法运算,不做截断或四舍五人7除法运算,不做截断或四舍五入Z8——除法运算,不做截断或四舍五人y9∑,(i)白变量i取由z到y(含y)的所有整数值时,函数,(i)的累加和T2T10,12%Y模运算,z除以Y的余数,其中212与,都是正整数在没有以插入括号来明确指定运算优先次序的情况下,遵守如下规则——乘法和除法运算先于加法和减法运算;——乘法和除法运算从左到右进行;——加法和减法运算从左到右进行。4.2逻辑运算符逻辑运算符定义见表2。
GB/T25724--2010表2逻辑运算符定义编号符号说明1&&逻辑“与”运算2逻辑“或”运算3逻辑“非”运算4z’y:2如果z为真或非0值,则取值为,;否则取值为=4.3关系运算符关系运算符定义见表3。表3关系运算符定义编号符号说明1>大于2>=大于或等于3<小于4<=小于或等于5等于6不等于4.4位运算符位运算符定义见表4。表4位运算符定义编号符号说明按位“与”运算。对整数进行运算时,以整数的二进制补码形式进行操作。如1&果两个二进制运算数中一个位数小于另外一个,则较短的运算数高位加。朴齐按位“或”运算。对整数进行运算时,以整数的二进制补码形式进行操作。如2果两个二进制运算数中一个位数小于另外一个,则较短的运算数高位加。补齐将z以2的补码整数表示的形式向右移Y位。仅当Y取非负数时定义此运3z》Y算。右移运算移入MSB的位应该等于移位运算前z的MSB的值将Y以2的补码整数表示的形式向左移Y位。仅当Y取非负数时定义此运4r《Y算。左移运算移人LSB的位值为04.5赋值运算符赋值运算定义见表5。表5赋值运算定义编号符号说明l赋值运算符2++递增,例如z++相当于z—z+1}当用于数组下标时,在白加运算前先求变量值3递减,例如一相当于z—z一1;当用于数组下标时,在自减运算前先求变量值4J一一自加指定值,例如z+=3相当于z=z+3,z+一(一3)相当于z—z+(~3)5自减指定值.例如z一皇3相当于z—z3.i--一(--3)相当于z—z一(--3)4.6数学函数数学函数计算公式如下12
标准分享网www.bzfxw.com免费下载Abs(z)一j。"。>一o【一x,z<0Ceil(x)取不小于z的最小整数CliplY(x)一Clip3(0,(1<
yz>一yX一OSignb户l一1,z0){non——roi—.skip—.flagu(1)if“non_roi—skip—flag&&svcflag)scalablenonroiskip—flagu(1)pic——init——qP—.forroiu(v)for(i--0;l0){successive—hashpictures—minusl,u(8)signature—.datalength。.minuslu(8)})rbsp—trailing_bits()}5.2.3.2.4补充增强信息RBSP语法补充增强信息RBSP语法见表13。表13补充增强信息RBSP语法表sel—rbsp(){描述符d。sei_message()24
标准分享网www.bzfxw.com免费下载表13(续)GB/T25724--2010sei—rbsp(){描述符while(morerbsp—data())rbsp—trailing—bits()}补充增强信息消息语法见表14。表14补充增强信息消息语法表sei—message(){描述符PayloadType--0while(next—bits(8)一一0xFF){ff—byte/*应等于0xFF*/f(8)PayloadType上一255}last—payload—typebyteu(8)PayloadType+一last—payload—type—bytePayloadSize一0w.hile(next_bits(8)一一OxFF){ffbyte/*应等于OxFF*/f(8)PayloadSizel_一255)last—payload-sizebyteu(8)PayloadSize+一last—payload—size—bytesei—payload(PayloadType,PayloadSize))5.2.3.2.5序列结尾RBSP语法序列结尾RBSP语法见表15。表15序列结尾RBSP语法表end_of-seq_rbsp()(描述符l}5.2.3.2.6流结尾RBSP语法流结尾RBSP语法见表16。表16流结尾RBSP语法表end_of_stream—rbsp(){描述符l}5.2.3.2.7编码条带RBSP语法编码条带RBSP语法见表17。25
GB/T25724—2010表17编码条带RBSP语法表slice—layer—rbsp(){描述符sliceheader()slicedata()rbsptrailing—bits()}5.2.3.2.8RBSP尾比特语法RBSP尾比特语法见表18。表18RBSP尾比特语法表rbsp—trailingbits(){描述符rbsp—stop—onehit/*应等于l*/f(1)while(!byte—aligned())rbsp—alignmentzero—bit/*应等于o*/f(1))5.2.3.2.9填充数据RBSP语法填充数据RBSP语法见表19。表19填充数据RBSP语法表filler—data—rbsp()l描述符while(next—bits(8)一=0xFF)圯byte/*应等于0xFF*/“8)rbsp—trailing—bits())5.2.3.3条带头语法条带头语法见表20。表20条带头语法表sliceheader(){描述符pie——parameterset—.idHe(v)framerlumu(8)if(nal—unit—type:一2nal—unit—type一一4)idr—pie—id、ue(v)tif(!progressive—secLflag){field——pie—.flagu(1)if(field-pic—flag)bottom—.field——flag11(1)firstmbinsliceue(v)slice—typeue(v)
标准分享网www.bzfxw.com免费下载表20(续)GB/T25724—2010sliceheader()f描述符if(!(slicetype==B&&!field—picflag)&&!(slice—type一一I))picture—.refereuce——flagu(11l“!fixed—pic—qp){fixed—sliceqp、u(1)slice—.qP——deltase(v)}if(slice—type!一I&&weighting—pred—flag){slice—.weighting——flagu(1)if(slice—weighting—flag){Ilum——of——references——minuslu(2)for(i一0;i0)intra—.chroma—.pred—.modeue(v)ae(v)if(chroma_format—idc=一2)intra——chroma——pred——mode——422lie(v)ae(v)}if(MbType=一1_4×4)ffor(i一0;l<16;l++){pred——mode——flagu(1)ae(v)if(!pred—mode—flag)intra—.1uma—.pred—.modeu(2)ae(v)}if(ehroma—.format—.idc>O)intra——ehromapred——modeue(v)Iae(v)if(chroma—format_idc一一2)intra—chroma—pred—mode一422,ue(v)ae(v)}if(slice—type=一PI|(slice—type=一B&&field—pic—flag)&&!picture—reference—flag){for(i一0;i0}【MbCBP422>0)&&!fixedsliceqP)mb——qP——deltase(v)ae(v)for(i一0“O)30
标准分享网www.bzfxw.com免费下载表23(续)GB/T25724--2010macroblock—scalable(){描述符ue(v)|ae(v)intra—.chroma—.predmodeif(chroma—format—I“=一2)intra—.chromapred—mode——422ue(v)lae(v)}if(MbType--一14×4){for(i一0;i<16;i++){pred—modeflagu(1)ae(v)if(!pred—mode—flag)intra—.1uma._pred...modeu(2)Iae(v)}if(chroma_format_idC>0)intrachroma—pred-modeue(v)Iae(v)if(chroma—formatidc=一2)intra——chroma—.pred。。mode——422ue(v)Iae(v)}if(slice一.type=一Pl(slicetype=一B&&field—pie—flag)&&!picture_reference—flag){for(i--0;lOMbCBP422>0)&&!fixe’d—sllce—qp)mb—.qp—.deltase(v)|ae(v)for(i一0;l一59&&!entropy_coding—mode_flag)ce(v)escape——level—,diff}while(trans—coefficient!一‘EOB’))else{for(J一0;j<4;j++){if(cbp一4×4[i]&1《j){do{,trans—coefficientce(v)lae(v)if(trans—coefficient>=598L&!entropy—coding—mode—flag)escapelevel—diffee(v))while(trans—coefficient!一‘EOB’))})5.2.3.8监控扩展数据单元语法5.2.3.8.1监控扩展数据单元语法通则监控扩展数据单元语法见表25。32
标准分享网www.bzfxw.com免费下载表25监控扩展数据单元语法表GB/T25724—2010surveillance—extension_rbsp(){描述符while(next_bits(8)!=OxSO){if(next—bits(8)一一Ox01)roi—extension()elseif(next—bits(8)一一Ox02)eventextension()elseill:nextbits(8)一一Ox03)alert_extension()elseif(next—bits(8)一一Ox04)tjmeextension()elsereserved—extension()}survei//ance_extensionstopbytef(8)}5.2.3.8.2感兴趣区域扩展语法感兴趣区域扩展语法见表26。表26感兴趣区域扩展语法表roiextension(){描述符extensionidu(8)extension—lengthu(8)position_idcu(8)cameraidcu(16)reglonhumu(4)reservedbitsf(4)for(i=0;i一Xtl[i3&&x<=Xbr[i]&&Y>一Ytl[i]&&Y<一Ybr[i}){RegionNum=ibreak52
标准分享网www.bzfxw.com免费下载GB/T25724—2010如果RegionNum等于num—roi,宏块位置(x,Y)所属区域为非ROI,否则宏块位置(x,Y)属于由topleft[i]和bottom—right[i]确定的那个ROI。5.3.3.3.3下一个宏块的宏块索引的计算5.3.3.3.3一nuln—roi等于0时下一宏块的宏块索引的计算如果hum—roi等于0,码流中当前宏块的宏块为索引Mbfndex[n],计算下一个宏块的宏块索引Mblndex[n+1]的方法如下:Mblndex[n+1]=Mblndex[n]+15.3.3.3.3.2iiiim—roi大于0时下一宏块的宏块索引的计算如果nHm—roi大于0,计算方法如下:1)计算数组top—left[i]和bottom—right[i]对应的宏块位置(Xtl[i],Ytl[i])和(Xbr[i],YbrEi]),以及first—mb—in—slice对应的宏块位置(x,Y),方法见5.3.3.3.1;2)根据(x,Y)判断当前条带所属区域,方法见5.3.3.3.2;3)如5.3.3.3.3.1所示的计算下一宏块的宏块索引,并计算对应的位置(x’,Y’)及所属区域;4)如果(x’,Y’)和(x,Y)属于同一区域,步骤3)结果即为下一宏块对应的宏块位置,否则回到步骤3)继续计算。5.3.3.3.4宏块解码顺序条带中的宏块解码顺序按下述步骤确定:1)条带解码开始时当前宏块的MbIndex等于first—mb—in—slice;2)如果entropy—coding—mode—flag等于0,则如果mb—skip~run存在,由mb—skip—run解析得到SkipMbCount;否则SkipMbCount等于0。如果SkipMbCount不等于0,则从当前宏块开始的SkipMbCount个宏块的MbType根据条带类型设为P_Skip或B-Skip,这些宏块按照跳过宏块类型进行处理。如果SkipMbCount等于0,则解码当前宏块。如果entropy—coding—mode_flag等于l,则解析mb—skip—flag,如果当前宏块的MbType为P—Skip或B—Skip,则当前宏块按照跳过宏块类型进行处理。如果宏块的MbType不是P—Skip或B—Skip,则解码当前宏块;3)如果条带中还有未解码宏块,则计算下一宏块的索引及位置,回到步骤2)继续解码,否则条带解码结束。5.3.3.4参考图像选择P条带或B条带最多可有两个参考帧或四个参考场,它们应为最临近当前解码图像的参考帧或参考场。P条带最多可有前向的两个参考帧或者四个参考场,一帧图像中后解码的场(底场)中的条带还可参考当前帧的前一场(顶场)。B条带的参考图像为前向及后向的各一个参考帧或者各两个参考场。运动矢量所指的参考样点可能越过参考图像的边界。越过参考图像边界外的整数参考样点应使用图像内距离该整数参考样点所指位置最近的整数样点进行边界扩展获得。对亮度样点矩阵,参考块的样点在水平和垂直方向均不应越过参考图像边界外16个样点。对色度样点矩阵:——如果图像格式为4:2:0,参考块的样点在水平和垂直方向均不应越过参考图像边界外8个样点;——如果图像格式为4:2:2,参考块的样点在水平方向不应越过参考图像边界外8个样点,在垂直方向不应越过参考图像边界外16个样点。参考索引值用于指示条带解码过程中所用到的参考图像,不同的参考图像有不同的参考索引值,参考索引的取值范围为o~3。参考索引值随着参考图像与当前条带所在图像距离(显示顺序)的增加而增加,索引值为0的参考图像与当前条带所在图像的距离最近,索引值为1的图像距离其次,索引值为53
GB/T25724—20103的图像距离最远。两个方向单独排序。参考图像的参考索引值的标记方法及可能的参考图像数number—of—reference的定义如下(见图14):a)如果当前条带为P条带,field—pic—flag等于0,如图14a)所示,number—of—reference可能等于1或2;b)如果当前条带为P条带,field—pic—flag等于1且bottom—field—flag等于0,如图14b)所示,number—of—reference可能等于2或4;c)如果当前条带为P条带,field—pie—flag等于1且bottom—field—flag等于1,如图14e)所示,number—of—reference可能等于1,3或4;d)如果当前条带为B条带,field—pic—flag等于0,如图14d)所示,number—of—reference等于2;e)如果当前条带为B条带,field—pic—flag等于1且bottom—field—flag等于0,如图14e)所示,numberofreference等于4;f)如果当前条带为B条带,field—pie—flag等于1且bottom—field—flag等于1,如图14f)所示,number—of—reference等于4。酣如雕b)雕酣阳d)雕雠e)1)注:图中的数字表示参考索引值,箭头所指的为参考图像。如果其中一个参考图像为IDR图像,则该IDR图像之前的图像不能作为参考图像。当一个帧编码的IDR图像的顶场或底场作为参考场时,顶场被视为IDR图像,底场视为非1DR图像。图14参考图像的选择及索引标记方法5.3.4帧内预测过程5.3.4.18x8亮度块帧内预测模式当前宏块的每一个8×8亮度块采用以下方法确定其预测模式:a)计算当前块预测模式的预测值:1)如果左边块可用并且为帧内预测块,则将左边块的帧内预测模式赋值给intraPredModeA;如果左边块可用但不是帧内预测块,则intraPredModeA等于2;否则intraPredModeA等于1;2)如果上边块可用并且为帧内预测块,则将上边块的帧内预测模式赋值给intraPredModeB;如果上边块可用但不是帧内预测块,则intraPredModeB等于2;否则intraPredModeB等于一1;54
标准分享网www.bzfxw.com免费下载GB/T25724—20103)如果intraPredModeA或intraPredModeB等于一1,则predIntraPredMode等于2;否则predIntraPredMode等于Min(intraPredModeA,intraPredModeB)。b)如果pred—mode—flag的值为l,则预测模式IntraLumaPredMode等于predIntraPredMode;c)如果pred—mode—flag的值为0,并且intra—luma—pred—mode小于predIntraPredMode,则In—traLumaPredMode等于intra—luma—pred—mode;否则IntraLumaPredMode等于intra—luma—predmode加1。确定左边块或上边块是否存在或可用的方法见5.1.3.3。左边块或上边块的帧内预测模式的确定:a)如果左边宏块或上边宏块为I4×4,则以左边或上边8×8块中序号为0的4×4块的预测模式为左边块或上边块的预测模式;b)如果左边宏块或上边宏块为I_8×8,则以左边或上边8×8块的预测模式为左边块或上边块的预测模式。Intra[。umaPredMode的值与亮度块预测模式的关系见表39。表398×8亮度块帧内预测模式IntraLumaPredMode名称OIntra8×8Vertical1Intra8×8Horlzontal2Intra8×8DC3Intra一8×8Down—Left4Intra_8×8一Down_Right注:所示的8×8亮度块帧内预测模式示意见图15。图158×8亮度块帧内预测模式
GB/T25724--20105.3.4.28x8亮度块帧内预测5.3.4.2.1参考样点的获得8X8帧内预测块由其上边和左边的参考样点rEi](i-o⋯16)和cEU(i_o⋯16)来预测(r、c可表示亮度或色度参考样点),见图15,其中rEo]等于cEo]。如果帧内预测需要用到i大于16的上边和左边的参考样点,则r[Q—r[16],c[i]=c[16](i>16)。参考样点的值为去块滤波之前的重建样点值。本条定义8×8帧内预测参考样点获取的具体方法。设当前块所属图像的亮度样点矩阵为I。设当前块左上角样点在当前图像中的坐标为(xo,Y。),其参考样点按以下规则获得:——如果坐标为(X。+i一1,Y。一1)(i=1⋯8)的样点可用,则red(i一1⋯8)等于I[X。+i一1,yo一1],r[i]可用;否则r[i]不可用;——如果坐标为(‰+i1,y。一1)(i一9⋯16)的样点可用,则r[i](i一9⋯16)等于I[X。+i1,y。一1],rEi]可用;否则r[U(i_9⋯16)等于rE8],rEi]是否可用由rE8]是否可用决定;——如果坐标为(‰一l,yo+i一1)(i一1⋯8)的样点可用,则c[U(i一1⋯8)等于I[‰一1,Y。+i一1],cEi]可用;否则c[i]不可用;——如果坐标为(xo一1,yo+i一1)(i_9⋯16)的样点可用,则cB](i=9⋯16)等于[Ix。一1,y0+i一1],ceil可用;否则c[i](i_9⋯16)等于c[8],c[Q是否可用由c[8]是否可用决定;——如果坐标为()【0—1,Y。一1)的样点可用,则r[o]等于IExo—l,Y。1],r[o]可用;否则1)如果rEl]和cD]都可用,则rE0]等于(r[1]+c[1]+1)》1,rE0]可用;否则2)如果r[1]可用并且cD]不可用,则rE0]等于rD],r[o]可用;否则3)如果cD]可用并且rEl]不可用,则r[o]等于c[1],rE0]可用;否则r[o]不可用。5.3.4.2.2帧内预测过程根据IntraLumaPredMode决定8×8亮度块帧内预测模式。各模式的8×8帧内预测过程如下:¨Intra一8X8一Vertical预测(IntraLumaPredMode等于0)当rEi](i一1⋯8)可用时,该模式可使用,此时:predMatrix[x,y]一r[x+1](x,y—o⋯7)b)Intra一8×8Horizontal预测(IntraLumaPredMode等于1)当c[i](i一1⋯8)可用时,该模式可使用,此时:predMatrix[x,y]一cEy+1](x,y—o⋯7).“]ntra一8X8一DC预测(IntraLumaPredMode等于2)1)如果rEi]、c[i](滓o⋯9)都可用,则:predMatrix[x,y]一(((rEx]+2×r[x+1]+r[x+2]+2)》2)+((cEy]+2Xc[y+1]+C[y+2]+2)》2))》1(x,y—o⋯7);否则:2)如果r[j](i—o⋯9)可用,则:predMatrix[x,y]一(r[x]+2×r[x+1]+r[x+2]+2)》2(x,y=O⋯7);否则3)如果cD](i—o⋯9)可用,则predMatrix[x,y]一(c[y]+2×c[y+1]+c[y+2]+2)》2(X,y=O⋯7);否则4)predMatrix[x,y]一1《(BitDepthY--1)(x,y—o⋯7)。d)Intra一8×8一Down_I。eft预测(IntraI。umaPredMode等于3)当rEi]、cEi](i=1⋯16)均可用时,该模式可使用,此时:predMatrix[x,y]一(((r[x+y+1]+2Xr[x+y+2]+r[x+y+3]+2)》2)+((c[x+y+1]+2Xc[x+y+2]+c[x+y+3]+2)》2))》1(x,y=0⋯7)。56
标准分享网www.bzfxw.com免费下载GB/T25724—2010e)Intra一8×8Down—Right预测(IntraLumaPredMode等于4)当r[i]、cEi](i—o⋯8)均可用时,该模式可使用,此时:1)如果x等于Y,predMatrix[x,y]一(c[1]+2×rEO]+r[1]+2)》2(x,y=o⋯7);否则2)如果x大于Y,predMatrix[x,y]一(r[x—y+1]+2×r[x—y]+r[x—y一1]+2)》2(x,Y=O⋯7);否则3)如果Y大于x,predMatrix[x,y]一(c[y—x+1]+2×c[y—x]+c[y—x一1]+2)》2(x,Y一0⋯7)。本过程输出为一个8X8预测亮度样点矩阵predMatrix。5.3.4.34x4亮度块帧内预测模式当前宏块的每一个4×4亮度块采用以下方法确定其预测模式:a)计算当前块预测模式的预测值:1)如果左边块可用并且为帧内预测块,则将左边块的帧内预测模式赋值给intraPredModeA;如果左边块可用但不是帧内预测块,则intraPredModeA等于2;否则intraPredModeA等于一1;2)如果上边块可用并且为帧内预测块,则将上边块的帧内预测模式赋值给intraPredModeB;如果上边块可用但不是帧内预测块,则intraPredModeB等于2;否则intraPredModeB等于一1;3)如果intraPredModeA或intraPredModeB等于一1,则predIntraPredMode等于2;否则predIntraPredMode等于Min(intraPredModeA,intraPredModeB)。b)如果pred—mode—flag的值为1,则预测模式IntraLumaPredMode等于predIntraPredMode;c)如果pred_mode—flag的值为0,并且intra—luma—pred—mode小于predlmraPredMode,则IntraLu—maPredMode等于intra_luma—pred—mode;否则IntraLumaPredMode等于intra—luma—pred—mode加1。确定左边块或上边块是否存在或可用的方法见5.1.3.3。左边块或上边块的帧内预测模式的确定:——如果左边宏块或上边宏块为I4×4,则以左边或上边4×4块的预测模式为左边块或上边块的预测模式;——如果左边宏块或上边宏块为I一8×8,则以左边或上边8×8块的预测模式为左边块或上边块的预测模式。IntraLumaPredMode的值与亮度块预测模式的关系见表40。表404x4亮度块帧内预测模式IntraLumaPredMode名称0Intra4×4VerticallIntra一4×4Horizontal2Intra4×4DC3Intra一4×4一Down—Left4Intra一4×4一Down—Right注:所示的4×4亮度块帧内预测模式示意见图16。
GB/T25724—2010图164×4亮度块帧内预测模式5.3.4.44X4亮度块帧内预测5.3.4.4.1参考样点的获得4×4帧内预测块由其上边和左边的参考样点rill(i—o⋯8)和ceil(i一0⋯8)来预测(r、C表示亮度参考样点),参见图16,其中r[o]等于c[o]。如果帧内预测需要用到i大于8的上边和左边的参考样点,则r[i]=r[8],cO]一cE8](i>S)。参考样点的值为去块滤波之前的重建样点值。本条定义4×4帧内预测参考样点获取的具体方法。设当前块所属的图像的亮度样点矩阵为I。设当前块左上角样点在当前图像中的坐标为(轴,y。),其参考样点按以下规则获得:——如果坐标为(x。+i—i,y。一1)(i一1⋯4)的样点可用,则r[i](i一1⋯4)等于IIx。+i一1,y。一1],r[i]可用;否则rEi]不可用;——如果坐标为(xo+l一1,Y。--I)(i一5⋯8)的样点可用,则r[.](i--5⋯8)等于1[x。+i一1,Y。一1],r[i]可用;否则r[i](i.5⋯8)等于rE4],r[i]是否可用由rE4]是否可用决定;——如果坐标为(x。一1,Y。+i--1)(i一1⋯4)的样点可用,则cEi](i一1⋯4)等于I[x。一I,Y。+i~I],c[i]可用;否则ceil不可用;——如果坐标为(xo一1,yo+i1)(i一5⋯8)的样点可用,则ceil(i--5⋯8)等于l[xo—I,Y。+i一1],c[i]可用{否则cEQ(i_5⋯8)等于c[4],c[i]是否可用由c[4]是否可用决定;——如果坐标为(‰一1,y。一1)的样点可用,则r[o]等于IExo一1,Y。一1],r[o]可用;否则I)如果r[1]和c[1]都可用,则r[o]等于(r[1]+c[1]+1)》1;r[o]可用;否则2)如果rill可用并且c[1]不可用,则r[o]等于r[1];riO]可用;否则3)如果cEL]可用并且r[1]不可用,则r[o]等于c[1];r[o]可用;否则r[o]不可用。5.3.4.4.2帧内预测过程根据IntraLumaPredMode决定4×4亮度块帧内预测模式。各模式的4×4帧内预测过程如下:uIntra一4×4一Vertical预测(IntraLumaPredMode等于0)当r[i](滓1⋯4)可用时,该模式可使用,此时:predMatrix[x,y]一r[x+1](x,y—o⋯3)b)Intra一4×4一Horizontal预测(IntraLumaPredMode等于1)当c[|](i一1⋯4)可用时,该模式可使用,此时:predMatrix[x,y]一c[y+1](x,y—o⋯3)“Intra一4×4一DC预测(IntraLumaPredMode等于2)1)如果r[i]、c[i](i=O⋯5)都可用,则:predMatrix[x,y]一(((r[x]+2×r[x+1]+r[x+2]+2)5>2)+((c[y]+2×c[y+1]+58
标准分享网www.bzfxw.com免费下载GB/T25724—2010c[y+2]+2)》2))》1(x,y—O⋯3);否则2)如果rB](i=O⋯5)可用,则:predMatrix[x,y]=(r[x]+2×r[x+1]+r[x+2]--2)》2(x,y—o⋯3);否则3)如果cEi](i—O⋯5)可用,则:predMatrix[x,y]一(c[y]+2×c[y+1]+c[y+2]+2)》2(x,y--O⋯3);否则4)predMatrix[x,y]一1《(BitDepthY--1)(x,y—o⋯3)。d)Intra4×4一Downj,eft预测(IntraLumaPredMode等于3)当rEi]、ceil(i-1⋯8)均可用时,该模式可使用,此时:predMatrix[x,y]:(((r[x+y+1]+2×r[x+y+2]+r[x+y+3]+2)》2)+((c[x+y+1]+2×c[x+y+2]+c[x+y+3]+2)》2))》l(x,y—o⋯3)。uIntra一4×4一DownRight预测(IntraLumaPredMode等于4)当r[|]、oEi](i—o⋯4)均可用时,该模式可使用,此时:1)如果x等于Y,predMatrix[x,y]一(c[1]+2×r[o]+rEl]+2)》2(x,y—o⋯3);否则2)如果X大于Y,predMatrix[x,y]一(r[x—y+1]+2×r[x—y]+r[x—y—1]+2)》2(X,Y一0⋯3);否则3)如果y大于X,predMatrix[x,y]一(c[y—x+1]+2×c[yx]+c[y—x一1]+2)》2(x,Y一0⋯3)。本过程输出为一个4×4预测亮度样点矩阵predMatrix。5.3.4.5色度块帧内预测模式如果chroma—format—idc不等于0,宏块中顺序号为4和5的色度块的帧内预测模式IntraChromaPredMode等于intra—chroma—pred—mode。如果chroma—format—idc等于2,宏块中顺序号为6和7的色度块的帧内预测模式IntraChromaPredMode等于intra—chromapred—mode一422。tntraChromaPredMode的值与色度块预测模式的关系见表41。表418×8色度块帧内预测模式IntraChromaPredMode名称0IntraChroma—DC1l“t”一Ch‘o“8一Horizo“‘al2IntraChromaVertical3Intra——Chroma—.Plane5.3.4.6色度块帧内预测色度块的帧内预测块由其上边和左边的参考样点r[i](i--o⋯16)和cD](i—o⋯16)来预测,参见图15,其中r[o]等于c[o],参考样点的值为去块滤波前的重建样点值。色度块参考样点的获取方法与亮度块相同(见5.3.4.2.1),与亮度块帧内预测不同之处在于r、c表示色度参考样点。根据IntraChro—maPredMode决定8×8色度块帧内预测模式。各模式的8×8帧内预测过程如下:“Intra—Chroma—DC预测(IntraChromaPredMode等于o)1)如果rEi]、cEi](i--0⋯9)都可用,则:predMatrix[x,y]一(((rEx]+2×r[x+1]+r[x+2]+2)》2)+((cEy]+2×c[y+1]+C[y+2]+2)》2))》1(X,y—o⋯7);否则2)如果rEi](i—o⋯9)可用,则:predMatrix[x,y]一(r[x]+2×r[x+1]+r[x+2]+2)》2(x,Y—o⋯7);59
GB/T25724--2010否则3)如果c[i](i一0⋯9)可用,则:predMatrix[x,y]一(c[y]+2×c[y+1]+c[y-}-2]+2)》2(X,y—o⋯7);否则4)predMatrix[x,y]一1《(BitDepthC--1)(x,y—o⋯7)。”IntraChromaHorizontal预测(IntraChromaPredMode等于1)当c[i](i-1.。8)可用时,该模式可使用,此时:predMatrix[x,y]一c[y+1](x,y—o⋯7)。c)IntraChromaVertical预测(IntraChromaPredMode等于2)当r[i](i-1⋯8)可用时,该模式可使用,此时:predMatrix[x,y]=r[x+1j(X,y一0⋯7)。d)Intra—Chroma—Plane预测(IntraChromaPredMode等于3)当rD]、cEil(i=0⋯8)均可用时,该模式可使用,此时:predMatrix[x,y]=Clipl((ia+(x一3)×ib+(y一3)×ic+16)》5)(X,y—o⋯7)。其中,ia一(r[8]+c[8])《4,ib=(17×ih+16)》5,ic=(17×iv+16)》5,3ih--∑(i+1)×(r[5+i]--r[3一i]),iv=∑(i+1)×(eE5+i]一c[3i])。i--0z一0本过程输出为一个8×8预测色度样点矩阵predMatrix。5.3.5帧间预测过程5.3.5.1概述当解码P、B类型的宏块时,调用本过程。本过程的输出为当前宏块的帧问预测样点矩阵predMatrix,包含一个16×16亮度矩阵predI,,如果chroma—format—idc不等于0,还包含相应的色度样点矩阵predCb及predCr,分别对应色度分量Cb和Cr。5.3.5.2运动矢量5.3.5.2.1BlockDistance的计算方法块的距离索引Distancefndex定义如下:DistanceIndex等于所属图像的CurrPicCnt值。当前块(属于当前图像)和它的运动矢量所指向的参考块(属于参考图像)之间的距离BlockDistanee计算如下:——如果参考块在当前块之前(显示顺序),.Bt6ckDistance等于当前块的Distancdndex减去参考块的DistanceIndex的差加上512的和模512;——如果参考块在当前块之后(显示顺序),BlockDistance等于参考块的DistanceIndex减去当前块的DistanceIndex的差加上512的和模512。5.3.5.2.2亮度运动矢量预测设图11中块A、B、C、D的原始运动矢量或转换后的运动矢量为mvA、mvB、mvC、mvD,对应的BloekDistance为BlockDistanceA、Bl。ckDistanceB、BlockDistaneeC、Bl。ckDistanceD,对应的参考索引为referencerndexA、referenceIndexB、refereneeIndexC、referencefndexD。——如果A不可用或者采用帧内预测模式,或者与当前块E没有同一预测方向的运动矢量,mvA为零矢量,BlockDistanceA等于1,A的参考索引值为一1;——如果B不可用或者采用帧内预测模式,或者与当前块E没有同一预测方向的运动矢量,mvB为零矢量,BloekDistanceB等于1,B的参考索引值为一1;‘——如果D不可用或者采用帧内预测模式,或者与当前块E没有同一预测方向的运动矢量,mvD为零矢量,BlockDistanceD等于1,D的参考索引值为一1;
标准分享网www.bzfxw.com免费下载GB/T25724—2010—一如果c不可用,那么mvC等于mvD,BlockDistanceC等于B10ckDistanceD,c的参考索引值等于D的参考索引值;——如果C采用帧内预测模式,或者与当前块E没有同一预测方向的运动矢量,mvC为零矢量,BlockDistanceC等于1,C的参考索引值为1。当前块E的运动矢量预测值MVEPred计算过程如下:第一步,如果A、B和C三者中只有一个块x的参考索引值不为一1,那么MVEPred等于mvX(X为A、B或c);否则进行第二步。第二步,如果E所在宏块按16×8或8×16模式编码,计算过程如下(见图17):图178×16或16×8模式预测a)8×16模式:1)E为左块:如果A和E的参考索引值相同,MVEPred等于mvA;否则进行第三步;2)E为右块:如果c和E的参考索引值相同,MVEPred等于mvC;否则进行第三步。b)16×8模式:1)E为上块:如果B和E的参考索引值相同,MVEPred等于mvB;否则进行第三步;2)E为下块:如果A和E的参考索引值相同,MVEPred等于mvA;否则进行第三步。第三步,首先根据BlockDistanceA,BlockDistanceB,BlockDistanceC,BlockDistanceE对mvA(mvA—X,mvA。y)’mvB(mvB—x.mvB—Y)’mvC(mvC—x.mvC—Y)进行缩放,得到MVA(MVA—X,MVAy),MVB(MVB_x,MVBy),MVC(MVC_x,MVC_y),然后计算MVEPred。MVAX—Sign(mvAx)×((Abs(mvAx)×BlockDistanceE×Floor(512/BlockDistanccA)+256)》9)MVA—y=Sign(mvAy+deltl)×((Abs(mvA—Y+deltl)×B10ckDlstanceE×Floor(512/BlockDistanceA)+Z56)》9)delt2MVBx—Sign(mvBx)×((Abs(mvBx)×BlockDistanceE×Floor(512/BlockDistanceB)+256)》9)MVB—Y—Sign(mvB—Y+deltl)×((Atbs(mvB—Y+deltl)×BlockDistanceE×Floor(512/BlockDistanceB)+256)》9)一delt2MVCx=Sign(mvCx)×((Abs(mvCx)×BlockDistanceE×Floor(512/BlockDistanceC)+256)》9)MVC—Y—Sign(mvC—Y+deltl)×((Abs(mvC—y+deltl)×BlockDistanceE×Floor(512/BlockDistanceC)+256)》9)一delt2其中BlockDistanceE为当前块E对应的BlockDistance。deltl和delt2按照以下方式决定:a)如果field—pic—flag的值为1,则,1)如果当前块所在的场为顶场,并且mvX(X为A、B或c)指向的场为底场,则deltl一2;2)如果当前块所在的场为底场,并且mvX(X为A、B或c)指向的场为顶场,则deltl一2;3)如果当前块所在的场为顶场,并且mvX(X为A、B或c)指向的场为顶场,则deltl一0;4)如果当前块所在的场为底场,并且mvX(X为A、B或c)指向的场为底场,则deltl一0;5)如果当前块所在的场为顶场,并且MVX(X为A、B或c)指向的场为底场,则delt2—2;61
GB肛三鎏Ieltl=0del"t2;鬟O。◆,羹舞然鬈蒜x1焉裟嚣孺销然b“帆增18,
标准分享网www.bzfxw.com免费下载c)GB/T25724—2010圈1,t中标记为o6
GB/T25724—2010图像,且mvE=MVEPred;b)如果当前宏块类型为BSkip或B—Direct一16×16,或当前块类型为SB~Direct一8×8,对每个8×8块分别进行以下步骤:第一步:1)如果后向参考图像中与当前8×8块的左上角样点位置对应的样点所在的编码宏块类型为I_8×8或I一4×4,则当前块的前后向参考图像均为缺省参考图像,即图14中标记为0的图像,该块的前后向运动矢量为根据5.3.5.2.2得到的当前块所在宏块(5.3.5.2.2中块E为当前块所在宏块)的前后向运动矢量预测值。2)否则,如果当前块所在条带的field—pic—flag等于0,——当前块的前后向参考图像均为缺省参考图像,即图14d)中标记为0的图像,其前后向距离索引分别为DistancelndexFw和DistanceIndexBw;当前块的前后向BlockDistance分别为BlockDistanceFw和BlockDistanceBw;——在后向参考图像中与当前块的左上角样点位置对应的样点所在的编码块的运动矢量为mvRef(mvRef-x,mvRef_y),该编码块的距离索引为DistanceIndexc。1,该运动矢量指向的参考块的距离索引为DistanceIndexRef。3)否则,如果当前块所在图像的field—pic—flag等于1,——在后向参考图像中与当前块的左上角样点位置对应的样点所在的编码块的运动矢量为mvRef(mvReCx,mvRef-y),该编码块的距离索引为DistanceIndexCol,该运动矢量指向的参考块的距离索引为DistanceIndexRef;——当前块的前向参考索引为0和1的参考场中的参考块的距离索引分别为DistanceIndexFw0和DistancelndexFwl。如果DistancelndexRef等于DistancefndexFw0,则当前块的前向参考索引为0,DistancefndexFw等于DistancelndexFw0;否则当前块的前向参考索引为1,DistancelndexFw等于DistaneeIndexFwl;——当前块的后向参考索引为0和1的参考场中的参考块的距离索引分别为Distan—celndexBw0和DistanceIndexBwl。如果当前块所在条带的bottomfieldflag等于0,则当前块的后向参考场为参考索引标记为0的场,DistanceIndexBw等于DistancelndexBw0;否则当前块的后向参考场为参考索引标记为1的场,DistanceIndexBw等于DistanceIndexBwl。第二步:1)BlockDistanceRef一(DistancelndexCol—DistanceIndexRef+512)%512当前块的距离索引为DistanceIndexCur,则:BlockDistanceFw一(DistanceIndexCurDistanceIndexFw+512)%512BloekDistanceBw一(DistanceIndexBw—DistanceIndexCur+512)%5122)如果当前块所在图像的field—pic—flag等于0,并且后向参考图像的field—pic—flag等于1,则mvRef—Y—mvRef—Y×2;3)如果当前块所在图像的field—pic—flag等于1,并且后向参考图像的field—pic—flag等于0,则mvRef—y—Sign(mvRef—y)×Floor(Abs(mvRef—y)/2)。第三步:1)当前块的前向运动矢量mvFw(mvFw—x,mvFw—y)为:——如果mvRef-x小于0,则mvFw—x一((Floor(16384/BlockDistanceRef)×(1mvRefX×BlockDistanceFw)1)》14);否则mvFw—x一(Floor(16384/BlockDistanceRef)×(1+mvRef_xXBlockDistaneeFw)1)》14;——如果(mvRef—Y+deltl)小于0,则mvFw—y一((Floor(16384/B10ckDistanceRef)×
标准分享网www.bzfxw.com免费下载(1(mvRefy+deBl)×BlockDistanceFw)1)》14)一delt2;否则mvFw—y一((Floor(16384/BlockDistanceRef)×(1一(mvRefY+deltl)×BlockDistanceFw)1)》14)delt2。deltl、delt2的值见53522,mvRef相当于53522中的mvX.mvFw相当于53522中的Mvx。2)当前块的后向运动矢量mvBw(mvBw:“mvBwyl为:——如果mvRefx小于0,则mvBwx=(Floor(16384/BkckDlst⋯eRef)×(1mvRefx×BlockDistanceBw)1)》14;否则mvBwx=((Floor(16384/BIockI)1stanceR“/×(1+⋯Ref×BlockDistanceBw)1)》14);——如果(mvRef—y+deltl川、于0-则mvBwY一((Floor(16384/BlockDlsIanceR“)×(1(mvRef—y+deltl)×BlockDistanceBw)1)》14)delt2;否则mvBwY一/(Floor(163847BlockDistanceRef)×(1一(mvRefY+deltl)×BlockDistanceBw)1)》14)delt2。deltl、delt2的值见53522,mvRcf相当于53522中的mvX,mvBw相当于63522中的MVX。c)如果当前块类型为对称模式.运动矢昔按照下面定义的方法导出:前向参考索引由比特流中的mbreferenceindex解码得到。如果fieldpicflag等于0,则后向参考索引与前向参考索引相等;否则.后向参考索引等于1减去前向参考索引。对称模式块的前向运动矢量mvFw按照53523的方法得到,当前块的后向运动父量mvBw(mvBwx.mvBw—y)为:mvBw一((mvFwx×BIockDistanceBw×Floor(512/BlockI)lstanceFw)f-256)》9)mvBw一(((mvFwY+deltl)×BlockDistanccBw×Floor(512,/BlockDistanceFw)+266)》9)delt2其中deltl、delt2的值见53522.mvFw相当于53522中的mvX,mvBw相当丁53522中的MVX。5353参考样点的导出过程53531亮度样点插值过程首先对亮度进行二分之一样点和四分之一样点的插值,然后根据运动矢量得到相应的参考样点。如果插值过程中所参考的整数样点在参考图像外,应通过参考图像的边界扩展获得。围20给出r参考图像中整数样点、二分之一样点和四分之一样点的位置,其中用大写字母标记的为整数样点位置,用小写字母标记的为二分之一和四分之样点位置。口困圆曰口圜圉回■●■回曰■回口田囤口口图20整数样点、二分之一样点和四分之一样点的位置二分之一样点位置的预测值通过4抽头滤波器F,(⋯155,1)ll算得到。131分之样点位置的颅测值通过4抽头滤波器F。(1,7,7,1)计算得到。
GB/T25724--2010二分之一样点的计算过程如下:a)二分之一样点b:首先用F。对水平方向上最近的4个整数样点滤波,得到中间值b’一(C+5D+5E—F);最终的预测值b—Clipl((b’+4)》3);b)二分之一样点h:首先用F,对垂直方向上最近的4个整数样点滤波,得到中间值h’一(一A+5D+5H—K);最终的预测值h—Clipl((h’+4)》3);c)二分之一样点j:首先用F。在水平或垂直方向上对最近的4个二分之一样点中间值滤波,得到中间值j7一(一bb’+5h‘+5m’一CC7),或者j’=(一aa’+5b’+5s’一dd’)。其中aa7,dd7和S’为相应位置二分之一样点中间值(用F。在水平方向滤波得到),bb7,CC’和in7为相应位置二分之一样点中间值(用F,在垂直方向滤波得到)。最终的预测值j—Clipl((j’+32)》6),采用水平方向或垂直方向滤波得到的值相同。四分之一样点的计算过程如下:a)四分之一样点a:首先用F:在水平方向上对ee’,D『,b’和d四个值滤波,得到中间值a’一(ee’+7D’+7b’+E7);最终的预测值a=Clipl((a’+64)557)。其中ee’和b’为相应位置二分之一样点中间值,∥和E,为相应位置整数样点放大8倍的值。四分之一样点C的插值过程与a的插值过程相同;b)四分之一样点d:首先用—碰直方向上对ff’,D7,h7和H’四个值滤波,得到中间值d’一(ff’+7D’+7h7+H’);最终的预测值d—Clipl((d’+64)》7)。其中ff’和h7为相应位置二分之一样点中间值,D’和H’为相应位置整数样点放大8倍的值。四分之一样点n的插值过程与d的插值过程相同;c)四分之一样点i:首先用F。在水平方向上对gg7,h”,j7和1TI”四个值滤波,得到中间值i’一(gg’+7h”+7j’+12"1”);最终的预测值i=Clipl((i’+512)》10)。其中gg’和j‘为相应位置二分之一中间值,h”和m”为相应位置二分之一样点中间值放大8倍的值。四分之一样点k的插值过程与i的插值过程相同;d)四分之一样点f:首先用F。在垂直方向上对hh’,b”,j’和s”四个值滤波,得到中间值f’一(hh’+7b”+7j’+s『,);最终的预测值f_Clipl((f7+512)》1o)。其中hh7和j’为相应位置二分之一中间值,b”和∥为相应位置二分之一样点中间值放大8倍的值。四分之一样点q的插值过程与f的插值过程相同;e)四分之一样点e,g,P和r:I)e=Clipl((d’+i7+64)》7);2)g—Clipl((E”+{7+64)》7);3)p=Clipl((H”+j7+64)》7);4)r—Clipl((I”+{’+64)》7)。其中D”,E”,H”和I”为相应位置整数样点放大64倍的值,j7为相应位置二分之一样点中间值。图20中当前亮度块E的左上角整样点位置为(x,y),预测样点矩阵的元素predMatrix[x,y]根据表42赋值,表42中xFracL等于mvE的水平分量mvE_x&3,yFraeL等于rove的垂直分量mvE_y&3。表42预测样点矩阵元素xFracL01230yFracL01230123O1230123OpredMatrix[-x,y]DdhpbfJqgkD5.3.5.3.2色度样点插值过程色度样点插值使用与对应亮度块的运动矢量mvE(mvE的水平分量为mvE—x,垂直分量为mvE二y)对66
标准分享网www.bzfxw.com免费下载GB/T25724—2010应的运动矢量mvC。mvc的水平分量为mvC_x,垂直分量为mvC_y,单位为八分之一样点,mvC的范围应符合5.3.3.4的规定。如果chromaformat_idc等于1,则mvCx的值等于mvE_x,mvCy的值等于rovE_y;如果chroma_format—idc等于2,则mvCx的值等于mvE—x,mvCy的值等于mvE—y×2。色度样点插值如图21所示,其中A,B,C,D为距离被插值样点最近的整数样点值,dx与dy分别为预测样点与A的水平和垂直距离,dx等于mvC—X&7,dy等于mvC—Y&7。dydx8一d18一d”图21八分之一色度插值预测样点矩阵的元素predMatrix[x,y]根据下式计算:predMatrixEx,y3一Clipl(((8一dx)×(8一dy)×A+dxX(8一dv×D+32)》6)5.3.5.3.3加权预测如果条带层或宏块层语法指示宏块使用了加权预测,在如5.3矩阵后调用本过程。dy)×B+(8一dx)×(dyXC+dx×5.3.1和5.3.5.3.2得到预测样点亮度样点加权预测如下:predMatrix[x,y3--Clipl(((predMatrix[x,y]×luma—scale+16)》”+luma—shift)色度样点加权预测如下:predMatrix[x,y]=Clipl(((predMatrix[x,y3×chroma—scale+16)》”+chroma—shift)5.3.6变换系数解码过程以及图像重建过程5.3.6.1概述本条所述过程在去块滤波过程之前进行,包括块解码,逆扫描,反量化,反变换和重建。块解码的输入为块中连续的语法元素trans"_coefficient,输出为数组QuantcoeffArray。逆扫描的输入为由块解码生成的数组QuantCoeffArray,输出为量化系数矩阵QuantCoeffMatrix。反量化的输入为量化系数矩阵QuantCoeffMatrix,当前宏块的量化参数QPY,输出为反量化后的变换系数矩阵CoeffMatrix。反变换的输入为4×4或8×8变换系数矩阵CoeffMatrix,输出为4×4或8×4残差样点矩阵Res—idueMatrix。重建过程的输入为残差样点矩阵ResidueMatrix和预测样点矩阵predMatrix,输出为重建样点矩阵RecMatrix。5.3.6.2块解码利用trans—coefficient生成Run数组和Level数组的过程如下:——如果entropy—coding—mode—flag等于0,a)Run数组和Level数组的地址索引等于0;b)解析trans—coefficient,方法参见5.4.2.3;c)如果trans—coefficient小于59:67
GB/T25724--20101)如果CurrentVLCTahle中包含此trans—coefficient值的索引项,则以trans—coefficient为索引查CurrentVLCTable,得到Level值和Run值,把它们分别放入Level数组和Run数组;2)如果CurrentVLCTable中不包含此transcoefficient值的索引项,则以(trans—coefficient一1)为索引查CurrentVLCTable,得到Level值和Run值,并将Level值符号取反后放入Level数组,将Run值放入Run数组;3)Run数组和Level数组的地址加1,更新CurrentVLCTable,解析下一个transcoefficient及Level值和Run值;d)如果trans—coefficient大于或等于59:1)run等于Floor((trans—coefficient一59)/2),将run放人Run数组;2)由CurrentVLCTable查表F.20得到MaxRun,如果run大于MaxRun,RefAbsLevel等于1;否则以run为索引查CurrentVLCTable得到RefAbsLevel;3)如果trans—coefficient是奇数,将一(RefAbsLevel+escape—level—diff)放人Level数组;否则,将(RefAbsLevel+eseape—level—diff)放入Level数组;4)Run数组和Level数组的地址加1,更新CurrentVLCTable,解析下一个trans—coefficient及Level值和Run值;e)如果trans—coefficient等于EOB,Run数组和Level数组的解码结束。——如果entropycoding_mode_flag等于1,a)Run数组和Level数组的地址索引等于0;b)通过解析trans—coefficient得到AbsLevel,如果为该块的第一个AbsLevel,则AbsLevel—AbsLevel+1:c)如果AbsLevel不等于0:1)level等于AbsLevei;2)通过解析trans—coefficient得到coeffSign,如果coeffSign为0,将level放入Level数组;如果coeffSign为1,将一level放入Level数组;3)通过解析trans—coefficient得到RunVal,将RunVal放人Run数组;4)Level数组和Run数组的地址加1,解析下一个trans—coefficient;d)如果AbsLevel等于0,Run数组和Level数组的解码结束(ggtrans_coefficient等于EOB)。由Level数组和Run数组生成数组QuajtcoeffArray的步骤如下:~—将QuantCoeffArray数组的所有元素初始化为0;——将非0量化系数的值赋给QuantcoeffArray数组中相应的元素。定义j和coeffNum,令j等于Run数组或Level数组中最后一个赋值元素的地址索引,coeffNum等于一1,并有,while(j>一0)』coeffNum+一(Run[门+1)QuantCoeffArrayEcoeffNum]一Level[j]j--)5.3.6.3逆扫描设QuantcoeffArray数组中某元素的地址为k,通过逆扫描找到值为k的单元对应的列号i和行号j,然后将QuantcoeffArray[k]赋给QuantCoeffMatrix[i,j]。根据帧场的不同,块大小的不同,扫描方式定义如图22。68
标准分享网www.bzfxw.com免费下载012345676l134223817253031l1844534233239455452233556062l475056748495"I58a)8X8帧扫描l234567311323855l62533425727152l2843583101927314759430364450581741485269182940546271323345663b)8×8场扫描1235611223839101415c)4×4帧扫描图228X8块和4X4块的逆扫描GB/T25724—20169
GB/T25724—2010O123o812l6g13236lO14315Jd)4×4场扫描图22(续)5.3.6.4系数反■化5.3.6.4.1■化参数亮度量化参数QPY的取值范围应在O~(55十(BitDepthY--8)×7)。亮度块的量化参数QPY由码流中计算得到(见5.2.4.7)。色度块的量化参数QPC以QPY为索引查表43得到。在表43中,QPl一CLIP3(一(BitDepthY--8)×7,55,QPY一(BitDepthY--8)×7),QPC=QP2+(BitDepthC--8)×7。表43色度块的QPC与QPY的映射关系QPl<31313233343536373839404142QP2QPl3132333435363738QPl43444546474849505152535455QP238394041425.3.6.4.24x4反■化本条定义根据量化参数QP(QPY或QPC)将4×4量化系数矩阵QuantCoeffMatrix转换为4×4变换系数矩阵CoeffMatrix的过程。其中,量化系数的取值应在一22+81tD2m“~(22”“”“一1)范围内。变换系数矩阵CoeffMatrix的元素w.,由下式得到:vcj:一QuantCoeffMatrix[i,j]×iqcoeff4[QP%7,i,j]<“ps一一ctx2>mps){predMps=ctxl——、mps09
标准分享网www.bzfxw.com免费下载lgPmps—Floor((ctxl一)lgPmps+ctx2)lgPmps)/2)}else{if(ctxl一>lgPmpslmpslgPmps=1023一((ctx2}else{predMps—ctx2>mpsIgPmps一1023((ctxl)}else{predMps=ctx一)mpslgPmps=ctx一>lpPmps)19Pmps—ctxl一>lpPmps)》1)>19P“ps—ctx2)lgPmps)》1)}if(rTl>一(19Pmps>>2)){rS2一rSlrT2一rTl(19Pmps>>2)sFlag一0}else{rS2一rSl+1rT2—256+rTl(19Pmps>>2)sFlag一1)if(rS2>valueSl(rS2一一valueS8L&valueT)一rT2))binVal=!predMpsif(sFlag=一O)tRlps=lgPmps>>2elsetRlps—rTl+(19Pmps>>2)if(rS2一一valueS)valueT—valueT——rT2elsevalueT=(valueT<>2)){rS2一rSlrT2一rTl一(19Pmps>>2)。.一sFlag=0)else{rS2一rSl+1rT2—256+rTl(19Pmps>)2)sFlag=1)if(rS2)v“ueSII(rS2一一valueS&&valueT>一rT2)){binVal--!predMpsif(sFlag=一0)tRlps—lgPmps≥>2elsetRlps—rTl+(19Pmps)>2)94
标准分享网www.bzfxw.com免费下载if(rS2一一valueS)valueT—valueT—rT2elsevalueT一(valueT《1)while(tRlps>2)){rS2一rSlrT2一rTl一(19Pmps>>2)sFlag一0)else{rS2一rSl+1rT2—2560rTl——(19Pmps>>2)sFlag一1}if(rS2>valueSI(rS2=一valueS&&valueT)一rT2)){binVal一!predMps95
GB/T25724—2010if(sFlag一一0)tRlps—lgPmps>>2elsetRips—rTl+(19Pmps>>2)if(rS2=一valueS)valueT—valueT—rT2elsevalueT一(valueT《1)}readbits(1)rT2while(tRlps<0x100){tRlps—tRlps<raps){jffctx>cycno<--2)ctx=ctx-->cycno+1else96
标准分享网www.bzfxw.com免费下载GB/T25724—2010ctx一3elseif(ctx一>cycno--一0)ctx一)cycno—lif(binVaI==ctx一>raps)ctx一>lgPmps=ctx一)19Pmps一(ctx一>lgPmps>>cwr)一(ctx一)lgPmps》(cwr+2))else{switch(cwr){case3:ctx)lgPmps—ctx>19Pmps+197breakease4:ctx一>lgPmps=ctx一)lgPmps+95breakdefault:Ctx一>IgPrnps=ctx一>lgPmps+46}if(ctx>lgPmps>1023){ctx)19Pmps一2047ctx)lgPmpsctx)nips一!(ctx)mps)}return(ctx)}6音频部分6.1总体描述6.1.1模拟信号和数字信号之间转换模拟信号和数字信号之间的转换描述如下:a)模拟信号到数字线性PCM信号转换:——麦克风;——输人电平调节设备;——抗混叠滤波器;——采样保持设备,采样频率为16kHz、24kHz、32kHz和48kHz;——模拟信号转换为16比特数字线性PCM,采用二进制补码表示。b)数字线性PCM信号到模拟信号转换:——16比特数字线性PCM信号转换为模拟信号;——转换保持设备;——补偿重建滤波器;——输出电平调节设备;——耳机或喇叭。6.1.2编解码框架的描述图25和图26给出了音频编码器和解码器框图。
GB/T25724—2010l升巾甲。’但棚甘l鲍对时间生成器l绝对时问信息编码参数控制声源方位检测器l声源定向信息码音频油m音频码流流复用l采样频率IJ重建PcM;音师解码;一16/24/⋯32/48kHzI转换厂j⋯⋯i一陀”I;16kHz鼻≯到特群目瓣刊嚣P麴流图25音频编码器框图—旦竺旦竺—一音频解码I~“㈣ul::::::::{===:::::⋯⋯⋯‘:;采样频率转换{预测编码薯::::谢照鬻需要解j{特征参数提取j信号特征复用I码流异常事件信息绝对时间信息声源定向信息图26音频解码器框图在编码器端,输入声音信号首先经过异常事件检测器,如果检测到异常(比如尖叫声、枪声、爆炸声等),将检测结果传递给编码参数控制模块,编码参数控制模块将根据检测到的事件的重要性设置音频编码器的编码参数,以实现变质量音频编码。音频编码器低频和高频用不同的方法进行编码,低频使用基于ACELP和TAC切换的双核编码器进行编码,高频用相当少的比特进行BWE编码。识别特征参数编码提供两种编码模式:直接编码模式和预测编码模式。直接编码模式直接对提取识别特征参数进行矢量量化;而预测编码模式则需要对音频编码器的码流进行解码得到重建信号,重建信号和原始信号分别提取识别特征参数,使用重建信号识别特征参数作为原始信号识别特征参数的预测,最后对预测残差进行矢量量化。如果输人信号采样频率不是16kHz,则输入信号先经过采样频率转换模块,转换为16kHz采样的信号,再进行识别特征参数提取。对于预测编码模式,由于重建信号和原始信号之间存在一定的延迟,为了保证所提取的识别特征参数在时间上对应关系,需要经过同步模块同步。最后音频码流、识别特征参数码流、异常事件信息、声源定向信息和绝对时间信息复用成一路码流。在解码器端,先进行解复用以得到音频码流、识别特征参数码流、异常事件信息、声源定向信息和绝对时间信息。然后音频解码器直接解码输出重建音频信号;识别特征参数解码器从码流中解码出识别特征参数,如果当前编码模式是直接编码模式,则解码得到的就是最终的识别特征参数;如果当前解码模式是预测编码模式,则解码得到的是识别特征参数的残差,需对音频解码器输出的重建信号,先经过采样频率转换模块,转换为16kHz采样的信号,再提取识别特征参数作为预测值,最后这两部分相加98
标准分享网www.bzfxw.com免费下载GB/T25724—2010就得到了最终的识别特征参数。6.1.3音频编解码描述图27给出了双核音频编码器流程图。输入音频信号首先经过预处理,分成两个频带,分别是低频信号和高频信号,采样频率都是Fs/2。然后低频信号使用基于ACELP和TAC切换的双核编码器,ACEI。P是基于时域预测编码技术,适合语音信号和瞬态信号,TAC是基于变换域编码技术,更适合音乐信号和稳态信号。高频信号使用BWE进行编码。最后将低频参数、高频参数和编码模式信息复用成一路码流。图28给出了双核音频解码器流程图。首先通过码流解复用,得到低频参数、高频参数和编码模式信息。然后低频参数通过ACELP和TAC双核解码,高频参数通过BWE解码。解码后低频信号和高频信号通过后处理恢复成全带信号。输入信号刊辈}预处理复用低频信号ACELP;和TACl低频参数双核编码图27双核音频编码器流程图甜入码流匙BWl翌(—)I模式———]■—一解复用后处理’—呼l产核解码I图28双核音频解码器流程图6.1.4识别特征参数编码描述图29给出了识别特征参数编码框图,整个框架主要分为两个模块:特征提取和特征压缩。16kHz采样频率的宽带语音信号先进行去直流偏置,噪声消除,波形预处理,再进行倒谱计算,最后对得到的倒谱特征进行去信道干扰的均衡处理。VAD模块检测语音帧和非语音帧,输出1比特的VAD标志位,同识别特征参数合并压缩,具体VAD算法描述参见附录I。识别特征参数选取的是13维MFCC系数和一个对数能量系数,构成一个14维的特征矢量。特征提取时帧长为25ms(16kHz采样频率下400个样本),帧移为10ms(16kHz采样频率下160个样本)。特征压缩模块使用矢量量化对特征矢量或残差矢量进行量化。16kHz信号回特征提取去直流ll噪声ll波形ll倒谱lI去信道偏置一消除一预处理H计算H干扰。荽誓黥H复用F兰燮图29识别特征参数编码框图识别特征参数编码提供两种编码模式:直接编码模式和预测编码模式。直接编码模式直接对提取特征进行矢量量化;而预测编码模式则需要对音频编码器的码流进行解码得到重建信号,重建信号和原99
GB/T25724—2010始信号分别提取识别特征参数,使用重建信号识别特征参数作为原始信号识别特征参数的预测,最后对预测残差进行矢量量化。详细编码过程见6.2.6。6.2编码器功能描述6.2.1预处理6.2.1.1采样频率转换音频信号的输入采样频率有16kHz、24kHz、32kHz和48kHz,需要将各种不同采样频率的输入信号在编码之前的预处理中进行重采样,转换为内部采样频率Fs。同理,在解码的后处理中同样需要采样频率转换。6.2.1.2低频信号和高频信号分解采样频率为F5的输入信号通过截止频率在Fs/4的低通滤波器,再作2倍I临界下采样,得到Fs/2采样低频信号2C。.,(n);同样,经过截止频率在Fs/4的高通滤波器,再作2倍临界下采样,得到Fs/2采样高频信号zHF(n),见图30。XHF(月)L/2样本XLF(月)L/2样本L——音频超帧长度。图30低频和高频信号分解框图6.2.1.3低频信号高通滤波低频信号经过高通滤波器,目的是为了滤掉不需要的低频成分。高通滤波器的传递函数如下:Hhlcz)--篙警等簪⋯⋯⋯⋯⋯⋯㈩式中的滤波器系数取决于采样频率。6.2.2低频信号编码概述6.2.2.1ACELP和TAC双核编码Fs/2频率采样的低频信号(O~Fs/4频带)使用基于ACEI。P和TAC切换的双核编码器。ACELP属于时域预测的编码技术,适合语音信号和瞬态信号编码。TAC属于变换域的编码技术,更适合典型的音乐信号和稳态信号编码,本标准采用了其电一种称为TVC的变换域编码技术。6.2.2.2ACELP和TVC的时间图ACELP和TVc双核编码的输入是按Fs/2频率采样的单声道信号,以连续256个采样点组成一帧进行处理。每帧可采用两种模式编码,采用哪一种取决于信号特征,见图31所示。在ACELP模式中,采用ACELP核编码。在Tvc模式中,采用TVC核编码,由于Tvc是变换编码技术,需要加上下一帧的前32个样本用于帧重叠。[至亘至塑[]j.............................上Tvc(256+32样本)■————————Tl堕望.一⋯j.§2挂查图31帧类型的时间图
标准分享网www.bzfxw.com免费下载GB/T25724—20106.2.2.3ACELP和TVC的闭环模式选择音频帧首先使用多种模式分别编码,然后选择最好的模式。选择的标准是加权信号z。(”)和合成加权信号主。(”)间的分段信噪比均值。子帧的分段信噪比公式如下:Nlf∑z:(”)segSNR;=20logl。{矿L1∑(z。(")一j。(n))2n=0式中:N子帧长度(64个样点)。每帧分段信噪比均值计算公式如下:面一瓦1霎wssNR(2)(3)式中:NsF——音频帧中子帧的数目,本标准规定N。的值是4。6。2.3ACELP编码6.2.3.1预加重输入到ACELP核编码的信号,通过一阶的预加重滤波器H—h(z),见6.2.3.3。6.2.3.2LP分析和量化6.2.3.2.1线性预测分析线性预测分析是用16阶线性预测器作短时分析,采用莱文逊一杜宾(Levinson—Durbin)算法进行线性预测系数求解,对每帧分析一次得到一组线性预测系数。线性预测系数在编码前要先转化为ISF系数,然后再进行量化。LP合成滤波器的传递函数如下:H(。)一_三一一———}A(z)1+∑二:z‘i=1式中:i。——量化后的线性预测系数,m一16是预测阶数。(4)LP分析首先用384个样本的非对称窗加权预加重后的信号s(”),计算自相关系数,用莱文逊杜宾算法求LP系数,然后转换为ISP系数并在ISP域插值,最后转到ISF域量化。384个样本的I。P分析帧结构如图32.所示,其中256个样本来自第”帧,64个样本来自第—1帧,64个样本来自第”+1帧。第n帧分析窗与第n一1帧分析窗有128个样本的重叠。因此LP分析需要前瞻64个样本。t=__’■■—_—_‘’’’’’—’’’’。’’’’1’一l|{÷“t《¨第《爿截_好桴带+一_+I|;。摹一赣癸簿鬻一。1第n帧图32线性预测分析帧结构图6.2.3.2.2加窗和自相关函数的计算分析窗采用重心在第四个子帧的非对称窗,该窗由两部分组成,第一部分是半个海明(Hamming)窗.第二部分是1/4余弦窗,公式为:
GB/T25724—2010|054--0.46cos(磊),n-o,⋯,L。一-b(料),n乩,⋯山+Lz一,式中:LI=256,L2—128。设加窗后信号为57(n),则有51(”)一Ⅶ(”)5(n)”一0,⋯,383⋯⋯⋯⋯⋯⋯⋯⋯⋯”式中:w(")——加窗函数;s(n)——预加重后的信号。s’(n)对应的自相关函数为r(^)一∑s7(n)5t(n—E),k—o,⋯,16⋯⋯⋯⋯⋯⋯⋯·然后用滞后窗Wh(i)乘自相关函数使其具有60Hz的带宽扩展,滞后窗w·。。(i)的表达式为州归唧[_专(等)2],i=1,"--,16⋯⋯⋯⋯⋯式中:f。=60Hz——扩展的带宽;f;一12.8kHz——采样频率。另外r(o)乘以白噪声校正因子1.0001。最后得到修正后的自相关函数r7(^):r’(^)-11.00)0klr((^0)),,一k=,⋯Or(kWk1,16I)l。。(惫),一,⋯,(9)6.2.3.2.3用莱文逊一杜宾算法求解LP系数用修正后的自相关函数r7(女)求解线性预测系数nt,^一1,⋯,16,即求解下述方程组:¨∑Ⅱkr*(Ii—kI)一一r’(i),i一1,⋯,16⋯⋯⋯⋯⋯⋯⋯“(10)^=1该方程组可用莱文逊杜宾算法求解,算法计算步骤如下:E(O)一r’(O);,0r(i一1;i<一16;++i)f.,k:一一[r7(i)+∑nflrr(i一』)]/E(iJ一【n;。一k。;如r(j一1;j<一i一1;+十J){ay—n;“’+k,a与”;)E(i)一(1一联)E(i一1);}最后得到线性预测系数n,=n;“’,j一1,⋯,16。线性预测系数转化成ISP系数,以便于量化和内插。6.2.3.2.4LP系数转换为ISP系数对于16阶线性预测器来说,ISP系数就是下面这组多项式的根1025678(U(D
标准分享网www.bzfxw.com免费下载GB/T25724—2010F7】(#)一A(z)+g_16A(z’1)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯(12)F72(#)一A(z)一g_16A(z_)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯(13)多项式F7,(z)和F’z(z)分别为对称和反对称多项式。它们的根在单位圆上,而且相互交替出现。其中F7z(z)有两个根分别为z—l(w0)和z一一1(m一Ⅱ)。为了消除这两个根,定义两个新的多项式记作F1(z)和F2(z):Fl(z)一F’l(z)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯(14)F2(z)一F"2(z)/(1一r2)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯(15)多项式F。(z)和F。(z)分别有8个和7个共轭复根在单位圆上(e“一),由下面的式子表示:F。(z)一(1+Ⅱ。。)Ⅱ(1—2q;z1+z2)⋯⋯⋯⋯⋯⋯⋯⋯(16)i--0.2,.14Fz(2)一(1一“,s)II(12q,z1+z2)⋯⋯⋯⋯⋯⋯⋯⋯(17)i--1.3,.13式中:ql——IsP系数,q,一cos(co:),i—O,⋯,15;叫,一一ISF系数,ISF系数满足顺序特性,即O<甜。<Ⅲ。<⋯<甜,。<Ⅱ;‰——最后一阶线性预测系数,q-s--am由下面递推关系得到F,(z)和Fz(z)多项式的系数f,(i)和^(z):如r(i一0;i<一7;_+i){f1(i)一n,+a⋯;f2(i)一a。一n一,+^(i2)}fl(8)=2a8;(18)式中:m一16——预测器阶数;fz(2)一fz(1)一0。ISP系数的求解过程描述如下:首先将0到n初分成100点,找到符号变化的区间。然后使用切比雪夫多项式法在每个区间求根,符号变换的区问进一步细分为4个子区间。使用这个方法得到的根是ISP系数。多项式F。(z)和F。(z)在z—em处可表示为F1(∞)一2e’‰C1(z)和F2(甜)一2emC2(z)⋯⋯⋯⋯⋯⋯⋯⋯(19)76C,(z)一∑(,,(i)11s:(z)+ft(8)/2)和Cz(z)一∑(,2(i)Ts-i(z)+f。(7)/2)⋯⋯(20)i=0i--0式中:L—cos(mu)——切比雪夫多项式第m个根。多项式c(z)在z—cos(oJ)处的递归计算如下:如r(^=”,一1;^<一1;一^)b女一2曲H1一bk+2+,(”,一^);⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯(21)C(z)一曲l—b2+f(nr)/2;对于多项式C。(z),”,=8;对于多项式Cz(z),”,一7;迭代初始值b。,一f(O)和b。,,。一0。6.2.3.2.5ISP系数转换为LP系数一旦ISP系数被量化和内插,将被再次转回到LP系数。具体转换过程如下:】03
GB/T25724—2010根据已量化和内插的ISP系数,用公式(16)、(17)求F,(z)和F。(£)的系数,用q:一c。s(∞。)一o,⋯,m1(其中m—16)迭代计算系数,。(i):如r(i一2:i<一m/2;++i)f,l(2)一~2q2,2f1(i一1)+2f。(i一2);如r(J=i一1;j<一2;一J),-(,)一f·(j)~2qz,zf-(j一1)+f。(J2)fl(1)一f1(1)2q2H;(22)式中:初始值f。(0)=1,f。(1)一--2q。。同理,计算,z(0,只是需要用q一。代替公式(22)中的q。。,用m/21代替m/2,初始值变为,2(O)一1,f2(1)=~29l。求出f·(i),z一0,⋯,m/2和f。(i),i一0,⋯,Ⅲ/21即得到F,(z)和F:(£)的系数,F。(z)再乘以1~z_2就得到F:(z)。那么Fj(z)和F:(z)多项式的系数一(i)和疋(i)为:,72(i)一^(i)一^(i一2),i一2,⋯.m/2~1厂。(£)一^(i),i=0,⋯,m/2F:(z)和F:(z)分别乘以1+%,和1一‰。,多项式系数最终变为:(23),72(i)一(1~q—1)厂2(i),i一0,⋯,m/2~1,’l(i)一(1+qH),,l(i),净0,⋯,m/2⋯⋯⋯⋯⋯⋯(24)由于F;(z)和F:(z)分别是对称和反对称多项式,根据关系式A(z)=(F,l(z)+F:(。))/2,最后得到LP系数:2=1,⋯,m/21i—m/2+1,⋯,m一1Fm/2⋯⋯⋯⋯”(25)ISP系数在量化之前先要转换为频域的ISF系数。ISF系数表达式为i=0,⋯,14i一15式中:,,∈[o,6.4]kHz——IsF系数;,,=12.8kHz——采样频率。ISF矢量表示为f7一[^,fj’.“,/。。],t表示矢量的转置。用一阶MA预测法,先求出当前帧的ISF预测残差矢量,然后量化ISF预测残差矢量。定义2(n)为去均值后的当前帧1SF矢量。预测残差矢量为r(n),其表达式为:式中:isf。——第n帧的ISF矢量inean—is,~—ISF矢量均值;104£(n)一zs,。一meanisfr(")一z(n)一由(n)(26)(27)(28)Z£2广,50h+一化n0m;,,,,m吼吼之;f、●●●●●●●,【||化啦量的数系PS62to2^))qg“9OC”Ma^磊f石f、.....【一,
标准分享网www.bzfxw.com免费下载p(H)——第”帧的预测ISF矢量。由一阶MA预测法得到:户(”)一ili(N1)GB/T25724—2010(29)式中:i(”1)——前一帧量化后的ISF残差矢量。为了利用ISF系数的帧内相关性,将16个ISF残差系数(矢量VQl)按照其索引号的奇偶顺序分为两组,如下所示:分组1:TCS—isfo,TeS—i5,2,TeS—is^,Tesisf6’Te5一isf8,Te5一zs,⋯FCSj5,12,Tes—i,f14分组21Tes—isfl,Te5曲^,Tes—isfj,TeS—isf”Tes—is,9,TCS—isf⋯Tesisf⋯Te5一曲,lj将TeS—isfo,TeSi,f2,TeS—is,4三个系数组成子矢量v硷2.Tesi,f6"Te5一is,8,TCS—isflo三个系数组成子矢量vQ3,分别对vQ2和vQ3进行矢量量化,vQ2矢量量化需要10比特,vQ3矢量量化需要9比特:VQ2一{Fes—i,f”Tesisf2,Tesisf4)和vQ3一{ms—isf6,Te$一i,f8,Tes—i,f1。}⋯⋯(30)量化采用的误差准则为均方量化误差准则,见下式:E:∑(Ⅲ一isf,Tes—isf?)2量化得到对应的最佳量化矢量为vQ72和vQ73:VQ’2一{TeS—isf:,TeS—isf!,TeS—isf;}和vQ73一{Tes—isf;,Tes—zs,;,ms一曲凡,)⋯⋯(32)利用vQ72的Te5一is一和Tes—is月对vQl的Tesisf。系数进行预测,并计算相应的残差TeS—is,’,。Te$如,∥”‘一0+d。×Te5一£5,;+&×resjs厂!⋯、TeSisf?1一Tes—i,f1一Ms—isf:““1式中:目——ISF系数均值;a。,岛——预测系数。将矢量VQl中的Tes—isf。Yes—i,f,。和r“一is,,,组成子矢量VQ4,并对矢量VQ4进行矢量量化,得到对应的最佳量化矢量VQ’4,VQ4矢量量化需要9比特:VQ4VQ’4(34)至此16维矢量VQl中已经有下列ISF残差系数进行了矢量量化:量化前:Tesisfo,Te5一isf¨TeS—isf4,Te5一i,f6,r“一isfs,Te5一i,flo,Tes—isfl2’Tes—isfl^,Te$一isfl量化后:Tes—is月,TeS—zs朋,re5一is力,TeS—is月,r¨一zs门,Te5is力o。Te5一z5门2,Tes—is门4,r“一is门剩余的七个未量化ISF残差系数组成子矢量VQ5,利用上述量化的1SF残差系数对VQ5进行预测,并计算相应的残差子矢量VQ6:撑s—zs,∥”‘一Oi+卧.1×Tesisf},+肛㈩×坩s一曲,斗1,i一3,5,7,9,ll,13⋯、Tes—isf’:一Tes—isf,一Ms—isf∥”’,i=3,5,7,9,11,13式中:TeSis,∥“——第i个ISF残差系数的预测值;TCS—isf"i——第i个ISF残差系数与其预测值的残差;.目。——IsF系数均值;∞,和岛+,——预测系数。将VQ6分为如下两个矢量:05∥町』,一Ⅲi;三^叮S£”|耋,2^玎iZ—i|耋l兰
GB/T25724—2010VQ7={ms—isfj,M5一isf:,Ms—isf¨.VQ8一{ms—isf;,ms—isf"11,t"eS—isf"13,Yes—isfl5)对VQ7矢量和VrQ8矢量分别进行矢量量化,VQ7需要9比特量化,VQ8需要9比特量化。对16维1SF残差系数进行矢量量化总共需要的比特数:VOe需要10比特,№3需要9比特,VQ4需要9比特,VQ7需要9比特,VQ8需要9比特。总共需要46比特。6.2.3.2.7ISP系数的插值定义q“’是第n帧LP分析得到的ISP矢量,q“。’是第n一1帧LP分析得到的ISP矢量。每个子帧的ISP矢量ql“插值如下:讲⋯q∥q妒q≯得到每个子帧的ISP系数后,再将ISP系数转换为I.P系数得到每个子帧的I。P滤波器。上面的插值公式既用于量化前的ISP系数,也用于量化后的ISP系数。6.2.3.3感知加权对信号进行感知加权滤波处理,感知加权处理后的输出信号用于后续处理环节。感知加权滤波器形式如下:盹,一瓮络(37)(38)式中:y】一0.92;H⋯。(z)——预加重滤波器。当信号的高频能量小于低频能量时,进行高频预加重滤波,用来提升信号的高频部分,预加重滤波器形式为:H⋯hh。(z)=1一“12⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯(39)当信号的低频能量小于高频能量时,进行低频预加重滤波,用来提升信号的低频部分,预加重滤波器形式为:H。⋯hj。(z)=1+Ⅳ29⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯(40)预加重滤波器系数u。取0.68,m取0.18。在高频预加重和低频预加重模式切换时,为了避免出现切换噪声,需要进行过渡平滑。具体为将预加重滤波器的系数在一定范围内渐次平滑过渡到另一模式。此外,编码器端需要编码1比特预加重模式信息,以告诉解码器感知加权滤波器中预加重采用的模式。规定此标志位为0时,表示高频预加重,为1时,表示低频预加重。解码时使用逆感知加权滤波器,逆感知加权滤波器形式如下:H⋯h(z)A(2/y1)(41)6.2.3.4ACELP激励编码6.2.3.4.1开环基音搜索.6.2.3.4.1.1自相关函数序列的计算开环基音搜索每两个子帧估计一次基音周期。进行开环基音搜索是为了估计出一个比较准确的基音周期,从而降低闭环基音周期搜索的复杂度。开环基音周期搜索基于感知加权后的信号进行分析。加权信号s,(”)在进行基音周期搜索之前,先使用四阶FIR滤波器H。。。。(z)进行滤波,然后再进行2倍下采样处理,得到信号s。。(”)进行开环基音周期搜索。】06如㈨的4q9吼灌叽+c)+圹,『矿∽矿弘幻∞iOq
标准分享网www.bzfxw.com免费下载GB/T25724—2010归一化的自相关函数,计算如下:63∑5“(n)Swd("一c/eln∥)corr7一—_二二n二--二O二二二二二二============--⋯⋯⋯⋯⋯⋯⋯.(42)f63./∑‰。(n)∑Swd2(n—c/el“y)Vn=0㈣式中:s“(”)——感知加权域中降采样信号;dezny——基音周期候选值,搜索范围同内部采样频率F。相关,当F。一25.6kHz时,范围为19~115;COTr4——对应于该候选值的自相关函数。为了降低复杂度,计算corF—sign(mrr7)×COYV7×COTr’代替公式(42)中自相关函数,其中sign(corr+)代表corr’的符号。对于每个基音周期候选值,计算自相关函数值,然后从中选取最多六个满足以下关系的基音周期候选值:a)该候选值对应的自相关函数值大于前一个候选值对应的自相关函数值,并且大于后一个候选值对应的自相关函数值;b)对于满足条件a)的基音周期候选值,选取其对应自相关函数最大的最多六个值(若出现自相关函数值相同,则候选值较小的优先)按其对应的自相关函数值从大到小排列保存,并保存其对应的基音周期候选值序列。由以上两个条件确定有序自相关函数序列maxcorr[6]以及对应基音周期候选值序列peakposE6]。6.2.3.4.1.2基音周期全局参考确定引入基音周期全局参考global—pitch进行辅助判断,使基音周期具有平滑性。基音周期全局参考确定方法如图33所示,具体描述如下:利用6.2.3.4.1.1确定的基音周期候选值序列peakpos[6J以及自相关函数序列maxcorr[6]。首先选择与前帧的基音周期全局参考接近的基音周期候选值,对其相应的自相关函数值乘以1.2进行加权。重新排列基音周期候选值序列pm^pos[6]以及自相关函数序列maxcorr[6]。然后对peakposE6J以及maxcorr[6]消除基音周期加倍。倍周期的消除采用的是固定加权方法,其目的是找出一个最佳基音周期候选值,算法为:a)设定最佳的基音周期候选值为自相关函数最大值对应的基音周期候选值。考察基音周期候选序列,对每一个基音周期候选值,选择一个自相关函数值的缩放因子。根据基音周期候选值的大小来选择缩放因子,当基音周期候选值大于阈值25时,选择缩放因子为1.2;否则,选择缩放因子为1.1l;b)比较该基音周期候选值对应的自相关函数值与自相关函数值序列中的最大值和缩放因子的比值,若同时满足:1)当前考虑的基音周期候选值小于当前最佳的基音周期;2)当前基音周期候选值对应的自相关函数值大于自相关函数序列中的最大值和缩放因子的比值。则设定基音周期最佳候选值为当前的基音周期候选值。如此循环,直至基音周期候选值序列中的每一个基音周期候选值计算完成;c)判断自相关函数序列中的最大值对应的基音周期候选值是否为当前最佳基音周期候选值的加倍。若是,保持当前的基音周期最佳候选值;否则,设定自相关函数序列中最大值对应的基音周期候选值作为最佳基音周期候选值。得到了最佳基音周期候选值后,要进行可靠的基音周期全局参考确定。确定基音周期全局参考的107
GB/T25724—2010算法为:a)满足以下四个条件之一,即可确定可靠的基音周期参考:1)基音周期候选值序列中,自相关函数最大值并不是最佳基音周期候选对应的自相关函数值的加倍,并且最佳的基音周期候选值同当前的基音周期全局参考(延续前一帧)的差值绝对值小于8;2)自相关函数序列中的最大值与其他值的比值均大于1.7i3)基音周期候选值序列中存在基音周期候选值为最佳基音周期候选值的加倍;4)当前的基音周期全局参考(延续前一帧)是当前最佳基音周期候选值的加倍,并且自相关函数的最大值要大于阈值0.36。b)如果当前帧能确定可靠的基音周期参考,则为新的基音周期全局参考;否则,当前帧要延续前一帧的基音周期全局参考。如果满足以下三个条件之一,则强制基音周期全局参考为0:1)自相关函数最大值小于O.15;2)保持基音周期全局参考的帧数超过2帧;3)弱自相关函数的帧数超过1帧。开始结束图33基音周期全局参考确定流程6.2.3.4.1.3基音周期最终确定在确定基音周期时候,利用自相关函数序列以及其对应的基音周期候选序列,将分三种情况确定最终的基音周期,具体方法见图34所示:
标准分享网www.bzfxw.com免费下载开始GB/T25724—2010结束图34,,基音周期确定流程a)基音周期最佳候选值与基音周期全局参考的差值的绝对值小于5,并且基音周期全局参考大于12。此时直接输出最佳基音周期值作为基音周期。b)最大自相关函数值小于阈值0.15。语音段信号的相关程度比较小,不易判断出明显的基音周期。当前的基音周期搜索没有实际意义,只是为闭环基音搜索提供一个最大程度去除长时相关性的参考。因而直接输出自相关函数最大值对应的基音周期搜索候选值作为基音周期。c)无法明显判断基音周期。引入一个基音周期确定参考值(trkp),该值用来对最后的基音周期的确定起到参考的作用,该值确定的步骤如下:1)若基音周期全局参考非零,trkp值设定为基音周期的全局参考;2)否则,若前一帧基音周期确定值非零,则trkp值设定为前一帧基音周期确定值。3)否则,trkp值设定为上一个不为0的基音周期全局参考。若上一个不为0的基音周期全109
GB/T25724~2010局参考保持超过3帧,则trkp值强制为0。利用上述的条件确定的trkp值,对整个基音周期候选序列进行搜索。找到基音周期候选值最接近trkp的一个值,将其对应的自相关函数加倍,并重新排序自相关函数值。最后将自相关函数最大的基音周期候选值作为基音周期输出。6,2.3.4.2脉冲响应计算脉冲响应是指感知加权合成滤波器[见式(43)]的脉冲响应^(n)。脉冲响应每个子帧计算一次,将滤波器A(z/7,)的系数用零扩展后,通过滤波器1/A(z)和滤波器1/H。mph(z)得到脉冲响应^(n)。H(z)w(z)一蕊A孤(z‘/y1而)⋯⋯⋯⋯⋯⋯‘(43)6.2.3.4.3目标信号计算目标信号z(n)定义为加权信号S,(”)与感知加权合成滤波器H(z)w(#)零输入响应^o的差,即:_r(n)一S。(n)一so⋯⋯⋯⋯⋯⋯-⋯⋯⋯~(44)6.2.3.4.4自适应码书6.2.3.4.4.1闭环基音周期搜索闭环基音搜索的准则是使原始信号和重建信号之间加权均方误差最小,即使R(k)最大,见式(45)。yz(")yl(")R(是)√蚤,l“)式中:z(n)——目标信号;Y+(n)——延时k的滤波激励(即过去激励与^(")的卷积,Y^(n)=^(”)@exc(n--k))。搜索范围限制在开环基音搜索值附近,对于第一和第三子帧,使用相应开环基音值L附近的值,而对于第二和第四子帧,使用前一子帧分数延时T,的整数部分一oor(T-)附近的值。先计算搜索范围的第一个延时t。。。的卷积Y*(n),对其他整数延时k—f⋯+1,⋯,£⋯用下面式(46)递归计算:Y^(n)一YH(n一1)+口c(--k)h(n),n一0,⋯,63⋯⋯⋯⋯⋯⋯(46)式中:exc(n),n一一(23l+17),⋯,63——激励缓冲器的值;Yk—l(一1)一0。在搜索阶段exc(n),n--O,⋯,63是未知的j而且只有基音延迟小于64才需要,为使搜索简单化,将LP残差存入exc(n)使公式(46)对所有延迟都有效。确定最佳整数闭环延时后,则在最佳整数闭环延时附近按1/4样本分辨率搜索分数基音延时。内插归一化系数R(^),并搜索其最大值得到的分数基音周期。搜索使用的FIR插值滤波器为海明窗sinc函数,截断在±15处,滤波器的截止频率(一3dB)为5.063kHz。确定分数基音延时后,在其对应的整数延时女和小数延时t处内插过去的激励e.72c(n)来计算自适应码书激励U(”):15口(n)一只(ea-c(nk—i)664(£+4i)+时c(nk+1+z)664(4(i+1)一£)),z=0n一0.⋯.63t一0,⋯,3⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯(47)式中:内插滤波器b。;——海明窗sinc函数,截断在±63处,滤波器的截止频率(一3dB)为6.016kHz。6.2.3.4.4.2白适应码书激励的滤波由于宽带信号的周期性不一定会扩展到高频部分,所以为了改善宽带信号下自适应码书的性能,需110
标准分享网www.bzfxw.com免费下载GB/T25724--2010要对自适应码书激励信号进行滤波。首先,对式(47)计算得到的自适应码书激励。(n)做低通滤波得到其低频部分7j_low(n),其计算过程如下:u—low(")一∑6(^)口(n一^),n—o,⋯,63k—l式中:6(一1)=6(1)一0.26,b(O)一0.48。崎然后,计算自适应码书激励v(”)的高频部分v_high(n)u—high(n)一u(n)一v_low(n)计算LP残差信号r(n):(48)r(”)=s(”)十∑二15(”一2),n=o,⋯,63⋯⋯⋯⋯⋯⋯(50)F1式中:s(n)——经过预加重的信号;二。——量化的线性预测系数。计算LP残差信号r(n)与自适应码书激励v(n)的高频部分73_high(n)的互相关fOYF:63∑r(n)×v_high(n)月=0r日————————1r———————一√p㈤×。v_hi∥㈤(51)比较互相关COVr与给定阈值a一0.19的大小,并计算自适应码书增益:a)若corr>a,则最终的自适应码书激励信号为v(”);令加权合成信号为synth(”),则有synth(n)一^(n)p”(n),此时增益g。为(其中z(n)为目标信号):63>:z(n)Xsynth(n)gp一211r——————一⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯(52)ysyn矾2(n)Ⅲb)若c。rr≤a,则最终的自适应码书激励信号为u—low(n);令加权合成信号为synth7(”),则有synth’(n)一^(n)勖一low(n)。此时增益大小g。为:63只士(n)Xsy”th7(”)g。一5‰—————一⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯(53)∑(synth7(n))2n一0自适应码书增益g。范围为Eo,1.23,对于一些特殊的相关性很强的信号(例如,正弦信号),需要限制g。范围在[o,0.95],以保证LP滤波器的稳定。通过检测每帧量化前的ISF系数之间的最小距离小于60Hz,来保证LP滤波器的稳定。如果检测到LP滤波器可能处于不稳定状态,则限制g。不超过0.95,以防止滤波器发散。在编码码流中使用1比特来标识自适应码书激励信号是否使用低通滤波。6.2.3.4.5代数码书6.2.3.4.5.1代数码书结构代数码书结构采用的是正负交错脉冲设计。每个子帧的64个样本位置被分为4个轨道,每个轨道16个位置。每个轨道的脉冲个数由对应的码率所决定,具体码书结构见表63所示。
GB/T25724—2010表63代数码书结构轨道位置10,4,8,12,16,20,24,28,32,36,40,44,48,52。56,6021,5,9,13,17,21,25,29,33,37,41,45,49,53,57,6132,6,10,14,18,22,26,30,34,38,42,46,50,54,58,6243,7,11,15,19,23,27,31,35,39,43,47,51,55,59,636.2.3.4.5.210.8kbps模式10.8kbps模式下,代数码书矢量有4个脉冲,每个脉冲的幅度为+1或1。每个子帧的64个位置被分为4个轨道,每个轨道包含1个脉冲,见表64所示(脉冲Pi的序号i表示搜索顺序)。表6410.8kbos代数码书脉冲结构轨道脉冲位置1Poo,4,8,12,16,20,24,28,32,36,40,44,48,52,56,602P1l,5,9,13,17,2l,25,29,33,37,41,45,49,53,57,613P22,6,10,14,18,22,26,30,34,38,42,46,50。54,58,624P33,7,11,15,19,23,27,31,35,39,43,47,51,55,59,63每个轨道中1个脉冲的位置需要4比特编码,脉冲符号用1比特编码,4个脉冲总共需要4×(4+1)=20比特。6.2.3.4.5,312.4kbos模式12.4kbps模式下,代数码书矢量有6个脉冲,每个脉冲的幅度为+1或一1。每个子帧的64个位置被分为4个轨道,其中轨道1和轨道2各包含2个脉冲,其余轨道各包含1个脉冲,见表65所示。表6512.4kbps代数码书脉冲结构轨道脉冲位置1P0.P10,4,8,12,16,20,24,28,32,36,40,44,48,52,56,602P2,P31,5,9,13,17,21,25,29,33,37,41,45,49,53,57,613P42,6,10,14,18,22,26,30,34,38,42,46.50,54,58,624P53,7,¨,15,19,23,27,31,35,39,43,47,51,55,59,63轨道1和轨道2中各有2个脉冲,各需要2×4+1—9比特。轨道3和轨道4中各有1个脉冲,各需要4+1—5比特,6个脉冲总共需要2×9+2×5—28比特。6.2.3.4.5.414.0kbps模式14.0kbps模式下,代数码书矢量有8个脉冲,每个脉冲的幅度为+1或1。每个子帧的64个位置被分为4个轨道,每个轨道各包含2个脉冲,见表66所示。表6614.0kbps代数码书脉冲结构轨道脉冲位置lP0,P10,4,8,12,16,20,24,28,32,36,40,44,48,52,56,602P2.P31,5,9,13,17,21,25,29,33,37,41,45,49,53,57,6l3P4,P52,6,10,14,18,22,26,30,34,38,42。46,50,54,58,624P6,P73,7,11,15,19,23,27,31,35,39,43,47,51,55,59,63每个轨道中2个脉冲共需要9比特编码,8个脉冲总共需要4×9=36比特。
标准分享网www.bzfxw.com免费下载CB/T25724m20106.2.3.4.5.515.6kbps模式15.6kbps模式下,代数码书矢量有lo个脉冲,每个脉冲的幅度为+1或1。每个子帧的64个位置被分为4个轨道,其中轨道1和轨道2各包含3个脉冲,轨道3和轨道4各包含2个脉冲,见表67所示。表6715.6kbos代数码书脉冲结构轨道脉冲位置1P0,P1,P20,4,8,12,16,20,24,28,32,36,40,44,48,52,56,602P3,P4.P51.5。9,13,17,21,25,29,33,37,41,45,49,53,57,613P6.P72,6,10,14,18,22,26,30,34,38,42,46,50,54,58,624P8,P93,7,11,15,19.23,27,3l,35,39,43,47,51,55,59,63轨道1和轨道2中各有3个脉冲,各需要13比特编码,轨道3和轨道4中各有2个脉冲,各需要9比特,10个脉冲总共需要2×13+2×9—44比特。6.2.3.4.5.617.2kbos模式17.2kbps模式下,代数码书矢量有12个脉冲,每个脉冲的幅度为+l或一1。每个子帧的64个位置被分为4个轨道,每个轨道各包含3个脉冲,见表68所示。表6817.2kbps代数码书脉冲结构轨道脉冲位置1P0,P1,P20,4,8,12,16,20,24,28,32,36,40,44,48,52,56,602P3.P4.P51,5,9,13,17,21,25,29,33,37,41,45,49,53,57,613P6,P7.P82,6,10,14,】8.22。26,30,34,38,42,46.50,54,58,624P9.P10.P113,7,11,15,19,23,27,31,35,39,43,47。51,55,59,63每个轨道中3个脉冲各需要13比特编码,12个脉冲总共需要4×13=52比特。6.2.3.4.5.719.6kbps模式19.6kbps模式下,代数码书矢量有16个脉冲,每个脉冲的幅度为+1或一1。每个子帧的64个位置被分为4个轨道,每个轨道各包含4个脉冲,见表69所示。表6919.6,kbps代数码书脉冲结构轨道脉冲位置lP0.P1.P2,P30。4,8,12,16,20,24,28,32,36,40,44,48,52,’56,602P4.P5.P6.P71,5,9。13,17,21.25,29,33,37,41,45,49,53,57,613P8.P9。P10,P112.6,10,14,18,22。26,30,34.38,42,46,50,54,58,624P12.P13.P14.P153,7,1l,15,19,23,27.31,35,39,43.47,51,55,59,63每个轨道各有4个脉冲,各需要16比特编码,16个脉冲总共需要4x16—64比特。6.2.3.4.5.821.2kbOs模式21.2kbps模式下,代数码书矢量有18个脉冲,每个脉冲的幅度为+l或一1。每个子帧的64个位置被分为4个轨道,其中轨道1和轨道2各包含5个脉冲,轨道3和轨道4各包含4个脉冲,见表70所示。
GB/T25724—2010表7021.2kbps代数码书脉冲结构轨道脉冲位置1PO,PI,P2,P3,P4o,4,8,12,16,20,24,28,32,36,40。44,48,52.56,602P5,P6,P7.P8。P91,5,9,13,17,21,25,29,33,37,41,45,49,53,57,6l3P10,P11,P12,P132,6,10,14,18,22.26.30,34,38.42,46,50,54,58,624P14,P15,P16,P173,7,11,15,19,23,27,31,35.39,43,47,51,55,59,63轨道1和轨道2中各有5个脉冲,各需要20比特编码,轨道3和轨道4中各有4个脉冲,各需要16比特,18个脉冲总共需要2×20+2×16—72比特。6.2.3.4.5.924.4kbps模式24.4kbps模式下,代数码书矢量有24个脉冲,每个脉冲的幅度为+1或1。每个子帧的64个位置被分为4个轨道,每个轨道各包含6个脉冲,见表71所示。表7124.4kbos代数码书脉冲结构轨道脉冲位置1P0,P1,P2,P3,P4,P50,4,8,12,16,20,24,28,32,36,40,44,48,52,56,602P6,P7,.P8,P9,P10,P111,5,9,13,17,21,25,29,33,37,41,45,49,53,57,613P12,P13,P14,P15,P16,P172,6,10,14,18,22,26,30,34,38,42,46,50,54,58,624P18,P19,P20,P21,P22,P233,7,11,15,19,23,27,31,35,39,43,47,51,55,59,63每个轨道各有6个脉冲,各需要22比特编码,24个脉冲总共需要4×22—88比特。6.2.3.4.6代数码书搜索前的预滤波为提高合成信号质量,增强特定的频谱成分,在代数码书搜索前使用了预滤波器。该滤波器由两部分组成,一个是周期增强部分1/(1—0.85z_T)(T表示基音延时的整数部分),用来增强合成信号的谐波结构;另一个是频谱倾斜部分,同6.2.3.1中预加重滤波器有关。如果预加重滤波器为高频预加重,则频谱倾斜滤波器为(1一o.3z_1);如果预加重滤波器为低频预加重,则频谱倾斜滤波器为(1+o.321)。6.2.3.4.7代数码书搜索代数码书搜索是按子帧进行,其搜索准则是使加权的输入信号和加权的合成信号之间的均方误差最小。搜索前需要对自适应码书闭环搜索中使用的目标矢量进行更新,具体方法是将原来的目标矢量减去自适应码书的贡献:z’o(n)一z∥e秆)一g。y1(n)⋯⋯⋯。⋯⋯-。⋯。。。⋯⋯(54)式中:z7。(”)——更新后的用于代数码书搜索的目标矢量;z。(n)——用于自适应码书闭环搜索的第一级目标矢量;g。——未量化的自适应码书增益;y-(n)一v(n)固h(n)——自适应码矢量与感知加权合成滤波器脉冲响应的卷积。令g。表示未量化的代数码书增益,y。(n)一c(”)o^(n)表示代数码书矢量与感知加权合成滤波器脉冲响应的卷积,则使如下平方误差:}1一∑[z。(”)一gcy:(”)]2月。0式中:N——子帧长度。最小的g。为(通过e对g。的偏导数为零得到);(55)
标准分享网www.bzfxw.com免费下载N1Ⅳ_,[∑z。7(”)y:(n)]2emin一∑z。“(”)一』生丽——一一∑y;(”)H=oGB/T25724—2010(56)(57)选择使‰.最小的代数码书激励矢量,即选择使公式(57)右边第二项最大的代数码书激励矢量作为合成信号的最佳激励。若索引为k的代数码书激励矢量为ct,将式(57)右边第二项转换为矩阵形式:("r。“Hck)2ftH‘Hck(d‘‘k)2ct蠹‘(Rk)2Ek式中:d—Hk7。——目标矢量T。’(n)和脉冲响应^(”)的互相关;西一H‘H——^(”)的自相关矩阵。矢量d和矩阵毒在码书搜索前可预先计算为:63d(n)一∑z。(i)^(i—n),”一o,⋯,63⋯⋯⋯⋯⋯63cb(i,j)一∑h(n—i)^(n—J),i—o,⋯,63,J一小·,63··一因为代数码矢量只有少量的非零脉冲,所以式(58)中的分子表示为:C一∑n,d(m,)(58)(61)式中:m。——第i个脉冲的位置;n:——第i个脉冲的幅度;N。——脉冲的个数。式(58)的分母表示为:Np]Np2Ⅳp1E一∑≠(m,,m。:)+2∑∑∞,≠(m,,m,)⋯⋯⋯⋯⋯⋯(62)t=0l=0,一件l由于d(n)和≠(i,j)的值在码书搜索前已经计算好崩的值又为1或一1,所以码书搜索时仅进行简单的加减运算,这样大幅度降低码书搜索的运算量。为了简化搜索过程,先通过参考信号6(”)做脉冲幅度的预判决,即设置某位置上的脉冲幅度等于6(n)在这个位置上的符号。参考信号6(”)的计算公式如下:蜘)一。—兰兰垡竺一+。兰垒)_一√蒌一7一∞一7一“’√蚤烈∞“DYes’LTP(H)一YeSLTP(n)⑤叫(”)式中:w(n)——谱倾斜滤波器(10.3z_1)的脉冲响应;(64)YeS。(n)——长时预测后的残差信号,即减去自适应码书贡献的LP残差信号。参考信号6(n)可以预测脉冲的位置,从而降低搜索复杂度。每个轨道对应16个不同的脉冲位置115蒌|㈨h一扼、;两∑㈣¨∑!虮差&误方平小最得5式人代g的到得将的∞(
GB/T25724—2010每个不同位置对应一个6(n)值。在同一轨道内,依据6(”)绝对值的大小,从小到大对6(n)进行排序,记录下8个6(n)绝对值最大值对应的脉冲位置。后续进行搜索时,可以直接对这8个脉冲位置进行搜索。为简化搜索过程,在码书搜索前需要用符号信息修正d(n)和垂(i,j)。第1步,计算出符号信息s。(n)一sign[b(n)]和信号d7(”)=d(n)s。(n);第2步,用符号信息修正圣(i,j),即西7(i,j)一s。(i)5。(j)西(i,j)。则式(61)和式(62)可分别转化为:Np1C一∑d7(m:)i—oN6“1N。2Np1E一∑西7(m。,m,)4-2∑∑中7(m。,m,)!一oi⋯2*1(65)(66)按照从上往下顺序,依次搜索每一个轨道中的所有脉冲,在搜索完一个轨道的所有脉冲后,再开始搜索下一个轨道的脉冲。在搜索时,每次搜索确定同一轨道的两个脉冲,当一个轨道上剩余脉冲个数为一个时,可以与相邻下一轨道的第一个脉冲进行组合搜索。接着从下一轨道剩余的脉冲中确定两个脉冲继续搜索。为了具体描述搜索方法,下面就以一个轨道两个脉冲的情形进行介绍,脉冲轨道划分见表72所示。表72脉冲轨道示意轨道(Tx)脉冲位置1(TO)P0,P10,4,8,12,16,20,24,28,32,36,40,44.48,52,56,602(T1)P2,P31,5,9,13,17,21,25,29,33,37,41,45,49,53,57,613(T2)P4,P52,6,10,14,18,22,26,30,34,38,42,46,50,54,58,624(T3)P6.P73,7,11,15,19,23,27,31,35,39,43,47,51,55,59,63假设脉冲轨道l到4分别用TO、T1、T2和T3表示,在轨道TO中,搜索脉冲Po和P1。脉冲Po的位置由脉冲位置参考信号6(n)在TO中的8个最大值所对应的位置中进行搜索确定。脉冲P1在轨道T0中的16个位置进行全搜索,总的搜索次数为:8×16—128(次)。在脉冲Po和Pl搜索完成以后,判断轨道TO中是否还有未搜索脉冲,本实例中,轨道TO的所有脉冲已经搜索完毕,接下来开始搜索轨道T1的脉冲。最佳脉冲的判断准则是使公式(58)取值最大。在轨道T1、T2和T3中的搜索方法与轨道T0中的方法相同。当四个轨道的所有脉冲搜索完毕之后,整个搜索过程结束,输出所有脉冲的最佳位置和符号。整个搜索过程中脉冲搜索顺序为:Po—P1、P2一P3、P4一P5和P6P7,搜索次数为:8×16×4—512(次)。最后,再依次搜索脉冲起始位置(P0的位置)在轨道T1、T2和T3的情形。总搜索次数为:512×4—2048(次)。6.2.3.4.8代数码书矢量的编码6.2.3.4.8.1代数码书矢量的编码过程对每个轨道搜索出的脉冲使用分类组合索引编码,编码过程如下:a)对轨道上需要编码的脉冲按照位置进行统计,获得有脉冲位置的数目pos—num(设pos—laUra的值为N)、有脉冲位置在轨道上的分布P(N)和各个有脉冲位置上的脉冲数目SU(N);b)按照有脉冲位置的数目pos—nllm确定第一索引11。第一索引表示了在相同有脉冲位置的数目条件下,有脉冲位置在轨道上全部可能的分布情况;c)按照有脉冲位置在轨道上的分布P(N)确定第二索引12;d)按照各个有脉冲位置上的脉冲数目SU(N)确定第三索引13;e)最后生成编码索引Index(N),编码索引包括第一、二、三索引和脉冲符号索引信息。分类组合索引编码步骤见6.2.3.4.8.2~6.2.3.4.8.6。图35给出了分类组合索引编码的处理流程。1】6
标准分享网www.bzfxw.com免费下载对轨道t需要编码的脉冲按照位置进行统计获得posnum的值N,P(Ⅳ)和su(_Ⅳ)按照有脉冲位置的数[jpos—num=N确定第一索引11按照有脉冲位置在轨道上的分布P(加确定第二索引12按照各个有脉冲位置上的脉冲数目SU(Ⅳ)确定第三索引13生成包含Il、12、13的编码索引IndexW)GB/T25724—2010图35代数码书分类组合索引编码流程框图6.2.3.4.8.2预处理(脉冲统计)对轨道上需要编码的脉冲按照位置进行统计,获得有脉冲位置的数目,有脉冲位置在轨道上的分布和各个有脉冲位置上的脉冲数目。pulse—num表示需要编码的脉冲总数,与码率模式相对应,设pulse—num一‰pos—num表示有脉冲位置的数目,设pos—num—N,由于“个脉冲在轨道上的分布可能出现位置重叠,显然有NC-E1,“]。有脉冲位置矢量P(N)一{p(O),p(1),⋯,P(N一1))表示有脉冲位置在轨道上的分布。P(n)表示有脉冲位置在轨道上的位置序号,n∈Eo,N—1],p(n)∈Eo,M1],M一16表示轨道上的位置总数,且o≤P(o)M(m),Vm∈En--j,n+力,rn@n,则M(n)∈{P,)表示一个2J+1点局部的最大值,实际中J选择为1;c)计算参考值ref⋯一/E:::7百,E⋯为前1/4频谱中划分八维频谱矢量块的最大能量;d)计算峰值P。的放大因子R,一(re,m。。/p。)“2。如果R:>R。,则R:一Rrl,以保证放大因子的递减性;e)在峰值集合{P,}中除去re^。;相关的峰值点,保证ref⋯的不变性。对剩余的峰值点P。进行放大P,=P。R:。该模块通过提升低频峰值,达到减小低频中较小峰值处量化噪声的目的。由于只对少量的频谱点进行放大,对全局增益影响很小。6.2.4.6噪声因子量化预整形的频谱x划分成K—N/8个八维矢量,定义Bt为第k个矢量,k一0,1,⋯,K一1。计算B。的能量E。为:7max(2,∑Bk[m]B。[m])m—o根据Et得到消耗比特数的初始估计:Rk(1)一51092(娶)(83)(84)比特消耗估计迭代:初始条件:设fac--128,offset=0和nbits—max一0.95×(6⋯K),6⋯表示频谱量化可用比特数。迭代执行10次:a)offset—offset+fac:Kb)"bi£5一∑max(o,R。(1)一offset);c)if(nbits<一nbitsmax)offset—offset--fac:d)fae--fac/2:迭代过程完成后,确定了参数offset值,再进行下面的迭代:初始条件:nbits0;n一1;迭代过程:for(k—K/2;k<=K一1;++k)tmp—Rk(1)--offset;if(tmp<5){nbits=nbits+tmp:n—n+1:}迭代过程完成后,nbits=nbits/n。噪声因子计算:嘲o‘”,。。、文⋯一107”““”噪声因子范围在0.1~o.8之间,使用3比特量化,量化索引为ida"幽玑m“叽~+.”一恻一a一×一O●l
GB/T25724—20106.2.4.7缩放因子控制选择合适的缩放因子对整个频谱的不同部分进行调整,使各缩放因子控制的频带内量化噪声的分布更合理。TVC采用两个缩放因子g。和g。分别对频谱样值进行调整,最终对调整后的频谱样值进行量化。缩放因子调整见图40。缩放因子基准估计go求*o时低频段比特消耗用剩余比特估计晟佳高频缩放因子02求92时高频段比特消耗图40两个缩放因子的调整算法用剩余比特估计最佳低频缩放因子gj假设频谱样值序列为x(0,l,⋯,N),先将整个频带等分为低频带X(0,1,⋯,N/2)和高频带x(N/2+1,⋯,N),消耗比特数的估计函数为6=cons(X,N,g)~b。表示频谱量化可用比特数。按照下列步骤调整缩放因子:a)选择g—g。,使得全频带的比特消耗b。一C07l,s(X(0,1⋯,N),N,g。)满足b。127)index--127。在编码器和解码器端,量化的全局增益i。计算如下:g。一10—Ⅱ一/”HsGB/T25724--2010(88)(89)6.2.5高频信号编码(BWE)高频信号编码框图见图50所示,图中I表示每个音频超帧所包含子帧的个数,当音频超帧长度为512时,I=4。高频信号是指输入信号中频率大于Fs/4的信号分量,高频信号的带宽取决于输人信号的采样频率。图50高频编码框图编码步骤如下:a)低频和高频分析滤波器低频信号的分析滤波器A。(g)直接从低频编码器获得。高频信号的分析滤波器AHF(:):对高频信号XHF(z,”)的每帧(256个样本)求取一组八阶的I。P系数,将LP系数转换为ISP系数,ISP系数又进一步变换成ISF系数并用9比特量化。每个子帧(64个样本)按照6.2.3.2.7插值式(37)对ISP系数进行内插,这样就得到高频信号的分析滤波器A儿F(z)。b)残差计算低频信号XLF(i,”)通过量化的分析滤波器A,,(z)得到低频残差eLF(z,”);高频信号zHF(i,n)通过量化的分析滤波器AHF(z)得到高频残差eHF(。,n);c)FFT变换低频残差PLF(i,")经过FFT变换得到低频残差谱ELF(i,k),FFT变换长度采用64点。高频残差8。F(t,")也经过FFT变换得到高频残差谱E”r(。,&),FFT变换长度也采用64点。d)频谱拷贝133
GB/T25724—2010低频信号在时间上以64点为一个子帧,在频率上将低频残差谱Eb(i,^)等分为低低频残差谱E_一(i,^)和低高频残差谱E一(i,^)。因为低低频残差谱Em(i,女)存在很强的弦性,所以在高频拷贝中不用。而是将低高频残差谱E一(i,^)复制两次来得到估计的高频残差谱Em(i,^)。e)高频信号的时频栅格划分当低频编码器使用ACELP时,高频信号的时频划分总是采用最高时间分辨率,即64点;相应的频率分辨率最小,其时频划分见图51所示。当低频编码器使用TAC时,高频的时频栅格划分依赖于超帧长度。当超帧长度为512时,只能使用图51的时频栅格划分结构。f)增益计算由低频残差信号代替高频残差信号,然后计算重建高频残差信号和原始高频残差信号之间增益因子:先分别计算两个信号所对应栅格覆盖的时频数据的能量,最后计算能量比值,并转换以dB为单位。这样每个超帧就得到f个增益(go,g。,g。,⋯,gH)。g)增益调整对每个时频划分块,判断原始信号和拷贝信号的弦性,如果原始信号有弦而拷贝信号无弦,则对相应块的增益进行适当的减小,以防止噪声水平过分抬高。h)增益矢量量化编码最后每个超帧的连续4个增益系数组成一个增益矢量,并用7比特进行量化。图51时频栅格划分图每个超帧BWE参数的总比特消耗为:16×(I/4),其中包括I/4组高频LP系数(每组9比特),以及I/4个增益矢量(每个矢量7比特)。6.2.6识别特征参数编码6.2.6.1识别特征参数提取6.2.6.1.1去直流偏置一信号经过高通滤波器,目的是为了滤掉信号中的直流分量。高通滤波器的传递函数见式(90):‰㈦一窨糍⋯⋯⋯⋯⋯⋯c90,式中:al一一1.98889;02—0.98895;bo一0.99446;bl=一1.98892;b2—0.99446。6.2.6.1.2噪声消除噪声消除模块主要作用是降低背景噪声,提高信号的信噪比。无论语音识别还是声纹识别算法,噪声对识别结果影响很大。因此在识别特征参数提取之前,应先对信号进行降噪处理。噪声消除算法描述参见附录J。
标准分享网www.bzfxw.com免费下载GB/T25724—20106.2.6.1.3波形预处理6.2.6.1.3.1基音周期搜索波形预处理应用于降噪后的信号。降噪模块的输出(每帧160个样本)存储在包含480个样本的缓存中,波形预处理模块处理的窗大小N。为缓存中前400个样本。图52描述了波形预处理模块的原理。『—::!;!iii}!!!£一⋯~⋯一一一一,堕叫堙銎卜麈基频波峰标定!l。一⋯一⋯一一⋯一一⋯一一f一⋯一⋯⋯一。图52波形预处理原理框图利用信号的归一化自相关对降噪后的信号估计基音周期,归一化自相关计算见式(91):2392:%(”)%(”一delay)COFr=—鬲nF--O===磊====二二,40≤delay≤160⋯⋯⋯⋯⋯⋯(91)^/∑s:,(n)∑s:,(ndelay)Vnon=o详细基音周期搜索算法描述见6.2.3.4.1。6.2.6.1.3.2候选基频波峰位置搜索在波形预处理窗内搜索绝对值最大的M个样本点所对应的位置作为候选基频波峰位置,记为:Pc[i],i一1,2,⋯,M;按该位置所对应的信号样本绝对值从大到小顺序排列[见式(92)]。&★∞M十自PcEli,⋯,PcEM]一argmax(I5。,(n))⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯(92)式中:M一3。6.2.6.1.3.3最佳基频波峰位置确定。该模块用来通过基音周期和候选基频波峰位置来确定最佳基频波峰位置,根据基音周期Tp在本帧范围内延拓出的所有对应位置上样本的平均幅度值,计算每个候选基频波峰位置[见式(93)]:∑5(P,团+j×T。)Mp—avgEi]一—1————1丁———一,i一1,⋯,M⋯⋯⋯⋯⋯⋯(93)式中:D——满足O≤P,Ei]+J×L≤N。一1的j的个数;Mp—nvg[i]——根据第i个候选基频波峰位置所计算的平均幅度值,M为候选基频波峰位置个数。假设最佳的基频波峰位置为P,,则见式(94):gf—argmax(Mp—avg[z])⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯(94)6.2.6.1.3.4波形加权波形加权就是将基频波峰位置附近的信号提升,其他位置的信号减小,从而起到提高信噪比同时增强基频的作用。方法是在该帧信号内的每个基音周期内用窗函数加权。波峰附近的权值大,其他位置135
GB/T25724—2010的权值小,同时窗函数要尽量保证处理后的信号连续。见图53所示。一|。\/|/|。LPfM,。一耳L一窗函数的长度;L——基音周期;R——最佳的基频波峰位置。窗函数的定义为图53波形加权处理框图fO.8。”一01.0,n一1W,。(n)一<1.2,2≤月≤0.6T。11.0,”一0.6Tn—F1【0.8,0.6T。+2≤”≤T。1(95)按照每个基音周期进行加权:Sm,p(n)=砌剐口(i)×s。,(”),n—Pf一”+i一2,0≤i0)PLn一一T。6.2.6.1.4倒谱计算6.2.6.1.4.1对数能量计算对波形加权后的信号s。。(n)的每帧能量参数取对数:1Ffln(E。,p),E。p≥E"rnnEsnlIn(E叫R髓H,),E舢。2015≤SNR<2010≤SNR<155≤SNR<100≤SNR<5一lO≤SNR<0SNR<10且100%d90%口80%n70%d50%d20%d。肛O10%口20%d30%d50%d80%d1。。%口SNR由噪声消除模块提供,如果得不到SNR,则将参数设置为:a一0.01;岛一d;&一0。6.2.6.2识别特征参数压缩6.2.6.2.1特征矢量特征矢量就是6.2.6.1中从每个短时分析帧中提取的参数,包括12个MFCC系数:c。(f)=[c。(1,f),c。(2,f),⋯,c。(12,£)]7⋯⋯⋯⋯⋯⋯(118)式中:f——帧索引;特征失量还包括MFCC系数c(0,£),对数能量系数lnE(t)和VAD标志位。最终编码的特征矢量表示如下:√(幻C。(t)VAD(t)c(0.t)lnE(t)(119)6.2.6.2.2矢量量化特征矢量y(f)使用分裂的矢量量化。14个系数Ec(1)~c(12),c(o)和InE]N个1组,被分成7组,每组都用独立的vQ码书进行量化,VAD标志位作为1个独立比特进行传输。矢量量化所使用的量化失真度量是加权欧氏距离:田⋯一麟,卜”/dx“升1(f)一argmin{(d;’斗1)7W⋯1(d;’2‘1))式中;∥“——码书Q⋯“的第J个码字;(N“”1一1)——码书大小;w⋯“——码书Q⋯“的加权矩阵;(120)
GB/T25724—2010idx⋯。1(f)一量化[y;(f)⋯Y。(f)]7所得到的码书索引。加权矩阵w”’”如下:WlZ,,3==『。·00。717185o]L01.J(122)其他加权矩阵为单位阵(即对角线元素为1,其他为0)。识别特征编码提供两种编码模式,因此矢量量化的码表也需要两组:一组是直接量化特征矢量(见表87),另一组是量化残差矢量(见表88)。表87直接编码模式下量化码表码书码书大小量化子矢量Q。164[c(1),c(2)]Q2364[c(3),c(4)]Q“。64[c(5),c(6)]Q6’。64Ec(7),c(8)]Q8’964[c(9),c(10)]Q”’“32It(11),c(12)]Q””256[c(o),lnE]表88预测编码模式下量化码表码书码书大小量化子矢量Q。。16[c(1),c(2)]Q。316[c(3),c(4)]Q4516Ec(5),c(6)]Q6。16[c(7),c(8)],Q。16[c(9),c(10)]Q⋯18[c(11).c(12)]Q”。364[c(o),lnE]6.2.7打包格式6.2.7.1音频编码参数打包512个样本点音频帧的编码参数被写入了1个二进制包,包的具体格式同编码模式相关,见图55所示。打包的编码参数包括:4比特的模式信息,5比特填充位(填充“11111”),1比特的感知加权标志,ACEI。P参数或TVc参数,以及高频编码参数。对于ACEI.P编码模式,模式位为0;对于TVC编码模式,模式位为1;其他模式位保留,以备将来扩展。
i标准分享网www.bzfxw.com免费下载图55音频帧编码参数的数据格式6272识别特征参数打包在62622对每帧得到的特征矢量进行矢量量化,只需传输码书索引.1比特的VAD标占和】个CRC校验和。对于直接编码模式,使用4比特的CRC校验和(CRC生成多项式为o(X)=1+X+x);对于预测编码模式.使用2比特的{RC枝验和(CRC生成多项式为F(X)一1一XX!)。每帧识别特征参数压缩后打包格式见图56和图57所币。M”㈩曲”《r)(R(1汕””(f)图56直接编码模式帧的数据格式(48比特曲”ff)出”u),c^H,儿【¨lⅧD(。(Kf胁引3{n图57预测编码模式帧的数据格式(32比特63解码器功能描述631低频信号解码631ACELP解码631ACELP解码过程解码嚣解码接收到的参数"龠成得到重建信号,见图j8所1i。神。。。。;。冲。:。。
GB/T25724—2010m索引—(玉匦[]_—{至巫)—咂星匦垂习增益矧—(】亟丑代翔书—伍匦巫引—[垂孽亟口噼—[画}匝查]—(驷镐帮—恒垂壶亟口山图58ACELP解码合成框图6.3.1.1.2解码LP滤波器参数接收到的ISP索引用来重构已量化的ISP系数,然后按照6.2.3.2.7中ISP系数的插值方法计算每个子帧的ISP系数。对于每个子帧,插值后ISP系数被转换为LP系数,用于LP合成滤波器来重建信号。6.3.1.1.3解码自适应码书矢量接收到的自适应码书索引(基音延迟索引)用来搜索基音延迟的整数部分和小数部分。自适应码书矢量v(n)使用过去的激励“(")通过FIR滤波器来生成。接收到的I。TP滤波标志被用来确定解码的自适应码书矢量是Ⅵ(n)一u(")还是U2(n)=0.26v(n)+0.48v("一1)+0.26v(”一2)。6.3.1.1.4解码代数码书矢量接收到的代数码书索引用来求取激励脉冲的位置、幅度以及代数码书矢量r(n)。如果基音延迟的整数部分小于子帧长度64,则通过自适应滤波器F(z)对C(n)进行基音周期锐化滤波。F(z)定义见6.2.3.4.6中预滤波器。6.3.1.1.5解码自适应和代数码书增益接收到的增益索引提供了自适应码书增益亘,,代数码书增益校正因子y和代数码书的平均能量E。。代数码书增益的重建过程为:a)按6.z.3.4.9中式(72)求得代数码书激励矢量的能量E,;b)按6.2.3.4.9中式(73)代数码书的预测增益g,;c)得到量化的代数码书增益g,一y&。6.3.1.1.6代数码书增益平滑代数码书增益平滑先计算当前帧的ISF参数变化因子,并对当前帧的代数码书增益进行初始化修正;然后按照ISF参数变化因子确定当前帧的状态}最后利用初始化修正后的代数码书增益以及当前帧的平滑因子,对当前帧的代数码书增益进行平滑。具体步骤如下:a)计算ISF变化因子isfcliff,计算公式为:14∑(isf—mw。一isf—dd:)2isf—cliff一型——面而而一式中:is,_』P∞——当前帧的ISF;is,_ozd——上一帧的ISF。b)对代数码书增益童。进行初始化修正(123)
标准分享网www.bzfxw.com免费下载GB/T25724--2010g。一j。81‘g一·:8c/1·06’’:r>g-⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯(124)鲕一1min(g_1,量。×1.06),i。≤g-1⋯⋯⋯⋯⋯⋯⋯¨H’式中:g。——当前帧初始化修正后的代数码书增益5g一-——前一帧初始化修正后的代数码书增益。c)根据isfdiff将当前帧分为两类状态,根据不同状态类型,用不同平滑因子进行的增益平滑。.f0.1790+0.839。,isf—diff>0.58一【0.8390+0.179,,isf—diff≤0.586.3.1.1.7激励信号生成每个子帧的激励信号二(”)由式(126)得到:“(月)一g。u(”)+g。c(n),”一0,⋯,636.3.1.1.8信号合成每个子帧的重建信号通过式(127)计算:(125)(126)16∑;。;(ni),n—o,⋯,63⋯⋯⋯⋯⋯⋯(127)式中:a,——子帧的I。P系数。6.3.1.1.9合成信号基音增强在低码率下,解码音频信号仍会有一定的噪声,因此采取后处理滤波以抑制噪声。基音增强技术通过增强基频及其整数倍数的各谐波分量,抑制位于非谐波分量处的噪声,以提高解码信号的感知质量。基音增强后处理只针对ACELP模式解码的低频合成信号,对于TAC模式解码信号不进行此后处理。该基音增强后处理算法见图59所示。解码信号后处理的输出信号T——解码信号的基音周期;Gain——解码信号的基音增益。图59基音增强后处理算法框图T由该子帧解码的闭环基音周期给出。基音跟踪模块为避免出现跟踪倍数基音周期问题,需要计算延迟为T/2处信号的归一化自相关值。如果该归一化自相关值大于0.95,则将T/2作为后处理中的基音周期值。该后处理算法按每64个样点子帧对解码信号;(n)进行处理,具体过程如下:a)计算解码信号的基音增益Gain:确定相邻基音周期的信号能量比值,该比值的计算公式见式(128):(128)
GB/T25724--2010将该比值E与从码流中解码获得的基音增益进行比较,取其中较小的一个作为最终解码信号的基音增益Gain。b)判断a)中计算的能量比值E,是否超过预定阈值E,。若超过,则执行c),进行基音增强滤波处理;否则不进行基音增强滤波处理,直接将解码信号;(”)作为最终的信号S。(n)输出。fs(”),EO),按照如下规则:一如果cbr-flag[schedselIdx]等于1,即恒定比特率情况下,t。。(n)=t。f(n一1)~否则(cbr-flag[schedselIdx]等于0),变比特率情况下,t。.(n)=Max(t。f(n一1),t引.。1。。(n)),rlt。i,earliest(n)一t。×∑cpbremoval—delayEm]m一0156
标准分享网www.bzfxw.com免费下载GB/T25724—2010其中cpb—removal—delay(n)见D.2.2定义。t“(n)的计算如下:t“(0)=b(0)÷BitRate[SchedSelldx]t。((n)一t。.(n)+b(n)÷BitRate[schedselIdx]其中b(n)为图像n的码字长度。如果图像n与图像nl的序列参数集不同,HRD参数需要重新初始化。如果图像n重新初始化了HRD参数,则有:--BitRate[SchedSelIdx]在t。(n)时更新;——对于cpbsize[schedselIdx],如果cpbsize[schedselIdx]的新值超过原CPB的大小,在t。.(n)时更新;——否则cpbsLze[schedselIdx]的新值在t,(n)时更新。A.2.2编码图像移除时间图像n从CPB中移除的标定时间定义为标定移除时间t。(n),从CPB中移除的实际时间定义为实际移除时间t。(n)。t⋯(n)的计算如下:对于图像0,t。(o)一initial—epbremoval—delay[schedSelIdx]÷90000对于图像n,t⋯(n)2t。(ni)+t。×epb—removal—delay(n)t。(n--1)为当前缓存周期前一个图像的标定移除时间,epb—removal—delay(n)为与图像n关联的图像定时SEI消息中规定的cpb—removal—delay的值。如果图像rl为未初始化HRD的缓存周期的第一个图像,则上式中的t。(n1)为前一个缓存周期的最后一个图像的标定移除时间。t。(n)的计算如下:如果low—delay—hrd—flag等于0或t⋯(n)>一t“(n),t,(n)一t⋯(n)否则(10w—delay—hrd—flag等于1或t。(n)t,(n)),当前图像延迟输出,并存储于DPB。当满足如下两个条件时,DPB中的某图像m将被移除:a)图像m不作为后续解码图像的参考图像(当图像的一帧或两场均不作为参考图像,才能认为不作为参考图像);b)图像m的DPB输出时间小于或等于CPB中当前图像n的移除时间,即t。mb(m)<一t,(n)。当帧缓存里所有数据从DPB里移除后,DPB填充度减1。A.3.2IDR图像的插入如果解码图像为IDR图像,有如下操作:a)所有在DPB中的图像均不作为后续解码图像的参考图像;】57
GB/T25724—2010b)当其不是第一幅IDR图像,且序列参数集中的PicWidthlnMbs,PicHeightlnMb8,maxdecframe—buffering的值与前面图像对应的序列参数集中定义的值不同时,DPB中所有的帧缓存清空且不输出,DPB填充度重置为0。A.3.3图像的标记和存储如果当前图像为参考图像,或者为非参考图像但t。m“(n)>t,(n),则需要把当前图像存储于DPB中。否则不需要存储。如果需要存储,则有如下操作:a)如果当前解码图像为一帧图像的第二场(在解码顺序中),并且第一场仍在DPB中,则和第一场存储在同一帧缓存中;b)否则当前解码图像存在一个空的帧缓存中,DPB填充度加1。
标准分享网www.bzfxw.com免费下载B.1概述附录B(规范性附录)字节流的格式GB/T25724—2010本附录规定了字节流格式的语法与语义,用于将NAL单元流生成有序的字节流,并且NAI.单元边界位置应能够从字节流中被识别。对于面向比特的传送,字节流中的比特顺序起始于第一个字节的MSB,处理至第一个字节的LSB,然后为第二个字节的MSB,以此类推。字节流格式由一系列字节流NAL单元语法结构组成。每个字节流NAL单元语法结构包含有一个起始码前缀,后面跟随一个NAI,单元。字节流NAL单元语法结构中可能包含一个额外的zerobyte语法元素,也可能包含一个或多个额外的trailing—zero一8bits语法元素。第一个字节流NAL单元语法结构中还可能包含一个或多个额外的leading—zero一8bits语法元素。B.2字节流NAL单元语法与语义B.2.1字节流NAL单元语法字节流NAL单元语法见表B.1。表B.1字节流NAL单元语法表byte—stream—nal—unit(NumBytesInNALunit){描述符while(next—bits(24)!一Ox000001&&next—bits(32)!一Ox00000001)leading—zero一8bits/*应等于Ox00*/f(8)if(next—bits(24)!一Ox000001)zero—byte/*应等于Ox00*/“8)start—code—prefix—one_3bytes/*应等于0x000001*/f(24)nal—unit(NumByteslnNALunlt)。while(more—data—in—byte—stream()&&next—bits(24)!一Ox000001&&next—bits(32)!=Ox00000001)trailingzero8bits/*应等于Ox00*/f(8))B.2.2字节流NAL单元语义字节流NAL单元中NAL单元的顺序应遵循NAL单元解码顺序,见5.2.4.3.2。leadingzero8bits应等于0x00。注:leading—zero_8bits语法元素只能在流的第一个字节流NAL单元里出现。zero—byte应等于0x00。当下述任一个条件满足时,应有zero—byte语法元素。——NAL单元中的nal—unit—type等于7(序列参数集)或8(图像参数集)。——字节流NAL单元中包含一个基本编码图像的的第一个NAL单元,见5.2.4.3.2.3。start—code—prefix—one一3bytes为一个3字节的固定值序列,等于0x000001,该语法元素称为起始码前缀。trailing—zero一8bits应等于0x00。】59
GB/T25724—2010B.3字节流NAL单元解码过程本过程的输人为字节流,该字节流由一系列字节流NAL单元语法结构组成。本过程的输出为一系列的NAL单元。在解码过程开始时,解码器把其当前位置初始化为字节流的起始位置。然后提取并丢弃每一个leading—zero一8bits语法元素(如果存在的话),并相应移动当前位置,直到当前位置紧接的四个字节为0x00000001。解码器此时重复执行下述按步骤的过程,对字节流中每一个NAL单元语法结构进行提取与解码,直到字节流中最后一个NAL单元也已经解码:a)当字节流里的紧接的四个字节构成四字节序列Ox00000001,对比特流中下一个字节(为zero—byte语法元素)进行提取并丢弃时,字节流的当前位置设为紧接被丢弃的字节的字节位置;b)提取与丢弃比特流中下一个三字节序列(为start—code—prefix—one~3bytes),且比特流当前位置设为此紧接被丢弃的3字节序列的字节的位置;c)NumByteslnNAI,unit设为自当前字节位置起至满足下述任一条件的位置的最后一个字节,且包括最后一个字节的编号;1)一个三字节序列的排列等于0x000000,或2)一个三字节序列的排列等于0x000001,或3)字节流的结束。d)该NumByteslnNALunit字节从比特流中移除,字节流的当前位置前移NumByteslnNAI.unit字节。这个字节序列为nal—unit(NumBytesInNALunit),并用NAI.单元解码过程进行解码;e)当字节流中的当前位置不为字节流的结尾,且字节流中一个字节不是等于0x000001开始的三字节序列,也不是等于Ox00000001开始的四字节序列,解码器提取并丢弃每一个trailing—zero一8bits语法元素,并相应移动当前位置,直到字节流里的当前位置接下的四个字节构成四字节的序列0x0000000l或已至字节流的结尾。注:字节流的结柬的判断方法不在本标准中规定。
标准分享网www.bzfxw.com免费下载C.1概述附录C(规范性附录)视频档次与级别6B/T25724—2010档次与级别规定了对比特流的限制,因此也限制了比特流解码所需的能力。每一个档次定义了一个算法特征的子集,并限定所有与该档次一致的解码器都应支持。每一个级别定义了对本标准中的语法元素取值的限制集合。相同的级别定义集合用于所有的档次,但单独的应用对所支持的档次可能支持不同的级别。一般来说,对于特定的一个档次,不同的级别对应于对解码器负荷和存储器容量的不同要求。本附录描述了视频不同档次和级别所对应的各种限制。所有未被限定的语法元素和参数可以取任何本标准所允许的值。如果一个解码器能对某个档次和级别所规定的语法元素的所有允许值正确解码,则称此解码器在这个档次和级别上符合本标准。如果一个比特流中不存在某个档次和级别所不允许的语法元素,并且其所含有的语法元素的值不超过此档次和级别所允许的范围,则认为此比特流在这个档次和级别上符合本标准。profile—id和level—id定义了比特流的档次和级别。注:解码器不应因为profile—id或level—id的取值落在本标准所规定的值之间+就推定这个值所代表的能力处于规定的档次与级别之间。C.2视频档次C.2.1视频档次的定义视频档次的定义见表C.1。表C.1视频档次profileld档次0x00禁止0x11简单档次0x227主要档次0x33高级档次其他保留c.2.2简单档次比特流若与简单档次相一致,应遵循如下限制:一一profileid的值应为Oxll;—产·只可能有1和P条带类型存在;——NAL单元流中不应包含nal—unit—type的取值为3、4和9的NAI,单元——序列参数集中的参数progressiveseq—flag的值应为1;——序列参数集中的参数ehromaformatidc的取值应为l;——序列参数集中的参数bitdepth—lumaminus8的取值应为o;——序对参数集中的参数bit—depth—chroma—minus8的取值应为0;——序列参数集中的参数roi—flag的取值应为0;
GB/T25724--2010——序列参数集中的参数SVC—flag的取值应为0;——图像参数集中的参数entropy—coding—mode—flag的取值应为0;——图像参数集中的参数weighting—pred—flag的取值应为0;一一语法元素pic—init—qP—for_roi,bottom—right[i],top—left[i],non—roi—skip—flag,scalable—non—roi—skip—flag,num—roi不应在图像参数集中出现。profile—id的取值为Oxll时,比特流与简单档次相一致。与简单档次某一级别相一致的解码器应可以对所有满足profile—id等于Oxll,且level—id所表示的级别小于或等于该级别的流进行解码。C.2.3主要档次比特流若与主要档次相一致,应遵循如下限制:——profile-id的值应为0x22;——只可能有I、P和B条带类型存在;——NAL单元流中不应包含nalunittype的取值为3和4的NAL单元;——序列参数集中的参数progressive—seqflag的值应为0或1;——序列参数集中的参数chroma—format—ide的取值应为0或1;——序列参数集中的参数bit—depth—luma—minus8的取值应在o~2之间,包括0和2;——序列参数集中的参数bit—depth—chroma—minus8的取值应在O~2之间,包括0和2;——序列参数集中的参数roi—flag的取值应为0或1;——序列参数集中的参数SVC—flag的取值应为0;——图像参数集中的参数entropy—coding_mode—flag的取值应为0或1;——图像参数集中的参数weighting_pred—flag的取值应为0或l;——语法元素scalable—non—roi—skip—flag不应在图像参数集中出现。profile—id的取值为Ox22时,,比特流与主要档次相一致。与主要档次某一级别相一致的解码器应可以对所有满足profile—id等于0x22,且level—id所表示的级别小于或等于该级别的流进行解码。c.2.4高级档次比特流若与高级档次相一致,应遵循如下限制:——profile_id的值应为0x33;——只可能有I、P和B条带类型存在;——序列参数集中的参数progressiveseqflag的值应为0或1;——序列参数集中的参数chroma—format—ide的取值应在o~2之间,包括0和2;——序列参数集中的参数bitdepthlumaminus8的取值应在o~2之间,包括0和2;——序列参数集中的参数bit—depth—ehroma—minus8的取值应在o~2之间,包括0和2;——序列参数集中的参数roi—flag的取值应为0或1;——序列参数集中的参数SVC—flag的取值应为0或1;——图像参数集中的参数entropy—coding—mode—flag的取值应为0或1;——图像参数集中的参数weighting—pred—flag的取值应为0或1。profileid的取值为0x33时,比特流与高级档次相一致。与高级档次某一级别相一致的解码器应可以对所有满足profile—id等于0x33,且level—id所表示的级别小于或等于该级别的流进行解码。C.3视频级别C.3.1视频级别的定义视频级别的定义见表c.2。162
标准分享网www.bzfxw.com免费下载表C.2视频级别GB/T25724—2010levelid级别0x00禁止0x102.00x112.10x204.00x224.20x305.00x325.20x406.00x426.2其他保留C.3.2级别的参数限制不同级别对应的参数限制见表C.3~表C.6。表C.3级别的参数限制级别参数2.02.1每行最大样点数352每帧最大行数288每秒最大帧数30亮度样点速率3,041,280最大比特率MaxBR/bps1,000,0002,500,000每帧最大宏块个数396每秒最大宏块个数11,880最大垂直运动矢量范围(帧编码)[128,+127.753[一128,+127.753最大垂直运动矢量范围(场编码)最大水平运动矢量范围E-2048.+2047.753[一2048,+2047.751图像格式4:0:0或4:2。042020或4:2。0DPB最大容量MaxDPB/kB594.0CPB最大容量MaxCPB/kB2,0002,500表C.4级别的参数限制级别参数4.042每行最大样点数720每帧最大行数576每秒最大帧数30亮度样点速率12.441.600163
GB/T25724—2010表C.4(续)级别参数4.04.2最大比特率MaxBR/bps6,000,00015,000.000每帧最大宏块个数l,6201,620每秒最大宏块个数48,600最大垂直运动矢量范围(帧编码)r一256,+255.75][一256,+255753最大垂直运动矢量范围(场编码)[128,+127.753[一128,+127.75]最大水平运动矢量范围[一2048,+2047753[2048,+2047.753图像格式42020或4:2。04:2:O或4:2:2DPB最大容量MaxDPB/kB2,43002,430.0CPB最大容量MaxCPB/kB10,00020,000表c.5级别的参数限制级别参数5.05.2每行最大样点数1,280每帧最大行数720每秒最大帧数30亮度样点速率921,600921.600最大比特率MaxBR/bps15.000.00030,000,000每帧最大宏块个数3,600每秒最大宏块个数108,000最大垂直运动矢量范围(帧编码)[一512,+511.75][一512,+511.753最大垂直运动矢量范围(场编码)[256,+255.753E-256,+255.753最大水平运动矢量范围[一2048,+2047753[一2048,+2047.753图像格式4:0。0或4:2‘O4:220或4:2:2DPB最大容量MaxDPB/kB5,400.0CPB最大容量MaxCPB/kB20,00040,000表C.6级别的参数限制级别参数6062每行最大样点数1.9201,920每帧最大行数1,0881.088每秒最大帧数30亮度样点速率62,668.80062,668,800最大比特率MaxBR/bps30,000,00050,000,000164
标准分享网www.bzfxw.com免费下载表C.6(续)GB/T25724--2010级别参数6.o6.2每帧最大宏块个数8.1608,160每秒最大宏块个数244,800244.800最大垂直运动矢量范围(帧编码)E--512,+511.75][一512,+51175]最大垂直运动矢量范围(场编码)r256,+255.753[一256,+255.753最大水平运动矢量范围r一2048,+2047.75][一2048,+2047.751图像格式42o:0或4:2’04:2:0或4:2:2DPB最大容量MaxDPB/kB12,240.0CPB最大容量MaxCPB/kB40,00060,000注:表C.3~表C.6中DPB最大容量(MaxDPB)J)}.4:2:0格式8比特样点为例。其中lkP,等于l024字节。】65
GB/T25724—2010D.1视频可用性信息(VUI)语法附录D(规范性附录)视频可用性信息(VUI)D.1.1视频可用性信息(VUI)参数语法vuI参数语法见表D.1。表D.1VuI参数语法表vui—parameters(){描述符timing—.info——presentflagu(1)if(timing_info—present—flag){num——units——in——ticku(32)timescaleu(32)fixed—.frame_rate—。flagu(1)}hrd—.parameters——presentflagu(1)if(hrd—parameters—presentflag)hrd—parameters()if(hrd—.parameters——present—.flag)low——delayhrd—.flagu(1)maxdecframebufferingue(v)}D.1.2假设参考解码器(HRD)参数语法HRD参数语法见表D.2。表D.2HRD参数语法表hrd—parameters(){,描述符epb——cnt——minuslue(v)bitratescaleu(4)cpbsizescaleu(4)for(SchedSelIdx一0;SchedSelldx<一cpbcnt—miausl;SehedSelldx++)lbit—ratevalue_minusl[SchedSelldx]ue(v)epb—sme—valueminusl[schedselIdx]ue(v)cbrflag[SchedSelldx]u(1))initial—。cpb——removal—,delay—.1ength——minuslU(5)epb—.removaldelay——length——minuslu(5)dpb——output—,delay—.1ength—.minuslU(5))
标准分享网www.bzfxw.com免费下载GB/T25724—2010D.2视频可用性信息(VUI)语义D.2.1视频可用性信息(VUI)参数语义timing—info—presentflag等于l表示hum~units—in—tick,time—scale和fixed—frame—rate—flag在码流中存在,timing—info—present—flag等于0表示不存在上述参数。hum—units—in—tick表示在频率为time—scaleHz的clocktick计数器的时间单元的个数。该值应大于0,一个时钟tick为编码数据表示的最小时间间隔。例如,如果视频信号的频率为(30000÷1001)Hz,time—scale可以是30000,hum—units—in—tick可以是1001。time—scale表示一秒钟内时间单元的总数。该值应大于0。例如,一个时钟频率为27MHz的定时系统的time—scale应为27000000。fixed—frame—rate—flag等于1,表示连续图像的HRD输出时间的时域间隔是固定的,该间隔为num—units—in—tick÷time_scale。fixed—frame—rate—flag等于0则表示无此限制。hrdparameterspresent—flag等于1表示码流中后面紧跟HRD参数。否则表示后续码流中不存在HRD参数。另外,两个临时变量HrdBpPresentFlag(用于缓存周期SEI消息)和cpbDpbDeIaysPre—sentFlag(用于图像定时SEI消息)的取值应与hrd—parameters—present—flag相同。lowdelay—hrdflag定义了HRD的一种操作模式。当fixed—frame—rate—flag等于1时,low—delay—brd—flag应等于0。max—deeframe—buffering定义了HRDDPB的帧缓存的最大个数。其取值范围从0到MaxDPB,如果码流中没有该语法元素,则为MaxDPB(见附录c)。.D.2.2假设参考解码器(HRD)参数语义cpbcnt—minusl加1定义了可供选择的CPB参数的个数。cpb—cnt—minusl的取值范围为0~31(包括0和31)。如果low—delay—hrd—flag等于1,cpb—cnt—minusl应等于0。如果码流中没有cpb—cnt—minusl,则默认其值等于0。bit—rate—scale,bit—rate~value—minusl[SchedSelldx]两个参数一起定义了第SchedSelldx个CPB的最大输入码率。bit—rate—value—mlnusl[schedselIdx]的取值范围o~(2”z)(包括0和2”一2),并且随索引号SchedSelIdx的变大而变大。码率公式为:BitRaterschedselIdx]一(bitratevalueminusl[SchedSelldx]+1)×2‘6¨“一”¨。“’如果bit—rate—value—minusl[SchedSelldx]不存在,则默认其值等于1200×MaxBR。cpbsize—scale,cpbsize—value—minusl[SehedSelldx]两个参数一起定义了第SchedSelldx个CPB的CPB的大小。epb—size—value_minusl[SchedSelIdx]的取值范围0~(2”一2)(包括0和2”2),并且随索引号SchedSelldx的变大而变小。CPB大小公式为:cDbsize[SchedselIdx]=(cpbsizevalueminusl[SchedSelldx]+1)×2“+‘pL州叫。如果cpb—size—value—minusl[schedselIdx]不存在,则默认其值等于1200×MaxCPB。ebr_flag[schedselIdx]定义了第SchedSelIdx个CPB参数定义的HRD工作模式。如果其值等于0,则为可变比特率模式(VBR),如果其值等于1,则为恒定比特率模式(CBR)。如果码流中不存在cbr—flag[schedseIIdx],则默认其值等于0。initial—cpb—removal—delay—lengthminusl加1等于缓存周期SEI消息中的语法元素initial—cpb—removal—delay[SchedSelldx]的码字长度。如果码流中不存在initial—epb—removal—delay—length—minusl,则默认其值等于23。cpb—removal—delay—length—minusl加1等于图像定时SEI消息宇的语法元素epb—rehnoval—delay的码字长度。如果码流中不存在cpb—removal—delay—length—minusl,则默认其值等于23。dpb—outputdelay—lengthminusl加1等于图像定时SEI消息中的语法元素dph—output—delay的码字长度。如果码流中不存在dpb—output—delay—length—minusl,则默认其值等于23。167
GB/T25724—2010E.1补充增强信息(SEI)语法E.1.1补充增强信息(SEI)负载语法SEI负载语法见表E.1。附录E(规范性附录)补充增强信息(SEl)表E.1SEI负载语法表sei—payload(PayloadType,PayloadSize){描述符if(PayloadType=一0)burfering_period(PayloadSize)elseif(PayloadType=一1)pictiming(PayloadSize)elsereservedseimessage(PayloadSlze)if(Ibytealigned()){bit—equal—toOne/*应等于1*/f(1)while(!byte_aligned())bit—equal—tO—zero/*应等于0*/f(1))}E.1.2缓存周期SEI消息语法缓存周期SEI消息语法见表E.2。表E.2缓存周期SEI消息语法表buffeting—period(PayloadSize){描述符seq—.parameter—.set—.idue(v)if(HrdBpPresentFlag){for(SchedSalIdx一0;SchedSelldx<=cpbcntminusl;SchedSelldx++)initial——cpb——removal——delay[SchedSelldx]u(v)}E.1.3图像定时SEI消息语法图像定时SEI消息语法见表E.3。168
标准分享网www.bzfxw.com免费下载表E.3图像定时SEI消息语法表GB/T25724—2010pictiming(PayloadSize){描述符lf(CpbDpbDelaysPresentFlag){epb——removal——delayu(v)dpb——output—.delayu(v))}E.2补充增强信息(SEI)负载语义E.2.1缓存周期SEI消息语义如果应用需要,缓存周期SEI消息应与IDR图像一起出现。该消息提供HRD初始化信息。seqparameter—set—id指示包含相关HRD参数的序列参数集。initialcpbremovaldelay[SehedSelldx]定义了在HRD初始化以后第一个缓存周期的第SchedSelldx个CPB的初始延迟,即从图像的第一个bit到达CPB的时间,到该图像的数据开始从CPB移除的时间。其码字长度为initialcpb—removaldelaylength—minusl+l,本文件规定以90kHz为单位。该值应大于0,并小于90000×cpb甄ze[schedselIdx]÷BitRate[schedselIdX]。E.2.2图像定时SEI消息定义cpb—removaldelay定义了该SEI消息关联的图像从CPB中移除前等待的时间。该值还可以用来计算图像数据到达CPB的最早的可能时间。该码字长度为cpb—removaldelay—length—minusl+1。对于码流中的第一个图像,cpb—removaldelay应为0。dpboutputdelay定义了图像数据从CPB中移除后到解码图像从DPB输出的等待时间,用来计算图像的DPB输出时问。其码字长度为dpb—outputdelay—length—minusl+1。
GB/T25724—2010附录F(规范性附录)变长码表表F1~表F.20的内容应依序符合GB/T20090.22006《信息技术先进音视频编码第2部分:视频》附录A中表A.1~表A.20的规定。表F.1~表F.20中Run表示量化系数游程,Level表示量化系数值,EOB栏及Level栏的各列数据表示语法元素trans—coefficient的值。解析时根据trans—coefficient可以查表得到Level和Run。表中EOB栏对应的数字表示代表EOB的trans—coefficient的值。
标准分享网www.bzfxw.com免费下载G.1概述附录G(规范性附录)音频档次和级别GB/T25724—2010本附录描述了不同档次和级别所对应的各种限制。档次与级别规定了对比特流的限制,因此也限制了比特流解码所需的能力。每个档次定义了一个算法特征的子集,并限定所有与该档次一致的解码器都应支持。每个级别定义了对本标准中的语法要素取值的限制集合。相同的级别定义集合用于所有的档次,但单独的应用对所支持的档次可能支持不同的级别。一般来说,对于特定的一个档次,不同的级别对应于对解码器负载和存储器容量的不同要求。如果一个解码器能对某个档次和级别所规定的语法元素正确解码,则称此解码器在这个档次和级别上符合本标准。如果比特流中不存在某个档次和级别所不允许的语法元素,并且其所含有的语法元素的值不超过此档次和级别所允许的范围,则认为此比特流在这个档次和级别上符合本文件。profile—id和level—id定义了比特流的档次和级别。注:解码器不宜因为profile—id或level—id的取值落在本标准所规定的值之间,就推定这个值所代表的能力处于规定好的档次与级别之间。G.2音频档次音频档次主要定义编码器所包括的主要编码工具,目前分3个档次:简单档次、主要档次和高级档次。profile—id采用2比特表示,0表示禁止,1表示简单档次、2表示主要档次,3表示高级档次。具体定义见表G.1。表G.1音频档次定义编码工具简单档次主要档次高级档次ACELP支持BWE支持TVC不支持支持识别特征参数的直接编码模式不支持支持识别特征参数的预测编码模式不支持支持G.3音频级别音频级别主要限制编码参数取值和编解码延迟,level—id采用4比特表示,共16个级别,见表G.2和表O.3。表G.2音频级别定义levelid级别O禁止11.02l13124~15保留
GB/T25724—2010表G.3音频级别1.0~1.2参数限制级别参数1.O1.11.2内部采样频率/kHz12.8和1624和25632和38.4音频超帧样本点数512最大编解码延迟/ms604030最大比特率/(bit/s)230503400048610注1:编解码延迟包括:1个超帧长度+LPC分析窗前瞻样本+其他延迟(如采样频率转换等)。注2:比特率指RAW格式码率,包括帧头和扩展帧头开销。172
标准分享网www.bzfxw.com免费下载附录H(规范性附录)异常声音事件类型定义异常声音事件类型定义见表H.1。表H.1异常声音事件类型定义GB/T25724—2010事件类型事件描述0正常声音事件(包括闹市噪声,汽车噪声,高斯噪声和正常人说话声等)1人的尖叫声、救命声2枪声3爆炸声4报警声5玻璃破碎声6~255保留
GB/T25724—2010I.1概述附录I(资料性附录)VAD检测VAD检测将输入的音频信号分为两类:语音和非语音(噪声或静音)。识别特征参数提取时需要检测每帧信号的类别,将来模式识别模块会根据信号的类别,将非语音帧信号的识别特征参数丢掉。识别模块在对识别特征参数进行后处理时,需要连续的帧参数计算识别特征参数的一阶导数和二阶导数,因此识别特征参数提取时需要保留非语音帧信号的识别特征参数。I.2VAD检测介绍VAD检测包含两个阶段:第一阶段是基于帧的检测阶段,内部包含三种检测方式;第二阶段为决策阶段。第一阶段的每种检测结果都存储在循环缓冲中,用来分析并得出语音的似然值。第二阶段的最终决策结果需要参考缓冲中的最初几帧,所以该阶段提供了预测机制。同时,此阶段还提供了延迟释放机制,延迟释放的持续时间同语音的似然值相关。I.3检测阶段VAD检测采用的参数是语音开始时的能量加速度,该参数具有较好噪声鲁棒性。这种加速度可以通过以下三种方法来计算:方法1:全带频谱检测法全带频谱测量法采用的参数,是通过两阶段维纳滤波器中第一阶段所得出的Mel域维纳滤波器系数(见J.8)。对Mel域维纳滤波器系数求和后再平方的值作为输入值input。每帧的处理步骤如下所示:a)if(frame<15&&Acceleration<2.5)tracker=MAX(tracker,input);b)if(inputtrackerXLowerBound)tracker=a×tracker+(1一n)×input;d)if(input只)T—LM;elseif(M≥SL)T=LL;sc为“近似为语音”的阈值,对应着第二步得出的true值连续序列最大值M大于或等于4的情况。如果当前帧序号F在初始导人安全周期Fs(35帧)之外,则给T赋值中延迟释放时间T(LM一23帧);否则,给T赋值长延迟释放时间T(L。=50帧),这样做的目的是,防止语音过早出现引起检测器的初始化噪声估计值太大。步骤5:if(Mo)T-一;如果M没有达到阈值S,时,将T减~。因此T只有在语音不存在的情况才会下减少。步骤6:if(T>O)elsereturn如lse;如果T大于0时,输出为true(语音帧);否则,输出为false(非语音帧)。步骤7:在下一帧到达之前,缓冲区左移以接受新的输入帧。从上面的VAD决策过程来看,输出的语音或非语音判决应用于即将离开缓冲区的帧,相应的预测机制如图I.2所示。一喇口]]]皿m喇口]]]皿图i.2预测机制下缓冲区示意图在t时刻时,缓冲区已经被7帧数据填满,第6帧和第7帧的n为true。基于上述决策算法,第一帧的决策结果为false(非语音帧)。在£+1时刻时,缓冲区左移并移出第一帧,新的第8帧v。结果为true。应用决策算法,第二帧的决策结果为true(语音帧)。当有新帧到达时,对于第3,4,5帧也会得到同样的结果。这样就形成了一个4帧的短时预测(使用第6、7、8帧的结果对第2、3、4、5帧进行预测)。
标准分享网www.bzfxw.com免费下载附录J(资料性附录)噪声消除GB/T25724—2010J.1概述噪声消除算法主要作用是降低背景噪声,提高信号的信噪比。无论语音识别还是声纹识别算法,噪声对识别结果影响很大。因此在识别特征参数提取之前,应先对信号进行降噪处理。J.2Mel域两阶段维纳(Wiener)滤波器基于维纳滤波器的噪声消除算法由两阶段组成,见图J.1。输入信号通过第一阶段的降噪处理后,在第二阶段根据处理后信号的信噪比进行噪声消除。图J.1噪声消除流程图输入信号首先按照帧的大小进行切分,然后在频谱估计模块中计算出每帧的线性频谱估计。在功率谱平均值模块内,对信号频谱按帧进行平滑处理。在维纳滤波器设计模块中,根据当前帧的频谱估计和噪声谱估计(噪声谱估计是通过VAD检测的噪声帧进行估计),计算出频域维纳滤波器系数。线性维纳滤波器系数经过Mel滤波器组进行滤波处理,得到了Mel域维纳滤波器。然后通过Mel域IDCT计算Mel域维纳滤波器的脉冲响应。最后,将每阶段的输入信号通过维纳滤波器进行滤波。在图J.1中,第二阶段的输入信号就是第一阶段的输出信号。此外,第二阶段中增益调整模块的主要功能是对噪声消除的增益进行控制。J.3缓冲噪声消除模块中输入信号以帧为单位,每帧长度为10ms(160个样本)。噪声消除过程中的每阶段都需要一个大小为四帧的缓冲区(frame0~frame3)。当有新帧输入时,这两个缓冲区依次移动一帧。新输入帧被放置在第一个缓冲区的frame3位置上。首先,对第一个缓冲区中的{ramel(样本160~319)进行降噪,并把降噪后的帧放在第二个缓冲区中的frame3位置上。然后,对第二个缓冲区中的framel作降噪处理,此帧是噪声消除模块的输出。因此,噪声消除的每阶段都有2帧(20ms)的延迟。在每阶段中,频谱估计的窗长为25Ills(样本120~519)。图J.2给出两阶段噪声消除过程的缓冲区示意图。177
GB/T25724--2010L.堕.i壁冲区输入段)第一阶段l爱冲区’段)I输出时问J.4频谱估计0120320520639图J.2两阶段噪声消除过程的缓冲区示意图输入信号被分成N。个样本的重叠帧,帧长为25ms(N。=400)并且有10ms(160个样本)的帧移。每帧s。‘n)都要作加窗处理,采用长为N。的汉宁(Hannlng)窗,见式(J.1)所示。S。(n)=5。(n)×wm。。(n),0≤”≤N。1⋯⋯⋯⋯⋯⋯⋯⋯(J.1)w。。。(n)一o.5一o.5COS(互丕』掣N。和N”,一1之间的样本补零,N—、一512是FFT长度:(J.2)s删一∥’0N手姜吾萎≮1}....⋯⋯⋯⋯⋯叫.s,5”r‘”’一10,。≤月≤NFF,7⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯‘L3’对S。,(n)进行FFT,以求出频谱X(抚”)一FF丁{5FF,(n)}式中:6in——FFT频率索引。计算功率谱P(bin):P(Nn)一IX(执M)一『2,0≤bin≤NVFr/2再对功率谱P(bin)进行平滑处理:(J.4)P。(hi”)==!:£!—:i!!!—1二2二i:!!—!必,o≤6iH≤Nvrr/4⋯⋯⋯⋯(J.6)P。(NvvT/4)一P(NFrr/2)平滑处理后,功率谱的长度缩短为Nsprc—NFFr/4+1。J.5功率谱平均值对连续TPsn帧求其功率谱P。(bin)的平均值,见图J.3。178
标准分享网www.bzfxw.com免费下载^(bin.t--(‰一1))晶(bin,0Tpso日_一⋯_一日图J.3功率谱平均值功率谱平均值为:n一一州,一忐萼1蹦‰㈠Ⅲ≤呱‰式中:TPsD一2;£——帧索引。J.6噪声估计的VAD根据帧索引f,计算出每帧的遗忘因子lambdaLTE:if(t4)1if((frameEn一仇ennEn)>SNR—niRESHOLD—VAD)1flagVADN.,,一1;nbSpeechFraⅢe—nbSpeechFrame+1:)dse{if(nbSpeechFrame>MIN—SPEECH—FRAMEHANGOvER)hangOver—HANGOVER}nbSpeechFrame=0;if(hangOver!一0)(hangOver=hangOver一1:flagVADNe,,=1;)“seflagVAD.‰。一0;)式中:SNR—THRESHOLD—VAD=15;MlNsPEECHFRAMEHANGOvER一4HANGoⅥ豫一15:nbSpeechFrame,meanEn,刀agVADN,,f,hangover初始化为0。J.7维纳滤波器设计根据帧索引t,得到每帧的遗忘因子lambdaNSE:扩(£o⋯⋯。【0,z(bin,t)≤0因此,先验信噪比’l(bin,£)为:q(bin,t)一糍⋯⋯⋯滤波器传递函数H(bin,£):H(bin,t)JTl(bin,£)1+ffV(bin,f)已知H(bin,f),便可对降噪信号谱估计进行更新:PZ2(bin,f)一H(bin,£)P:盔D(bin,f)更新后的先验信噪比啦(bin,£)为:孕c‰归max(惫篙焉,赫)⋯⋯⋯⋯⋯⋯㈤㈩式中:口TH一0.079432823(对应的SNR为22dB)。相应地,滤波器传递函数H。(bin,t)更新为:181n¨坫J(
GB/T25724—2010H:(断月,£)=———(—bi卫n,t),o≤臃”≤NsP盯一1⋯⋯⋯⋯⋯⋯(J.19)1七.矗忍磊五根据H2(bin,£)得出降噪信号谱P戮(bin,£):J.8MeI滤波P獬3(b/n,£)一H2(b/n,£)P:2(b/n,£)(J.20)首先对线性频率维纳滤波器系数H。(bin),o≤bin≤Ns尸。一1作平滑处理,之后转化为Mel频率刻度。通过对Hz(bin)作半重叠三角形频率窗处理后,估计出Mel域维纳滤波器系数Hz一。(&)。为了得出Mel子带的中心频率bin。,(女),线性频率表,。通过下面的公式转化为Mel刻度:MEL{f^。}一2595×l091。(1+^。/700)⋯⋯⋯⋯⋯⋯⋯⋯(j.21)第k子带的中心频率f。(^):,。,(^)=700×(10’m“‘⋯2⋯一1),1≤k≤K∞⋯⋯⋯⋯⋯⋯(J.22)式中:K"一32,并且:厶(k)--女×迦擀(J.23)式中:^。一。。一16kHz——采样频率。两个边缘子带的中心频率厶,,(0)和,⋯(Km+1)一^。。/2加在K”=32子带上。因此,一共要计算KrB+2—34个Mel域维纳滤波器系数。中心频率所对应的FFT频率为:b/n。r(^)一。。。d『掣×2×(N。LJ“^4砷⋯⋯⋯(J.24)F面计算三角形频率窗W(女,i)。1≤艇;KFB的窗函数计算如下:w(bD一瓦三筹甓‰"6抽一强_1)+1≤i≤执‰旺)......(J·25)W(b。-1一瓦i孝紊‰,6抽一强)+1≤i≤班‰强+1)⋯(j.J26)i取其他值时W(k,i)一O。k=0的窗函数计算如下:W(0,i)一1b—in~—(1、--一b/n一(0)0≤i≤b/n。,(1)一臃n。,(O)一1⋯⋯(J.27)i取其他值时W(0,i)一O。k—KvB+1的窗函数计算如下:W(K皿+l∽一瓦云了篆三音亍竽‰,6j!n一(如)十1≤i≤6fn一(K,B+1)⋯(J.28)i取其他值时W(KF.+1,i)一0。Mel域维纳滤波器系数H。。(女)在O≤女≤K。+1时,计算公式如下:182H2。f(k)NSpEY-∑W(k,i)NSPEr.1∑,i)×H2(i)⋯⋯⋯⋯”(.)
标准分享网www.bzfxw.com免费下载GB/T25724—2010J.9增益调整第一阶段降噪处理中,根据降噪信号的功率谱P“。(bin,£)计算降噪信号的能量E“(f)如下Eh(f)第二阶段降噪处理中,根据噪声功率谱P。,。(bin,£)计算噪声能量Nsp髓-1∑P骁(bin,£)通过连续三帧的降噪信号的能量和噪声能量可估计出平滑后的信噪比:胁。一≮未黑等聂攀;矿(砌£i。>0_00001)⋯⋯⋯⋯。(J.32)SNR。,(£)一20/3Xl0910(Ratio);dseSNR。,(£)一一lOO/3;为了估计第二阶段的降噪增益,低信噪比跟踪值SNR。。一计算如下:if(((SNR(£)SNR一一。-(£一1))<10I(£100){i,(SNR咄,(£)<(SNR札舢“(f)+3.5)){“GF(£)--Cl(》.(£1)+0.15;£,(口GF(£)>O.8)6tGF(f)一O.8:183n断辫P一∑一N
GB/T25724--2010elsP{。口(£)--C。GF(r一1)0.3;i"厂(口∞(f)<0.1)elGF(f)20.1;)式中:8口(0)一O.8。第二阶段的维纳滤波器系数乘以增益调整系数nGF(£):H2。。GF(^,£)一(1一口GF(£))+口口(f)×H2。。f(^,f)式中,系数a口(f)的取值在0.1~0.8之间。J.10Mel域IDCT0≤k≤K口+1⋯⋯(J.36)维纳滤波器的时域脉冲响应^一(n)通过Mel域维纳滤波器系数H。。(^)[第二阶段为H2。,。(^),见式(J.36)]进行Mel域[DCT得到:KFB+1hwF(”)一∑H2一。r(^)×IDCT。,(^,n),0≤月≤K"+1⋯--·⋯⋯(J.37)k--0式中:IDCTwf(壶,”)——Mel域IDCT函数。具体推导如下:首先,1≤^≤Km频带的各自中心频率为:184式中:,⋯一16kHz——采样频率^。(O)一0kHz;,。。(KeB+1)一f⋯/2。则,IDCT。,(^,n)为:1W(k,NsPEC,善w(捌)×以及煮砉丽⋯⋯“J.38)IDCT,“㈣扣cos(盟号半1×df(k),0≤k≤KFB+1,o≤H≤KFB+1⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯(J.39)式中:丘。(^)——Mel子带k所对应的中心频率。df(k)为:df(女)彤(0),⋯(k+1)一,⋯(^一1)1≤k≤KFB彤(K耶+1)一』苎』掣三二』二卫堕J目tap维纳滤波器的脉冲响应扩展到o≤^≤2×(K。+1):一∑ⅢⅣ
标准分享网www.bzfxw.com免费下载fhwp(n).^wt⋯√们=1^wF(2×(KF8+1)+1一n)J.11维纳滤波GB/T25724--2010O≤”≤KⅫ+1⋯⋯(J.41)kFB+2≤”≤2×(K∞+1)根据hwF⋯,(n)得出因果的脉冲响应hwF⋯(”,£):fhWF⋯(n,£)=hwF⋯,(n+KFB+1"£),”=u,⋯,KF9⋯..fT42)]hwF⋯(n,£)一h。F一⋯,(n—KF81,£),n—KFB+1,⋯,2×(KFB+1)截断后脉冲响应F”。一m为:hWF⋯(n,f)一hwF⋯(n+KFB+1一(FL一1)/2,£),n一0,⋯,FL—l⋯⋯(J·43)滤波器长度FL等于17。截断后脉冲响应加汉宁窗处理:hwv("∽一』o.5一o.5×c。s2XnX(n+0.5))lXh一一⋯(州),o≤”≤FL一这样,输入信号s。经过脉冲响应hwF(n,曲的维纳滤波器后就得到降噪信号s一$nr(”)一∑^ⅣF一。(i4-(FL一1)/2)×s。(”一i),0≤”≤M一1⋯’一cFL1)/2式中:FL—17一滤波器长度;M一160帧移样本数。·(J”(J44)45)185
GB/T25724—2010[1]1SO/IECIS144961Partl:Systems.Nov.1998[2]ISO/IECIS144962Part2:Visual.NOV.1998参考文献InformationTechnology--Genericcodingofaudio—visualobjects.InformationTechnology--Genericcodingofaudiovisualobjects.[3]ISO/IECJCTl/SC29WGllN3342.OverviewofMPEG、7standard.Maui,1999[4]ISO/IECJCTl/SC29WGllandITU—TSG26Q.6(JvTK051,Version3ofISO/IEC1449610E).12thMeetingRedmond,U.S.A,Jul.2004r5]3GPPTS26.290,Version7.0.0,“ExtendedAdaptiveMultiRate—Wideband(AMR—WB+)codee:Transcodingfunctions”,Mar.2007E6]3GPPTS26.190,Version7.0.0,“AMRWidebandspeechcodec;Transcodingfunctions”,Jun.2007[7]ETSIES202050,Version1.1.5,“DistributedSpeechRecognition;AdvancedFront—endFeatureExtractionAlgorithm;CompressionAlgorithm”,Jan.2007[8]ETSIES202212,Version1.1.2,“DistributedSpeechRecognition;ExtendedAdvancedFrontendFeatureExtractionAlgorithm;CompressionAlgorithm,Back—endSpeechReconstructionAlgorithm”,NOV.2005[9]姚天任,孙洪.现代数字信号处理.武汉:华中理工大学出版社,1999[10]A.V.奥本海姆.R.w.谢弗.离散时间信号处理.2版.刘树棠,黄建国,译.西安:西安交通大学出版社,2001[11]鲍长春.低比特率数字语音通信编码基础.北京:北京工业大学出版社,2001[12]张贤达.现代信号处理.2版.北京:清华大学出版社,2002[13]赵力.语音信号处理.北京:机械工业出版社,2003[14]夸特尔瑞.离散时问语音信号处理——原理与应用.赵胜辉等,译.北京:电子工业出版社,20045]王炳锡,王洪.变速率语音编码.西安:西安电子科技大学出版社,20046]胡航.语音信号处理.3版.哈尔滨:哈尔滨工业大学出版社,20057]程佩清.数字信号处理教程.3版.北京:清华大学出版社,20078]吴家安.现代语音编码技术.北京:科学出版社,20079]ITu—TDraftRecommendationandFinalDraftInternationalStandardofJointVideoSpecification(ITU—TRec.H.264ISo/IEC14496—10AVC).7thMeeting:Pattaya,Thailand,7-14Mar.2003[20]AbdulH.Sadka.CompressedVideoCommunications.HohnWiley&Sons,Ltd.England.2002[21]Kenneth.R.Castleman.DigitalImageProcessing.北京.清华大学出版社.1998[22]IainE.G.Richardson.H.264andMPEG-4VideoCompression.HohnWiley&Sons,Ltd.England.2002[23]J.H.ConwayandN.J.A.Sloane,“Afastencodingmethodforlatticecodesandquantizers,”IEEETrans.Inform.Theory,v01.IT一29,no.6,PP.820—824,Nov.1983[243F.JablounandA.E.Cetin,“TheTeagerEnergyBasedFeatureParametersforRobustSpeechRecognitioninNoise,”Proc.IEEEInt.Conf.Acoustics,Speech,andSignalProcessing,Mar.1999186
标准分享网www.bzfxw.com免费下载GB/T25724—2010E253L.B.AlmeidaandF.M.Silva,“Variable—FrequencySynthesis:AnImprovedHarmonicCodingScheme,”Proc.IEEEInt.Conf.Acoustics,Speech,andSignalProcessing,SanDiego,CA,Mayl984[26]M.XieandJ.P.Adoul,“Embeddedalgebraicvectorquantization(EAVQ)withapplicationtowidebandaudiocoding.”IEEEInternationalConferenceonAcoustics,Speech,andSignalProcessing(ICASSP),Atlanta,GA,U.S.A,v01.1,PP.240243,1996r27]T.Ganchev,N.Fakotakis,andG.Kokkinakis,“ComparativeevaluationofvariousMFCCimplementationsonthespeakerverificationtask.”10thInternationalConferenceonSpeechandComputer(SPECOM),V01.1,PP.191194,2005[28]GB/T20090.10信息技术先进音视频编码第10部分:移动语音与音频编码'