时间:2022-05-29 10:25:06
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇语音识别,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
关键词: 语音识别; 识别原理; 声学建模方法; 多维模式识别系统
中图分类号: TN912.3?34 文献标识码: A 文章编号: 1004?373X(2013)13?0043?03
Summary of speech recognition technology and its application
YU Lin?lin
(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)
Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.
Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system
0 引 言
语言是人类相互交流最常用、最有效、最重要和最方便的通信形式,语音是语言的声学表现,与机器进行语音交流是人类一直以来的梦想。随着计算机技术的飞速发展,语音识别技术也取得突破性的成就,人与机器用自然语言进行对话的梦想逐步接近实现。语音识别技术的应用范围极为广泛,不仅涉及到日常生活的方方面面,在军事领域也发挥着极其重要的作用。它是信息社会朝着智能化和自动化发展的关键技术,使人们对信息的处理和获取更加便捷,从而提高人们的工作效率。
1 语音识别技术的发展
语音识别技术起始于20世纪50年代。这一时期,语音识别的研究主要集中在对元音、辅音、数字以及孤立词的识别。
20世纪60年代,语音识别研究取得实质性进展。线性预测分析和动态规划的提出较好地解决了语音信号模型的产生和语音信号不等长两个问题,并通过语音信号的线性预测编码,有效地解决了语音信号的特征提取。
20世纪70年代,语音识别技术取得突破性进展。基于动态规划的动态时间规整(Dynamic Time Warping, DTW)技术基本成熟,特别提出了矢量量化(Vector Quantization,VQ)和隐马尔可夫模型(Hidden Markov Model,HMM)理论[1]。
20世纪80年代,语音识别任务开始从孤立词、连接词的识别转向大词汇量、非特定人、连续语音的识别,识别算法也从传统的基于标准模板匹配的方法转向基于统计模型的方法。在声学模型方面,由于HMM能够很好的描述语音时变性和平稳性,开始被广泛应用于大词汇量连续语音识别(Large Vocabulary Continous Speech Recognition, LVCSR)的声学建模[2?3];在语言模型方面,以N元文法为代表的统计语言模型开始广泛应用于语音识别系统[4]。在这一阶段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神经网络的语音建模方法开始广泛应用于LVCSR系统,语音识别技术取得新突破。
20世纪90年代以后,伴随着语音识别系统走向实用化,语音识别在细化模型的设计、参数提取和优化、系统的自适应方面取得较大进展[5]。同时,人们更多地关注话者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题[6]。此外,语音识别技术开始与其他领域相关技术进行结合,以提高识别的准确率,便于实现语音识别技术的产品化。
2 语音识别基础
2.1 语音识别概念
语音识别是将人类的声音信号转化为文字或者指令的过程[7]。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支。语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领域[8]。
根据在不同限制条件下的研究任务,产生了不同的研究领域。这些领域包括:根据对说话人说话方式的要求,可分为孤立字(词)、连接词和连续语音识别系统;根据对说话人的依赖程度,可分为特定人和非特定人语音识别系统;根据词汇量的大小,可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。
2.2 语音识别基本原理
从语音识别模型的角度讲,主流的语音识别系统理论是建立在统计模式识别基础之上的。语音识别的目标是利用语音学与语言学信息,把输入的语音特征向量序列[X=x1,x2,…,xT]转化成词序列[W=w1,w2,…,wN]并输出。基于最大后验概率的语音识别模型如下式所示:
[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]
上式表明,要寻找的最可能的词序列[W],应该使[P(X|W)]与[P(W)]的乘积达到最大。其中,[P(X|W)]是特征矢量序列[X]在给定[W]条件下的条件概率,由声学模型决定。[P(W)]是[W]独立于语音特征矢量的先验概率,由语言模型决定。由于将概率取对数不影响[W]的选取,第四个等式成立。[logP(X|W)]与[logP(W)]分别表示声学得分与语言得分,且分别通过声学模型与语言模型计算得到。[λ]是平衡声学模型与语言模型的权重。从语音识别系统构成的角度讲,一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法等模块。语音识别系统本质上是一种多维模式识别系统,对于不同的语音识别系统,人们所采用的具体识别方法及技术不同,但其基本原理都是相同的,即将采集到的语音信号送到特征提取模块处理,将所得到的语音特征参数送入模型库模块,由声音模式匹配模块根据模型库对该段语音进行识别,最后得出识别结果[9]。
语音识别系统基本原理框图如图1所示,其中:预处理模块滤除原始语音信号中的次要信息及背景噪音等,包括抗混叠滤波、预加重、模/数转换、自动增益控制等处理过程,将语音信号数字化;特征提取模块对语音的声学参数进行分析后提取出语音特征参数,形成特征矢量序列。语音识别系统常用的特征参数有短时平均幅度、短时平均能量、线性预测编码系数、短时频谱等。特征提取和选择是构建系统的关键,对识别效果极为重要。
图1 语音识别基本原理框图
由于语音信号本质上属于非平稳信号,目前对语音信号的分析是建立在短时平稳性假设之上的。在对语音信号作短时平稳假设后,通过对语音信号进行加窗,实现短时语音片段上的特征提取。这些短时片段被称为帧,以帧为单位的特征序列构成语音识别系统的输入。由于梅尔倒谱系数及感知线性预测系数能够从人耳听觉特性的角度准确刻画语音信号,已经成为目前主流的语音特征。为补偿帧间独立性假设,人们在使用梅尔倒谱系数及感知线性预测系数时,通常加上它们的一阶、二阶差分,以引入信号特征的动态特征。
声学模型是语音识别系统中最为重要的部分之一。声学建模涉及建模单元选取、模型状态聚类、模型参数估计等很多方面。在目前的LVCSR系统中,普遍采用上下文相关的模型作为基本建模单元,以刻画连续语音的协同发音现象。在考虑了语境的影响后,声学模型的数量急剧增加,LVCSR系统通常采用状态聚类的方法压缩声学参数的数量,以简化模型的训练。在训练过程中,系统对若干次训练语音进行预处理,并通过特征提取得到特征矢量序列,然后由特征建模模块建立训练语音的参考模式库。
搜索是在指定的空间当中,按照一定的优化准则,寻找最优词序列的过程。搜索的本质是问题求解,广泛应用于语音识别、机器翻译等人工智能和模式识别的各个领域。它通过利用已掌握的知识(声学知识、语音学知识、词典知识、语言模型知识等),在状态(从高层至底层依次为词、声学模型、HMM状态)空间中找到最优的状态序列。最终的词序列是对输入的语音信号在一定准则下的一个最优描述。在识别阶段,将输入语音的特征矢量参数同训练得到的参考模板库中的模式进行相似性度量比较,将相似度最高的模式所属的类别作为识别中间候选结果输出。为了提高识别的正确率,在后处理模块中对上述得到的候选识别结果继续处理,包括通过Lattice重打分融合更高元的语言模型、通过置信度度量得到识别结果的可靠程度等。最终通过增加约束,得到更可靠的识别结果。
2.3 声学建模方法
常用的声学建模方法包含以下三种:基于模式匹配的动态时间规整法(DTW);隐马尔可夫模型法(HMM);基于人工神经网络识别法(ANN)等。
DTW 是较早的一种模式匹配的方法。它基于动态规划的思想,解决孤立词语音识别中的语音信号特征参数序列比较时长度不一的模板匹配问题。在实际应用中,DTW通过计算已预处理和分帧的语音信号与参考模板之间的相似度,再按照某种距离测度计算出模板间的相似度并选择最佳路径。
HMM是对语音信号的时间序列结构所建立的统计模型,是在马尔可夫链的基础上发展起来的,它是一种基于参数模型的统计识别方法。HMM可模仿人的言语过程,可视作一个双重随机过程:一个是用具有有限状态数的马尔可夫链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与马尔可夫链的每一个状态相关联的观测序列的随机过程[10]。
ANN以数学模型模拟神经元活动,将人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力充分运用到语音识别领域,并结合神经网络和隐含马尔可夫模型的识别算法,克服了ANN在描述语音信号时间动态特性方面的缺点,进一步提高了语音识别的鲁棒性和准确率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估计音素或状态的后验概率。2011年,微软以深度神经网络替代多层感知机形成的混合模型系统大大提高了语音识别的准确率。
3 语音识别的应用
语音识别技术有着非常广泛的应用领域和市场前景。在语音输入控制系统中,它使得人们可以甩掉键盘,通过识别语音中的要求、请求、命令或询问来作出正确的响应,这样既可以克服人工键盘输入速度慢,极易出差错的缺点,又有利于缩短系统的反应时间,使人机交流变得简便易行,比如用于声控语音拨号系统、声控智能玩具、智能家电等领域。在智能对话查询系统中,人们通过语音命令,可以方便地从远端的数据库系统中查询与提取有关信息,享受自然、友好的数据库检索服务,例如信息网络查询、医疗服务、银行服务等。语音识别技术还可以应用于自动口语翻译,即通过将口语识别技术、机器翻译技术、语音合成技术等相结合,可将一种语言的语音输入翻译为另一种语言的语音输出,实现跨语言交流[11]。
语音识别技术在军事斗争领域里也有着极为重要的应用价值和极其广阔的应用空间。一些语音识别技术就是着眼于军事活动而研发,并在军事领域首先应用、首获成效的,军事应用对语音识别系统的识别精度、响应时间、恶劣环境下的顽健性都提出了更高的要求。目前,语音识别技术已在军事指挥和控制自动化方面得以应用。比如,将语音识别技术应用于航空飞行控制,可快速提高作战效率和减轻飞行员的工作负担,飞行员利用语音输入来代替传统的手动操作和控制各种开关和设备,以及重新改编或排列显示器上的显示信息等,可使飞行员把时间和精力集中于对攻击目标的判断和完成其他操作上来,以便更快获得信息来发挥战术优势。
4 结 语
语音识别的研究工作对于信息化社会的发展,人们生活水平的提高等方面有着深远的意义。随着计算机信息技术的不断发展,语音识别技术将取得更多重大突破,语音识别系统的研究将会更加深入,有着更加广阔的发展空间。
参考文献
[1] 马志欣,王宏,李鑫.语音识别技术综述[J].昌吉学院学报,2006(3):93?97.
[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.
[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.
[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.
[5] 倪崇嘉,刘文举,徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报,2009,23(1):112?123.
[6] 顾亚强.非特定人语音识别关键技术研究[D].长沙:国防科学技术大学,2009.
[7] 中华人民共和国国家质量监督检验检疫总局.GB/T21023?2007 中文语音识别系统通用技术规范[S].北京:中国标准出版社,2007.
[8] 王文慧.基于ARM的嵌入式语音识别系统研究[D].天津:天津大学,2008.
[9] 何湘智.语音识别的研究与发展[J].计算机与现代化,2002(3):3?6.
>> Linux平台下的ALSA声音编程 基于Sphinx的机器人语音识别系统构建与研究 linux平台下智能卡的支持方案 Linux平台下的MySQL存储管理技术研究 Linux平台下FTP客户端的设计思路 自主学习平台下英语语音教学模式的构建 TensorFlow平台下的手写字符识别 Linux平台下数据包过滤防火墙的研究与实践 基于SkyEye的虚拟嵌式平台下Linux内核移植技术的研究 Windows和Linux平台下的腰椎治疗仪实时仿真 嵌入式Linux平台下随机序列算法的设计 IP多播技术在Linux平台下电子教室中的应用与研究 基于ARM11在Linux平台下网络通信的设计与实现 Linux系统平台下会计软件的发展前景展望 虚拟机linux平台下基于Xshell的远程登录服务的设计与实现 在Linux平台下基于MPI的并行PC集群搭建的实现 基于Sphinx4的语音解码模块设计 云服务安全平台研究开发与语音识别应用 基于车联网平台下自然语音辨识系统的研发 .NET平台下中文语音合成技术的研究与实践 常见问题解答 当前所在位置:l。提交文件后,会产生由4个数字和后缀名组成的文件,假设其中包括的两个文件为8521.dic字典文件和8521.lm语言模型文件即我们所需要的文件。可以用两个线程处理这一过程,从而提高程序的性能:一个线程用来监听和处理语音命令,一个线程用来执行命令对应的应用程序,如图1所示。
假设C语言源程序名为hello_ps.c则可以编写如下的Makefile文件:
#Makefile for hello_ps.c
obj=hello_ps
modeldir=$(shell pkg-config--variable=modeldir pocketsphinx)
flags=$(shell pkg-config--cflags--libs pocketsphinx sphinxbase)
$(obj):$(obj).c
gcc $(obj).c-o $(obj)-DMODELDIR=\"$(modeldir)\"$(flags)
运行make命令编译即可产生hello_ps文件。然后运行./hello_ps-lm 8521.lm -dict 8521.dic就可以测试了。
五、结束语
本文介绍了语音识别引擎pocketsphinx在Linux环境下的应用程序编程,语音识别有着广泛的应用。如我们常见的声控拨号电话,语音识别锁等等。语音识别技术是非常重要的人机交互技术,有着非常广泛的应用领域和市场前景色。
参考文献:
[1]Carnegie Mellon University./wiki/
[2]/wiki/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB
关键词:连续语音识别;关键技术;创新
谈到语音识别,就不得不提到李开复------前微软研究院院长,他在哥伦比亚大学时主攻的就是语音识别,即通过机器来识别语音。语音识别是现代社会背景下的一门新兴学科,它最主要的功能就是可以让计算机听懂人说的话,进而为人们提供更高效且方便的服务。它是人类和计算机之间利用语言进行交流 的桥梁,也是一门与多种学科紧密联系的实用技术。现阶段,人们对连续语音识别的研究已经取得了一定的成就。目前,我们研究语音识别的重点正在向特定应用领域口语的识别和理解方面转变。在这个研究中,有几种关键技术,下面我们就对其中几种关键技术进行简单的分析。
1、词语定位技术
词语定位技术,在语音识别技术中非常重要的技术。主要通过对关键词进行定位,这种技术跟语言的语法特点有很大关系,是将语句中的关键词语提取出来的一种定位技术。比如主语,谓语,宾语就是关键语素,先将这些语素定位对于完善整句话有着非常重要的意义,因为这些语素已经勾勒出了语句的骨架。打个比方,盖个房子要加钢筋,来增加建筑物的强度和支撑作用,关键语素就是语句意群的钢筋。通常词语定位是通过设置并及时更新关键词库来实现的。
2、关联搜索技术
在确定完基本语素后,就要根据语素之间的关联性,进行搜索,那些语素是一个意群,同在一个意群中的语素如何排列。利用相关性确定意群非常重要,因为词语词之间不是任意搭配的,而是有规律的,这种规律就是语法,包括书面语语法和口语的语法。语法是语音识别的规则,因此是非常重要的。关联的方式在语法的约束下主要有以下几种:1.相关词语出现的概率;2.相关词语的词性;3.相关词语出现的语境的重复率等等。
连接词识别就是说,系统中存储的HMM针对的是孤立词,但识别的语音是由这些词组成的词串。由于这一技术是一个连接序列,即根据给定发音序列来找到与其最匹配的参考模块词,所以,下面的问题必须得到解决:(1)在序列中,有些时候即使知道词长度的大概范围,也不知道词的具体数量;(2)除整个序列的首末端点之外,序列之中每个词的边界位置并不知道。
3、抗阻碍性
在语音识别系统中,阻碍无处不在,具体说来,阻碍包括以下几个方面:1.方言带来的语音识别的阻碍;2.口音带来的语音识别的阻碍;3.外界干扰(噪声)带来的语音识别的阻碍;4.系统设备局限性带来的语音识别的阻碍等等。
一般情况下,在实验室(环境相对安静)中训练合格的语音识别系统用在实际环境(环境与训练的实验室环境不相匹配)的时候性能就会明显下降。所以,运用顽健语音识别技术就是为了研究一些补偿技术借以提高系统在不同环境中的性能。
根据语音系统中噪声的特点,我们研究出了一些抑制噪声的方法,如根据信号与噪声在各个尺度上的小波谱表现不一样的特点,可以运用小波变换的噪声抑制;根据含噪语音信号能量谱就是噪声信号和语音信号能量谱之和这一特点,可以运用EVRC编码噪声抑制方法,等等。
4、搜索策略技术
在利用计算机来识别语音的时候,未知的模式,即从输入语音中求出的特征参数,与事前所定的标准模式是否一致,这个问题必须检查。目前语音识别的实现主要是通过声音识别芯片分析声音的波形来实现的,人的说话声音有音调、音色的不同,因而所形成的生意的波形也不同,芯片通过比对声音图谱来确定语音内容,达到声音识别的目的,这也就是声音识别的原理。然而,在实际情况中,由于语音具有许多的不确定的因素,想达到完全一致比较困难。搜索策略是连续语音识别研究中的一个是否重要的课题。它的基本思路是,把帧作为搜索单位,在每一时刻对每一条路径都假定当前帧有可能是这一路径的后续,借此进行一个完整的搜索。
总体来说,搜索策略技术受到容量的限制。所以,我们必须确定应该保留哪些路径,这就要求我们确定一定阀值,这个阀值既不能过严也不能过宽。对于这个问题,我们一定要采用合适的算法,如传统的帧同步算法、基于统计知识的帧同步搜索算法原理和受词法约束的词搜索树等算法都是比较适合这一部分的。
结论:
本文总结了连续语音识别中几种关键技术,并对它们进行了简单的介绍和分析。目前连续语音识别技术的研究并不成熟,它要向正确的方向健康发展就必须把词语定位技术、关联搜索技术、抗阻碍性技术、搜索策略技术等技术都正确运用于实际工作中。
参考文献:
[1]冯丽娟,吾守尔·斯拉木.维吾尔语连续语音识别技术研究[J].现代计算机:下半月,2010,(1)
转机
让计算机能够识别人类的语音,从而使得人们能够用自己的母语与计算机进行人机交互,一直是计算机学科追求的目标之一。谈到语音识别,就不能不谈一下李开复。
1983年秋,李开复进入卡内基·梅隆大学,师从罗杰·瑞迪教授,攻读博士学位。瑞迪建议李开复选择不特定语者的语音识别系统作为研究方向,并建议采用专家系统的方法,来解决让电脑听懂每个人说的话的难题。瑞迪是人工智能领域的权威,后来还获得1994年图灵奖。经过近1年的研究,尽管研究有了一些进展,但李开复最终认识到,受技术发展的限制,专家系统相当长时间内难以解决这一难题。在一位同门师兄的提醒下,李开复转而采用统计模型的研究路径,终获成功。1988年,李开复获得博士学位。时至今日,语音识别技术依旧采用的是李开复开创的统计模型。
1998年,IBM中文语音识别技术Via Voice在国内PC市场掀起了一场中文语音输入热潮。第二年,当今国内最大的智能语音识别公司科大讯飞诞生于中国科技大学。
同年,出任微软中国研究院院长的李开复曾告诉媒体,语音识别需要的计算资源太多,实用化还要走很长的路。
“中文语音识别市场在2000年左右逐渐由热变冷,这主要是由于当时算法还比较初级,对计算资源的需求很大,产业环境也不成熟。于是,很多人转去做别的行业。也正是在这个时候,我们团队的主要成员初涉这个领域,进入研究所和高校读博读硕。”梁家恩就在那个时期考入中科院自动化所模式识别国家重点实验室。模式识别实验室分为图像识别和语音识别两大研究方向,图像识别领域诞生了汉王公司,而梁家恩则在语音识别领域历经5年寒窗,完成了硕博连读。
梁家恩介绍说:“我们这些人一直专注于语音识别和语义理解的研究。到了2010年左右,语音识别技术取得了突破性进展,移动互联网也得到普及。加之2011年10月苹果iPhone 4S,作为新产品一大亮点的智能语音助手Siri在市场上再次引爆语音识别热。我们觉得商业化的机会已经成熟,2012年6月,我们创建了云知声,并搭建了用于语音识别的公有云平台。”
突破
虽然现在的语音识别还是采用统计算法,但这十多年来,语音识别技术发展很快。
“首先是数据资源丰富了,以前在实验室收集几百个人的语音都非常困难,现在我们有了语音云平台,吸引了各地不同口音的人们,每天采集上百GB的数据量,样本非常丰富,这有利于分析和改进我们的系统。现在的样本规模比李开复老师当时做的系统的样本规模扩大了几个数量级,而且现在的数据都是真实数据,远非那时模拟数据所能比拟,这在统计算法中至关重要。”梁家恩表示。
“二是统计技术和神经网络学习等关键技术取得较大的突破,在环境噪声处理和对口音识别方面的改进非常明显,识别率显著提升。算法上也做了一些优化,以前的算法你要做一系列实验可能需要一两年的时间,根本没法实现。”梁家辉说,“再有就是智能手机中CPU技术的进步以及GPU的应用,加之后台云计算处理能力的提升,为智能语音识别提供了强大的计算资源。”
语音识别实际上是搜索。梁家恩介绍说,语音识别就是从一句话的声波中提取语音特征,然后与后台数据进行匹配,由于现在的数据库非常大,因此比对的精确度比过去要高得多。虽说都是搜索,但百度搜索是文本检索,它要求捕获全网信息的变化,即信息更新要快。而语音识别上,因为语音特征与文本并没有对应关系,因此,比对精确度就成为语音识别的核心技术所在。
由于面向语音识别这一特定应用,云知声的公有云平台与通用的云平台也有所区别。“我们底层采用的也是集群架构,单台服务器并发线程数达到100,这已是业界最快的;再通过灾备、安全等技术来确保平台的稳健;然后是将目前已经建立的北京、上海和广州机房的计算资源联在一起。我们也对虚拟化做了测试,但虚拟化会带来5%~10%的性能损失,这与我们追求性能最高化的目标不符合。因此,我们采用高性能计算平台,让硬件对语音识别这一特定应用进行优化。”
互联网思维
伴随着智能手机和平板电脑取代PC成为个人计算市场的主流,人机交互也从传统的键盘操作转换为触屏操作。而在注重用户体验的移动互联网时代,智能语音识别将带来更快更方便的用户体验,特别是在车载、可穿戴式电脑等应用上。
梁家恩认为,作为自然高效的交互方式,智能语音技术不仅要识别用户的话语,而且还要能够智能地通过屏幕或者TTS(从文本到语音)的方式实现与用户交流,因而在智能移动设备、广播电视、呼叫中心、会议记录、语言学习、知识学习、互动娱乐等领域有着广阔的应用前景。
“我想查一下今天晚上北京飞上海的航班。”在采访过程中梁家恩对着手机说,话音刚落,手机屏幕上刷新出北京至上海的航班信息。
这个简单的演示可以直白地反映出云知声的商业模式。由于智能手机与机主的对应关系,加之其定位和支付功能,这句话已经包含了这一具有在线支付手同的潜在顾客是谁、在什么地方、具体需求是什么。这对于商家而言,客户信息已经足够了,商家甚至还可以通过手机号码来关联客户的信用、过往的消费习惯等,从而做出精准的营销响应。
“我们不像现在市场有的语音识别公司那样,通过软件授权的方式向用户收费。我们相信互联网的力量,所有语音用户需求汇总到后台后,所蕴含的商业价值要远远大于软件授权带来的价值。”梁家恩说,“我们承诺将公有云平台服务的体验做到极致并且永远免费,同时云知声的智能语音技术向合作伙伴完全开放,即不限领域、不限形态、不限商业模式。当后台数据的商业价值变现时,我们将与合作伙伴分成。”
关键词:语音识别技术;内容监管;应用
中图分类号:TN912.34 文献标识码:A 文章编号:1671-2064(2017)08-0020-01
随着广播电视管理的不断完善,对电视节目内容的监管也越来越严格,对音频搜索等技术的需求也在逐渐增加。但是,音频搜索技术还有很多难题尚未解决,如中文分词瓶颈、第三方数据存储量限制、数据处理分析瓶颈和音频识别准确度等等,这样在应用时会出现很多问题,相关部门需加大研发力度,让音频识别技术更加完善和规范。
1 语音识别关键技术介绍
1.1 语音模型自适应技术
因为环境、人的性别和口音等因素的干扰,语音数据会产生较大变化,在特殊条件下的训练无法推广应用,而自适应就可以根据测试数据进行调整避免误判。在变换的自适应中,采用相同的变换更新参数,当自适应模型参数确定后,就可以用少量自适应数据变换方程,利用变换方程来重新估计模型参数[1]。一般来说,变换方程的数目小于目标模型参数,所以使用少量自适应数据就可以估计出变换方程。但是变换方程并不能探测出单个模型的特征,其渐进性较差,无法估计特征相近人模型。
1.2 说话人识别技术
说话人识别也被称为声纹识别,通过语音信号来识别说话人的身份。说话人识别主要分为两类,即开集识别和闭集识别,两者主要通过是否需要拒识来区别。开集识别更具普遍性,相比闭集识别技术更难。比如说,我们同时监听多个人说话,开集识别需要在多个说话人中找到指定的说话人。开集说话有两大缺陷:虚警错误和漏报错误,两者之间互相制约互相影响。在应用过程中,可调整识别模块更倾向于少虚警错误或漏报错误。研究中会通过等错误率去判断说话人识别系统的性能是否达标,如果虚警错误率和漏报错误率相等就是等错误率[2]。等错误率会受到测试语音长短、样本语音信道匹配度和说话人语音长短等因素的影响,如果说话人语音越长,测试语音也就越长,两者的差异也就越小,等错误率也会相应降低。
1.3 P键词识别技术
关键词识别技术分为单阶段系统和两阶段系统两大类,单阶段系统识别主要是在关键词系统中进行识别,当关键词出现变化,系统就要重新识别。两阶段系统是将一般意义的连续语音转换为文本,然后借助文本匹配途径找到关键词。这种系统比较灵活,可以随时变换关键词,是目前使用最多的关键词识别技术。通过语音关键词检测特定内容具有两个优势:首先是准确率更高,其次是关键词会多次出现。这样在内容监管中就可以允许出现漏检错误,不必每次都准确地识别关键词。
2 语音识别技术的具体应用
2.1 音频模板匹配技术
在已知节目片头曲的条件下,可以使用音频模板匹配技术进行自动打点和分割。因为受到音频压缩和信号传输的影响,导致模板之间存在差异,就可以通过提取多频带能量相对比率,利用各个频带能量分布趋势稳定的特点,就可以解决音频信号扭曲造成的不稳定问题。
2.2 音频切分和分类技术
在处理广播电视音频信息的时候,例如语音识别和检测关键词,需要先对广播电视的音频进行切分,一般都会采用静音检测法来切分,这样可以准确定位,为音频分类工作奠定了基础。对切分的音频片段进行分类,需要根据音频类型采取不同的处理方法。非静音主要分为语音和非语音两类,而语音又分为纯语音和非纯语音,非语音分为音乐和环境音。
2.3 自动发现技术
将广告识别作为案例,利用音频检测获取新广告:首先是针对未知节目和广告而设计,因此需要去除已知模板,这样可以减少计算量。接着是利用音频向量的快速搜索算法确定重复片段的预留位置,因为音频向量都是通过音频段的信息展开检索,就会出现音频字分布相同、但排列不同的音频片段,也会有一些错误片段,所以需要筛选过滤一遍。最后是利用音频指纹搜索找出音频向量模型的重复片段。因为音频指纹检索技术是利用音频帧的排列信息开展工作,所以准确度更高,可以检测出误报片段。完成上述步骤以后,就可以通过图像帧变化率来区分非广告的重复部分。因为广告的播出费用是按照播放时间来定的,所以广告商需要在有限的时间内向观众传递更多的信息,所以视频帧的变化率就比较大,而电视剧的变化率较小,这样就可以去除重播的非广告类节目[3]。
3 结语
随着科学技术的不断发展,语音识别技术的应用范围也越来越广,识别的准确度也在不断提高。广播电视对语音监管的要求也在提高,语音识别技术必须达到要求,这样不仅可以提高节目的搜索速度,对关键内容进行快速定位,还可以减轻工作人员的工作压力,提升监管水平。
参考文献
[1]陈彪,丁鹏.一种基于语音关键词识别的广播电视内容监测系统[J].广播与电视技术,2015,26(12):31-32.
关键词 机器人 语音识别 声学模型 语音特征参数
中图分类号:TP242 文献标识码:A
1语音识别技术的研究意义
人们使用的声音语言是一种人在特定高度思维和意识活动下的产品。语言是人类最直接以及最理想的交流方式,也是人机通信是最方便的方式。在机器人发展的高级发展阶段中,机器人的智能语音识别与人类的活动是密切相关的,有声语言的人机交互信息成为重要的手段。例如,语音识别获取外界信息很自然,没有特殊的训练方法,随着机器人技术的发展和广泛应用,有越来越多的机会来接触人类和机器人,所以人们希望通过语音识别和机器人去处理,不管谁能能准确安全,方便地操纵机器人。机器人和人类之间的信息交互,表现在两个方面,一是对更高层次的机器人操作,方便软件的设计开发,这种多为教学机器人,另一种是在实际操作的要求下完成信息交互任务的机器人。智能机器人作为机器人技术发展的高级阶段,其发展趋势是:不仅要求机器人具有高度的自治能力,还要使机器人和人类之间的协调也具有一定的智能性。这就要求机器人具有不同的高性能主动做事能力,而不是被动地接受任务,为了实现这一目标,自然语言作为人机信息交换将发挥越来越重要的作用。目前,智能机器人已成为机器人研究领域的一个热点。工业机器人是智能机器人的一个重要研究领域。当今,工业机器人的发展方兴未艾,巨大的市场潜力,使真正的工业机器人的已经在市场上崭露头角,以满足人们日益增长的需求,我们不能没有一个高性能的语音识别系统。由于工业机器人是面向生产实际的需要,最好的工作方式是让机器人能顾听懂最常见的人类语言,完成指定的工作,并能与人交流。机器人语音识别是机器人研究领域中的语音识别应用,最终的目标是让机器人了解人们的口头语言,然后按照人们的命令来行动或反应,从而形成一个良好的人机对话系统。为了能够进一步推动智能机器人的开发应用,因此,在语音识别机器人的研究领域中,机器人语音识别系统是工业机器人的实际推广应用,具有重要的意义。
语音识别技术在智能机器人中的应用已经有很多年的历史,作为智能机器人的一个分支,工业机器人得到了迅速发展,工业机器人通过语音识别从工业噪声中提取有效的语音命令。为了实现机器人在一些特殊工业环境中工作的目的,机器人要能够识别命令意图。语音识别技术,可以实现人机对话,从而让机器能模仿人类完成所有工作的分配,使其在各行各业中能够得以应用。目前所面临的实际问题是:噪声和干扰环境下对大型工业机器人的语音识别有严重的影响。在机器人识别领域,工业环境中的实时性是一个非常重要的任务。机器人在工业环境下应用的听觉识别是使智能机器人发展速率低的瓶颈。
2语音识别系统的发展
2.1语音识别系统的发展方向
语音识别系统是基于一套应用软件系统的硬件平台和操作系统的一些。语音识别一般分为两个步骤。第一步是学习或培训。这一阶段的任务是建立基本单元的声学模型来进行识别和模型的语音语法分析等。第二步是识别或测试。根据识别系统的类型可以满足一个识别方法的要求,使用语音分析的方法来分析语音特征参数,并建立了比较和测量系统模型,根据一定的标准,鉴定结果。
语音识别系统的应用可分为两个发展方向,其中一个是大词汇连续语音识别系统,主要应用于计算机的听写机,以及结合电话网或互联网的语音信息服务系统,这些系统是在计算机平台上的一个重要发展方向。其次是应用的小型化,便携式音频产品,如无线移动电话的拨号,语音控制车载设备,智能玩具,家用电器和其他方面的应用的远程控制,这些应用系统大多采用特殊的硬件系统来实现,特别是语音信号处理芯片和语音识别芯片,最近几年快速发展,为其广泛应用创造了极为有利的条件。
2.2语音识别系统的模型与模式
语音识别系统的核心是声学模型和模式分类。首先通过学习算法,训练语音声学模型的特点是通过学习过程来生成声学模型,这是识别潜在的模型的前提,是最关键的语音识别系统的一部分。声学模型的目的是提供一种有效的方法来计算特征向量的声音序列和每个发音模板之间的距离。人的发音在每一刻发音之前和之后都会受到影响。
为了模仿自然连续的协同发音和识别不同的发音,通常需要使用复杂的声学模型。声学模型和语言的发音特点的设计是密切相关的。声学模型单元大小与单词发音,音节模式和音位语音训练数据大小有关,故要求其系统识别具有很大的灵活性。大词汇量语音识别系统,通常采用较小的单元和少量的计算,该模型只有较小的存储容量,减少训练数据的数量,但相应的声音定位和分割问题就显得更加困难,规则识别模型变得越来越复杂。通常大型模型中识别单元包括协同发音,这有利于提高系统的识别率,但训练数据也相对增加。必须根据不同语言的特点来识别词汇,词汇量大小决定单位大小。
参考文献
关键词:语音识别;LD3320;STM32F407;W25Q128
随着科技的发展,人们的操作模式从最初的按键操作到触屏操作,再到现在的语音操作,其越来越便捷,越来越人性化。语音操作的基础就是语音识别技术(Automatic Speech Recognition),简称ASR,其目标就将人类语言转换为计算机可读的输入。语音识别作为一门交叉学科,从产生到现在已取得了显著的进步,现在已逐步走向市场,并且人们预计,语音识别技术在未来10年将会应用于人们生活的各个领域。
根据发音人的不同,语音识别技术可分为特定人语音识别和非特定人语音识别两类,前者只能识别一个或几个人的语音,而后者则能被任何人使用。本文设计的多鼍坝镆羰侗鹣低尘褪粲诜翘囟ㄈ擞镆羰侗鹫庖焕啵其以嵌入式微处理器STM32F407为核心,采用ICRoute公司的LD3320语音识别芯片,并配以存储空间为16M字节的W25Q128芯片,能够实现2000个场景共计识别句100000条的语音识别操作。
1 系统整体结构
如图1所示,整个系统主要是由STM32F407处理器、LD3320语音识别芯片以及W25Q128Flash芯片构成。其中STM32F407处理器用于切换场景和场景关键词更改;LD3320语音识别芯片用于语音识别,W25Q128Flash芯片用于存识别句,两种都是通过SPI总线与处理器相连。整套系统与外部其他系统则是通过串口进行通信。
2 系统硬件介绍及存储空间设计
2.1 系统硬件介绍
2.1.1 STM32F407ZGT6处理器
STM32F407ZGT6采用Cortex_M4内核,集成FPU和DSP指令,具有192KB SRAM、1024KB FLASH、3个SPI、6个串口等。基于其强大的配置,所以本系统的处理器选用该芯片。
2.1.2 LD3320语音识别模块
LD3320语音识别模块是ICRoute公司的一款产品,其特有的快速而稳定的优化算法,能够完成非特定人语音识别,识别准确率高达95%。该模块每次最多可以设置50条候选识别词或识别句,只要单个词或句长度不超过10个汉字和79字节的拼音串,同时我们可以对识别内容动态编辑。模块的通讯方式有并行和串行两种,根据需求的不同可以选择不同的通讯方式。除了语音识别这一功能之外,模块还支持MP3播放功能,只要MCU将MP3数据依次送入芯片,就能够从芯片的PIN引脚输出声音。
2.1.3 W25Q128Flash芯片
W25Q128是华邦公司推出的大容量SPIFLASH产品,容量为128Mbit,即16M。该芯片将16M空间分为256块,每块64KB,每块又分为16个扇区,每个扇区4KB。由于W25Q128的最小擦除单位为一扇区,也就是说每次擦除4KB。
2.2 存储空间设计
由于W25Q128芯片每次擦除的单位为4KB,而每句识别语句至少有80字节,一个场景有50句识别语句,所以一个扇区用于一个场景是不够的,因此我们将两个扇区划为一个场景;图2是单个场景数据存储关系图,图中每个场景占8192字节,每条识别语句占100个字节,其中第一个字节为识别语句编号,范围为1-50;单个场景的第一个扇区可以存储40条识别语句,第二个扇区可以存储10条识别语句,其中第4000B-4096B和5096B-8190B保留,不存储数据,整个场景的最后两个字节用于存储场景编号,范围为1-2000。W25Q128共有4096个扇区,理论上可以划分2048个场景,但是我们只划分2000个场景,也就是4000个扇区;还剩下96个扇区,剩下的第1-50扇区用于存放每个场景的相关信息,计算可以得到每个场景有1KB的存储空间,然后我们将最后一个扇区的最后两个字节存储现在所在场景编号,剩下的空间保留。
3 系统软件设计
3.1 通讯协议格式设置
整个系统主要具有场景切换和场景识别语句存取功能,表1是部分对应协议格式。
3.2 初始化函数及操作函数介绍
STM32处理器与其他各个模块建立通信连接,除了连接好对应IO口后,还需要对各个IO进行初始化,这样才能进行数据的收发,以下是主函数中相关初始化函数:
NVIC_PriorityGroupConfig(NVIC_PriorityGroup_2);//首先设置系统中断优先级分组
delay_init(168); //初始化延时函数
LED_Init();//指示灯初始化
KEY_Init();//按键初始化
IWDOG_Init();//看门狗初始化
USART1_Init(9600);//初始化串口1
W25QXX_Init();//W25Q128初始化
LD3320_Init();//LD3320初始化
while(W25QXX_ReadID()!=W25Q128) //检测是否存在W25Q128
{
LED0=!LED0; //如果检测不到W25Q128指示灯1会不停闪烁
}
关键词:Mel频率倒谱系数;支持向量机;语音识别;特征提取
中图分类号:TP399 文献标识码:A 文章编号:1672-7800(2012)003-0153-02
作者简介:李玲俐(1977-),女,湖北洪湖人,硕士,广东司法警官职业学院讲师,研究方向为数据挖掘与模式识别。
0 引言
语音识别是一种模式识别,就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术3个方面。目前一些语音识别系统的适应性比较差,主要体现在对环境依赖性强,因此要提高系统鲁棒性和自适应能力。支持向量机(Support Vector Machine,SVM)是基于统计学理论发展起来的新的机器学习方法,采用将数据从低维空间映射到高维空间的思想,由支持向量来决定最优分割线,SVM先自动找出对分类有较好区分能力的支持矢量,然后构造出分类器来最大化类与类的间隔,因此有较好的适应能力和较高的分准率。
本文在现有语音识别技术基础上,提出一种MFCC(Mel Frequency Cepstrum Coefficients,Mel频率倒谱系数)+SVM的语音识别方法,实现对几种英文单词的分类。实验结果表明,该识别方法具有较高的准确率。
1 语音识别系统
语音识别过程一般分为3个阶段:信号处理、特征提取和模式识别,如图1所示。
1.1 MFCC特征提取
特征提取是数据挖掘和模式识别中的一个重要步骤。其目的是从原有特征数据中提取出与特定任务,如分类、压缩、识别等密切相关的新特征(或特征子集),以有效地完成特定任务或进一步减少计算量。
研究者通常使用经典的特征提取技术,如MFCC、连续小波变换(Continuous Wavelet Transform,CWT)和短时傅里叶变换(Short-Time Fourier Transform,STFT)来提取语音片段的特征。Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。MFCC则是利用它们之间的这种关系,计算得到的Hz频谱特征。由于MFCC具有良好的识别性能和抗噪能力,在语音识别中得到广泛的使用,而且研究人员仍在对MFCC的各种参数进行实验和调整,并通过同其它模型的协同工作来找出提高识别率的方法。
MFCC参数的提取包括以下几个步骤(如图2所示):
(1)预加重。通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响。
(2)分帧。根据语音的短时平稳特性,语音可以以帧为单位进行处理。n为每一帧语音采样序列的点数,本系统取n=256。
(3)加窗。为了减小语音帧的截断效应,降低帧两端的坡度,使语音帧的两端不引起急剧变化而平滑过渡,需要让语音帧乘以一个窗函数。目前常用的窗函数是Hamming窗。
(4)对每帧序列s(n)进行预加重、分帧加窗后,然后经过离散FFT变换,将s(n)取模的平方得到离散功率谱S(n)。
(5)计算S(n)通过M个滤波器Hm(n)后所得的功率谱,即计算S(n)和Hm(n)在各离散频率点上的乘积之和,得到M个参数Pm,m=0,1,…,M-1。
(6)计算Pm的自然对数,得到Lm,m=0,1,…,M-1。
(7)对L0,L1,…,Lm-1计算其离散余弦变换,得到Dm,m=0,1,…,M-1。
(8)舍去代表直流成分的L0,L1,…,Lm-1,取L0,L1,…,Lm-1作为MFCC参数。
1.2 SVM分类器设计
在线性可分的情况下,SVM构造一个超平面H,设线性可分样本集为(xi,yi),i=1,2,…,n,U∈{+1,-1} 是类别标号。所有在这个超平面上的点x满足:
w・x+b=0
其中:w为权重向量,b为分类阈值。根据结构风险最小化原则,在保证分类间隔最大,即寻找最优分类面的条件下,w和b必须满足如下条件:
yi[(w・xi)+b]≥1
xi为训练样本,在此约束下,求解最优超平面问题可以转换为求函数:Φ(w)=12w2=12(w・w)的最小值。最优问题的解由Lagrange函数的极值点给出:
L(w,b,α)=12w2-∑li=1αi{yi[(w・xi)+b]-1}
αi为Lagrange乘子,对w和b求偏导,并令所求式为零,求得:
∑li=1yiαi=0
对于线性不可分的情况,可以通过非线性变换转化为某个高维空间中的线性问题。即将SVM中的内积x・y由核函数K(x,y)所取代。常用的核函数有:
(1)多项式核函数K(x,xi)=[(x・xi)+b]d,其中d是多项式的阶数。
(2)Gauss核函数K(x,xi)=exp-x-xiσ2 ,其中σ是Gauss函数的宽度。
(3)Sigmoid核函数K(x,xi)=tanh[v(x,xi)+c],其中v和c是尺度和偏置参数。
由经验观察可知,Gauss核函数比其它两种核函数优越,所以本文选用Gauss核函数,对于给定的核函数。最优分类函数为:
yi=sgn∑xi∈wiyik(xi,xj)+
2 实验设置及结果分析
本实验使用的语音信号采用Windows自带的录音软件录制,录音背景为普通环境,录制的语音以Wave 格式保存,采样频率为8KHz,16bit量化,单声道。对10(5男5女)个人进行录音,语音样本分别为6个单词,并且每个人每个词发音9遍,得到540个采样数据。随机抽取2/3的采样作为训练样本集,1/3作为测试样本集。
由上述语音识别系统得到每一种语音的正确分类的样本数,并采用
识别准确率=正确识别的样本数样本总数×100%
得到表1所示的识别结果,包括每种待识别单词以及总计得到的正确识别数和识别准确率。
3 结束语
本文提出了一种采用MFCC特征提取参数,以SVM作为分类器识别几种容易混淆的单词的方法,结果表明,该语音识别方法具有结构简单、高识别精度的特点,可以在语音识别系统中得到实际应用。当然,今后的工作中还要考虑将SVM理论和其它分类方法结合起来,如SVM和隐马尔可夫模型(HMM)相结合、将多类SVM等综合方法应用于更多的语音识别领域。
参考文献:
\[1\] VAPNIK V. The nature of statistical learning theory\[M\].New York:Springer-Verlag,1995.
\[2\] 陈刚,陈莘萌.一种考虑类别信息的音频特征提取方法\[J\].计算机研究与发展,2006(11).
关键词:云计算;云服务;云安全;语音识别;虚拟化技术
中图分类号:TP302 文献标识码:A 文章编号文章编号:16727800(2014)001000702
基金项目基金项目:渭南师范学院大学生创新项目(13XK069);陕西省大学生创新训练项目(1857)
作者简介作者简介:刘琳茜(1992-),女,渭南师范学院数学与信息科学学院信息工程系学生,研究方向为软件工程;李永康(1992-),男,渭南师范学院数学与信息科学学院信息工程系学生,研究方向为软件工程;索(1971-),男,渭南师范学院数学与信息科学学院信息工程系副教授,研究方向为计算机应用。
0 引言
云计算[12]作为企业计算的一个新兴领域,正逐步被应用于企业的业务活动之中,发挥着其低成本、快部署、灵活调整规模等优势。虽然基于云技术服务,在安全性方面具有一定的优势,但企业面对上传和存储大量数据时,还是需要考虑安全性等问题。充分利用云技术的安全特性,在数据通信、文件存储等方面进行研究具有非常现实的意义。开发一个基于云技术平台的语音识别系统,不但能保证客户机数据有极高的安全性,且在用户使用过程中,能更方便快捷地获取用户所需信息和操作常用的应用程序,用户体验度更高。这与苹果公司所开发的应用Siri不同,本程序对语音识别作进一步的扩充,能根据用户语音输入进行文件调取、修改、程序运行、数据输入等操作,在国内是一种新的尝试。
1 平台技术与技术体系结构
1.1 平台技术概述
该软件系统的平台技术包括3部分:基础设施作为服务、平台作为服务和软件作为服务。基础设施作为服务即IaaS 服务可以释放各类企业用于存放、运行、维护设备的资源,为使用者提供各种计算资源,包括服务器、网络、存储和数据中心空间,尤其适合开发与测试等资源密集型活动。平台作为服务即PaaS提供了基于云的环境,其中具有可支持用户构建和交付基于 Web(云)应用的完整生命周期所需的一切没有购买和管理基础软件、硬件、供应和托管的成本与复杂性。而软件作为服务即SaaS是一种软件模型,其中应用集中托管在云计算环境中,并且用户通过 Internet 访问这些应用。
1.2 技术体系结构
该软件系统的技术体系结构如图1所示。该软件系统的技术体系结构由四部分组成,面向服务的体系结构(service-oriented architecture,SOA)是一个组件模型,它将应用程序的不同功能单元(称为服务)通过这些服务之间定义良好的接口和契约联系起来,接口是采用中立的方式进行定义的,它独立于实现服务的硬件平台、操作系统和编程语言。这使得构建在各种这样系统中的服务可以以一种统一和通用的方式进行交互。管理中间件分为用户管理、任务管理、资源管理、安全管理,其中最重要的是安全管理,在安全管理方面,用户在使用时,客户端设置三重加密方式,分别为键盘密码的直接输入,语音加密识别和人脸识别,用作平台进入的认证。另外两个部分分别为资源池和物理资源,为客户机提交使用请求或文件需求时所做的调度与处理提供服务。
2 系统具体实现
2.1 平台安全存储与虚拟化技术
为了保证客户机数据有极高的安全性,在对该软件系统云安全进行设计时,采用如下设计原则:①发送和存储尽量少的个人信息到云中,保护云中用户的个人信息最大限度地实现由自己控制,允许用户控制最为关键最为重要的个人信息,用户也可以委托信任的第三方去管理个人信息;②允许用户进行选择,加入和退出机制是目前使用的提供选择的主要方式,用户有权利对个人信息的使用进行选择,当用户提交某种请求时,系统会将此次请求可能访问到的个人信息反馈给用户,用户可以根据反馈回来的信息决定是否继续操作,做到任何一次的个人信息访问用户都心里有数;③明确和限制数据使用的目的;④提供反馈机制。
在存储数据时,使用SQL Server提供的数据服务,目的是让使用者可以存储他们想存储的任何数据,同时使用者可以在任何时候、从任何终端和任何地方获取其需要的任意大小的数据。采用的存储机制(Queue)为容错机制[3],能够在一定程度上提高该软件系统的可靠性与稳定性。在虚拟化技术上,采用硬件辅助虚拟化,利用硬件(主要是CPU)辅助处理敏感指令以实现完全虚拟化的功能,而用户的操作系统无需修改,如VMWare、KVM、Xen[4]。具体实施为:虚拟层来执行基于云环境下的应用服务。虚拟机运行在一个客户端内,和其它VM共享资源。在云资源层,和云相关的核心硬件基础设施服务是由数据中心组件来建模的,它用来处理服务请求,这些服务请求在VM(虚拟机)中执行。
2.2 语音识别
该软件系统所要实现的目标是达到语音人机交互与平台结合。而在语音识别方面,其内容主要包括语音特性分析和建模、语音数字压缩编码、语音识别、语音合成、语音增强、现代语音通信。该软件系统的语音识别过程如图2所示,当用户发出语音指令时,通过语音信号处理技术[5]使用户能在平台上获取所需信息或相关程序操作,而所需要的最终信息将直接通过屏幕或语音反馈到用户端。其具体实现过程为:当系统接收到一段语音指令时,会先对用户的身份进行识别,此时的识别分为讲话人身份证实SV(Speaker Verification)和说话人辨识SI(Speaker Identification),识别结果为Yes或No ,即当系统确定此时的请求者为某位已认证的用户时,便可进入下一界面,为其提供服务,反之则发送错误提示信息。而说话人辨识即从N个对象中确定某个对象。而当用户的身份确定后,接着
会进行语音内容的识别,其内容包括孤立字或词识别(待识别的每个字或词间有停顿)、句子或词组识别(待识别的语音为一个个句子或者词组)、连续语音识别(待识别的语音为连续的讲话声音)、语音理解(正确识别讲话者讲话的含义)。当确定为其中的某一类时,语音识别系统会对接收到的信息先进行预处理工作,对相关的参数进行分析和提取,用提取到的数据与已有的模板库中的数据进行比对,根据其比对的结果给用户反馈出最终的信息。在用户提交的所有任务都完成后,系统会向该使用者发送提示信息。
图2 语音识别过程
2.3 网络通信
同一个云组相当于一个VPN,要实现共享本地数据。
用户能在该平台上创建虚拟局域网,处于同一云组的用户相当于处在同一个VPN(虚拟专用网络Virtual Private Network)上,其之间的通信不受限制,此时用户可以实现本地资源的共享等。
3 结语
基于云服务安全平台的研究开发与语音识别应用软件系统主要针对云技术的加密与安全作进一步研究,用有效的措施对用户信息和程序安全作进一步加强,加入了语音识别使信息的获取变得方便,网络技术的应用更增添了平台的实用性。同时作为这种方式的客户端有很高的拓展性,服务端处存放基于不同平台的程序,对接收的信息进行翻译、模拟、处理,即使一台便携终端也会有很强的处理能力。
参考文献参考文献:
[1] KAIHWANG,GEOFFREY C FOX,JACK J DONGARRA.云计算与分布式系统:从并行处理到物联网[M].北京:机械工业出版社,2013.
[2] 姚宏宇,田溯宁.云计算:大数据时代的系统工程[M].北京:电子工业出版社,2013.
[3] 牛如美,陈雨亭.一种基于异常处理的并发程序容错机制[J].计算机工程,2012(13):4447.
关键词:语音识别;神经网络;遗传算法;遗传神经网络
中图分类号:TP183文献标识码:A文章编号:1009-3044(2008)22-774-03
Research of Speech Recognition Based on Genetic Neural Network
ZHAO Feng
(Computer School of Wuhan University,Wuhan 430081,China)
Abstract:This Paper mainly studies the application of the BP neural network in the research of speech recognition. BP neural network can get higher identification precision, but its training speed is very low. a new recognizing algorithm based on BP algorithm by combining with the good effect method in ANN which named genetic algorithm(GA) was proposed and used to improve the BP neural network . Experiment results show that the training speed can be accelerated by the method and the recognition performance is also promoted.
Key words: speech recognition; neural network; genetic algorithm; genetic neural network
1 引言
语音识别SR(Speech Recognition)是指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图[1]。现代语音识别技术以神经网络为主要发展趋势,进入20世纪90年代以来,神经网络已经成为语音识别的一条重要途径。由于神经网络反映了人脑功能的基本特征,故具有自组织性、自适应性和连续学习能力等特点,特别适合于解决像语音识别这类模拟人的认知过程和智能处理能力,难以用算法来描述而又有大量样本可供学习的问题[2]。
人工神经网络(ANN)是采用大量的简单处理单元广泛连接起来构成的一种复杂信息处理网络。网络的训练学习是应用一系列输入矢量,通过已确定的算法逐步调整网络的权值,最终达到期望的目标。BP神经网络是神经网络中前向神经网络的核心部分,BP算法的学习过程由信号的正向传播和误差的反向传播组成。随着误差逆传播修正的不断进行,网络对输入模式响应的正确率不断上升。然而BP算法是一种梯度下降算法,梯度下降存在多极值问题,且BP网络学习训练速度慢,容易陷入局部最小或振荡。因此,参数的选择非常重要。为克服标准BP算法存在的各种缺点,本文研究用BP算法结合人工智能领域较为有效的方法――遗传(GA)算法来训练网络进行语音识别,仿真实验表明,GABP算法使BP网络在收敛速度上有了很大提高,尤其是克服了容易陷入局部最小值的缺点,基于GABP的语音识别系统的最高识别率和平均识别率都有了很大的提高。
2 语音识别的基本原理
大部分基于神经网络的语音识别系统实现识别功能都要经过从特征参数提取到应用识别算法进行识别的过程,该过程如下图1所示:
■
图1 语音识别系统原理框图
该文主要面向孤立数字识别系统作一些改进研究,其基本识别过程也符合上图1描述:输入的语音信号首先进行预处理,包括抗混叠滤波、声音的预加重、加窗分症处理与端点检测等。预加重的目的是在于滤出低频干扰,尤其是50Hz或60Hz的工频干扰,将对于语音识别更为有用的高频部分的频谱进行提升,以便于语音参数分析。
预加重滤波器传递函数为: H(Z)=1-0.9375Z-1(1)
若S(n)为预加重前语音信号,则经过预加重滤波器后得到的信号■(n)为:
■(n)= S(n)-0.9375 S(n-1)(2)
该文主要完成孤立数字识别,所要求识别的字数不多,对环境的噪声的适应能力的要求也并不高,因此采用了目前比较流行的双门限端点检测算法,借助于语音信号短时平均能量和短时过零率来判定语音有效范围的开始和结束。
语音信号经过预处理后,接下来很重要的一环就是进行特征提取,常用的特征包括短时平均能量和幅度、短时平均过零率、线性预测系数(LPC)、短时傅里叶变换和Mel频率倒谱系数(MFCC)。语音特征参数的时间序列构成了语音的模式,将其与通过应用一系列已知信号训练提取的参考模式逐一进行比较,获得最佳匹配的参考模式便是识别结果。本文中对于预处理的每个有效语音信号段,都要提取其12个一阶MFCC系数,提取过程为:用汉明窗将语音切割成长短一致的语音帧,对每帧语音进行正反傅里叶变换,经对数和离散余弦变换后取前12个数作为MFCC系数来描述每一个帧。最后将每个语音信号对应的MFCC系数序列用K-means聚类算法进行聚类,分为4个聚类,使得每个语音信号都得到相应的12个4维一阶MFCC系数,即可作为语音的特征参数成为神经网络的输入信号。
3 语音识别中的BP网络构造
语音识别中的BP网络构造主要包括输入层、隐层、输出层、初始权值、学习速率与期望误差的选取几个方面的问题。
1) 网络层数:理论上,在不限制隐层节点数的情况下,两层(只有一个隐层)的BP网络可以实现任意非线性映射。当模式样本很多时,减小网络规模,增加一个隐层是必要的,但BP网络隐层数一般不超过两层。本文所要求识别的模式样本不多,因此一个隐层已经足够。
2) 输入层节点数:在BP网络语音识别系统中,输入层节点数与选取的语音信号特征参数的维度和阶数有关。本文中每个语音信号都得到相应的12个4维一阶MFCC系数,故输入层的节点数为12×4=48。
3) 输出层节点数:输出层的节点数取决于输出数据的类型和表示该类型所需的数据大小。当BP网络用于语音识别时,以二进制形式来表示不同的识别结果,则输出层的节点数可根据训练模板的语音数来确定。本文设定输出节点数为10,分别对应于0~9这10个数字。
4) 隐层节点数:通过采用一个隐层,增加其神经元数的方法来达到网络训练精度的提高,这在结构上,要比增加更多的隐层简单的多。但究竟选取多少个隐层节点才合适?在理论上并没有个明确的规定。在具体设计时,比较实际的做法是通过对不同神经元数进行训练对比,然后适当的加上一点余量[4]。一般可利用下面式子决定:
n1=■+a(3)
其中n1为隐层节数;m为输入节点数;n为输出节点数;a为取1~10的常数。本实验中输入节点数为48,输出节点数为10,a选取为常数4,因此隐层节点数n1=12。
5) 初始权值:由于系统是非线性的,初始值对于学习是否达到局部最小、是否能收敛以及训练时间的长短关系很大。一般总是希望经过初始加权后的每个神经元的输出值都接近于零。所以,一般取初始值在(-1,1)之间的随机数。
6) 学习速率与期望误差的选取:学习速率决定每一次循环训练中所产生的权值变化量。小的学习速率虽然会导致收敛速度慢,不过能保证网络的误差值不跳出误差表面的低谷而最终趋于最小值。所以,一般情况下,学习速率的选取范围在0.01~0.8之间。期望误差0.000001。
解决了上述几个方面的问题后,本文采用三层结构神经网络,如图2所示:输入层各节点将输入信号经权重藕合到隐层的每个节点,隐层各节点对来自前一层的信号加权,经激发函数转换后再藕合到输出层。
4 基于遗传神经网络的语音识别
本文研究引用遗传算法对网络的初始连接权值进行优化处理,用BP算法完成给定精度的学习。
4.1 个体编码方案
编码对于网络进化过程的性能和效率影响很大,因此,编码技术是连接权值进化过程中学解决的首要问题和关键步骤。本文中考虑到BP网络的节点数和结构已经固定,可以采用实数编码方案,将网络的权值和各节点的阀值依此排列得到一个向量。
假设一个具有m个节点的n层BP网络,如果第i个节点对应的权值分别为vi(vi[-1,+1]),则一个个体用实数向量表示为X=(v1,v2,…vm)。
4.2 适应度函数的选择
一个网络连接权值优劣的标准,是根据网络对一组输入得到的实际输出与期望输出之间的误差大小来制定的。BP网络中误差平分和小,则表示该网络性能比较好。本文中适应度函数为:
f(x)=■(4)
其中,E为神经网络的输出误差,即:
■(5)
其中n为学习样本总数,yk,■k为第k个个体的期望输出和实际输出向量。
4.3 进化参数
连接权的进化过程中所涉及到的主要进化参数有:种群规模、交叉率、变异率和进化代数等等。交叉是最主要的进化操作,交叉率是指各代中交叉产生的后代数与种群规模之比。常用的交叉率取值范围为0.6~1.0。变异率是指种群中变异的基因数占总基因数的比例,其值控制了新基因引入的比例。常用变异率的数量级范围为0.1~0.001。 种群规模是连接权进化过程首先需要确定的参数,是算法会否陷入局部解的主要影响因素。综合考虑BP网络的初始连接权值和交叉率、变异率的选择,这里选择种群规模为50。
5 仿真实验结果
仿真实验为针对非特定人的孤立数字词语音识别。语音数据由二男二女(0到9共10个数字的普通话发音)通过PC话筒输入,每个音每人发20遍,共计1000次发音,其中以每人每个音的前10次作训练样本,后10次作测试样本,录音环境为安静实验室,采样频率为11.025kHz。
经过反复实验,不断改善实验环境,基于演化神经网络的识别得到了相对较高的识别率。对实验结果分析可知,结合了GA算法的BP网络通过GA全局搜索得到一个权值最优解,只迭代了151次便使得误差值为0.000001 ,而普通BP算法要迭代517才能勉强达到期望误差,由此可知,结合了GA算法的BP网络避免了局部极小,减低了学习速率,提高了收敛速度。
表1 基于遗传神经网络与普通BP网络语音识别系统对比表
■
通过表1对比可知,基于演化神经网络识别算法的语音识别系统无论是在训练时的收敛速度还是在最后的识别率上,都要优于普通的BP网络语音识别系统。
6 结论
语音信号处理和神经网络均是目前研究的热点,文章主要针对语音识别的特点,结合人工智能领域两种比较有效的方法――BP网络和GA算法,构建了一种基于遗传神经网络的语音识别算法。仿真实验结果表明,该算法避免了传统BP算法容易陷入局部极小的缺点,减低了训练时间,有效的提高了系统识别率。
参考文献:
[1] 赵力.语音信号处理[M].北京:机械工业出版社,2003.
[2] 蔡莲红,黄德智,蔡锐.现代语音技术基础于应用[M].北京:清华大学出版社,2003.
[3] 易克初.语音信号处理[M].北京:国防工业出版社,2000.
[4] 孙宁,孙劲光,孙宇.基于神经网络的语音识别技术研究[J].计算机与数字工程,2005,34(3):58-61.
[5] 何英.Matlab扩展编程[M].北京:清华大学出版社,2002.
关键词:语音识别系统 动态时间规整 嵌入式
中图分类号:TP3 文献标识码:A 文章编号:1674-098X(2014)03(b)-0071-01
随着有关于嵌入式系统的软件和硬件技术的进步,语音识别系统得到了全面的应用[1]。由于嵌入式系统受到各种软硬件的约束,该系统通常运行的是特定的任务[2,3]。所以开发者可以优化软硬件资源、减小规模、降低成本。但这对于语音识别系统的效率和准确度有了更高的要求[4]。DTW算法与HMM等算法相比较而言,针对小词汇量语音识别系统,其准确率与HMM等复杂算法几乎相同。
1 DTW算法
动态时间弯曲(Dynamic Time Warping,简称DTW)是把时间规整和距离测度结合起来的一种非线性规整技术。设:
(1)参考模板特征矢量序列为:c0,c1,…,cp;
(2)输入语音特征矢量序列为:d0,d1,...,,dq p≠q。
那么,DTW就是要计算函数D,从而使c和d之间的差别最小。
2 DTW在线并行算法
2.1 算法描述
DTW在线并行算法对于并行性的小词汇语音识别系统特别适用。此方法第一步对问题分解,然后在多个运算单元中单独的计算已知模式和未知模式之间的距离,并且对每个运算单元进行的计算分解。在DTW运算时要预先分配大小一定的内存。最后一步是将每一个单元的运算结果输入到决策模块,得到最终结论。
算法框图如图1所示,按照时间顺序将计算出的未知语音特征矢量输入到各个DTW流水线。然后由决策模块依据各个流水线的计算结果以及其他信息得出结论。但由于每个参考模式的长度不同,各条流水线的计算时间是不同的,因此每条DTW流水线会设置一个完成标志位Pi(1≤i≤N),依据这些完成标志,决策模块对已经完成计算的流水线结果进行处理。同时该算法还可以通过识别历史来提前终止没有完成的计算步骤。
2.2 算法分析
令特征矢量的维度为l,未知模式的长度为k,参考模式的个数为n,参考模式的总长度为p,局部判决函数的水平跨度为w,流水线条数为b。流水线的距离矩阵A的窗口平均大小为wn/p,令t为特征向量的数据类型所占的字节数,则OP-DTW算法所需的内存为wnt/p Byte。当b≥n时,算法所需时间为经典DTW的1/n;当b
3 结语
该文对一种DTW在线并行算法进行了分析,该算法相对减少了由于数据引起的等待时间;提高了DTW的并行度,并充分挖掘出硬件的计算功能,减少处理的时间。由于DTW的适用性,该算法适合一维非线性数据的匹配问题。
参考文献
[1] 林常志.基于统计的语音识别方法分析报告[R/OL].(2003-12-26)[2009-06-13].http:///data/林常志语音识技术报告.net.
[2] 李昱,林志谋,黄云鹰,等.基于短时能量和短时过零率的VAD算法及其FPGA实现[J].电子技术应用,2006,32(9):110-113.
关键词: RSC-3x, 识别率,噪音降除,电路设计,PCB设计,麦克风,电源
RSC-3x是美国Sensory公司出品的交互式语音产品。它同RSC其他系列的产品一样运用神经元算法实现了语音识别的功能,在理想环境下,其识别率可达97%以上。并具有语音合成、录音回放、四声道音乐合成等语音处理功能。由于内含一个8位处理器,RSC-3x还可实现通用处理器的系统控制功能。RSC-3x的高性能和适中的价格使得它主要应用在消费类电子产品和价格敏感的家电产品上。
但是,如何才能运用RSC-3x系列产品开发出性能良好的语音识别产品呢?本文给出了在设计语音识别产品时应在硬件方面考虑的若干问题。
一、噪音降除
语音识别的准确率(简称识别率)会受到诸多因素的干扰而下降。一个导致识别率下降最常见的因素就是噪音:来自系统内部的电子噪音和麦克风所拾取的声频噪音。RSC-3x的一个主要革新技术就是在其片内加入了一个声频预放电路。来自典型的驻极体麦克风的电压信号只是毫伏级的,而能被RSC-3x使用的整个预放增益信号却要放大到200倍以上。通过RSC-3x内置的预放电路,只需外加少许的几个被动元器件就可以达到这个放大作用。良好的接地措施和消除模拟电路中的交叉干扰会进一步确保良好的识别率。鼓励用户大声说话和接近麦克风可以辅助获得良好的信噪比。
二、电路设计
图一是RSC-3x声频预放部分的参考电路。阻值为1.5K的麦克风电阻(Rx)对系统增益具有很大的影响,因此应根据麦克风的敏感度来决定其值的大小。图中的1.5K是典型值。
下表所列为Rx和Cx的推荐值:
Rx
Cx
1K
0.01uF
1.5K
0.0068uF
2.2K
0.0047uF
2.7K
0.0033uF
3.9K
0.0027uF
4.7K
0.0022uF
三、PCB设计
推荐使用带地平面的双面印制的PCB板。地平面应覆盖整个模拟电路区域而仅在RSC-3x附近接地。为减少交叉干扰,模拟地和数字地应尽可能地从物理上分隔开来。特别要注意的是:将高速时钟线(如地址线和数据线)远离麦克风元器件和电路。
每个数字IC都要在紧挨着VDD的地方接一个0.1uF的旁路电容,RSC芯片的每对VDD脚和VSS脚间都要接一个。该旁路电容应该是最大电压为50V的陶瓷电容。如果使用了3端稳压器(如7805),应在其输入/输出脚和地之间接近稳压器的地方接上钽旁路电容。
在使用电池的产品中,串接一个二极管以避免电池装反时损坏电路。
如果产品中除了RSC还有其他需要用到数字时钟的模块(如开关电源、LCD驱动器等),特别要注意防止这些信号进入到RSC的声频电路中去。
四、麦克风的选择
对绝大部分的产品来说,廉价的多向驻极体电容麦克风(最小敏感度为-60dB)就足够了。在有些应用中,信号与音频噪音来源于不同方向时,定向麦克风可能更适合些。由于定向麦克风的频率反应取决于麦克风与声源间的距离,这样的麦克风应谨慎使用。为得到最佳性能,语音识别产品应运用于安静的环境,说话人的嘴应与麦克风极为接近。 如果产品是为在嘈杂环境中使用而设计的,设计时要充分考虑周围环境的噪音。提高信噪比将有助于产品的成功。
五、 麦克风的安放
设计恰当的麦克风嵌入方式和选择性能一致的麦克风是重要的。因为对麦克风不当的声学布置会降低RSC-3x的识别率。麦克风元件有许多种可能的物理放置方式,但有的就会比别的性能更好效果更佳。为此,Sensory推荐了以下的麦克风放置方案:
首先: 产品中,麦克风元件应尽可能地接近外壳,应完全位于塑料外壳内。麦克风元件和外壳间不应有任何空隙。只要有空隙就会产生回音,从而降低识别率。
其次:麦克风元件的前部应确保干净无污,以免干扰识别。麦克风前面的外壳上要保留直径至少为5mm的孔。如果一定要在麦克风的前面加塑料表面的话,塑料表面要尽可能地薄,最好不要超过0.7mm。
三:如果可能的话,麦克风与外壳间应声音隔离。可以将麦克风用橡皮或泡沫等海绵物质包裹起来。这样做的目的在于防止由搬运或震动产品时产生的听觉噪音被麦克风采集。这种外来的噪音会降低识别率。
如果麦克风从距离说话人的嘴15cm的地方移到距离为30cm的地方,信号功率就降低了1/4。高音和低音间的差别也大于1/4。RSC-3x提供了一个AGC(自动增益调节)来补偿太大或太小的声音信号。AGC在麦克风的预放内工作。如果超过了AGC的调节范围,软件会给说话人提供一个声音回馈,如提示“请说大声点”或“请说小声点”来提醒说话人。
六、电源设计
由于 RSC-3x工作时其语音识别电路要消耗约10mA 的电流,电源的设计在这里显得尤为重要。如果系统连续聆听寻找一个给定的词汇,那么在几小时内就能消耗完一个纽扣电池的电能,几天内消耗掉一个大容量的碱性电池的电能。因此如果产品需要识别器一直处于工作状态的话,系统应该采用市电供电。相反的,如果电源采用电池供电的话,那么产品大部分时间应工作于低功耗的“睡眠”状态,只在需要识别时被唤醒就行了。RSC-3x的唤醒可以通过按键或其他IO口事件或震荡器二的时钟倒计时来实现,但无法被麦克风采集到的语音信号唤醒。