时间:2022-11-03 15:43:12
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇语音识别系统,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
[摘要]各个部门和领域对语音识别系统的需求不同,使得语音识别系统的特性和指标表现出的差异性非常大,所以语音识别系统要依据特定的指标和需求进行相关的设计。本文就语音识别系统相关的技术进行了分析,供大家借鉴与参考。
[关键词]语音识别系统;差异性;指标需求
一、引言
语音作为语言的声学体现,也是人类进行信息交流最自然、和谐的手段。与机械设各进行语音的沟通,让机器可以明白人类在说什么,并理解这是人类长期的梦想。语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
二、语音信号分析与特征提取
1.基于发音模型的语音特征。(1)发音系统及其模型表征。其发声过程就是由肺部进行收缩,并进行压缩气流由支气管通过声道和声门引起的音频振荡所发生的。气流通过声门时使得声带的张力刚好使声带发生比较低的频率的振荡,从而形成准周期性的空气脉冲,空气脉冲激励声道便会产生一些浊音;声道的某处面积比较小,气流冲过时便会产生湍流,会得到一种相似噪声的激励,对应的则是摩擦音;声道完全闭合并建立起相应的气压,突然进行释放就是爆破音。(2)语音信号线性预测倒谱系数。被广泛应用的特征参数提取技术的就是线性预测分析技术,很多成功的应用系统都是选用基于线性预测技术进而提取的LPC倒谱系数作为应用系统的特征。LPC倒谱就是复倒谱。复倒谱就是信号通过z进行变换以后再取其对数,求反z变换所得到的谱。线性预测分析方法其实就是一种谱的估计方法,所以其声道模型系统函数H(z)反映的就是声道频率激励和信号的谱包络,对IHg(z)作反z变换就可以得出其复倒谱系数。改复倒谱系数是依据线性预测模型直接获得的,而又被称为LPC倒谱系数(LPCC)。
2.基于听觉模型的语音特征。(1)听觉系统模型。一是人类的听觉系统对于声音频率高低和声波实际的频率高低不是线性的关系,它对不同声音频率信号的敏感度是不一样的,也可看成是对数关系。二是关于掩蔽效应指的就是声音A感知的闭值因为另外的身影的出现出现增大的现象。其生理依据主要是频率群,对频率群进行划分会出现许多的很小的部分,每一个部分都会对应一个频率群,掩蔽效应就发生在这些部分过程中。所以在进行相应的声学测量时,频率刻度一般取非线性刻度。语音识别方面,主要的非线性频率刻度有Mel刻度、对数刻度和Kon~nig刻度。其中Mel刻度被广泛的应用,其是最合理的频率刻度。(2)语音信号Mcl频率倒谱系数。Mel频率倒谱系数利用人们耳朵的听觉特性,在频域将频率轴变换为Mcl频率刻度,再变换到倒谱域得到倒谱系数。MFCC参数的计算过程:
一是对语音信号进行相应的预加重,从而确定了每一帧的语音采样的长度,语音信号通过离散FFT变换得到其频谱。二是求频谱幅度的平方,得到能量谱,并选用一组三角滤波器在频谱域对能量进行带通滤波。带通滤波器中心频率一般是按照Mcl频率刻度排列的(间隔为150Mel,带宽为300Mel),其每个三角形滤波器的两个底点频率和相邻的两个滤波器的中心频率相等,频率响应之和为l。滤波器的个数一般和临界带数比较相近,设滤波器数是M,滤波后得到的输出为:X(k),k=1,2,…,M。
3.语音的端点检测。语音的端点检测就是对语音的起点和终点的确认,由于汉语语音的声母是清声母,有着送气和不送气的塞音,和环境噪声接近比较进行分辨。语音信号有短时稳定性的特性,可选用平稳过程的分析方法进行相应的处理,对语音端点检测进行分帧的处理,再依次对每一帧是否正确进行处理。每一帧的帧长如果比较大,计算量比较小的,可进行端点检测就比较快,但其误差会相应的增加。
语音识别技术发展到今天,对特定人语音识别系统的识别精度就更高。调查统计表明多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。可以预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍是人类面临的一个大的挑战。
关键词:SAPI;C#;.NET;语音识别
1 引言
语音识别是信息处理领域的一个重要方向,语音识别通常又可以分为两种工作方式:一种是连续语音听写,这种方式需要语音识别引擎对语音听写过程中上下文以及相同相似发音的词语进行分析、做出判断,实现难度较大。另一种是命令与控制方式(command and control),在此种方式下,语音识别引擎可以通过对简短的命令语音进行识别,以便执行相应操作。
语音识别技术基础是非常复杂的。正是如此,它获得了世界上著名的公司与研究机构的青睐,语音识别技术正经历着日新月异的改变,其中一些产品已经取得较好的效果,用户可以在上述产品基础之上进行二次开发。
2开发图片语音识别系统的条件
语音识别技术的发展涉及人机交互,自然语言处理,人工智能。这使开发人员难以从底层进行应用开发,欣慰的是一些公司与研究机构已经推出他们的研究成果,并且提供了供开发人员使用的开发平台与接口。其中影响比较大的有微软的SAPI、剑桥大学的HTK,IBM的via voice开发平台。本文采用微软的Speech SDK5.1开发包,它不仅是一个免费的开发包,同时提供对中文的支持。
2.1微软SAPI简介
微软的 Speech SDK是基于 C O M 的视窗操作系统开发工具包。这个 SDK中含有语音应用程序接口( SAPI )、微软连续语音识别引擎(MCSR)以及串联语音合成(又称文本到语音)引擎(TTS)等等。SAPI 中还包括对于低层控制和高度适应性的直接语音管理、训练向导、事件、 语法、 编译、资源、语音识别管理以及文本到语音管理,其结构如图 l 所示。
图1 SAPI结构
SAPI API在应用程序和语音引擎之间提供一个高级别的接口。SAPI实现了所有必需的对各种语音引擎的实时的控制和管理等低级别的细节。
SAPI引擎的两个基本类型是文本语音转换系统(TTS)和语音识别系统。TTS系统使用合成语音合成文本字符串和文件到声音音频流。语音识别技术转换人类的声音语音流到可读的文本字符串或者文件。
2.2 在.net应用程序中使用SAPI的准备
安装SAPI 5.1语音开发包。
由于SAPI基于Windows平台,通过COM接口供.net平台调用,所以具体调用方法为:新建工程,在此工程的解决方案中单击右键,在添加/引用中选择 Microsoft Speech Object Library,并在程序中添加对SAPI命名空间的引用:using SpeechLib。
3 系统模型设计及实现
3.1 创立系统界面
图2 系统界面一览
3.2 使用SAPI语音识别核心类
ISpRecognizer类是支持语音识别的核心类,主要用于访问MCSR实现语音识别。在进行语音识别时,微软Speech SDK 5.1 支持两种模式的语音识别引擎:共享(Share)和独享(InProc)。在本系统中,我们使用共享型语音识别引擎,CLSID_SpSharedRecognizer。
SpSharedRecoContext类是语音识别上下文接口,它可以发送与接收消息通知,通过CreateGrammar方法创建语法规则。通过对它的两个事件:_ISpeechRecoContextEvents_RecognitionEventHandler(ssrc_Recognition) ,_ISpeechRecoContextEvents_HypothesisEventHandler(Hypo_Event)的重写,我们可以很轻松的得到当前语音识别结果。第一个事件对应的就是识别结果显示:1、第二个事件对应的就是识别结果显示;2、ISpeechRecoGrammar类是语法规则接口,定义语音识别引擎需要是别的语音类容。起语法规则可以分为听写型与命令控制型。听写型可以识别大词汇量语音,但是别效率与识别准确率较低。命令控制型有针对性的对特定语音进行识别,在效率与准确率上都非常高。
当然一个ISpRecognizer不管是共享还是独享,都可以有多个RecoContext与其关联,而一个RecoContext也可以与多个ISpeechReco Grammar关联,每个ISpeechRecoGramma r识别各自规定的内容。
图3 语音识别类对应关系
3.3 编写系统核心代码
通过读入外部Grammar配置语音识别引擎,外部Grammar文件以xml文件格式存储。具体形式如下:
ManegePic.xml
玫瑰
大象
狮子
老虎
仙人掌
珠穆朗玛峰
布达拉宫
貂蝉
十字军
世界杯
阿里巴巴
乒乓球
五星红旗
……
采用命令控制型Grammar是为了使语音识别结果准确有效,定义外部Grammar是为了保持以后系统的可扩展性。对于新输入的图片,只要将图片名字加入到 图片名字
中即可。
开始语音输入事件:
private void btnStart_Click(object sender, EventArgs e)
{
ssrc = new SpSharedRecoContext();
srg = ssrc.CreateGrammar(1);
srg.CmdLoadFromFile(""ManegePic.xml"", SpeechLoadOption.SLODynamic);
//读入规则
ssrc.Recognition += new _Ispeec hRecoC ontextEvents_RecognitionventHandler(ssrc_Recognition);
//添加识别最终事件
ssrc.Hypothesis += new _IspeechRecoCon textEvents_HypothesisEventHandler(Hypo_Event);
//添加识别怀疑事件
srg.CmdSetRuleState(srg.Rules.Item(0).Name, SpeechRuleState.SGDSActive);
//激活规则
}
其中识别最终事件是系统在完整处理输入音频之后得到的最后识别结果,怀疑事件则是因为系统在处理过程中的最相似识别结果。这两个事件在一些环境之下得到的识别结果不同。
识别怀疑事件:
private void Hypo_Event(int StreamNumber, object StreamPosition, ISpeechRecoResult Result)
{
textBox2.Text = Result.PhraseInfo.GetText(0, -1, true);
}
将系统在处理过程中的最相似结果显示在textBox控件之中。
识别最终事件:
void ssrc_Recognition(int StreamNumber, object StreamPosition, SpeechRecognitionT ype RecognitionType, ISpeechRecoResult Result)
{
textBox1.Text = Result.PhraseInfo.GetT ext(0, -1, true);
// 将系统最终结果显示在textBox控件之中。
try
{
Picturebox1.image = Result.PhraseInf o.GetText(0, -1, true).tostring()+”.jpg”;
//显示识别结果的图片
}
Catch (Exception e)
{}
}
由于篇幅有限,这里仅仅给出了构建语音识别引擎与图片显示部分的代码。完 整的系统可以在Windows XP + vs2008环境中调试通过,实现基于.net和SAPI的图片语音识别系统。
4 结语
通过制作图片语音识别系统,对利用SAPI进行语音识别有了初步的研究和实践,该系统具有一定的扩展性,也可以作为子系统嵌入到其他系统之中。该系统的功能可以扩展到语音控制文件操作,比如打开/关闭文件,添加文件,可以制作一个不需要键盘鼠标只利用语音就可进行操作的软件系统。
参考文献:
[1] Microsoft Speech 5.1 SDK Help .Microsoft Corporation
以下是来自现场的报道。
市场变化提出新需求
搬迁至新物流中心
神田业务支持公司成立于1974年,当时与长崎屋合资,主要负责服装配送。该公司在日本最早引进了大型托盘输送机,曾一时成为业界热议的话题。2002年,3家分公司合并后统一命名为神田业务支持公司。
公司现任总经理吉林正和先生当时已经进入公司,他回顾公司的发展历程时说:“30多年来,公司经营的物流业务几乎都集中在服装领域,因此积累了丰富的服装物流经验。近些年,公司的物流设施及分拣设备等已开始老化,为此建设了新的物流中心。同时,为适应客户新的需求,我们准备配送服装以外的货物,因此决定引进语音识别系统。”
目前,习志野物流中心处理的货物以服装为主,同时也负责配送鞋类以及其他日用品,据说已接到约20家客户的业务委托。物流中心根据客户订单的要求进行分拣、贴标签等操作,然后向全国配送。
服装类商品主要来自中国大陆及台湾、越南等地,平均每天发送10万件左右,需要投入包括物流中心职员和小时工在内的50~60人从事物流作业,并根据业务量进行灵活调整。
适应市场变化
在公司的旧址茜浜,仓库内的主要设备除了大型托盘输送机外,还有自动分拣机。如果要继续使用这些设备,物流中心一层需要拥有2310平方米的面积,并且老化的设备也需要大笔资金进行维修,如此看来实属浪费。可以说,继续使用大型设备的外部条件发生了变化。
自动分拣机每小时的处理能力达2000件,这是人工作业望尘莫及的。如果不使用分拣机,根本不可能达到2000件/小时的处理能力,那么其他设备也都会闲置下来,其结果将是物流中心无法应对市场的变化。
神田公司经营策划室的松尾健太郎科长谈到:“考虑公司业务范围的变化,我们的方针是保证低成本的同时,新系统要能够应对市场的变化。”
这个新系统就是“语音识别系统”。
选择语音识别系统
耳、眼、手、口总动员
吉林总经理谈到:“在建设新物流中心时,神田面临的最大问题是建设资金,因此我们要控制初期投资。如果使用自动分拣机,至少需要2~3亿日元的资金,但我们的总预算只有1亿日元。而且还要求必须保证订单的交付时间。最终,我们选择了语音识别系统。”
除软件外,新物流中心引进的设备只有挂在腰间的便携式终端和耳机,共25套。包括基础系统改造在内,总投资共6000万日元。
实际上,神田公司从几年前就已开始研究语音识别系统,只不过一直没有对外公开。
新物流中心处理的货物仍以服装为主。通常,以箱(盒)为包装的物品是很容易处理的,数量统计也不易出错。但服装往往装在塑料袋中,既薄又轻,进行拣选操作时,如果工作人员一只手拿着无线终端,另一只手拿着塑料袋,不容易读取条码标签,又容易数错数量。此外,服装的一大特点是颜色、规格多,SKU多,因此,如果使用手持终端进行操作将非常费力。
现在使用语音识别系统,终端挂在腰间,解放了双手,操作人员可以用双手完成拣选作业。操作人员通过耳机得到系统指令的同时,可以立即回应,而不需要“看明细”、“按开关”的动作,能够集中精力进行拣选。
松尾科长说:“过去,物流现场的操作在很大程度上依赖于‘眼睛’,所有终端和明细单都必须用眼睛来判断,如果看错了。就会直接导致发错货。现在有了语音识别系统,其最大的魅力就是通过‘听’接受指令,用‘眼’和‘手’来确认,用‘说’来回应,让两手同时工作。这就是感觉器官的总动员。由此带来工作准确率和效率的大幅提高。”
这也是神田公司选择语音识别系统的初衷。
语音拣选解决方案在世界的发展
回顾历史,在上世纪90年代,日本有几家公司曾引进过语音识别系统,但由于当时的识别能力有限,结果半途而废。之后,经过改良的语音识别系统再度登场,尤其是在欧美物流界颇受欢迎,其中VOCOLLECT公司开始崭露头角。
特别值得一提的是,世界零售巨头沃尔玛把语音识别系统作为标准化配置的系统,在其世界各地的物流中心都在使用。早在3年前,日本国内的沃尔玛旗下的西友・三乡物流中心业也已引进了VOCOLLECT的产品。
此后,众多经销商的市场拓展行动终于开启了语音拣选的世界市场之门。VOCOLLECT公司于2006年成立了VOCOLLECT日本分公司,同时在东欧、南美也逐渐打开市场,目前年销售额近100亿日元,占世界同行业销售的80%。
承担神田公司语音系统建设项目的日本优利公司售后服务事业部矢岛孝安部长说:“人们往往认为只凭借声音并不十分可靠,但VOCOLLECT的产品解决了这一难题。其识别系统和硬件设备组成了堪称完美的系统。”
VOCOLLECT产品的特性
VOCOLLECT日本分公司总经理塞萨尔・西森介绍说,市场上的其他产品大多是把几家公司的终端和软件组合在一起,而VOCOLLECT则根据物流现场的实际需要,从硬件到软件都是自主研发的,具有非常实用的语音识别功能,能够用日语应答就是其一大特色。
如何确保语音识别的精度是使用中的关键问题。塞萨尔・西森总经理认为,要提高语音识别的精度是有前提的。语音识别的基本条件是“指定说话人”和“不指定说话人”,在日本,其他公司都选择了“不指定说话人”,唯独VOCOLLECT公司选择了“指定说话人”。塞萨尔・西森总经理指出,在被噪音环绕的物流和生产现场,“不指定说话人”的方式存在很多问题。
“不指定说话人”即任何人的声音都可能被确认。因为它忽略了每个人声音的差异,那么其识别能力自然低下,特别是在噪音大的场所,附近几个人同时作业,如果别人的声音一旦被确认。必将出现差错。
VOCOLLECT公司的“指定说
话人”的方式,是根据每个人所发出的声音的频率而设定的,具有声音识别功能。这在很大程度上提高了识别精确度。在实际操作中,只要改变用户名、输入ID号,就能够直接调出所需的信息,因此在登录系统后,其他工作人员也可以使用。
当然。每个工作人员初次登录时,都需要经过多次练习,登录加练习的时间大约在20-30分钟。因为设有语音矫正功能,经过几次练习,工作人员就可以熟练掌握。
此外,终端设备的坚固性也非常突出,即使跌落地面,或被踩、被压,都能保持完好无损。这给工作人员带来安全感,可以全神贯注地投入拣选工作。
构建并起用系统仅耗时3个月
神田公司选择日本优利推荐的VOCOLLECT公司的语音识别系统之前,已对该系统的结构和实用性做了全面、细致的调查和论证。
吉林总经理说:“因为我们是首次使用语音识别系统,因此必须进行全面的考察。在考察3家日用品批发商使用该系统的效果时,我们发现该系统不仅能用于分拣,还能用于盘点。这也是我们选择它的一个重要原因。事实证明这个系统是完美的。”
接下来的系统设计,神田公司仅给优利公司和VOCOLLECT公司3个月时间。在此期间,神田为了让员工尽快进入状态,在现场进行实地演示。2008年8月15~16日,公司在搬迁的同时安装新系统,18日就开始正常发货了。
下面介绍语音识别系统的实际应用。
货物初次分拣
1、2、总体分类
语音识别系统主要应用于服装的发货流程。
图1、图2是位于物流中心二层的存储区。每天上午,操作人员根据发货指示,首先进行总体分类,即把当天需要发的货按款式分别集中在台车上的纸箱中。这里的拣选作业是对照产品明细进行的。
3 二次分拣
在相邻的拣选区,货物按照店铺别进行分拣。在图3中,左边是使用手持终端进行扫描,右边是使用语音识别系统进行拣选。
4、5手持终端+输送机
总体分类完成后,把纸箱放到输送机上,按发货店铺的不同,用手持终端逐一进行扫描。
因为每件货物和产品明细都要进行扫描,因此排除了款式错误的可能。但因为是单手作业,尤其对于较薄的服装,产品数量容易弄错。偶尔也会发生无法读取条码标签的情况,或者标签被翻转放置,此时操作起来相当费力。
6、7、台车+手持终端
图6是台车分拣区。台车底层放置了4个空周转箱用于调节高度,上层的4个周转箱分别代表4个店铺,操作人员同时处理4家店铺的货物,操作非常快捷。当然。通道,必须留有足够的宽度,以保证台车通过。
使用语音识别系统进行拣选
8~11 语音识别拣选
前面提到的输送机传送来的周转箱到达此处,按照发货店铺的不同依次进行拣选。此时操作人员通过耳机接收指示,用麦克进行回应,在“是”、“下面”的应声中进行分拣作业。不仅双手可同时操作,并且不需要看手持终端显示的数据,只需用眼睛确认发货明细上的代码即可。
操作人员听到的是什么样的指示呢?是商店代码、货物代码以及拣选的数量等,速度很快,听到指示后必须立刻做出回应。按照操作人员的话说:“声音的节奏逐渐变快,我们已经习惯了这样的速度。”由于每个人的听力和反应速度存在差别,物流中心根据这一差别安排操作人员的岗位。
操作人员做出回应后。下面的指示随即就到。在这种快节奏中,几乎没有等待指示或闲下来的时间。
塞萨尔・西森总经理说:“如果是使用手持终端,必然存在等待指令的时间。使用语音识别系统后,节省了操作时间。一旦有空闲的时间,操作人员反而会不习惯。”
VOCOLLECT的设计中包含了劳动心理学原理,因为操作人员的腰间携带了便携终端,每个人可以调节适合自己的速度。
系统投入使用后,操作人员的熟练程度不断提高,人均处理能力由原来每小时200~300件提高到500~700件。
此外,夏装和冬装有所不同,操作效率也存在差别,但结果却比预期提高了50%。
12、13、不同商店的发货明细及标签
根据语音指令做好的发货明细上,标有货物代码和商店代码,暂时贴在货箱的外面(图12),待货箱装满后,再把发货明细放入箱中,然后把箱子放到输送机上。
14、检验
通过语音识别系统拣选的货物。因为没有读取条形码,因此在包装前需要检查一遍。数量少时只要确认条形码即可,数量多时全部都要进行检验。
15、无线传输
通过2.4GHz的无线电波频率,无线终端与服务器联网后,进行数据交换。
16、充电
在办公室一角的架子上,放置了25台充电器,以便为终端进行充电。每次的充电过程需要8小时。
17、语音系统的管理
在同一办公室内设置了语音系统的管理器。画面上显示的是神田公司的WMS与合作公司VOCOLLECT的管理过程。
贴标签、包装、发货
18、19、贴价格标签、过检针
贴价格标签、过检针的操作也在物流中心二层完成。
20、21、搬运发货箱
货箱打包完毕后码盘,托盘货物用叉车搬到垂直输送机,送往一层出货区。
22、23、装车
在出货口,货物装上卡车,送到各店铺。
目前,像这样成功应用语音识别系统的案例在日本还不多见。吉林总经理对于初次引进语音识别系统是这样评价的:对于习惯了以往传统分拣方法的操作人员来讲,他们完全没有不适应的感觉,反而更喜欢现在极富节奏感的作业。
“要通过改善工作流程,使所有人员都适应语音识别系统,不断提高工作效率。我们不要求最好,只追求更好”。吉林总经理说。
关键词: 语音识别; 识别原理; 声学建模方法; 多维模式识别系统
中图分类号: TN912.3?34 文献标识码: A 文章编号: 1004?373X(2013)13?0043?03
Summary of speech recognition technology and its application
YU Lin?lin
(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)
Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.
Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system
0 引 言
语言是人类相互交流最常用、最有效、最重要和最方便的通信形式,语音是语言的声学表现,与机器进行语音交流是人类一直以来的梦想。随着计算机技术的飞速发展,语音识别技术也取得突破性的成就,人与机器用自然语言进行对话的梦想逐步接近实现。语音识别技术的应用范围极为广泛,不仅涉及到日常生活的方方面面,在军事领域也发挥着极其重要的作用。它是信息社会朝着智能化和自动化发展的关键技术,使人们对信息的处理和获取更加便捷,从而提高人们的工作效率。
1 语音识别技术的发展
语音识别技术起始于20世纪50年代。这一时期,语音识别的研究主要集中在对元音、辅音、数字以及孤立词的识别。
20世纪60年代,语音识别研究取得实质性进展。线性预测分析和动态规划的提出较好地解决了语音信号模型的产生和语音信号不等长两个问题,并通过语音信号的线性预测编码,有效地解决了语音信号的特征提取。
20世纪70年代,语音识别技术取得突破性进展。基于动态规划的动态时间规整(Dynamic Time Warping, DTW)技术基本成熟,特别提出了矢量量化(Vector Quantization,VQ)和隐马尔可夫模型(Hidden Markov Model,HMM)理论[1]。
20世纪80年代,语音识别任务开始从孤立词、连接词的识别转向大词汇量、非特定人、连续语音的识别,识别算法也从传统的基于标准模板匹配的方法转向基于统计模型的方法。在声学模型方面,由于HMM能够很好的描述语音时变性和平稳性,开始被广泛应用于大词汇量连续语音识别(Large Vocabulary Continous Speech Recognition, LVCSR)的声学建模[2?3];在语言模型方面,以N元文法为代表的统计语言模型开始广泛应用于语音识别系统[4]。在这一阶段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神经网络的语音建模方法开始广泛应用于LVCSR系统,语音识别技术取得新突破。
20世纪90年代以后,伴随着语音识别系统走向实用化,语音识别在细化模型的设计、参数提取和优化、系统的自适应方面取得较大进展[5]。同时,人们更多地关注话者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题[6]。此外,语音识别技术开始与其他领域相关技术进行结合,以提高识别的准确率,便于实现语音识别技术的产品化。
2 语音识别基础
2.1 语音识别概念
语音识别是将人类的声音信号转化为文字或者指令的过程[7]。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支。语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领域[8]。
根据在不同限制条件下的研究任务,产生了不同的研究领域。这些领域包括:根据对说话人说话方式的要求,可分为孤立字(词)、连接词和连续语音识别系统;根据对说话人的依赖程度,可分为特定人和非特定人语音识别系统;根据词汇量的大小,可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。
2.2 语音识别基本原理
从语音识别模型的角度讲,主流的语音识别系统理论是建立在统计模式识别基础之上的。语音识别的目标是利用语音学与语言学信息,把输入的语音特征向量序列[X=x1,x2,…,xT]转化成词序列[W=w1,w2,…,wN]并输出。基于最大后验概率的语音识别模型如下式所示:
[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]
上式表明,要寻找的最可能的词序列[W],应该使[P(X|W)]与[P(W)]的乘积达到最大。其中,[P(X|W)]是特征矢量序列[X]在给定[W]条件下的条件概率,由声学模型决定。[P(W)]是[W]独立于语音特征矢量的先验概率,由语言模型决定。由于将概率取对数不影响[W]的选取,第四个等式成立。[logP(X|W)]与[logP(W)]分别表示声学得分与语言得分,且分别通过声学模型与语言模型计算得到。[λ]是平衡声学模型与语言模型的权重。从语音识别系统构成的角度讲,一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法等模块。语音识别系统本质上是一种多维模式识别系统,对于不同的语音识别系统,人们所采用的具体识别方法及技术不同,但其基本原理都是相同的,即将采集到的语音信号送到特征提取模块处理,将所得到的语音特征参数送入模型库模块,由声音模式匹配模块根据模型库对该段语音进行识别,最后得出识别结果[9]。
语音识别系统基本原理框图如图1所示,其中:预处理模块滤除原始语音信号中的次要信息及背景噪音等,包括抗混叠滤波、预加重、模/数转换、自动增益控制等处理过程,将语音信号数字化;特征提取模块对语音的声学参数进行分析后提取出语音特征参数,形成特征矢量序列。语音识别系统常用的特征参数有短时平均幅度、短时平均能量、线性预测编码系数、短时频谱等。特征提取和选择是构建系统的关键,对识别效果极为重要。
图1 语音识别基本原理框图
由于语音信号本质上属于非平稳信号,目前对语音信号的分析是建立在短时平稳性假设之上的。在对语音信号作短时平稳假设后,通过对语音信号进行加窗,实现短时语音片段上的特征提取。这些短时片段被称为帧,以帧为单位的特征序列构成语音识别系统的输入。由于梅尔倒谱系数及感知线性预测系数能够从人耳听觉特性的角度准确刻画语音信号,已经成为目前主流的语音特征。为补偿帧间独立性假设,人们在使用梅尔倒谱系数及感知线性预测系数时,通常加上它们的一阶、二阶差分,以引入信号特征的动态特征。
声学模型是语音识别系统中最为重要的部分之一。声学建模涉及建模单元选取、模型状态聚类、模型参数估计等很多方面。在目前的LVCSR系统中,普遍采用上下文相关的模型作为基本建模单元,以刻画连续语音的协同发音现象。在考虑了语境的影响后,声学模型的数量急剧增加,LVCSR系统通常采用状态聚类的方法压缩声学参数的数量,以简化模型的训练。在训练过程中,系统对若干次训练语音进行预处理,并通过特征提取得到特征矢量序列,然后由特征建模模块建立训练语音的参考模式库。
搜索是在指定的空间当中,按照一定的优化准则,寻找最优词序列的过程。搜索的本质是问题求解,广泛应用于语音识别、机器翻译等人工智能和模式识别的各个领域。它通过利用已掌握的知识(声学知识、语音学知识、词典知识、语言模型知识等),在状态(从高层至底层依次为词、声学模型、HMM状态)空间中找到最优的状态序列。最终的词序列是对输入的语音信号在一定准则下的一个最优描述。在识别阶段,将输入语音的特征矢量参数同训练得到的参考模板库中的模式进行相似性度量比较,将相似度最高的模式所属的类别作为识别中间候选结果输出。为了提高识别的正确率,在后处理模块中对上述得到的候选识别结果继续处理,包括通过Lattice重打分融合更高元的语言模型、通过置信度度量得到识别结果的可靠程度等。最终通过增加约束,得到更可靠的识别结果。
2.3 声学建模方法
常用的声学建模方法包含以下三种:基于模式匹配的动态时间规整法(DTW);隐马尔可夫模型法(HMM);基于人工神经网络识别法(ANN)等。
DTW 是较早的一种模式匹配的方法。它基于动态规划的思想,解决孤立词语音识别中的语音信号特征参数序列比较时长度不一的模板匹配问题。在实际应用中,DTW通过计算已预处理和分帧的语音信号与参考模板之间的相似度,再按照某种距离测度计算出模板间的相似度并选择最佳路径。
HMM是对语音信号的时间序列结构所建立的统计模型,是在马尔可夫链的基础上发展起来的,它是一种基于参数模型的统计识别方法。HMM可模仿人的言语过程,可视作一个双重随机过程:一个是用具有有限状态数的马尔可夫链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与马尔可夫链的每一个状态相关联的观测序列的随机过程[10]。
ANN以数学模型模拟神经元活动,将人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力充分运用到语音识别领域,并结合神经网络和隐含马尔可夫模型的识别算法,克服了ANN在描述语音信号时间动态特性方面的缺点,进一步提高了语音识别的鲁棒性和准确率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估计音素或状态的后验概率。2011年,微软以深度神经网络替代多层感知机形成的混合模型系统大大提高了语音识别的准确率。
3 语音识别的应用
语音识别技术有着非常广泛的应用领域和市场前景。在语音输入控制系统中,它使得人们可以甩掉键盘,通过识别语音中的要求、请求、命令或询问来作出正确的响应,这样既可以克服人工键盘输入速度慢,极易出差错的缺点,又有利于缩短系统的反应时间,使人机交流变得简便易行,比如用于声控语音拨号系统、声控智能玩具、智能家电等领域。在智能对话查询系统中,人们通过语音命令,可以方便地从远端的数据库系统中查询与提取有关信息,享受自然、友好的数据库检索服务,例如信息网络查询、医疗服务、银行服务等。语音识别技术还可以应用于自动口语翻译,即通过将口语识别技术、机器翻译技术、语音合成技术等相结合,可将一种语言的语音输入翻译为另一种语言的语音输出,实现跨语言交流[11]。
语音识别技术在军事斗争领域里也有着极为重要的应用价值和极其广阔的应用空间。一些语音识别技术就是着眼于军事活动而研发,并在军事领域首先应用、首获成效的,军事应用对语音识别系统的识别精度、响应时间、恶劣环境下的顽健性都提出了更高的要求。目前,语音识别技术已在军事指挥和控制自动化方面得以应用。比如,将语音识别技术应用于航空飞行控制,可快速提高作战效率和减轻飞行员的工作负担,飞行员利用语音输入来代替传统的手动操作和控制各种开关和设备,以及重新改编或排列显示器上的显示信息等,可使飞行员把时间和精力集中于对攻击目标的判断和完成其他操作上来,以便更快获得信息来发挥战术优势。
4 结 语
语音识别的研究工作对于信息化社会的发展,人们生活水平的提高等方面有着深远的意义。随着计算机信息技术的不断发展,语音识别技术将取得更多重大突破,语音识别系统的研究将会更加深入,有着更加广阔的发展空间。
参考文献
[1] 马志欣,王宏,李鑫.语音识别技术综述[J].昌吉学院学报,2006(3):93?97.
[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.
[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.
[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.
[5] 倪崇嘉,刘文举,徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报,2009,23(1):112?123.
[6] 顾亚强.非特定人语音识别关键技术研究[D].长沙:国防科学技术大学,2009.
[7] 中华人民共和国国家质量监督检验检疫总局.GB/T21023?2007 中文语音识别系统通用技术规范[S].北京:中国标准出版社,2007.
[8] 王文慧.基于ARM的嵌入式语音识别系统研究[D].天津:天津大学,2008.
[9] 何湘智.语音识别的研究与发展[J].计算机与现代化,2002(3):3?6.
关键词:Agent;语音识别;人工智能;作战文书
中图分类号:TP37文献标识码:A文章编号:1009-3044(2009)13-3541-02
1 引言
语音识别起源于20世纪50年代AT&T贝尔实验室的Audry系统,它第一次实现了10个英文数字的语音识别,这是语音识别研究工作的开端。作为一门交叉学科,它正逐步成为信息技术中人机接口的关键技术,被认为是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术与语音合成技术结合使人们能够甩掉键盘,取而代之的是以语音输入这样便于使用的、自然的、人性化的输入方式。
2 相关技术简介
2.1 语音识别技术
所谓语音识别技术就是让计算机(或机器)通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术,属于多维模式识别和智能计算机接口的范畴。语音识别技术的终极目标就是研制出一台能听懂任何人、任何内容的讲话的机器。语音识别按发音方式分为孤立词、连接词和连续语音的语音识别系统;按词汇量大小分为小词表、中词表和大词表以及无限词汇量语音识别;按说话人适应范围分为特定人、限定人和非特定人语音识别。
2.2 多Agent技术
Agent的研究起源于人工智能领域,Agent具有自治性、社会性、反应性和能动性。智能Agent对自己的状态和行为有完全的控制能力,它能够在没有人或者在其他Agent的直接干预下,对复杂的刺激进行响应并产生内部状态的控制和适应性的行为,外界通过Agent的接口对Agent实现功能调用和通信,而无需知道Agent内部的具体工作过程。多Agent系统(MAS)由多个自主或半自主的智能体组成,每个Agent或者履行自己的职责,或者与其他Agent通信获取信息互相协作完成整个问题的求解。语音识别技术本就是人工智能的一个应用方面,而将人工智能的前沿理论―多Agent技术引入语音识别技术中是一项有意义的工作。
3 在语音识别中引入多Agent技术
3.1 多Agent语音识别原理
传统的语音识别存在自适应问题,对环境条件的依赖性强;噪声问题,讲话人产生情绪或心里上的变化,导致发音失真、发音速度和音调改变,产生Lombard/Loud效应;其它如识别速度问题、拒识问题以及关键词检测问题。而多Agent技术中自治智能和分布协同的特性能够在一定程度上解决这些问题。多Agent语音识别其基本原理就是将输入的语音,经过处理后,将其和语音模型库进行比较,从而得到识别结果,具体原理见图1。
该图中语音输入Agent就是待识别语音的原始输入,语音采集Agent指话筒、电话等设备的语音输入;数字化预处理Agent的功能包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等;特征提取Agent用于提取语音中反映本质特征的声学参数,常用的特征有短时平均能量或幅度、短时平均跨零率、线性预测系数、基音频率、倒谱和共振峰等。在训练阶段,将特征参数进行一定的处理后,为每个词条建立一个模型,保存为模板库。在识别阶段,语音信号经过相同的通道得到语音特征参数,生成测试模板,通过模型匹配Agent和规则判别Agent将匹配分数最高的参考模板作为识别结果。同时在模式匹配和规则判别时还可以在很多专家知识的帮助下,以便提高识别的准确率。
3.2 多Agent语音识别流程
加入了多Agent技术的语音识别系统具体实现细节与传统的语音识别系统有所不同,加入了更多的智能协作的因素,但所应用的识别过程大致相似,具体流程见图2。
首先是系统中的协调Agent确定语音识别单元的选取。语音识别单元有单词(句)、音节和音素三种。然后在特征提取Agent中去除语音中对识别无关紧要的冗余信息,目前广泛应用的有基于线性预测分析技术提取的倒谱参数和基于感知线性预测分析提取的感知线性预测倒谱。接着采用适当的语音识别方法,通过对确定的语音特征进行模型训练、智能学习后得到模板库,然后用若干个特征提取Agent将待识别的输入语音信号的各个量化的特征通过分工协作的方式进行提取,最后模型匹配Agent将量化的语音特征与模板库进行模式匹配,通过友好的人机界面把识别结果输出。
4 多Agent语音识别技术在军事上的应用
最近十年内语音识别技术军事化应用非常广泛,目前研究比较多的有语音识别技术在智能武器装备开发领域的应用、在军事作战文书自动化过程中的应用、在军事测试设备和军队话务台的应用。下面重点介绍多Agent语音识别技术在军事作战文书自动化过程中的应用。
作战文书句式变化不大、语法简单、使用人群范围可定、语音识别模板库易于建立且要求不高,其语音识别易于实现。总体方案是:尽可能统一各军兵种作战文书类型;收集不同类型作战文书实例;构造作战文书词汇库;针对标图地域构造地名数据库;建立不同类型作战文书的句型库;分析军队标号的涵义建立模板库;将作战文书编译成标图指令来完成军事地图的标绘。其一般过程为作战文书的词处理、作战文书的语法分析、作战文书标图指令的形成,最后通过API接口传输给计算机完成自动标绘工作,如图3所示。
5 结束语
语音识别技术是非常重要的人机交互技术,有着非常广泛的应用领域和市场前景,为网上会议、商业管理、医药卫生、教育培训等各个领域带来了极大的便利。随着人工智能技术的发展,把多Agent技术应用到语音识别系统中,通过自治智能和分布协同的特性较好地解决了传统语音识别技术中存在的突出问题,这必将成为语音识别系统发展的主流。
参考文献:
[1] 胡斌,汤伟,刘晓明.基于自然语言理解的文本标图系统设计与实现[J].理工大学学报:自然科学版,2005,6(2):132-136.
[2] 赵力.语音信号处理[M].北京:机械工业出版社,2003:215-240.
[3] 王作英,肖熙.基于段长分布的HMM语音识别模型[J].电子学报,2004,32(1):46-49.
[4] 曹承志.智能技术[M].北京:清华大学出版社,2004.
[5] 杜琳.基于COM技术的军事标图组件的设计与实现[D].郑州:信息工程大学,2006.
[6] 朱民雄,闻新,黄健群,等.计算机语音技术[M].北京:北京航空航天大学出版社,2002.
[7] 方敏,浦剑涛,李成荣,等.嵌入式语音识别系统的研究和实现[J].中文信息学报,2004(6):73-78.
[8] 刘广钟.Agent技术及其应用[M].北京:电子科技大学出版社,2002.
[关键词]车联网;汽车语音识别;自然语音辨识;车辆人机交互
中图分类号:TM721 文献标识码:A 文章编号:1009-914X(2017)10-0297-01
1.引言
车联网技术就是互联网时代人们对汽车产业生态新需求下产生的新兴技术。国内车联网正在经由“屏幕+操作系统”的1.0版本向联网的2.0版本过渡,未来的方向主要是“账号系统+语音控制+云服务”的3.0版本。基于账号系统,可以实现围绕“人”在不同汽车硬件、消费电子硬件之间的服务延续性,实现基于“人”的个性化导航、娱乐和支付等服务。实现人与汽车之间无障碍的自然语言交互,减少驾驶人员通过手指触碰按钮或者对中控屏幕的触控来实现车辆功能的操作,保证汽车驾驶员能够将全部视觉集中在对车辆行驶外部环境的感知,避免因为操控按钮、中控触摸屏带来的视觉注意力的间断分散而导致意外情况的发生,保证了驾驶安全。车联网平台通过在车辆仪表台安装车载终端设备,实现对车辆所有工作情况和静、动态信息的采集、存储并发送。车联网系统一般具有实时实景功能,利用移动网络实现人车交互。其中传感器(包括摄像头、雷达、速度等传感器)所采集的信息是从不同机理和角度采集,比较片面孤立。当遇到复杂路况及突发工况时,自然语音辨识的信息采集交互介入,能够更加精准判别车辆行驶中的真实工况。同时采用旋律识别技术对旋律节奏及特征的识别,将音乐做旋律分析和归类,基于音乐旋律和人类起居生理特征提供音乐服务,以驾驶环境下的汽车驾驶员为例,可以提供符合人体工程学的人性化音乐服务,营造舒适的音乐氛围,降低汽车驾驶员的驾驶疲劳。语音识别技术对特定人的声纹提取,基于声纹的身份验证及语音指令验证,探索完整的声纹鉴定商用解决方案。
2.车联网平台下语音识别系统的研发
车联网平台下语音识别系统的研发的主要内容有:分析汉语自然语音的特点,提取自然语音识别目标的关键特征;建立相关特征识别算法;采集不同地区人员的自然语音数据,并使用特征识别算法,提取特征,并对特征数据进行相应分类,运用人工智能算法进行训练识别,确定特征值;对采集语音数据与特征值进行比对分析,矫正特征值;在特征值基础上进行语音谱分析,结合时域与频域特点从总体角度分析。针对车内不同工况,采集背景噪声并进行分析,得到语音及噪声频谱特征;在语音谱识别基础上,建立降噪模型;设计一套典型的车内操控指令集,对这些指令进行信号采集与分析;针对在汽车内采集到的语音指令,设计噪声抑制模块来滤除噪声;基于车联网平台,建立车辆自然语音识别介入判别规则;开发硬件系统和软件系统;在车联网平台,进行实车测试。由于语音信号是一个非平稳过程,因此适用于周期、瞬变或平稳随机信号的标准傅立叶变换不能用来直接表示语音信号,如何建立短时变换算法对语音信号的频谱进行分析,建立相应的频谱“短时谱”,语音辨识训练指的是按照一定的准则,从大量已知的语音样本中提取出能表示该模式特征的模型⑹,在语音识别的流程中,即为从大量的相似的语音信号中提取出它们共同的特征以得到一个声学模型(参考模板)。而模式匹配则指的是根据一定的准则,使测试信号与已知声学模型中的某一模型相匹配。当前的匹配算法没有考虑汽车行驶中噪声影响情况下,针对汽车内工况辨识效果不良的问题。针对此问题,建立语音谱特征分析方法,降低噪声对语音辨识产生的干扰。建立声纹识别技术,并对特定人的声纹进行提取,基于声纹的身份验证及语音指令验证,制定完整的声纹鉴定商用解决方案。
3.车载语音识别系统
车载语音识别的本质,就是一种模式识别理论。动态时间归正、隐性马尔科夫链模型等都是如此。总之,一个完整的车载语音识别系统包含以下三个部分:
1.前端处理和特征提取:通过对信号适当的放大和增益控制,对其滤波和消除干扰,再进行数字化,然后从中提取特征序列,用反映语音特点的一些参数来表征信号特性;
2.识别算法:对语音信号提取了特征参数,以此来表征信号的特性,并且生成参考模式库。在对待测信号进行识别时同样先对其进行特征参数提取,然后逐一与参考模式库中的各模板进行匹配求取失真度,据此判断最佳的识别结果;
3.语义理解:完成识别判断后,将识别结果以某种指令或者表现形式输出,让计算机据此执行相应的操作,这就是识别结果的输出,即语义理解。
车联网平台下语音识别系统的研发解决方案:系统研发旨在解决自然语言在汽车内噪音工况下的语音辨识。掌握语音辨识机理理论及算法;明确各算法优缺点及适用对象,针对汽车内噪声存在的特殊环境下,构建自然语音谱辨识方法;采集不同地区语音数据,利用自然语音谱辨识方法进行语音辨识训练;提取出表征信号的特性,并且生成语音辨识参考模式库;搭建语音辨识硬件平台;进行硬件平台测试并修正优化相应算法,具体流程详见图1。
参考文献
[1] 施卫东.浅谈车联网技术的应用[J].计算机光盘软件与应用,2015,(01):39-40
[2] 潘梁生.列车车载语音识别系统的设计与实现[D].北京:北京交通大学,2016.
[3] 刘筠,卢超.新型车载语音识别系统中的一种关键技术[J].微处理机,2008,(04):177-180
关键词:语音识别;神经网络;遗传算法;遗传神经网络
中图分类号:TP183文献标识码:A文章编号:1009-3044(2008)22-774-03
Research of Speech Recognition Based on Genetic Neural Network
ZHAO Feng
(Computer School of Wuhan University,Wuhan 430081,China)
Abstract:This Paper mainly studies the application of the BP neural network in the research of speech recognition. BP neural network can get higher identification precision, but its training speed is very low. a new recognizing algorithm based on BP algorithm by combining with the good effect method in ANN which named genetic algorithm(GA) was proposed and used to improve the BP neural network . Experiment results show that the training speed can be accelerated by the method and the recognition performance is also promoted.
Key words: speech recognition; neural network; genetic algorithm; genetic neural network
1 引言
语音识别SR(Speech Recognition)是指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图[1]。现代语音识别技术以神经网络为主要发展趋势,进入20世纪90年代以来,神经网络已经成为语音识别的一条重要途径。由于神经网络反映了人脑功能的基本特征,故具有自组织性、自适应性和连续学习能力等特点,特别适合于解决像语音识别这类模拟人的认知过程和智能处理能力,难以用算法来描述而又有大量样本可供学习的问题[2]。
人工神经网络(ANN)是采用大量的简单处理单元广泛连接起来构成的一种复杂信息处理网络。网络的训练学习是应用一系列输入矢量,通过已确定的算法逐步调整网络的权值,最终达到期望的目标。BP神经网络是神经网络中前向神经网络的核心部分,BP算法的学习过程由信号的正向传播和误差的反向传播组成。随着误差逆传播修正的不断进行,网络对输入模式响应的正确率不断上升。然而BP算法是一种梯度下降算法,梯度下降存在多极值问题,且BP网络学习训练速度慢,容易陷入局部最小或振荡。因此,参数的选择非常重要。为克服标准BP算法存在的各种缺点,本文研究用BP算法结合人工智能领域较为有效的方法――遗传(GA)算法来训练网络进行语音识别,仿真实验表明,GABP算法使BP网络在收敛速度上有了很大提高,尤其是克服了容易陷入局部最小值的缺点,基于GABP的语音识别系统的最高识别率和平均识别率都有了很大的提高。
2 语音识别的基本原理
大部分基于神经网络的语音识别系统实现识别功能都要经过从特征参数提取到应用识别算法进行识别的过程,该过程如下图1所示:
■
图1 语音识别系统原理框图
该文主要面向孤立数字识别系统作一些改进研究,其基本识别过程也符合上图1描述:输入的语音信号首先进行预处理,包括抗混叠滤波、声音的预加重、加窗分症处理与端点检测等。预加重的目的是在于滤出低频干扰,尤其是50Hz或60Hz的工频干扰,将对于语音识别更为有用的高频部分的频谱进行提升,以便于语音参数分析。
预加重滤波器传递函数为: H(Z)=1-0.9375Z-1(1)
若S(n)为预加重前语音信号,则经过预加重滤波器后得到的信号■(n)为:
■(n)= S(n)-0.9375 S(n-1)(2)
该文主要完成孤立数字识别,所要求识别的字数不多,对环境的噪声的适应能力的要求也并不高,因此采用了目前比较流行的双门限端点检测算法,借助于语音信号短时平均能量和短时过零率来判定语音有效范围的开始和结束。
语音信号经过预处理后,接下来很重要的一环就是进行特征提取,常用的特征包括短时平均能量和幅度、短时平均过零率、线性预测系数(LPC)、短时傅里叶变换和Mel频率倒谱系数(MFCC)。语音特征参数的时间序列构成了语音的模式,将其与通过应用一系列已知信号训练提取的参考模式逐一进行比较,获得最佳匹配的参考模式便是识别结果。本文中对于预处理的每个有效语音信号段,都要提取其12个一阶MFCC系数,提取过程为:用汉明窗将语音切割成长短一致的语音帧,对每帧语音进行正反傅里叶变换,经对数和离散余弦变换后取前12个数作为MFCC系数来描述每一个帧。最后将每个语音信号对应的MFCC系数序列用K-means聚类算法进行聚类,分为4个聚类,使得每个语音信号都得到相应的12个4维一阶MFCC系数,即可作为语音的特征参数成为神经网络的输入信号。
3 语音识别中的BP网络构造
语音识别中的BP网络构造主要包括输入层、隐层、输出层、初始权值、学习速率与期望误差的选取几个方面的问题。
1) 网络层数:理论上,在不限制隐层节点数的情况下,两层(只有一个隐层)的BP网络可以实现任意非线性映射。当模式样本很多时,减小网络规模,增加一个隐层是必要的,但BP网络隐层数一般不超过两层。本文所要求识别的模式样本不多,因此一个隐层已经足够。
2) 输入层节点数:在BP网络语音识别系统中,输入层节点数与选取的语音信号特征参数的维度和阶数有关。本文中每个语音信号都得到相应的12个4维一阶MFCC系数,故输入层的节点数为12×4=48。
3) 输出层节点数:输出层的节点数取决于输出数据的类型和表示该类型所需的数据大小。当BP网络用于语音识别时,以二进制形式来表示不同的识别结果,则输出层的节点数可根据训练模板的语音数来确定。本文设定输出节点数为10,分别对应于0~9这10个数字。
4) 隐层节点数:通过采用一个隐层,增加其神经元数的方法来达到网络训练精度的提高,这在结构上,要比增加更多的隐层简单的多。但究竟选取多少个隐层节点才合适?在理论上并没有个明确的规定。在具体设计时,比较实际的做法是通过对不同神经元数进行训练对比,然后适当的加上一点余量[4]。一般可利用下面式子决定:
n1=■+a(3)
其中n1为隐层节数;m为输入节点数;n为输出节点数;a为取1~10的常数。本实验中输入节点数为48,输出节点数为10,a选取为常数4,因此隐层节点数n1=12。
5) 初始权值:由于系统是非线性的,初始值对于学习是否达到局部最小、是否能收敛以及训练时间的长短关系很大。一般总是希望经过初始加权后的每个神经元的输出值都接近于零。所以,一般取初始值在(-1,1)之间的随机数。
6) 学习速率与期望误差的选取:学习速率决定每一次循环训练中所产生的权值变化量。小的学习速率虽然会导致收敛速度慢,不过能保证网络的误差值不跳出误差表面的低谷而最终趋于最小值。所以,一般情况下,学习速率的选取范围在0.01~0.8之间。期望误差0.000001。
解决了上述几个方面的问题后,本文采用三层结构神经网络,如图2所示:输入层各节点将输入信号经权重藕合到隐层的每个节点,隐层各节点对来自前一层的信号加权,经激发函数转换后再藕合到输出层。
4 基于遗传神经网络的语音识别
本文研究引用遗传算法对网络的初始连接权值进行优化处理,用BP算法完成给定精度的学习。
4.1 个体编码方案
编码对于网络进化过程的性能和效率影响很大,因此,编码技术是连接权值进化过程中学解决的首要问题和关键步骤。本文中考虑到BP网络的节点数和结构已经固定,可以采用实数编码方案,将网络的权值和各节点的阀值依此排列得到一个向量。
假设一个具有m个节点的n层BP网络,如果第i个节点对应的权值分别为vi(vi[-1,+1]),则一个个体用实数向量表示为X=(v1,v2,…vm)。
4.2 适应度函数的选择
一个网络连接权值优劣的标准,是根据网络对一组输入得到的实际输出与期望输出之间的误差大小来制定的。BP网络中误差平分和小,则表示该网络性能比较好。本文中适应度函数为:
f(x)=■(4)
其中,E为神经网络的输出误差,即:
■(5)
其中n为学习样本总数,yk,■k为第k个个体的期望输出和实际输出向量。
4.3 进化参数
连接权的进化过程中所涉及到的主要进化参数有:种群规模、交叉率、变异率和进化代数等等。交叉是最主要的进化操作,交叉率是指各代中交叉产生的后代数与种群规模之比。常用的交叉率取值范围为0.6~1.0。变异率是指种群中变异的基因数占总基因数的比例,其值控制了新基因引入的比例。常用变异率的数量级范围为0.1~0.001。 种群规模是连接权进化过程首先需要确定的参数,是算法会否陷入局部解的主要影响因素。综合考虑BP网络的初始连接权值和交叉率、变异率的选择,这里选择种群规模为50。
5 仿真实验结果
仿真实验为针对非特定人的孤立数字词语音识别。语音数据由二男二女(0到9共10个数字的普通话发音)通过PC话筒输入,每个音每人发20遍,共计1000次发音,其中以每人每个音的前10次作训练样本,后10次作测试样本,录音环境为安静实验室,采样频率为11.025kHz。
经过反复实验,不断改善实验环境,基于演化神经网络的识别得到了相对较高的识别率。对实验结果分析可知,结合了GA算法的BP网络通过GA全局搜索得到一个权值最优解,只迭代了151次便使得误差值为0.000001 ,而普通BP算法要迭代517才能勉强达到期望误差,由此可知,结合了GA算法的BP网络避免了局部极小,减低了学习速率,提高了收敛速度。
表1 基于遗传神经网络与普通BP网络语音识别系统对比表
■
通过表1对比可知,基于演化神经网络识别算法的语音识别系统无论是在训练时的收敛速度还是在最后的识别率上,都要优于普通的BP网络语音识别系统。
6 结论
语音信号处理和神经网络均是目前研究的热点,文章主要针对语音识别的特点,结合人工智能领域两种比较有效的方法――BP网络和GA算法,构建了一种基于遗传神经网络的语音识别算法。仿真实验结果表明,该算法避免了传统BP算法容易陷入局部极小的缺点,减低了训练时间,有效的提高了系统识别率。
参考文献:
[1] 赵力.语音信号处理[M].北京:机械工业出版社,2003.
[2] 蔡莲红,黄德智,蔡锐.现代语音技术基础于应用[M].北京:清华大学出版社,2003.
[3] 易克初.语音信号处理[M].北京:国防工业出版社,2000.
[4] 孙宁,孙劲光,孙宇.基于神经网络的语音识别技术研究[J].计算机与数字工程,2005,34(3):58-61.
[5] 何英.Matlab扩展编程[M].北京:清华大学出版社,2002.
关键词:语音识别 端点检测 特征参数 DTW算法
中图分类号:TN912 文献标识码:A 文章编号:1007-9416(2011)12-0184-02
1、语音识别系统概述
语音信号是一种典型的非平稳信号,并且在录音过程中不免受到电噪音,呼吸产生的气流噪音以及录音环境下的突发噪音的影响,所以语音信号要经过预滤波、采样量化、分帧、加窗、预加重、端点检测等预处理过程后才可以进行下一步的特征征参数提取等工作。在接下来的语音训练阶段,我们将那些信号状态良好,携带噪声小且特征参数稳定的语音信号作为指定词条的模板,进而为每个词条创建一个模板并保存为模板库。在识别阶段,语音信号经过相同的通道生成测试模板,用相同的方法计算测试模板的特征参数后,将其与模板库模板的特征参数进行匹配,配分数最高的参考模板作为识别结果。
2、语音信号的录入
语音信号的采集方法有很多,鉴于该系统是在MATLAB上实现,且MATLAB本身提供了一定的音频处理函数,因此我们完全可以采用在MATLAB中先完成录音函数的编写,然后再结合windows自带的录音设备进行录音。录音得到的wav文件即是经过预滤波采样和量化的语音。利用soundview读所录入的文件时,会弹出一个GUI界面,并可以通过输出设备对所录语音进行回访,该GUI界面如图1所示。单击Play Again按钮可可回放,单击Done按钮可关闭界面。
3、语音信号的预加重
我们知道,对语音识别更有用的是语音的高频部分,而对于语音信号的频谱,通常是频率越高幅值越低。因此我们必须对语音的高频进行加重处理。处理方法是将语音信号通过一个一阶高通滤波器,即预加重滤波器,它不仅能滤除低频提升高频,还能很好的抑制50Hz到60Hz的工频干扰。尤其在短点检测之前进行预加重还可起到消除直流漂移、抑制随机噪声和提升清音部分能量的效果。预加重在Matlab中可由语句x=filter([1-0.9375],1,x)实现。
4、语音信号的分帧和加窗
经过数字化的语音信号实际上是一个时变信号,为了能用传统的方法对语音信号进行分析,应假设语音信号在10ms-30ms内是短时平稳的。为了得到短时的语音信号,要对语音信号进行加窗操作。窗函数平滑地在语音信号上滑动,将语音信号进行分帧,帧与帧的交叠为帧移,一般为窗长的一半。
语音信号的分帧采用enframe函数,其语法为f=enframe(x,len,inc);其中X为输入的语音信号,len为制定的帧长,inc为指定帧移。函数将返回一个n×len的一个矩阵,每行都是一帧数据。在本系统中帧长取240,帧移取80。在Matlab中要实现加窗即将分帧后的语音信号乘上窗函数,本文加汉明窗,即为x=x.*hamming(N)。
5、端点检测
在语音识别系统中,训练阶段和建模阶段都比较重要的环节都是要先通过端点检测找到语音的起点和终点,这样,我们就可以只对有效语音进行处理,这对于识别的准确率和识别效率至关重要。本论文在短点检测环节采用双门限端点检测法,即采用短时能量检测和短时过零率检测双重指标约束。结合实际,我们将整个语音端点检测分为四个段落,即:无声段、等待段、语音段、结束段,再为短时能量和短时过零率各设置一个高门限和一个低门限:EHigh、ELow和ZHigh、ZLow。结合MATLAB中所编程序,可以较准确的确定语音的各个部分。图2所示为语音“1”的处理结果。
6、特征参数的提取
经过预处理的语音数据就可以进行特征参数提取,特征参数的好坏将直接影响系统的性能和效率。本文将梅尔倒谱系数(MFCC)和一阶MFCC系数的差分结合起来,将其合并为一个矢量作为一帧语音信号的参数,这样,不仅描述了语音的静态特性,由于加入了差分倒谱参数,语音的动态特性得到了更好的体现。梅尔倒谱参数的计算流程为:先将预处理过的语音信号进行快速傅立叶变换,将时域信号变换成为信号的功率谱。 再用一组Mel频标上线性分布的三角窗滤波器(本文采用24个三角窗滤波器)对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应。然后对三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果。最后去除各维信号之间的相关性,将信号映射到低维空间。 梅尔倒谱系数的计算差分参数的计算采用下面的公式:
7、模式匹配
本语音识别系统的模式匹配算法采用动态时间弯折(Dynamic Time Warping,DTW)算法,该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题。DTW是语音识别中出现较早,较为经典的一种算法。与HMM算法相比而言,DTW算法具有计算量小,识别效率高的特点。模式匹配的过程其实就是根据一定的规则,计算输入矢量特征与库存模式之间的相似度,判断出输入语音的语意信息。本文中,失真测度采用下式所示的欧式距离:
其中,l=1,2,…M;i=1,2,…I;k=1,2,…K.是待测矢量之间的距离,是第i个码本的第l个码字矢量的第k个分量。I为说话者的数量,M为码本的大小,K为参数矢量的总维数。由上式得出该语音相对于该命令词的最短距离,然后取最短距离最小的命令词作为该段语音的首先识别结果。结合MATLAB程序,得到数字1-10的匹配距离矩阵:
图3即为针对数字1-10的待测模板和模板库模板匹配距离的现实,由该距离矩阵,我们可以很清楚的看到,左上角到右下角的对角线上的距离匹配值在该值所在的行和列都是最小的。即距离最短的命令词为识别结果。
8、结语
该论文阐述了基于DTW的语音识别系统在MATLAB上实现的基本过程,在实验室录音情况下,该识别系统的识别率可以达到百分之九十以上,效果良好。
参考文献
[1]赵力.语音信号处理[M].北京:机械工业出版社,2003.
[2]何强,何英. MATLAB扩展编程[M].清华大学出版社,2002-06.
[3]李景川,董慧颖.一种改进的基于短时能量的端点检测算法[J].沈阳理工大学学报,2008.
[4]沈宏余,李英.语音端点检测方法的研究[J].科学技术与工程,2008,(08).
[5]吴晓平,崔光照,路康.基于DTW算法的语音识别系统实现[J].电子工程师,2004,(07).
TTS是“Text To Speech”的缩写,即“从文本到语音”。它同时运用语言学和心理学的杰出之作,把文字智能地转化为自然语音流。电子小说软件将文字读出来、银行营业厅的语音叫号系统、词霸朗读单词、手机朗读短信和来电朋友的姓名……这就是目前应用最广泛的TTS语音识别技术。想了解其最新研究进展可以访问网站/speech/tts.asp。那么,我们又是如何进一步控制计算机的呢?
计算机为什么能听懂我们的话?
技术上,实现语音识别就是让计算机通过识别和理解的过程把自然语音信号转变为相应的文本或计算机指令。语
音识别是一门交叉学科,所涉及的领域很广,包括信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
在语音识别过程中,首先要将说话的声音由模拟的语音信号转换为数字信号,然后从信号中提取语音特征,同时进行数据压缩。输入的模拟语音信号也要进行预处理,包括预滤波、采样和量化、加窗、端点检测、预加重等。语音识别系统的模型通常由声学模型和语言模型两部分组成。
p语音输入模式图
p语音识别软件工作流程图
语音识别过程主要分为两个阶段:“学习”阶段中,计算机的主要任务是建立识别基本单元的声学模型以及进行文法分析的语言模型,即构建参考模式库;在“识别”阶段,计算机根据识别系统的类型选择能够满足要求的识别方法,采用语音分析方法分析出这种识别方法所要求的语音特征参数,按照一定的准则和测度与参考模式库中的模型进行比较从而得出识别结果。
Vista,语音识别就在你身边
微软在最新推出的Vista中增加了上千个让人耳目一新的新功能,其中之一便是能让你与计算机进行交谈的“语音识别”技术。
其实,Windows XP就已经内置了当时较为先进的TTS语音识别引擎,同时也支持语音输入功能,不过要实现语音输入功能还需要另外安装语音输入模块。
而Windows Vista的语音识别功能已经内置在系统中,功能更为强大,我们可以通过说话来让计算机完成操作、输入文字、将屏幕上的文字朗读出来、处理文件夹和文件、通过IE浏览器来访问互联网、单击屏幕的任意位置、操作窗口和程序……这些功能基本上实现了通过语音命令来完成计算机的常用操作和语音输入命令,对于某些特殊需要的人来说非常实用。没有配置键盘、鼠标?记不清命令的路径?手忙不过来?一样可以通过说话控制计算机。
pWindows Vista的语音识别向导
p在Windows Vista控制面板中设置语音识别选项
pWindows Vista的语音识别工具栏窗口
p语音检索识别。可以通过哼唱歌曲的段落在卡拉OK厅找出想唱的歌曲,通过说话寻找手机电话本中的联系人,甚至可以用手机通过哼唱音乐旋律来下载彩铃。
p使用语音控制通过说出不同链接的编号浏览网页
如何找到并设置语音识别的功能呢?在Vista控制面板的搜索栏中输入“语音识别选项”即可。需要注意的是,在
开始设置之前请将麦克风和音箱(或者耳机)连接到计算机上。如果启动语音识别时提示错误,可能是你开启了其他音频软件(比如Windows Media Player等音乐播放软件),关闭这些软件后就可以正常开启语音识别了。
开启Windows Vista的语音识别软件后会出现一个语音识别设置向导,在其中会引导你对麦克风进行设置以及进行语音训练。语音训练是目前的语音识别软件比较通用的一个使用前的设置工作,因为我们每个人的说话口音和习惯都不同,计算机要听懂你说的话当然也需要提前学习,大大提高语音识别的准确率。
语音识别设置向导不仅能帮助计算机学习和适应你的说话习惯,还能教给你语音识别的使用方法和常用的语音命令。设置完成并启用语音识别功能以后,Windows的语音识别提示工具窗口会浮现在桌面上方以方便你随时使用。这时,我们就可以随心所欲地通过与计算机“交谈”来控制计算机了。特别值得一提的是,Vista的语音识别对于桌面控制和在使用浏览器浏览网页上也更加人性化,比如它会自动检测并给网页链接加上编号,读出编号即能访问相应的链接了。
关键词:汉语语言 识别技术 智能手机 经济效益
中图分类号:TP212 文献标识码:A 文章编号:1003-9082(2017)01-0008-01
一、引言
语音识别技术也被称为自动识别技术,其目标是将人类语言中的词汇内容转换为计算机可读的输入,他是一门交叉性学科。语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术相结合使人们能够摆脱键盘,通过语音命令进行操作。相应地,我国这种语音识别技术更是“进化”出适合中国国民应用的汉语语言识别技术。由此不难看出,语音技术的应用已经跨越空间,成为一个在国际上具有竞争性的新兴高技术产业。而该技术在智能手机中的应用更是使得手机不断革新,技术含金量越来越大。
二、汉语语言的特点
1.独特的表意性质。我们都知道,汉语语言博大精深,是世界上最难懂的语言之一,而它独特的表意性也是的它心思人类语林中独树一帜。汉语的构词方法基本是据意构形,加上它用笔画构图形,以此表达意思,让它远远优于那些音不辩形,形不之意的拼音文字。
2.灵活的构词能力。汉语从创始以来也经历了许多变化,从甲骨文、小篆、隶书、行书到如今的正楷,其笔画越来越少,也越来越好写。在这些变化之外,他还吸收了许多其他民族的文化,丰富了本民族的语言文化。众多的叠音词、双音词等都在原来字的基础上构成新的词语。更是运用与电视、电脑上。这加速了计算机汉语语音识别技术的发展。
3.富有弹性的语言结构。汉语的另外一个重要特点是,语法相对孤立容易,不像英语语法多而晦涩难懂。它在性质、数量、时态、语态等方面都有比较固定的表达形式。
4.寓意深刻。在汉语语言中有许多手法,比如:比喻、借代、象征等,这些手法在语言中的使用都促进了表达语句意义的深刻化。使得汉语语句听起来韵味十足,美而不腻。
三、汉语言语言识别技术在智能手机上的应用
1.解锁的应用。众所周知,智能手机以耗电量大著称,以至于用户在手机空闲时会按下休眠按键,手机也会从待机模式进入休眠状态。通过语音识别技术,我们不用接触手机就能够把手机从休眠状态下唤醒。这不仅使得解锁更加便捷。
2.搜索引擎上的应用。手机上的搜索类引擎如今也呈现多样发展的态势,如:百度、QQ浏览器、360搜索等。而随着语音技术的发展,引擎类搜索也运用了语音搜索的搜索方式。这使人们搜索起来更加便捷,也在一定程度上节省了搜索者的时间。
3.社交软件的运用。首先是人们所熟悉的QQ、微信等上面存在的语音系统,经试验证明这些APP的出现不仅满足了人们对各种社交的需求,而且在一定程度上缓解了人们处于快节奏生活中的压力。
四、汉语语音识别技术应用于智能手机带来的经济效益
第一,伴随着汉语语音识别系统的应用而衍生的一系列语音类型的APP为经济发展带来了新的生态环境。例如:唱吧,一款网络KTV。在此APP 中,通过注册会员、界面广告等来获得收益。
第二,通过智能手机的发展而衍生出的相关数码产品。例如:小天才电话手表。通过语音识别来拨打电话的功能是这款电话手表的特色功能,他符合了小朋友的身份,发挥了汉语语音识别的优势,为数码市场带来的经济新气象。
第三,给智能手机行业带来新的经济增长点。语音识别在智能手机上的应用为智能手机市场带来了新一批的客源,而这些客源大都为青年人。这些青年人拥有消费需求与消费能力大,接受新事物的速度快等特点,而这些特点正好与手机市场换代速度快相契合。不仅活跃了市场,更是活跃了经济。
第四,促进了手机品牌的形成,塑造了品牌形象。这种特有的语音识别技术对智能手机自身品牌的塑造来说存在着巨大作用并促进了其品牌手机的消费量。以华为X9为例,在迪信通8月手机销量排行榜中,华为以绝对优势占据榜首。
五、对汉语语音识别技术的应用的一些思考
当前,汉语音识别技术广泛地应用于智能手机中,极大地促进了手机的便捷性,带动了手机的发展和销售有了一个质的飞跃。然而,我们不得不反思,当下汉语语音识别技术目前所存在的一些限制智能手机发展的问题,这些问题主要如下:
1.声音在语音识别交互领域存在感低
1.1相关技术要求高。中国文化博大精深,汉语文化更是如此。中国人说话时并不像外国人说话那样,一个单词就是一个意思,而是一句话可以理解成多重含义。除此之外,中国人说话存在着严重的口音差异,并不是每个人都能说一口流利的普通话。这在语音的识别、唤醒、输入及交互方面都存在很大的问题。虽然现在技术方面已经能够破译粤语等辨识度高的方言,但是面对中众多的方言问题,技术方面仍然存在巨大的挑战。
1.2使用场景有限。众所周知,在运用手机相关功能时,在视觉和触觉的交互无论在何种场景下都可以进行。但是,声音却不行。场景嘈杂、人员众多等都无法进行相关的语音识别。
1.3交互模式不自然。不论是siri的长按唤醒,还是傻傻的对着手机说“嘿,siri!”给人的都是一种违和的感觉。对着冷冰冰的机器,我们甚至感到手足无措、舌头打战。甚至有时候好不容易说出一句话,结果给出的结果是无法识别。
2.语音终端还未成型。在中国现如今的科学技术背景下,能够供大规模运营商使用的中国版Echo还未出现。而且,就算出现也将会受到中国市场的制约与影响。
3.Z音内容成本过高。在语音系统中,一方面信息获取成本过高,另一方面差异化价值不高。语音信息的获取远比视频、图片获取的成本高,而且多数人会存在这样的疑问:图片文字就能体现的内容握为什么还要通过语音去获取呢?因为多数人都觉得图片与文字在获取信息上要更为直观。
六、结语
总之,科学技术的步伐从来都不会是停止不前的,我们有理由相信现代汉语识别技术将会不断改进,突破现在的科技与市场限制,广泛地应用于各大领域,为经济的发展创造多方面、多层面的经济新动态。
参考文献
关键词:语音检索;语音识别;语音合成
中图分类号:TP311文献标识码:A文章编号:1009-3044(2010)22-6295-03
Hotel Information Voice Retrieval System
LV Dan-ju, XU Wei-heng
(Computer and Information Science Dept., Southwest Forestry University, Kunming, China, 650224)
Abstract: Unlike traditional retrieval system, manually inputting query requests, this paper proposes voice search system. Using voice search technology, we design and develop the Voice Hotel information inquiry system, which basically fulfils man-machine voice dialog forms of inquiry. The system uses the voice processing technologies 1) HMM model based on speech recognition, converting real speech to text; 2) PSOLA of speech synthesis technology, converting text to speech. The retrieval accuracy of the system reaches 85%.
Key words: voice search; speech recognition; speech synthesis
语音搜索技术(Voice Search)是把用户的语音咨询信息转换成文本咨询信息,根据该文本信息进行数据搜索的技术。该技术为用户提供了人-机交流更为直接的语音对话方式。由于语音的便利性(较传统的手工输入)和可用性(较以内容为主的影像检索),成为检索技术的重要发展方向。近年来,随着语音搜索技术中的关键技术如语音识别、语音合成技术的不断发展与完善,语音搜索已在电信、金融、娱乐、政府等行业中得到了广泛深入的运用[1],如语音电话号码查询,音乐/视频的搜索管理,股票的语音询问与报价以及会议信息系统等。微软旗下的Tellme公司推出了针对于黑莓手机语音搜索软件实现了移动电话语音查询功能,之后雅虎也推出了OneSearch语音信息搜索软件。继微软Tellme和OneSearch语音搜索服务之后,Google也于2009年11月推出了手机语音搜索软件。我国也于本世纪初相继推出各城市语音控制导航电子地图、KTV语音点歌服务系统等。语音搜索技术在不到20年的发展中不断完善[2-4],显示出其强大的发展潜力。
1 系统介绍
1.1 系统组成
本系统采用的语音检索系统结构[1], 如图1所示。
对话系统搜索模型首先将游客的语音查询信息输入自动语音识别器(Automatic Speech Recognizer ASR),该模块将由声学模型(Acoustic Model AM)和语言模型(Language Model LM)组成。语音识别器用于实现语音到文本的转换(Speech to Text),ASR产生最好的一个识别文本结果。 系统根据识别的文本调用搜索模块SQL Server引擎进行数据搜索。将符合条件的一个或多个数据信息进行显示,并将搜索结果语音播报给用户。
1.2 系统采用技术
1.2.1 语音识别
语音识别部分主要由两个部分组成:语音训练阶段与语音识别阶段,如图 2所示,语音训练阶段是利用语料库中的语音信息,抽取其美尔倒谱参数MFCC的语音特征值,该参数考虑了人耳对声音信号的因素,能够较好的反映;以隐马尔科夫模型HMM为语音模型,依据数据统计原理,建立起语音参考模板。在训练阶段完成后,即可进入识别阶段,识别阶段将用户的语音信号抽取MFCC语音特征,为该语音创建识别模板。最后,将参考模板与识别模板进行对比,通过识别匹配原则寻求识别模板与参考模板中最相近的一个模板,从而实现语音信号的识别,实现从语音到文本的转换。
1)MFCC特征参数:美尔频标倒谱系数考虑了人耳的听觉特性,将频谱转化为基于Mel频标的非线性频谱,然后转换到倒谱域上。由于充分考虑了人的听觉特性,而且没有任何前提假设,MFCC参数具有良好的识别性能和抗噪能力。本系统采用42维的MFCC(12维的倒谱参数,1维的对数能量, 1维的pitch和一、二阶倒谱参数)。
2)HMM声学模型:HMM是一种双重随机过程,而之所以称为隐藏式是因为其中有一组随机过程是隐藏的,看不见的,在语音中就如同人类在发声的过程中其发声器官状态是看不见的,好比喉咙、舌头与口腔的变化是不可能从可观测的语音信号序列看出来的。而另一组随机过程观测序列(Observation Sequence),本系统采用6状态的HMM表示的汉语音素模型,它是由状态观测概率(State Observation Probability)来描述在每个状态下观测到各种语音特征参数的概率分布。HMM的状态观测概率函数式bj(ot)是采用高斯混合密度函数GMM(Gaussian Mixture Model)来计算连续概率密度,因此每一个声音单元(本系统采用音素)皆有一组连续的HMM(GHMM)。
3)N-Gram的语言模型:本系统采用基于统计方法的适合大词汇量连续语音识别的Trigram统计语言模型,进一步提高文本识别率。为下一步检索提供更为优质的文本检索信息。一个词的N-gram的语言模型如式:
(1)
整个句子的概率表示为:
(2)
式中w1,w2,…,wm表示组成整个句子中出现的每个词,参数n为n-gram统计语言模型的阶数,其值取决于模型的精度和复杂度,通过实验表明,n值越大,则对句子中单词之间的依赖关系描述得越准确,此时模型的精确度越高,但模型的复杂度也越大。本系统采用n=3,也即Trigram。于是,训练数据的句子中每个词出现的概率只与其前两个词有关,表示为:
(3)
在计算时,上式表示为:
(4)
c(wi-2,wi-1,wi)表示为该词序列出现在训练文本中的次数。但由于统计数据的稀疏性,必然会有c(wi-2,wi-1,wi)=0的可能。为此,应采用平滑技术(back-off和interpolated插值)来调整序列在训练文本中的分布概率。本系统采用插值方法。其表达式为:
(5)
λ为插值系数,对于给定的p(wi|wi-2,wi-1),可以在训练语料上运用Baum-welch算法计算得到插值系数λ(01)。
4)Viterbi Search识别算法:系统采用Viterbi搜索方法获取最好的音节系列,作为识别的文本。
系统的训练与识别部分均采用HTK(HMM Tool Kit)[6]实现。HTK是一套功能强大的语音识别工具,可以将大量的语音用HMM训练后,加以识别。所以本系统采用HTK为识别核心。语料库中收录宾馆名称、宾馆价格、宾馆星级、宾馆地址的语音资料,并将其对应文本进行手工音素注音。训练阶段是实现语音的MFCC特征与文本音素依HMM的对应过程,完成HMM音素模板的建立。在识别运用部分将要识别的语音文件进行MFCC提取后与HMM音素模板,利用N-gram的语言模型,进一步完善识别文本。最后利用Viterbi Search算法,找出一个最相似的音节序列,进而确定文本。
1.2.2 语音理解/搜索(Spoken Language Understanding/search)
语音理解的目的是将用户的表述转换成相对应的语义。在语音搜索中所指的“相对应的语义”就是对数据库查询的关键词信息。由于用户在查询时所说的语句不可能严格按照语法要求,是一种口头的表述,如当用户选择宾馆名称查询时,按照要求用户只需要说明宾馆名称如“连云宾馆”即可,但用户可能会说“我想问一下连云宾馆,谢谢!”,而不只是“连云宾馆”。这样,就会造成识别文本与查询文本的错误对应。为此,本系统采用语音信息提示,告诉用户查询的语音表达方式,如按宾馆查询时,提示信息为“请说宾馆名称”,按宾馆星级查询时,提示信息为“请说出要查询的宾馆星级,1~5的数字”等。在文献[4]中,还提出了其它语音理解的解决方案。由于本系统只是一个初级性的语音检索,固没有采用像基于词类的N-Gram,填词法等语音理解技术。
1.2.3 语音合成
为了使结果查询采用多媒体方式输出,以提供更自然的人-机交互,系统实现能够将查询文字信息传化成连续的语音(TTS,Text to Speech),以提供高质量、智能化的语音服务的重要技术。首先将文字输入到TTS系统中,TTS系统在收到文字后,根据原有在语料库中的语音档案进行连音,调整长度,大小及声调的动作。本系统采用微软推出的TTS软件包,作为汉语合成时还要考虑声调因素。实现过程如图 3所示。
TTS引擎属于Windows API外挂函数,它是一个Speech API程序。安装TTS引擎后,自动将类库文件Vtxtauto.tlb安装在Windows系统目录里的Speech 目录下,从而将其导入语音库“Voicetext Type Library”中。形成库文件后,我们可以将TTS引擎作为一个外部工程从语音库中引入VB、VC等32位应用软件的可视化环境,在视图中的对象浏览器窗口观察分析TTS引擎所封装的类、类的成员函数、方法及各属性的意义,并在所开发的软件中嵌入TTS,编写出独具个性的语音合成软件。
2 系统设计说明
本系统采用VC++进行语音检索Voice Hotel系统的界面设计,其系统操作说明如下:
1)开始执行Voice Hotel,会以语音提示使用语音查询的方法。语音会提示在哔声后开始3秒录音,哔声响起,开始进行录音,此时,对着麦克风说出要查询的方式:“宾馆名称”、“宾馆价格”、“宾馆星级”、“宾馆地址”;如图 4表示,说出“宾馆名称”。
2)经过系统识别后,激活相应的查询方式,语音回报用户要求的查询方式,并提示查询表述方式,准备进行查询关键字的语音录入;如图 5所示。
3)语音提示在哔声后开始录音,哔声响起,对着麦克风说出要查询的关键字;如图6所示。
4)经系统识别后,将会在相应的查询方式处显示识别结果,并在检索结果处显示查询符合要求的结果,利用语音合成技术,将其识别结果及查询结果进行语音播报。如图 7表示,识别结果为:金龙,进行结果显示。
3 实验数据及结果
由于本语音识别系统是采用最接近的句子作为识别结果,被识别系统资料的充足与否,平均每句的字数,都会影响正确率。系统采用字正确率作为系统测评指标的标准:。系统采用的训练数据说明,如表 1所示,测试结果如表 2所示。
从表2可知,本系统的识别率达到大约85%,基本达到一个初级语音查询的要求。
本系统的开发出基于语音和文字两种查询与输出的多媒体查询系统,它优于传统资料查询的文字输入、输出的方式,显示出人-机交流更加自然的特点。系统中核心的部分即为语音识别与语音合成部分。就该系统识别率而言,由于本语音识别系统采用最接近的句子当作为识别结果,被识别系统资料的多少,平均每句的字数,都会影响正确率。训练语音资料信息如下:其测试结果如下:实验数据表明,本系统的平均识别率约为85%。
4 结论
本文已实现了一个较为完整的语音宾馆查询系统,关键技术为语音识别与合成。由于系统只是一个初级的语音检索系统,所以在语音理解部分采用的是对用户的语音查询表述进行了严格的限制,今后可近将针对语音理解部分作进一步研究,以实现更自然的口语查询的目的, 同时提高系统识别率。并提供多查询接入方式如电话方式的查询以及更加丰富输出结果如显示宾馆的地理位置等。
参考文献:
[1] Ye-Yi Wang, Dong Yu, Yun-Cheng Ju and Alex Acero, An Introduction to Voice Search, IEEE Signal Processing Mag.[J], pp.30-38, May 2008
[2] Yu D, Ju Y C, Wang Y Y, Zweig G, et al. Automated directory assistance system: From theory to practice[J].in Proc. Interspeech, Antwerp, Belgium,2007: 2709-2712.
[3] Natarajan P, Prasad R, Schwartz R M, et al. A scalable architecture for directory assistance automation[J].in Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing, Orlando, FL, 2002:121-124.
[4] Yu D, Ju Y C, Wang Y Y, et al. N-Gram Based Filler Model for Robust Grammar Authoring[J].in Proc. ICASSP,2006(1):565-568.
语音识别技术成为21世纪“数字时代”的重要开发领域,在计算机的多媒体技术应用和工业自动化控制应用等方面,成果令人属目。语音识别技术是指用电子装置来识别某些人的某些特征语音,语音识别的手段一般分为二大类,一类利用在计算机上开发语音识别系统,通过编程软件达到对语音的识别,另一类采用专门的语音识别芯片来进行简单的语音识别。利用专门的语音识别芯片应用在地铁车辆上,具有结构简单、使用方便,并且语音识别器有较高的可靠性、稳定性的特点,是简单语音识别在自动控制应用上的一种优先方案。
目前上海地铁一、二、三、五、六、八号线在车辆信息显示系统的设计上缺少实用性和操作性,对乘客来讲缺少在实时报站时的人性化。如:地铁车厢内的乘客信息显示系统和车厢外侧的列车信息显示系统。如果在每个车门的上方安装车站站名动态显示地图,实时显示与车厢广播同步的信息,以及在每节车厢外侧显示列车的终点站,良好的工业设计不仅能给广大的乘客带来非常大的帮助,而且能够提升上海地铁服务的形象。由于在设计以上地铁列车时,受科技发展的限制。现在上海地铁4号线在车辆信息显示系统的设计上满足了广大的乘客的需求,
增加了车站站名动态显示地图。
如何在现有的地铁车辆上增加地铁车厢内的乘客信息显示系统和车厢外侧的列车信息显示系统,如图1、2,首先考虑其实用性和性价比,同时安装、操作要方便,在不影响列车的性能的前提下,完成本乘客信息显示系统的应用,设计方案的选择极其重要,目前的乘客信息显示系统比较复杂,例如:对于应用在某条线路上的声音识别系统,不仅要修改原语音文件,而且声音识别器不容易操纵,
对使用者来讲仍然存在比较多的问题。对于应用在某条线路上数字传输显示系统,其操作方法不仅给司机带来了任务,每站需要手动操作二次,同时显示的相关内容没有实时性,总之乘客信息显示系统比较落后。
设计一种符合现代化要求的乘客信息显示系统是非常必要。
2.设计
地铁车辆乘客信息显示系统的设计,采用CMOS语音识别大规模集成电路,识别响应时间小于300 ms。HM2007芯片采用单片结构,如图3。将语音识别需要的全部电路:CPU、A/D、ROM、语音的AMP放大器、压缩器、滤波器、震荡器和接口界面等集中在一片芯片内,这样外围电路就非常少,外接64K非易失性SRAM,最多能识别40个车站站名语音(字长0.9秒),或(字长1.92秒)但识别仅20个车站站名语音。按正常人的讲话速度,0.9秒一般每秒吐字1到3个为宜。
针对目前上海地铁列车在车厢内外无LED动态站名显示而设计,通过将列车车厢广播的模拟信号转换成数字信号,自动控制LED发光二极管,在列车在车厢内使得广播的内容(每个车站站名)与发光二极管显示面板声光同步,将显示面板放置地铁车辆的每扇车门上方,并且显示面板以地铁运营线路为背景,达到列车进站和出站时能分别指示。在列车车厢外让乘客非常直观地、一目了然地了解车辆的终点站方向,从而方便乘客的上下车,提高了地铁服务水平。在国外的地铁列车上应用已相当普遍。
语音识别显示器①的输入端与车载广播功放器相连接,实现广播模拟信号发出的语音进行车站名的自动识别。不需要编程技术和修改文件等方法,全部采用硬件方法设计。整个系统分为5部分:(1)输入控制部分;(2)噪音滤波部分;(3)语言识别部分;(4)执行显示部分;(5)录音功能部分。
(1)输入控制部分:
通过麦克风或(结合器)连接,如图4所示,要求模拟语音输入点的电压必须控制在大约20mv左右,以确保后期语音识别的正确性。在输入电路中增加了声音控制部分的电路,即将模拟信号转变成数字方波信号,对语音输入进行开关量的控制,确保在T
(2)语音识别部分:
利用语音识别芯片HM2007和外接6264SRAM存储器组成为主要部分,(HM2007中ROM已经固化了语音语法技术)对语音的存储及语音语法算法进行控制。HM2007的详细内容见产品说明书。
(3)噪音滤波部分:
滤波功能是自动识别(阻挡)我们在设计阶段设计好的各个工况的语音情况,例如:司机的讲话及车辆杂音等(在麦克风的工况下),以确保输入语音的可靠性、稳定性,特采用UM3758串行编译码一体化进行滤波电路。如图5。
(4)执行显示部分:
将车厢广播喇叭的模拟信息通过语音识别器转变成数字信息,最终经过译码电路、4/16多路数据选择器及RS485接口,去控制车厢内车门上十个LED显示面板,如图6。
(5)录音功能部分:
在进行广播内容更改时,本项目最大的特点是:不需要任何手段的手工软件编程的修改,而是通过远程音频电路控制技术进行按动相关按钮,选择地址然后自动录入内容,如图6。
3. 结论
语音识别器及LED显示面板的设计,能应用到以前没有LED显示面功能的地铁车辆上,与其他所设计的方式相比较,语音识别控制简单、可靠性好、安装方便、相对投资最小和不改动车厢内任何电器为特点,仅提供110VDC电源和音频输入接口。
本项目的开发具有一定社会效益,得到国内外乘客和残疾人员的欢迎,提高了地铁服务质量。
参考文献:
1. HUALON MICRELECTRONICS CORPORATION TIWAN
PRODUCT NUMBER: HM2007
2. 555集成电路实用大全
上海科技普及出版社
3.①获得“2003年上海市优秀发明选拔赛三等奖”
4.①编入《中国科技发展精典文库》第四辑