时间:2022-07-23 01:48:19
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇语音合成技术,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
关键词 语音合成 发音 自然度 时域波形 语音库
中图分类号:TN912 文献标识码:A
1语音合成技术的发展历程
随着语音合成的要求越来越高,语音学家对语音合成的研究技术不断更新。早期研究利用合成语音的参数方法,以提高它的LSP,LPC和其他言语参数。这些都反映在越来越多和越来越严格的语音合成系统应用,现在不仅对语音合成有连贯性的要求,而且还有更高的需求。
上世纪60年代TTS英文版系统被成功研制。在80年代,我国也开始研究中文TTS。中国科技大学,社会科学院,中国科学院,清华大学等所有单位都在TTS的研究领域中不懈努力奋斗。不仅如此,在中国台湾的著名大学,如台湾大学和台湾交通大学也开始在语音系统领域中研究。甚至一些研究成果已成为产品在现实中使用。同时,在世界主要国家也已经开发相应的产品。
上世纪80年代后期和,科学家就开始对修改语音合成技术的时域波形进行研究,即PSOLA(基音同步叠加)技术。其主要特点是:在衔接语音波形段,首先按照上下文,根据拼接单元与PSOLA算法调整的韵律特征,合成波形不仅保持主音发音段的功能,并能与环境做出韵律特征的拼接单元,从而获得可懂度和自然度很高的合成语音。PSOLA技术有了很大的发展和广泛的应用。为了提高合成语音的质量,人们开发了语音波形拼接技术,该技术主要用于一些语音信号的参数如音高,而不是语音参数波形。这项技术能合成出更加自然的语音。
在上世纪90年代,比LPC语音合成技术和共振峰技术更优越的技术已经诞生,利用该项技术合成的中文与英文显得更加自然,并已经被广泛应用于商业领域。近年来,人们在研究通过数据库建立的语音合成算法。只要应用数据库就可以进行基本的语音单元合成,可以更方便的进行语音信号的拼接合成。对于确定合成语音质量,语音库中起着非常重要的作用。多种感情的语音单元是各种情况下语音数据库的唯一入口,从而合成了一种任意语句。因此,语音数据库的容量必须足够大。这种合成语音的自然度将有较大的升级。
现在,随着语言学的不断发展,语音合成技术已经从最初对语音内容清晰度和连贯性的要求,逐渐演变成对语音的自然特性的高度追求。如何将合成后的语音显得自然是科学家们越来越关注的话题,但现在的语音技术仍不能满足人们的需求,因此,目前众多产品制造商正在对语音合成自然度不断创新。所以。语音合成在未来具有更大的商业市场和机会。世界各个主要国家都对语音合成技术做了集中的大量研究,技术已经达到了一个较高的水平,虽然我国现在语音合成技术较为弱后,但在不久的将来,随着国家对语音技术的重视程度将会不断提高,人们对语音的自然度要求就会有更高的重视程度,中国将有越来越多的企业和部门从事语音合成技术的研究。我国将在语音合成方面将会和国外长期竞争,并会在这样一个良性的竞争中获得更加先进的技术。
2语音合成技术的理论
语音合成技术已越来越多地在现代社会中得以应用,大大提高了人民的生活质量。如电话号码查询,计算机应用,旅行的火车与飞机班次语音查询等。
语音合成是利用语音处理技术来建立数字语音模型,模型首先通过激励信号,在人体器官中传递声音,随后发出声音。语音合成技术可以根据不同的规则分为不同的类型,如信道模型参数法,语音参数法和波形拼接法。波形拼接法是衔接语音信号和易懂的语音信号,从而合成信号强度和自然度高的语音信号。
LPC技术是将时域中的信号在保证传输率的基础上,来完善时域波形的技术处理方法。LPC技术的优点和缺点非常清晰,它具备简洁和易于处理的算法,然而它仅仅是一个简单的解码语音信号,只能实现一定程度上的语音连接。同时,波形拼接技术的最大特征是利用一些语音波形的数据来存储所有相关的语音信息,所以对语音自然度的提升将起到很大的作用。但要合成单音节或充满感情的语句有在有些情况时是很难妥善处理的,如果单独的音节或词在充满感情的语句中进行处理,显然其综合素质将受到一定的影响。
上个世纪末,科学家们提出了一个语音波形拼接的有效方法,即基音同步叠加技术(PSOLA),可以解决上述问题,给语音处理技术带来了一股新鲜血液。该技术主要是对语音信号的持续时间,强度,频率,时间等参数进行控制。而这些语音信号参数的改善对语音信号处理非常重要。所以LPC技术与PSOLA技术在控制韵律词的修饰方面有更多的优点,通过该项技术合成的语音在自然度等各方面比其他合成方法都更要出色。
参考文献
语音技术涉及到语音编码、语音合成、语音识别、语音技术应用等多个技术领域。目前,关于语音编码,国际标准化组织ISO和国际电信联盟ITU上已经制订了一系列的技术标准,分别应用在有线通信、移动通信、数字音响等领域。但是,关于语音合成与识别技术的标准还没有一个统一的规范,ISO和ITU在这些领域也没有颁布技术标准和规范。虽然有些标准化组织、研究机构和大公司提出了各自的技术规范草案,但是没有得到广泛的承认和支持。国际上,许多跨国公司,如IBM、Microsoft、AT&T、Naunce、Sun System等对语音技术的研究已经持续了多年,对制定语音技术领域的标准非常关心并积极参与,希望能把各自公司的研究成果纳入到技术规范和标准中去,以期在激烈的竞争中处于技术的制高点。现在,与互联网有关的语音技术应用领域,相关的国际语音标准发展迅速,形成了VoiceXML和SALT两大语音标准阵营,并各自都获得了广泛的支持。但是,对语音合成与识别的核心技术,如系统框架、接口规范等还没有统一的标准。本文不讨论语音编码的标准问题,而是对语音合成与识别领域的技术标准做一个初步的探讨。
语音技术标准的三个层面
虽然目前国际上还没有统一的、得到广泛承认和支持的语音合成与识别领域的技术标准,但是,这方面的研究工作发展迅速,近几年推出了许多研究成果,特别是W3C组织积极推动并了多个语音技术应用方面的规范或标准。例如, W3C了Voice Browser(语音浏览器)标准的草案。在这个标准中,Voice Browser标准(草案)定义了几种支持语音输入和输出的链接语言。这些链接语言使语音设备可以跨越各种硬件和软件平台,特别是设计了关于对话、语音识别语法、语音合成、自然语言语义和搜集可重复使用的对话组件的链接语言。这些链接语言和组件就构成了未来语音界面框架。现在,这个标准组中的参加成员有AT&T、Cisco、Hitachi、HP、IBM、Intel、 Lucent、Microsoft、Motorola、Nokia、Nortel、Sun和Unisys等公司。由于语音识别与合成技术还处在迅速发展阶段,制订出一套合适的技术标准很不容易。关于语音技术(除了语音编码)有关标准的制定工作主要集中在三个层面。
语音技术应用: 在这个层面上,主要规定在应用开发中如何使用语音合成与识别技术,即应用程序与语音合成/识别引擎之间的通信协议/语言,许多跨国公司积极参加了这个层面的规范与标准的起草、制订工作,例如,如IBM、AT&T、Naunce、Microsoft、Sun System等,推动并且形成了VoiceXML和SALT两大语音标准阵营。从开发者的角度看,这些标准都是面向应用系统开发用的。万维网联盟W3C主持了VoiceXML的起草和制定工作,并从2000年开始陆续了VoiceXML的多个版本,其中包括了语音识别语法规范和语音合成标记语言等。这些标准不仅使应用程序可以移植,而且还能够使语法相关联。VoiceXML 2.0是一种标记语言,用于建立话音界面,相当于带语音功能的HTML。现在已经有数百个大的厂商开发了基于VoiceXML的应用程序。SALT表示语音应用标记语言,它是在现有的标记语言,如在HTML、XHTML的基础上,增加了对语音和多媒体功能的支持而形成的。对语音应用,它主要关注的是如何通过电话得到语音服务。2002年,SALT联盟论坛了SALT技术规范的草案,并且把它提交给了W3C,希望能成为技术标准。参加和支持SALT技术规范的大公司包括: Cisco Systems Inc., Comverse Inc., Intel Corp., Microsoft Corp., Philips Speech Processing 以及 SpeechWorks International Inc.等。
语音识别/合成系统性能评测标准: 美国国家技术与标准研究所(NIST)主持了这个方面的工作。从20世纪90年代中期开始,NIST就开始组织语音识别/合成系统的性能评测工作。由于语音识别/合成系统的实现技术各种各样,对它们的评测实际上是相当困难的。20世纪90年代初期的时候,语音识别/合成系统大量推出,但往往出现下面的情况: 某个系统在推出时,声称该系统有很高的性能,但实际应用的时候其性能与宣传的差别很大。因此,NIST认为应制定出一套评价语音识别/合成系统的技术标准,让所有的语音识别/合成系统在这套评测标准下进行评估,以得到客观的性能评价指标。在该领域,NIST陆续制定了评价语音识别/合成系统的词错误率WER的计算规范,语言模型的复杂度的计算规范,训练和测试语料的选取,系统响应时间标准,合成语音自然度的评价规范,测试程序的规范等。近年来,NIST又制定了针对其它语种(如,汉语,日语等)的评价标准。NIST的评价标准迅速得到了语音识别/合成领域开发者的支持,越来越多的大公司积极参加NIST组织的评测活动,同时也推动了语音识别/合成技术的发展。国内的“863”智能人机接口专家组也开展了类似的工作,陆续制定了针对汉语语音识别与合成系统性能的评价规范。
语音识别/合成引擎及其开发接口: 在这个层面上还没有一个技术标准或规范被广泛承认和采纳。ISO、ITU、NIST、W3C等标准化组织都没有在该方面推出技术标准或规范。实际上,这方面的工作涉及到许多语音识别/合成系统的具体实现问题,而系统的实现方法千变万化,难以用一个统一的规范和标准来规范。虽然没有语音识别/合成引擎及其开发接口的统一的标准和规范,但一些开发厂商和研究机构还是制定了各自的规范,在各自的语音系统中得到了实现,并随着语音识别/合成系统的推出而。
IBM在其推出的语音识别与合成引擎ViaVoice中规定了开发接口,提供了几百个开发接口函数。Microsoft推出了基于它的语音识别与合成引擎开发语音应用的接口Speech SDK, 在其中也提供了类似的开发接口函数。但是,IBM和Microsoft的语音识别与合成引擎的实现细节没有公开,也没有提供这方面的技术规范。另外,美国的CMU大学、英国剑桥大学电子工程系的HTK开发组都了开放式的语音识别与合成引擎的源码以及相应的开发工具,它们的语音识别与合成引擎的实现方法纷纷被众多的开发者所借鉴,从而形成了业界很有影响的开发规范,但是,这些规范也不是标准。目前,有许多语音识别与合成引擎,但是没有提供实现的技术规范,因此,这些系统的实现和提供的接口只是遵守各自特殊的规定,没有规范化并得到广泛的应用。
中文语音技术标准现状
制订中文语音技术的有关标准,对促进中文语音技术应用、推动中文语音产业发展、增强民族软件核心竞争力均具有非常重要的意义。国家信息产业部、“863”专家组、国家技术监督局和国家信息标准化委员会分别于2001年、2002年、2003年召开了三届语音标准研讨会,并于2003年11月由信息产业部科技司正式下文成立了“中文语音交互技术标准工作组”。
“中文语音交互技术标准工作组”是由国内产、学、研、用等企事业单位以及大专院校等自愿联合组织、经信息产业部科技司批准成立的、组织开展中文语音交互领域技术标准制定和研究活动的非营利性技术工作组织。该工作组的主要工作任务是研究并制定与中文语音交互技术有关的数据交换格式、系统架构与接口、系统分类与评测及数据库格式与标注等方面的标准。目前,语音合成和语音识别通用标准已正式立项为国家标准,报批稿已经完成,多个产业相关的应用技术标准也正在制定之中。
国家“863”智能人机接口专家组在20世纪90年代中后期邀请国内的一些研究机构和大学制订了针对汉语语音识别与合成系统的评价规范,该评价规范应用到了历届对“863”支持的汉语语音识别与合成系统的评价过程中。如果从语音识别与合成技术标准的三个层面考察,国内在该领域的研究工作主要集中在系统性能的评价规范的制订上,至今还没有正式实施的国家标准。但是,随着国内的语音应用开发地迅速发展,没有一个统一的技术规范或标准会造成许多开发重复,资源浪费。
例如,如果语音识别与合成引擎支持媒体资源控制协议(MRCP), 语音应用开发者采用MRCP,IVR和语音识别与合成引擎开发厂商之间的专有用的连接器就不需要了。再如,随着语音技术和应用市场需求增大的同时,面临着复杂系统互联的问题。在系统的互联接口、内容交换数据格式等方面没有一个大家共同遵循的标准,其开发难度、维护难度和运营难度是非常巨大的; 没有一个大家共同遵循的标准,语音合成/识别引擎与电话设备、后台数据库、地理信息、无线定位等其他组成部分完成通信也是非常困难的,这些都成了阻碍语音应用大规模发展的绊脚石。因此,制订和研究汉语语音技术领域的标准已迫在眉睫。
技术标准的主要内容
为了适应网上语音浏览、语音信息检索、交互式语音应用的发展需求,语音识别与合成技术的标准制订工作的重点目前应该集中语音技术应用层面和语音识别/合成引擎及其开发接口上。这样的一个标准或规范必须是有代表性的,通用的,被广泛接受和采用的; 显然,制定一个这样的标准不能闭门造车,要有标准的使用机构或潜在的使用机构参与,还必须与国际上已有的类似的标准接轨,与国际上的标准化机构,如ISO、W3C、ITU等密切合作。值得注意的是,语音识别/合成的实现算法千差万别,该领域的标准或规范只能提供一个实现框架,没有必要对具体的实现算法和技术细节进行约束。另外,语音技术标准还应该与具体应用无关,与语音识别/合成引擎无关等。
如上所述,语音技术标准(除了语音编码)的制订工作主要集中在三个不同的层面上。这三个层面标准的内容分别是:
语音技术应用: 一般基于语音的应用都有如下图所示的架构(已简化)。
在这个层面上,语音技术标准的主要内容是: 规定语音输入、语音输出、识别结果、返回结果的格式和属性。语音输入和语音输出属于用户与语音信号处理引擎之间的交互过程,所以,这部分也包括语音用户界面的内容; 识别结果是语音信号处理引擎输出的结果,也是识别结果执行引擎的输入,识别的结果一般是文本或命令,如何将识别结果格式化是该层面的主要任务; 返回结果是识别结果执行引擎的输出,也是语音信号处理引擎的输入,经语音信号处理引擎处理后,以语音的方式返回给用户。为此,需要规定语音输出的参数格式,如韵律特征、重音特征和停顿等。制订这方面的标准内容还应该考虑汉语语言和语音结构的特殊性。现在已经的技术标准或规范主要是VoiceXML和SALT,它们都属于描述和规定语音技术应用的层面,都是基于标记语言的格式。
语音识别/合成系统性能评测标准: 在这个层面上,语音技术标准的主要内容是: 评价语音识别引擎的性能指标,主要包括: 词汇量大小、识别方式、词错误率WER、语言模型复杂度、响应时间、训练和测试语料等; 评价语音合成引擎的性能指标,主要包括: 词汇量、自然度、清晰度、测试语料等。虽然我们可以借鉴NIST在这方面的经验和标准,但是针对汉语语音识别/合成系统性能评测标准,我们不能照搬,必须考虑汉语的特点。
语音识别/合成引擎及其开发接口: 在这个层面上,语音技术标准的主要内容是: 规定语音识别引擎的输入/输出的格式,如输入语音的方式(已有的语音数据的输入/Mic语音输入)、语音数据的格式、语音特征向量的格式、控制参数的语义格式、输出是文本串的格式、拼音串的格式、音素串的格式等,提供给用户开发接口的函数名、入口/出口参数、功能描述等; 但是,语音识别引擎的实现细节不应该包含在此部分的标准内,如引擎应该包含哪些模块,使用什么样的语音特征向量,如何计算语音特征向量,如何建立模板,如何匹配计算等,都不应该加以约束,而允许开发者采用适当的算法实现。关于规定语音合成引擎,需要规定的是: 输入的格式,如纯文本/拼音、带有控制串的文本/拼音、控制串的语义格式描述、输出的格式、提供给用户开发接口的函数名、入口/出口参数、功能描述等; 但是,语音合成引擎的实现细节不应该包含在此部分的标准内,如引擎应该包含哪些模块,如何进行输入文本的分析,如何分词,采用什么样的合成基元和算法等,都不应该加以约束。关于这部分标准的内容,IBM和Microsoft语音识别/合成引擎开发文档提供了详细的开发接口函数的信息,而且功能基本相同,可以为制订语音识别/合成引擎开发接口提供参考。语音识别引擎开发工具包HTK详细描述了如何开发一个新的语音识别引擎,对制订该部分标准的内容也具有参考意义。
链接:推动技术标准制订
【关键词】超声波;测距;语音合成技术
一、背景及意义
中国是全世界盲人最多的国家之一,目前我国眼部残疾人士多达600万,占世界眼疾人数的18%。眼部疾病在中国也是一个主要的公共卫生问题。由于生理上的缺陷,盲人在生活、工作等方面有着诸多不便。在当今人体可穿戴设备快速发展下,如何设计出盲人可穿戴设备对盲人和社会具有十分重要的意义。
二、超声波测距的实现
(一)超声波测距原理
超声波是一种振动频率高于20 kHz的机械波。目前超声波测距方法主要有相位检测法、声波幅值检测法和渡越时间法三种[1]。本设计采用超声脉冲回波渡越时间法。超声波传感器在发射超声波时开始计时,当途中遇到障碍物时立即回传,接收器接收到反射波时停止计时。设超声波脉冲由传感器发出到接受所经历的时间为t,超声波在空气中的传播速度为340m/s,则传感器到目标的距离S=340*t/2m。这就是渡越时间法的测量原理。
图1 超声波测距原理框图
(二)超声波测距的误差分析
根据超声波测距公式s=c×t,主要分为以下两个方面的误差:
1.时间误差
当要求测距误差小于1mm时,已知超声波速度C=344m/s(20℃室温),忽略声速的传播误差。测距误差t<(0.001/344)≈0.000002907s即2.907μs[2]。
从而可知在超声波传播速度准确的前提下当要求误差在毫米级时,时间差在微米级。由于89C51单片机的晶振频率为11.1592MHz,因此使得单片机能达到微米级的精度,从而确保误差在1mm之内。
2.超声波传播速度误差
超声波传播受环境温度影响比较明显。温度为0℃时超声波速度是344m/s,30℃时达到349m/s。一般温度每升高一度,传播速度大约增加0.6m/s。若超声波在30℃的环境下以0℃的声速测量100m距离所引起的测量误差将达到5m,测量1m误差将达到5cm。解决温度带来的影响一般采用温度补偿法[3]。由于本设计要求测量距离在5m之内,因此综合考虑可以忽略这种误差。
三、硬件电路的设计
(一)超声波发射电路
超声波发射电路由超声波探头和超声波放大器组成。超声波探头将电信号转换为机械波发射出去,而单片机所产生的40 kHz的方波脉冲需要进行放大才能将超声波探头驱动将超声波发射出去,所以发射驱动实际上就是一个信号的放大电路,本设计由单片机产生40KHz的方波,选用74LS04芯片进行信号放大(见图2)。
(二)超声波接收电路
由于超声波在空气中的传播过程中会发生衰减,如果距离较远,那么接收到的超声波信号就会比较微弱,因此需要对接收到的信号进行放大。超声波接收电路主要是由集成电路CX20106A芯片电路构成的,CX20106A芯片电路可以对超声波信号进行放大、限幅、带通滤波、峰值检波、整形、比较等功能,比较完之后超声波接收电路会输出一个低电平到单片机去请求中断,此时单片机停止计时,并开始去进行数据的处理。
CX20106A芯片的前置放大器具有自动增益控制的功能,当测量的距离比较近时,放大器不会过载;而当测量距离比较远时,超声波信号微弱,前置放大器就有较大的放大增益效果。CX20106A芯片的5脚在外接电阻对它的带通滤波器的频率进行调节,而且不用再外接其他的电感,能够很好地避免外加磁场对芯片电路的干扰,而且它的可靠性也是比较高的。CX20106A芯片电路本身就具有很高的抗干扰的能力,而且灵敏度也比较高,所以,能满足本设计的要求。
图3 超声波接收电路图
(三)语音合成模块
此模块电路采用SYN6658语音合成芯片。SYN6658通过UART接口或SPI接口通讯方式,接受带合成的文本数据,实现文本到语音的转换。具有清晰、自然、准确的中文语音合成效果。可采用GB2312、GBK、BIG5和Unicode四种编码方式[4]。
图4 语音合成模块电路图
主控制器和SYN6658语音合成芯片之间通过UART接口或SPI接口连接,控制器可通过通讯接口向SYN6658语音合成芯片发送控制命令和文本,SYN6658语音合成芯片把接收到的文本合成为语音信号输出,输出的信号经功率放大器进行放大后连接到喇叭进行播放(见图4)。
四、软件设计
主程序对整个单片机系统进行初始化后,单片机提供一个10us以上的脉冲触发信号来触发超声波发射电路,同时将定时器T0启动,在接收到超声波信号后关闭定时器,根据根据时间差计算出距离,然后调用语音播放程序,根据实际距离来选择播报不同的信息。
图5 总系统流程图 图6 语音播放流程图
部分程序:
#include <AT89x51.H>
#include <intrins.h>
void main(void)
{unsigned char TempCyc;
Delay400Ms();
LCMInit();
Delay5Ms();
DisplayListChar(0, 0, mcustudio);
DisplayListChar(0, 1, email);
ReadDataLCM();
for(TempCyc=0;TempCyc<10;TempCyc++)
Delay400Ms();
DisplayListChar(0, 1, Cls);
while(1)
{
TMOD=0x01;
TH0=0;
TL0=0;
ET0=1;
EA=1;
while(1)
{
StartModule();
//DisplayOneChar(0,1,ASCII[0]);
while(!RX);
TR0=1;
while(RX);
TR0=0;
Conut();
delayms(80);
} }}
五、结语
本系统经过多次试验,测试所得结果与设计要求基本一致。该超声波测距的导盲设计有效距离可达到3.8m,测量精度为2.0cm,同时可以实时地通过语音模块播报提示,具有很好的导航功能,能够能够满足盲人导航器的设计要求,为盲人安全行走提供了保障。
参考文献
[1]时德钢,刘晔,王峰,韦兆碧,王采堂.超声波精确测距的研究[J].计算机测量与控制,2002,10(7).
[2]纪良文,蒋静坪.机器人超声测距数据的采集与处理[J].电子技术应用,2006.
[3]白顺先.超声波测距系统的设计与实现[J].高校理科研究,2000(08).
[4]SYN6588中文语音合成芯片数据手册[Z].北京:北京宇音天下科技有限公司,2012.
在Android移动平台上,开发了一款盲人手机系统,该系统以语音合成及语音识别为基础,使盲人能够通过声音控制系统功能的执行,并通过触控语音提示反馈信息,以此来实现手机与盲人的交互。以方便盲人顺利完成接打电话,收发短信,语音报时等功能。这不仅是盲人的渴望,同时也是科技进步对手机发展的要求。系统设计的功能包括:1) 语音接打电话;2) 语音收发短信;3) 语音报时;4) 语音播报日期;5) 语音播报天气。
1 系统设计
1.1系统功能划分
本系统业务逻辑分为语音拨号、语音接听电话、语音发送短信、语音接收短信、语音报时、语音播报日期、语音播报天气和语音搜索播放音乐等功能模块。系统功能模块图如图1所示。
本系统中语音模块的实现拟通过标准的接口接入安徽科大讯飞的移动语音平台iFLY Mobile Speech Platform(以下简称MSP)来实现[1]。系统中语音接打电话,语音收发短信会调用手机数据库中的通讯录,进行号码与联系人之间相互匹配;同时,其中的语音播报天气模块需要调用Web Service,以此来获取天气情况。
1.2系统流程图
系统由一个主页面和后台功能服务构成,当用户打开软件,点击主页面语音按钮时,此时进入语音输入模块,用户说出语音指令,系统根据预先定义的语法文件,选择进入相应的功能子模块,顺利完成该功能后,程序返回继续监听用户的点击操作。系统总体流程图如图2所示。
图2 系统总体流程图
注:图2中*代表联系人、号码、歌曲名或城市名
1.3系统功能模块设计
下面对图2中几个主要子系统模块的功能和流程进行分析与设计:
1) 拨打电话逻辑设计
该子系统主要是为了方便用户拨打电话,当用户需要打电话的时候,只需要通过相应的语音指令告诉手机,打电话给联系人或号码,系统即可分辨出关键词“打电话”进而转入该子系统。在指令中用户有两种选择:一、打电话给联系人,此时系统调用手机数据库中的通讯录查找该联系人,如果找到该联系人则直接进行拨号,否则,提示未找到该联系人;二、打电话给电话号码,此时系统直接提取号码进行拨号。具体流程如图3所示。
2) 发送短信逻辑设计
该子系统主要是为了方便用户发送短信,当用户需要发送短信的时候,只需要通过相应的语音指令告诉手机,发短信给联系人或号码,系统即可分辨出关键词“发短信”进而转入该子系统。在指令中用户有两种选择:一、发短信给联系人,此时系统调用手机数据库中的通讯录查找该联系人,如果找到该联系人则提示请输入短信内容,语音输入短信内容后,系统提示短信已编辑完成发送或取消,语音输入发送或取消。若为发送,则直接发送,并提示发送成功;若取消,则提示短信已取消。如果未找到该联系人则提示未找到联系人;二、发短信给电话号码,此时系统直接提取号码进入短信编辑步骤。
3) 播报天气逻辑设计
该子系统主要是为了方便用户了解天气,当用户需要了解天气的时候,只需通过相应的语音指令告诉手机,某地今天/明天天气怎么样,系统即可分辨出关键词“天气”进而转入该子系统。系统通过Web Service访问webxml.com.cn网站获取天气情况,并将结果进行解析从而获得最终结果,最后以语音的方式向用户播报。
4) 接听电话逻辑设计
Android的CALL接收机制是由Broadcast Receiver(广播接收器)来完成的,当电话打进的时候会广播一个Telephony Manager. CALL_STATE_RINGING的消息,可以通过在资源文件AndroidManifest.xml的Inter Filter中拦截这个消息,也可以选择在Activity中注册这个消息来实现[2]。同时,系统获取来电号码并在手机数据库通讯录中查找该联系人,如果找到该联系人,则提示联系人打来电话请接听,否则直接播报号码打来电话请接听。
5) 接收短信逻辑设计
Android的SMS接收机制是由Broadcast Receiver(广播接收器)来完成的,当电话打进的时候会广播一个android. provider. Telephony. SMS_RECEIVED的消息,可以对其进行侦听拦截[2]。同时,系统获取来电号码并在手机数据库通讯录中查找该联系人,如果找到该联系人,则提示联系人发来短信请查看,否则直接播报号码发来短信请查看。
2 系统实现
介绍系统功能的实现过程,包括语音合成和识别功能,访问数据库和Web Service功能的实现。
2.1语音识别功能实现
本系统中所实现的各个功能都是基于语音合成和语音识别技术,其具体实现都是采用科大讯飞的MSP。科大讯飞的MSP移动语音云平台目前只提供一种语音识别的方法,即语音识别控件(Recognizer Dialog)[3],其函数原型为:
public RecognizerDialog(Context context, String params);
以下是系统中语音识别的部分关键代码:
RecognizerDialog isrDialog=new
RecognizerDialog(MainActivity.this,"appid=51540a3e");//创建语音识别对象
isrDialog.setListener(recognizeListener);
String grammar="#ABNF 1.0 gb2312;\n" +
"language zh-CN;\n" +
"mode voice;\n" +
"root $main;\n" +
"$main=现在什么时间|现在几点钟|今天几月几号|打电话给$contact|$city $date 天气怎么样|发短信给$contact |来一首$song;\n" +
"$contact=${names} |$digit<3-11>;\n" +
"$date=今天|明天;\n"+
"$city=武汉|北京|上海|广州|深圳|重庆;\n"+
"$digit=0|1|幺|2|3|4|5|6|7|8|9;\n"+
"$song=自由飞翔;\n"; //语法文件
grammar=grammar.replace("${names}",a);
isrDialog.setEngine("asr","grammar_type=abnf",grammar); //进行语法文件识别
String text= results.get(0).text; //获取结果
2.2语音合成功能的实现
科大讯飞的MSP移动语音平台共提供两种中文语音合成的使用方法:语音合成控件(SynthesizerDialog)及语音合成播放器(SynthesizerPlayer)[3]。本系统采用第二种语音合成方法,通过此接口可以实现在后台进行语音合成播放,而不需要通过SynthesizerDialog显示界面。其函数原型为:
Public static SynthesizerPlayer createSynthesizer
Player(Context context ,String params);
以下是系统中语音合成的部分关键代码:
SynthesizerPlayer player; //创建合成对象
player=SynthesizerPlayer.createSynthesizerPlayer(MainActivity.this,"appid=51540a3e");
player.setVoiceName("vixnn");//设置发音人
player.playText("今天是"+year+"年"+month+"月"+date+"日"+",星期"+week, "tts_buffer_time=5000",null); //进行语音合成
2.3访问数据库功能实现
系统中接打电话,收发短信模块用到了手机系统数据库中的通讯录,需要对数据库进行访问。具体实现代码如下:
ContentResolver contentResolver =getContentRe
solver(); //创建数据查询对象
cursor=contentResolver.query(ContactsContract.CommonDataKinds.Phone.CONTENT_URI,projection,ContactsContract.CommonDataKinds.Phone.DISPLAY_NAME+"=?",new String[]{contactName}, "");[4]
//结合查询条件进行数据查询
Int nameFieldColumnIndex=cursor.getColumnIn
dex(ContactsContract.CommonDataKinds.Phone.NUMBER); //获取查询结果
String number = cursor.getString(nameFieldColu
mnIndex); //得到联系人的电话号码
2.4访问Web Service功能实现
系统中查询天气模块用到了Web Service,需要访问网站获取天气情况,然后对其进行解析从而获得最终结果。具体实现代码如下:
byte[] entity =readSoap().getBytes();
String path="http://webxml.com.cn/WebS
ervices/WeatherWebService.asmx";//查询网址
URL url=new URL(path);
HttpURLConnection conn=(HttpURLConnection)url.
openConnection();//打开网络连接,进行查询[5]
conn.getOutputStream().write(entity); //获取查询结果
return parseSoap(conn.getInputStream());
3 系统运行测试
本软件的测试平台是中兴U880,CPU Marvell PXA920,CPU频率为806MHZ单核,RAM容量512MB,ROM512MB,系统为Android2.2,支持Bluetooth,GSM,TD-SCDMA 和Wifi 通信,主屏3.5英寸,分辨率为800×480 像素。利用Eclipse将本软件安装到手机上,进行测试。
3.1系统主界面
系统只有一个主界面,它由两部分构成,上面部分是一个ScrollView(滚动条),包括系统几项功能的提示和指令格式;下面部分
(下转第4459页)
(上接第4449页)
是一个固定的ImageButton(图像按钮),用来触发语音事件,它也是用户最常使用的控件,在整个主界面上占有较大空间,以便于用户操作。主界面效果如图5所示。
3.2语音拨打电话
如图6所示,当触发语音按键,命令“打电话给张朋”,系统直接识别出语音命令,并进行拨号。
图4 系统主界面 图5 语音拨号界面
4 结束语
基于Android的盲人手机系统是一款为方便盲人而开发的手机应用软件,它可使用户免于繁琐的手动输入,只需要简单地说出语音命令,即可实现相应的功能,为视力障碍人群提供了一种有效操作手机的途径。软件安装简单,安装成功后无需任何设置,打开本软件后触发语音按键即可进行各种操作。系统功能较为全面,操作方便快捷,具有一定的推广和实用价值。
参考文献:
[1] 安徽科大讯飞信息科技股份有限公司.讯飞语音改变移动生活[J].计算机与信息技术,2011,6(3):25-32.
[2] 郭少豪.Android手机交互应用开发[M].北京:中国铁道出版社,2011:171-199.
[3] 安徽科大讯飞公司.语音云Android SDK[EB/OL]. (2010).http://iflytek.com/.
当然,语音应用也并不都那么高深莫测,手机里的语音拨号已经成为最大众化的应用之一。就在不久前,比尔・盖茨又预言,未来5年,人与电脑的互动方式将发生重大变革,现有的鼠标和键盘将被触摸、视觉和语音所代替……
世界之最难技术
语音技术包含语音合成、语音识别两大部分,其中,后者是业内公认最难的技术,当今计算机运算速度越来越快,存储容量越来越高,而语音识别却依然没有什么突破性进展。中科院自动化所模式识别国家重点实验室研究员徐波解释说,语音技术属于人工智能范畴,要让电脑模拟人脑,这本来就是一个非常难的领域,因为人脑的思维是非线性的,非纯逻辑性的,而计算机是二进制、纯逻辑的。语音合成是让计算机说,就好比银行里的叫号机,“请――一百――零――三号――到――第五柜台办理”。这些词汇元素,是事先录好在数据库里,然后按需求抽取出来,合成在一起后再播放出来。但由于合成的不好,我们听到的是断断续续的播报。不过好在接收方是人,尽管不连贯,人们还是能听懂。而语音识别就不一样了,它是让计算机听懂人话,接收方是计算机,人们的词汇量是何其大,各地方言也千差万别,再加上在嘈杂的环境中,计算机更是无法分辨哪些是背景噪声,而哪些又是真正需要接收的语音指令。
“1981年,日本投资了1千亿日元,第一次向世界宣告要开始研制‘第五代计算机’,目标是做一个人工智能化的信息采集、存储、处理、通信计算机系统,具有形式化推理、联想、学习和解释的能力,甚至能够帮助人们进行判断、决策、开拓未知领域和获得新的知识。其别提到,人机之间可以直接通过自然语言或图形图像交换信息。但是计划最终以失败告终,因为科学家们认识到,要研究第五代计算机,先要研究语言学家,研究人的思维,而这又是一项复杂而漫长的工程。”他说。
语音技术民间化
当初,“第五代计算机”开发计划被制定为10年,然而将近30年后的今天,我们依然没有完成这个梦想。这么看来,比尔・盖茨预言的5年,貌似也是个可望不可及的梦想了?当然不是,语音技术已经今非昔比,并且渗透到咱们生活的方方面面。
从可以读短信的语音王手机,到可以辅助读网络小说的“语音电子书”软件(如今还有手机使用的版本),还有银行、运营商等服务热线,语音合成技术已经告别了磕磕巴巴朗读的年代,清晰流畅得可以和真人相比。但是在语音识别领域,进展还没有前者那么快速。即便是拥有40多年提供语音解决方案的经验、150多个语音技术专利、语音识别产品在全球销售已达一百万套以上,领导了世界的语音识别技术的IBM,其语音识别的主打软件ViaVoice(第一个全功能的语音指令桌面程序,可以用语音在PC、手提设备、汽车系统和自动客户服务系统之间进行信息交流)也令人感到生硬。“用它输入太慢了,还不如键盘敲字,谁会去用呢?”曾经试用过ViaVoice的李先生对记者说。
记者在采访中科院声学所专门研究语音交互技术的杜利民博士时问道:“在某博览会上曾经展出的可以和人对话的机器人,是不是就是一个语音识别技术市场化的未来方向?”杜博士说:“语音玩具不能说不是一个趋势,但这类产品一定是有用的,能为人们带来一定价值的,而不是靠炒作科技概念。只有这样的产品,才能真正让人愿意掏钱去购买,走入家庭。”
国际巨头的语音试验田
微软是个如此庞大的公司,它当然什么都想做,而语音是尤其受到比尔・盖茨推崇的,他从很早就相信,语音技术在未来的人机交互中一定占绝对优势,既然这样,主打操作系统的微软怎么能不做语音?也就从那时起,微软研究院的语音组诞生了。前有老大盖茨的理想,后有Windows操作系统和Office办公软件在赢利上撑腰,语音组虽然一直没赚钱,但也义无反顾地坚持了下来。
Google也在做语音技术,他们当然也结合了搜索的老本行,两者结合就有了Google411,并且在未来,这种服务会更加便利和无处不在。这是一项很有意思的服务,类似于过去的“接线员”。你说“想找个咖啡厅”,Google411就会自动给你报出一系列本地咖啡厅的名字。你告诉它想要的咖啡厅编号,它会帮你自动转接到该咖啡厅。你也可以要求它发短信告诉你相关信息,或者发送Google地图到你手机上。而这项听起来方便得诱人的服务嫁接到中国就变了个样子。
Google411目前只面向美国本土服务,但是中国老百姓也有这个需求呀,用不了不是干着急吗?没事,我们还有百度,不过拨通电话后,那头并不是自动的语音应答分析系统,而是活生生的人。在国家智能计算机研究开发中心、中国科技大学人机语音通信实验室的基础上组建的科大讯飞公司研究院院长胡郁表示,百度语音搜索瞄向了一个很有前景的市场,但是随着用户量的增大,后台用人去搜索肯定会增加成本,并影响服务质量。因此,只有建立真正的自动化语音服务系统,才可能在这个领域做下去。
当然,我们还不能不提到IBM这个语音领域的巨头,然而,如同IBM卖掉PC业务一样,把利润变薄的业务甩掉,便于把更多财力、精力投入到更赚钱的业务上去。现阶段看来,语音市场风险还比较大,还不够热到让IBM下大本儿来运作,因此IBM更将语音视为一种技术研究和储备。
中国企业的挑战与机遇
分析了国际巨头们在语音技术领域的力量体系,国内的语音企业要向哪个方向发展才能敌过他们?科大讯飞的胡院长对记者说:“大公司的优势毋庸置疑,但这些优势也在一定程度上限制了他们的思维和对市场的应变速度。在这些公司里做语音,只需要把技术做好就行了,他们的市场意识并不很强,还没有考虑要通过这些技术创造多少价值。而对于我们国内企业,特别是专门从事语音技术的企业,则要把技术研发、设计、产品、市场一条线串联起来。找准切入点,迅速地拉动市场对语音产品的需求。大公司的梦想需要5年,而我们会用3年来实现看似并没有那么宏大的目标。”
关键词:多模态二语语音习得;生理仪器测量;语音合成;声学分析
中图分类号:H319.3 文献标识码:A 文章编号:1001-5795(2013)04-0059-0005
从发展轨迹来看,语音学经历了“口耳之学”的传统语音学和语音科学两个阶段,其分水岭是语音学研究中首次使用X光对发音器官、发音动作等进行实证研究。随着科学技术的快速发展,近二十年语音科学研究取得了重大进展,并呈现出多元化发展趋势。语音多模态研究也应运而生。随着二语语音习得研究的扩展和深入,语音多模态研究成果越来越多地被应用于二语语音习得中,多模态二语语音习得研究也日益成为人们关注的热点话题。
关于语音多模态研究在二语语音习得中的应用,国内学者进行了一些有益的尝试,主要是在二语语音习得和教学中引入语音声学软件分析。谢萍(2007)、马照谦(2007)、蒋红柳(2009)等探讨了如何使用Praat、Speech Analyser等语音分析软件实现可视化英语语音教学,如何通过提供视觉上的感知反馈和感知评判标准,使抽象的语音概念介绍和容易混淆的语音的区分变得直观形象,帮助学习者正确感知英语语音。庄木齐、卜友红(2011)介绍了商用超音段音位辅助习得软件Better Accent Tutor(超音段可视化分析软件)的性能及应用效果。这些研究有助于学习者了解语音软件及声学分析,并通过可视化教学进一步提高二语语音习得效率,但也有其局限性和不足:只是聚焦语音习得的单一模态,并且尚未构建一定的研究框架。这一问题若不能及时解决,二语语音习得研究还会流于表面,缺乏深度和系统性。针对这一不足,我们在整合语音多模态相关研究的基础上,依据语言学、语音学、生理语音学、声学语音学等理论,尝试构建一个针对中国学习者的多模态二语语音习得研究框架,以期促进多模态二语语音习得理论的发展,丰富二语语音多模态研究方法和研究内容,有效促进二语语音习得。
1 语音多模态研究与多模态二语语音习得
语音学是研究人类说话声音及言语过程的学科。现代语音学一般分为发声语音学(artieulatory phonet—ics)、声学语音学(acoustic phonetics)和听觉语音学(auditory phonetics)。发声语音学主要研究讲话人的语音产出,声学语音学主要研究讲话人与听话人之间的语音传递,听觉语音学主要研究听话人对语音的接受和感知。三者涉及言语交际过程中的发音、传递和感知三个阶段。正如图1言语链(The Speech Chain)所示,言语的产出与感知过程复杂,涉及语言学层面(linguistie level)、生理学层面(physiological level)和声学层面(acoustic level)发生的一系列现象。
“模态”(modal)本是计算机科学中研究人机交互时使用的一个术语,指“人类通过感官(听觉、视觉等)跟外部环境(如人、机器、物件、动物等)之间的互动方式”(顾曰国,2007)。“多模态”指综合运用多种模态,通过文本、图像、视频、手势、三维动画等多种手段和符号载体进行交际的现象(Iedema,2003;O’Halloran,2011)。“语音多模态研究主要是指对某种语音进行语言学、语音学、语音声学和语音生理学的全方位研究”(孔江平,2008)。这一全方位研究基本涵盖言语过程中的发音、传递和感知三个阶段。因此,语音多模态研究对二语语音习得的多模态研究有着重要的借鉴意义。
1.1 多模态二语语音习得研究框架构建
基于语音多模态研究,我们尝试性构建不同层面(音段层面、超音段层面)的多模态二语语音习得研究框架(如图2所示)。
多模态二语语音习得研究可分为以下三大类:①基于生理仪器测量的多模态二语语音习得研究,包括动态声门研究、口鼻气流气压研究、动态腭位研究、唇形研究等,多用于研究辅音习得(因为辅音在语图上声学表现不明显);②基于语音合成的发音过程三维动画的多模态二语语音习得研究,主要用于研究辅音和元音等音段的习得;③基于语音软件声学分析的多模态二语语音习得研究,主要用于研究超音段音位习得及元音习得。其中超音段音位可通过音高(pitch)、音强(intensity)等声学参数来反映;元音作为乐音有很好的声学表现,便于进行声学分析。前两类研究主要涉及音段层面,第三类研究主要关注超音段音位习得。这三类研究即构成了多模态二语语音习得的研究框架,主要涉及视觉(通过基于语音合成与语音识别技术开发的语音分析软件将语音的声谱图和声学参数展示出来)、听觉(听话人对语音的接受和感知等)、触觉(借助图像或动态画面调整发音方法和发音部位)等。下文将略述这一框架并探讨其在二语语音习得中的应用。
1.2 多模态二语语音习得研究框架在二语语音习得中的应用
1.2.1 基于生理仪器测量的多模态二语语音习得
(1)动态声门研究与二语语音习得
动态声门研究是利用国际上研究语言发声最先进和复杂的高速数字成像技术和语音信号处理技术,针对声带振动频率和振动方式所进行的研究,具体是利用高速摄像机拍下声带振动的全过程,然后利用语音信号处理技术提取出相关参数进行语音学研究或建立模型(孔江平,2007)。英语辅音习得中的一个关键问题是发某个辅音时如何确定声带是否振动,传统做法是把手放在喉部,如果感觉喉部颤动发麻,则说明声带振动了。利用这一方法只能对声带是否振动做出定性判断,却无法进行精确的定量分析。借助动态声门研究成果,根据相关参数计算出声带振动的方式和频率并以视觉的形式呈现给学习者,有助于克服传统方法带来的弊端,促进学习者辅音的习得。
(2)口鼻气流气压研究与二语语音习得
目前学术界使用比较多的口鼻气流气压计是SCI—CON R&D公司的PCquirer系统,其主要测量参数有:口腔的气流量和气压级,鼻腔的气流量、气压级和基频等。这一仪器“除了用于腭裂、运动性言语障碍、听力障碍、腭修复、功能性的鼻音问题等嗓音病变和语音矫正外;还可以提取各种不同的参数用于言语产生的生理研究”(李永宏等,2008)。
中国学习者英语辅音习得过程中常见的两大问题是:发辅音时往往送气不足;爆破音发音要经历闭合(approach)、成阻(hold)和除阻(release)三个阶段,学习者常常不能恰当控制气息。发音时,来自肺部的气流通过支气管、气管到达咽腔,然后再由鼻腔或口腔释放出来。气流是发音的能量来源和原动力,其强弱直接影响发音效果。口鼻气流气压计则能精确测量通过口腔、鼻腔的气流量,避免仅凭感觉而造成的误差,对于解决英语辅音习得过程中的送气不足和气息控制等问题大有裨益。
(3)动态腭位研究与二语语音习得
言语产生(speech production)是言语链中最底端和基础的部分,也是语音学中最为重要的基础性内容。在言语产生研究中发音器官动作特性的研究举足轻重。动态腭位研究主要用于音段层面尤其是辅音的研究。电子腭位仪原为帮助腭裂儿童发音而设计,现也应用于二语语音教学和习得领域。目前,常见的动态腭位仪应用电子假腭以96点阵的方式(图3),实时记录舌与腭部的接触位置及面积,同步采集说话人的音频信号和动态腭位EPG信号,并在计算机语音声学分析软件界面上以图形的形式显示出来。学习者可以清楚地看到辅音的发音方法和发音部位(郑玉玲,2006),因而被称作“实时地看语言(seeing speech inreal time)(Fletch,1982)。借助动态腭位分析,学习者可实时调整自己的发音。
目前用于研究发音器官动作的仪器除了电子腭位仪外,电磁发音仪是另一行之有效的仪器,可用来实时观察发音器官的动作(李永宏等,2008)。
(4)唇形研究与二语语音习得
唇形研究与二语语音习得研究有着密切的关系。人脸的唇部是一个复杂的非刚体模型,其形变过程由分布在面部的肌肉组织的收缩以及人体下颌骨的运动来控制(郑放,1985)。通过专用设备“红外三维立体信号采集系统”可获取唇形的动态信息进行唇形研究,建立一个基于红外三维立体信号的英语发音唇形研究数据库,开发具有唇形视频功能的英语发音多模态教学系统,有效改进二语语音习得。
1.2.2 基于语音合成的发音过程三维动画的多模态二语语音习得
目前的语音合成(speech synthesis)技术在清晰度、自然度及体现个体语音、语调、情绪丰富性等方面取得了重大进展,可以提供大量标准发音的动态画面。三维动画是近年来随着计算机软硬件技术的发展而产生的一门新兴技术,具有精确性、真实性、无限可操作性等突出优点,被广泛应用于教育、医学、娱乐等领域。基于语音合成的发音过程三维动画技术可以直观、生动展示各个发音器官及其运动、发音方法的模拟并与声音同步,有助于学习者机动、便捷、有效地进行发音训练。例如,可提供元音和辅音发声过程的三维动画视频(图4)、发音过程的分解步骤(图5)以及真人发音三维动画视频(图6)(http://uiowa.edu/-acadtech/phonetics/#)。
1.2.3 基于语音软件声学分析的多模态二语语音习得
语音软件声学分析主要用于二语语音超音段音位习得。由于受母语影响,中国学习者对英语语音的音响与韵律感知能力欠佳。解决问题的一个有效途径便是利用语音软件(Praat,Speech Analyzer,Eyespeak,WASP,Wavesurfer,Betteraeeent Tutor等)声学分析得到包含相关语料声学参数的声谱图或语图,以视觉的形式呈现给学习者,使其在接受听觉刺激的同时,接受视觉、触觉等多种感官刺激,即进行多模态体验。声学分析软件可展示给学习者诸如音长(duration)、音高、音强、共振峰(formant)、脉冲(pulse)、嗓音起始时间(VOT)等相关信息。其中,音高主要反映发音时音量的高低;音高曲线可显示语调的走势;音强指的是发音时气流的强弱,音强曲线可以反映重音情况;共振峰指语图中能量相对集中的一些区域,声学分析中常用的有F0(基频)、F1(与开口度有关,开口越大F1越大)、F2(与舌位的前后有关,舌位越靠前F2越大);脉冲主要用于区分清音和浊音,前者无脉冲,后者有脉冲;VOT是指“辅音与元音连接时发音器官交替活动,即除阻开始与声带振动开始的时间过程”(吴宗济、林茂灿,1989:119),清音的VOT长,浊音的VOT短。图7是语音习得软件Better Accent Tutor辅助语调、重音、节奏等超音段音位习得时的界面,学习者可以在该界面录音,然后对比分析与标准发音的差别,并根据得到的反馈信息修正自己的发音。
需要说明的是,语音软件声学分析的确能帮助改善学习者的语音习得效果,但也存在一定的误差。因此,不能完全依赖声学分析结果,有时候还需参考母语者的直觉和建议。
2 结语
1场景数据处理
1)三维模型构建Unity3D对当前主流的三维模型格式提供了良好的支持,本系统采用3DsMax进行建模、Photoshop处理贴图,完成三维模型构建。Unity3D对模型、材质、贴图有特殊的要求[8]。模型必须使用英文命名,模型与模型之间不允许出现共面、漏面、破面和反面的情况;材质球命名与模型名称一致,支持标准材质和多维/子物体材质,不能有浪费的材质球。贴图格式不带通道的为JPG,带通道的为32位TGA和PNG;贴图尺寸必须是2的N次方,最大贴图尺寸不能超过(1024×1024),贴图不能以中文命名,不能有重名。场景检查合格后,从3DsMax导出FBX格式文件。2)模型导入平台Unit3D支持从3DsMax中导出FBX格式的文件[9],导入FBX模型之后,为提高场景的亮度及真实感,在场景中选择添加一个方向光以模拟太阳光源,通过调整光源的方向、颜色以及是否产生阴影等选项,提高场景的效果[10]。Unity3D软件支持实时光照效果,在添加了光源之后,系统会根据光源及投影体的相对位置关系自动计算出阴影的位置及大小,并投影到正确的受影体上[11]。此外,Unity3D软件人性化地设置了“场景品质(QualitySettings)”调节选项,在这里可以进一步地调整阴影的品质以及渲染阴影的距离。场景效果调整前后效果对比如图2。
2系统关键技术
2.1NGUI交互界面设计
在化工设备虚拟培训系统中,系统的界面设计采用NGUI提供的界面工具。NGUI[12]是严格遵循“KISS原则”(所谓“KISS原则”,是英语KeepItSimple,Stupid的首字母缩略字,是指在设计当中应当注重简约,也有人称之为“懒人原则”),并用C#编写的Unity插件。NGUI提供强大的UI系统和事件通知框架。NGUI插件代码简洁,多数类少于200行代码,有着高效的性能,方便调节或扩展NGUI的功能[13]。系统主界面由五个功能区、右侧说明栏及三维场景区组成。整个界面的搭建基于Unit3D提供的NGUI控件,实现相机始终对着界面且只看到界面范围。以设备结构为例,设备结构菜单下分为自动拆解和手动拆解,利用NGUI插件,将下拉菜单的图片显示到界面中,并能够触发按钮下相应状态,实现后台程序功能展现。
2.2声音、字幕协同技术
由于unity3D软件中没有语音库,音频制作采用科大讯飞公司推出的InterPhonic5.0语音合成系统。这套系统以先进的大语料语音合成技术和语音韵律描述体系为基础,可以提供任意版本、任意篇章的连续语音合成。用户通过在编辑区输入文本后,可以通过改变语速、音高等调整语音效果,在制作时注意语句停顿正确即可,最后可以导出为.wav格式的音频文件。为了能够在unity3D软件中实现声音的播放,需要在Unity3D工程中添加AudioSource以及AudioListener[14],并通过声音脚本控制音频播放。音频制作完毕,需进行字幕的制作及同步显示控制。首先需要将要显示的文字内容保存为utf-8编码制式的文本文档,利用BitmapFontGenerator位图字体工具,将文本文档导出为以.fnt为后缀的字库文件及一张.png格式的文字纹理,手工重命名.fnt文件为.txt文件,利用NGUI插件中的FontMaker功能生成字体预设(Prefab),供字幕显示使用。其次制作一个XML文件,用以存储段落中每一条语句播放的起始和结束时间。最后,在当前工程创建一个UIPanel,并在UIPanel下创建子项UILable。通过添加脚本,赋予创建的XML文件脚本,并在UILable中放入创建的字体文件即可。
作者:相茂英 马纯永 韩勇 霍鹏 王春 单位:中国海洋大学信息科学与工程学院
关键词:12316;“三农”服务热线;系统功能
中图分类号:S126 文献标识码:A 文章编号:0439-8114(2013)17-4276-03
Application Research of 12316 Agriculture-countryside-farmer Services Hotline and Relevant Systems in Jinan City
ZHONG Ju1,WANG Ben-ping2
(1.Jinan Agricultural Information Center, Jinan 250002,China; 2.Jinan Animal Husbandry and Veterinary Bureau,Jinan 250002,China)
Abstract: This paper expounded the structure model and system function of telephone voice service system of agriculture. The series of systems were built in order to realize that the users could get agricultural information by auto voice service system, agent response, short message receiving, video diagnosis and so on. Users not only could choose suitable agricultural experts according to their needs, but also know the new progress of the question that they paid close attention to. Some effective ways to supply agricultural information services for agriculture are proved. The ways can meet all kinds of needs of users for agricultural information and have been powerful supplement ways to serve for agriculture, rural area and farmers.
Key words: 12316; agriculture-countryside-farmer services hotline; relevant system
收稿日期:2012-12-08
基金项目:国家星火计划重点工程项目(2005EA740120);济南市经济和信息化委员会工业和信息化发展专项(Y09)
作者简介:仲 菊(1971-),女,山东莱州人,副研究员,硕士,主要从事畜牧与农业信息研究工作,(电话)13583187299(电子信箱)
。
“三农”热线就是综合运用电话语音技术、文本语音合成技术和计算机技术,建立电话语音系统,为农业生产经营者提供语音咨询和专家远程解答服务,使农民通过电话接受农业信息服务[1]。农业部2006年开通全国农业系统统一的公益服务热线号码12316后[2],2009年决定依托“12316”代码,全力打造三农综合信息服务平台[3]。吉林省2006年5月率先开通12316“三农”服务热线[4,5],之后许多省(市)也相继开通[6-9]。北京市农业科学院整合农业科技信息资源以及部级农业信息资源,实现了全市统一的信息服务界面和各级信息资源的共建共享[10]。商务部等部门也利用12316热线开展农民工对外劳务服务[11]。
济南市12316“三农”热线是山东省的分支,是济南市金农工程的重要组成部分,2006年济南市开始进行该系统的建设。它以山东金农信息网为平台,以强大的文献检索数据库和农业专家数据库等为支撑,结合短信平台和专家会诊系统共同为互联网建设不发达而电话已达到一定普及率的农村提供一种获取信息的途径。
1 济南市12316“三农”服务热线的系统构建模式
1.1 构建基础及思想
系统将计算机技术和电信技术融为一体,建立支持语音服务的农业实用科技信息数据库,为农户提供一对一、一对多的专业咨询帮助和每天24 h的农业自动语音信息服务。其构建基础主要是依托现代语音合成技术,将文本信息转换为自然语音输出,把互联网服务与语音信息系统进行人机结合,使普通用户通过电话就能实现个性化动态信息查询与。农民可以通过人工坐席系统与专家直接通话,解决农业生产中的实际问题。考虑到农业用户的特殊性,为给农民提供更人性化、更方便的服务,在设计系统软件时使用户通过电话即可获得所需的农业信息,还可与农业专家直接通话或者通过视频系统得到专家的会诊,解决农业生产中的实际问题。该系统实现了农村远程信息服务“进村入户”,并作为农民远程教育技术平台的组成部分,为不具备上网条件的农民提供语音答疑服务。
1.2 硬件及运行环境
1.2.1 硬件 热线服务系统包括数据服务器、计算机设备、语音卡、高清晰摄像头、数码相机等相关硬件设备。服务器采用北京智农天地网络技术有限公司Agricom语音信息服务系统,速度快,有较强的稳定性,能够保证语音服务平台长时间正常运行。语音卡采用16通道PCI总线模块化语音卡底板,通过安装不同型号的模块可构成灵活的应用系统。
1.2.2 运行环境 稳定的220 V电源不间断供电;Internet 网络连接,要求24 h宽带连接;PSTN电话网连接,线路接口为标准的RJ11电话接口;稳定的内网宽带保证坐席客户机与语音服务器网络畅通;人工坐席设备12套,其中微机12台,坐席计算机12台,坐席人员耳麦12套,微机用来安装人工坐席系统,其操作系统为Windows 2000/XP。
1.3 软件配置
网络操作系统为Windows Server 2008 标准版,数据库系统为SQL Server 2008,安装AG32语音平台软件、IVR语音管理服务软件、防病毒软件、V2 Conference服务器软件、视频传输软件等。
1.4 安全保障
为保障整个系统正常运行,机房防雷设施是A级防雷,地线则要求保证服务器良好接地,以确保整个系统不受雷电影响,语音卡信息不受静电影响。
1.5 系统数据结构
此系统的数据资源建设主要采用数据库形式。将各类信息加工成适于语音播放的数据,存入自动语音数据库中供农民查询。内容包括三大类:一是综合快讯:提供国内近期农业方面的综合快讯,包括国内综合快讯、山东省综合快讯、济南市综合快讯;二是气象信息:一周内气象预测与指导信息;三是农事指导:为农户提供近期农事指导信息,主要包括作物农事、蔬菜农事、水果农事、畜牧农事。
2 济南市12316“三农”服务热线的系统功能
济南12316“三农”服务热线系统采用先进的语音合成技术(TTS),将网上文本实时地转换为清晰的自然语音输出,达到网站内容与语音服务系统内容的同步更新、双向传输以及交互式,具有提供包括农业信息语音自动服务、人工咨询服务、传真提取文本信息、手机短信的信息定制与等功能。系统包括菜单导航、人工坐席、自动语音、录音留言、电话听网、自动转接、外拨、三方多方通话、语音合成、数据统计分析等功能模块。拥有较好的信息途径,使信息的浏览更为方便。开发动态的Web数据库应用,使用户可以在Web浏览器上方便地管理、检索数据库的内容,更好地作为语音系统的补充。
2.1 自动语音播放
把精心筛选的资料做成语音数据库,用户可以拨打特服号,按提示检索收听相关信息。收费方式按普通市话收费,不收取信息费。当用户打进电话的时候,系统便播放欢迎信息,然后播放栏目信息,用户可以根据自己的需要,按照提示选择栏目,快速地得到所需要的信息。资料更新通过语音合成软件将文本信息自动合成普通话话音,存放到指定的目录,到检索数据的时候就可以播放语音文件。人工朗读的录音文件更清晰、流畅,更人性化,作为自动转换语音的补充,系统还可以接收用户的留言信息。
2.2 人工坐席答复
该系统支持多路坐席电话,设有12部坐席电话来受理复杂业务,与自动语音系统相互补充。服务器端的监控中心需要和坐席机器上的坐席软件进行TCP/IP通讯,要保证服务器与坐席机器的连接正常。该系统坐席端软件包括人工坐席子系统、号码查询服务子系统、系统维护子系统。人工坐席系统对于用户咨询的问题可以实现自动录音。号码查询系统可自动搜索空闲的电话线,实现自动转接功能,用于辅助用户快速连接到有关专家的坐席。专家可通过坐席电话直接与农民通话,解决农民反映的问题。
2.3 数据查询统计
可以对用户留言、传真进行查询,以及对来电数据按照各种方式进行统计。系统可按照来电、查询、坐席等进行分析和统计。来电时间、区域等都可做统计;还可以按用户查询的内容进行统计;对于各坐席的接听情况也可以做出统计。统计情况汇总成表可进行打印。对于留言信息可以进行查询回复。
2.4 短信订制发送
该系统采用中国联通、中国移动和中国电信三大电信运营商的短信接口资源,利用统一的接入代码1063-531-12316,建成集客户管理、农业信息订制和短信群发为一体的公益性短信服务平台。该平台利用先进的通讯技术和网络技术,实现与指定号码进行短信批量发送和自定义发送,可适时向全市使用手机的涉农工作者免费农业生产、经营、供求、价格、政策法规等多方面的农业短信息,用户也可在网上或通过手机订制多种农业信息。2010年济南市农业信息中心与中国移动合作建成“农事通”短信平台,在原有12316“三农”服务热线的基础上建设功能完备的3个系统——“农事通自动语音系统”、“农业短消息网上审核与展示系统”和“用户登记与管理系统”。组织农业专家根据生产需要编写实用短消息,通过此平台发送。该平台面向全市的行政村、农民专业合作组织、农产品行业协会、涉农企业、种养大户、乡镇农业部门人员等采集用户,目前短信发送至5万多用户。
2.5 专家查询选择
按照用户需求搜集包括济南市所有管理、科研、农技推广等领域的副高级职称以上的农业专家的资料,并将其录入系统,制作成农业专家数据库,便于解答农民群众所遇到的农业技术问题,确保农民群众通过电话咨询的方式获取更多的农业信息,解决生产中的疑难问题。数据库对农业专家进行合理分类,以农业专家与专家论文两大数据实体为核心,及时更新专家信息,更新专家联系方式。用户可以根据自己需要挑选合适的专家,为自己提供咨询服务。
2.6 专家视频诊断
对于一些疑难的病虫害问题,用户通过电话难以描述清楚,专家也难以查看病因,用户可以采用视频的方式向专家咨询。济南市农业信息中心为各县(区)配备了高清晰摄像头、商用电脑、数码相机、视频传输软件等,用户可登陆网络诊室,就病虫害问题向植保专家进行咨询,可通过视频诊断系统及时得到专家指导和帮助。
2.7 文献检索浏览
济南市农业信息中心引进的清华同方文献检索数据库是热线咨询的重要数据库,为负责咨询的专家、技术人员提供强大的技术支持。用户对于一些重点关注的技术问题,也可以进行文献数据库检索以查询有关问题的最新研究进展情况。
2.8 系统维护管理
管理员可以察看到各个线路的状态,可以通过系统进行预先的信息设置;通过数据维护工具可以实现信息内容修改、添加、删除。
3 结语
济南市“三农”热线语音服务系统及相关系统建成后,用户通过拨打电话,可以选择自动语音服务,也可通过人工坐席系统或者视频诊断系统来咨询专家,享受与专家直接通话交流的服务,来获得所需信息。用户可以根据自己的需要,通过专家系统来选择合适的专家,还可以通过文献查询来跟踪自己所关注问题的研究进展情况。系统运行以来,为省内外用户提供了大量信息,答疑解惑,满足了农户信息的需求。作为其他服务形式的有力补充方式,对于普及农业科技知识、提升农民文化素质和增加农民收入发挥了重要作用。
参考文献:
[1] 周国民,丘 耘,周义桃.农业实用技术电话咨询系统的研究[J].计算机与农业,2002(8):13-15.
[2] 农业部市场与经济信息司. 农业部关于开通“12316”全国农业系统公益服务统一专用号码的通知[J].农业科技与信息,2008(5):4.
[3] 农业部新闻办公室.农业部依托“12316”代码 全力打造三农综合信息服务平台[J]. 农机质量与监督,2009(6):4-5.
[4] 秦 吉.12316助推吉林农业农村信息化大发展[J].农产品市场周刊,2012(3):8-9.
[5] 王凯锋.农业科技信息服务的传播学思考——以吉林省12316热线为视点[J].江苏农业科学,2010(1):382-384.
[6] 李 昕.农业科技信息传播服务的现状及对策——以山东诸城“五位一体”农业科技信息传播模式为视点[J].山东农业科学,2011(5):117-121.
[7] 曹承忠,张峻峰,王 铮,等. 北京市新型农业热线科技信息服务体系应用模式分析[J].贵州农业科学,2011,39(2):228-231.
[8] 张子良,尹 卫,张亚琦,等.青海省农业科技信息语音咨询服务系统简介[J].青海农林科技,2010(1):75-76.
[9] 余向东,王海霞. 费用低 信息广 传播快——河南省12316省级平台直通乡村[N].农民日报,2012-03-22(3).
“大胆”是创业者的起点
如果说全世界的创业者有什么共同点,第一个恐怕就是“大胆”。
2011年5月16日,原本是安徽科大讯飞信息科技股份有限公司董事长兼总裁刘庆峰及其团队的致富日。这天,他们持有的科大讯飞股票,在深交所上市满3年解禁,14人团队集体造富,成为了亿万、千万富翁,38岁的刘庆峰本人财富接近8亿元。一同解禁的风投机构当天甩出了约2亿元市值股票,但这帮12年前就在一起的“科大校友团”一致决定都不套现,“再团结奋斗30年!”因为对刘庆峰和他的创业团队而言,十多年来目标就没有变过:他们要在全球范围内建立一个“语音产业帝国”。
在国内第一个见识刘庆峰胆略的是他的导师、中国著名的语音和信号处理专家王仁华教授。1997年底,刘庆峰在和王仁华的一次谈话中,当面对自己的导师“约法二章”:“第一,如果我要留下来,研究照样做,但我要做产业化,希望得到您的大力支持;第二,做产业化所获得的收益,要按照市场化机制分配给创业团队。”时年54岁,当时在国内语音信号处理领域拥有举足轻重地位的科学泰斗王仁华,竟然非常爽快的接受了24岁弟子的“苛刻”要求,还主动地为弟子成立公司牵线搭桥。
王仁华对弟子的支持是有原因的,根本而言,是他很了解自己弟子的“民族责任心”。当时,中文语音技术和市场几乎全部掌握在国外公司手中,而且Microsoft、IBM、Motorola等众多国际巨头纷纷在中国设立语音研究基地,国内语音专业优秀毕业生也基本外流。刘庆峰1992年进了王仁华的实验室,1995年22岁时就成为863项目研究组长,同样早就被一些外国研究院以高薪“锁定”了。但刘庆峰没有动摇过,他和王仁华谈过自己的想法:“一个国家的发展,甚至说能够生存下去,在不同历史时期都有一些堪称民族脊梁的读书人能够真的为这个民族做些事情。如果我到外企外国研究机构去,那我是帮他们在跟中国人打。凭我掌握的技术,在国外帮他们做的话,就有可能比国内做得好,那中国在语音这一块会被打垮的可能性将大大增加,所以我要有民族的责任心。”这话出自另外任何一个二十三四岁的小伙子,王仁华或许还要考量一番,但出自刘庆峰,他信。
刘庆峰天生就有一身遇到挑战就兴奋的胆气。中学考试时,别的同学在老师经过时会受干扰,刘庆峰则是越有老师看着,思路越活跃,做得越好。县里的数学、物理竞赛,每次遇到一眼看上去不知道怎么解的难题,刘庆峰的第一反应就是兴奋。如果一份卷子从头到尾做下来都很轻松,他反而会很失望:大家都得100分,多没意思!读研时他选择的产业化切入点语音合成,是一个非常复杂的交叉科学,很多科研院所做了十几年的研究一直都没法突破。而刘庆峰在1997年的“挑战杯”比赛中初步形成了思路,1998年又和所在的团队一起提出几个创新方法,使科大的产品在全国范围内首先达到了可实用阶段。而他突破的原因只有一个:坚持原创!“当时觉得这个课题很难,是个硬骨头,绝大多数的人绕了一圈根本就没有找到突破口就出去了。但我愿意去啃它。我不像别人那样主要依靠国外的资料来做,师傅领进门以后,我更喜欢自己摸索,提出创新的方案。”
今时上市的钟声袅袅,往昔少年的誓言铿锵。正是刘庆峰14年前坚持自己原则的胆略,成就了今天市值百亿的科大讯飞,更成就了生机勃勃的中国语音产业集群。
“警醒”是创业者的美德
大胆而又能成事者,背后往往是超乎常人的警醒。
和当时很多大学生创业者最大的困惑相同,刘庆峰创业路上的第一个难题是投资资本与科研方向的不匹配。创业仅仅一年,刘庆峰就发现当时的投资方虽然有很强的资金实力,但不懂语音行业,“今天做工商查询,明天要让做会说话的电脑,后天又让做PDA”,研发失去了方向,并不符合自己创业的初衷。看看自己弥足珍贵的创业团队:中国科技大学少年班的天才、高考状元、黑客版的版主、科大BBS站的站长等等“高人”,大家都把自己未来托付在他这位“班长”和“大师兄”身上,刘庆峰决定要独立。
1999年6月,刘庆峰不惜以负债的方式,成立了安徽硅谷天音信息科技有限公司,大家一起啃黄瓜吃盒饭,到年底没钱了只好借钱给大家发工资……即便如此,原来团队中的所有的员工都跟新公司签了三年的劳动合同和保密协议,没有一个人提待遇,没有一个人提福利,就因为是刘庆峰第一个签了字。经过4个月艰苦的科研攻关,新公司就有了很明确的产业化方向。合肥市的市长了解到公司的困境,亲自带着美菱集团的董事长、安徽省信托投资公司的总经理到公司考察,认真地听取公司的产业化报告后,最终决定由安徽省信托、美菱集团、合肥永信三家重新注资。硅谷天音也整体技术入股了新公司科大讯飞,科大讯飞不只回购了自身的专利技术,还由原来的300万注册资产升值为5000万,在产业化方向上把握了自己的命运。
刘庆峰要独立的坚持其实很简单,他要用有限的资金把科研的主动权抢回来。新公司有钱了,刘庆峰马上把国家863计划支持了多年的语言、声学相关研究方向进行深度整合,请最有互补性、最有研发能力的专家成立联合实验室,开发属于中国自己的语音合成平台。
刘庆峰的底气很足:“最重要的是,中国语音领域中最有优势的老一辈大师们都认为,语音是文化的基础和民族的象征,理所当然要为中国人付出。”事实上也是如此,从1980年就从事人机语音通信的王仁华教授、中科院声学所孙金城教授、中国社科院语言所当时九十余岁高龄的吴宗济教授等老专家的加入,使中国对声音、语气、语调几十年的研究积累被用到了计算机上,讯飞的科研水平实现了质的飞跃。2000年7月,先进的汉语语音平台成功建立,英特尔、联想、贝尔阿尔卡特、东软等软件开发商接踵而至,年底公司就开始在行业内名声鹊起。
经此一役,刘庆峰坚信,技术进步和技术推广的主动权永远是拉动公司发展的两驾马车。而创业者,必须时刻警醒,把前进的缰绳紧紧地攥在自己手中。
“坦白”是创业者的本色
语音产业是人机交互技术的应用产业,简单说就是让机器“能听会说”,主要包括语音合成和语音识别两项关键技术。从各类电话客服中的语音服务,到使用语音作为指令进行交通导航、手机短信、微博输入等,都是语音技术的具体应用形式,属于技术壁垒极高的行业。要在这样的行业中持续保持领先,不仅需要良好的投资机制,更需要积极的经营机制。刘庆峰对自己经营机制的表述坦白而直接:“既要振兴民族的经济,也要振兴公司团队自己的经济。”
这条“双振兴之路”正是对创业者最大的考验。
“燃烧最亮的火把,要么率先燎原,要么最先熄灭。”2000年年底,讯飞的年度大会上,刘庆峰向团队指出,尽管讯飞可望燎原,但也面临熄灭的危险。2000年至2002年,复星高科、联想投资、英特尔等行业著名投资机构纷纷买入讯飞的股权,一时使科大讯飞迅速成为社会各界关注的热点。但刘庆峰逐渐意识到,事实远没有那么简单。越是有投资人的关注,越突显出公司财务报表的重要。讯飞一直到2004年才“止血”,2005年度才有了1107.21万元的利润。就在赢利的前夕,2004年11月,投资讯飞2年半的英特尔转让讯飞股权。英特尔放弃了,但刘庆峰有信心,他和导师王仁华“到处借钱买下了这些股权”。“其实我并不在乎多那点股权,而且当时筹钱对我是一个巨大的负担。但为了大家的信心,我觉得非这样不可。”在当时的投资环境下,每一个机构投资人在董事会里都有一个席位,开会时,曾有投资人提议讯飞应该转变方向以尽快实现赢利。外界甚至有人说,“刘庆峰只知道蒙钱,蒙到了钱他那帮兄弟就瞎花,什么都做不起来”,另一方面也有人建议讯飞转型做房地产,或者用安徽省“知名品牌”的身份去做资本运作。
“但我说,讯飞只做讯飞该做到的事情。那就是中文语音产业的领导者和拓荒者”。讯飞刚创业时对经营业绩的预期“显然是过于乐观了,对教育和引导新兴市场所需要的时间和困难估计不足”,刘庆峰去和市领导、高新区领导一个个开诚布公地谈,提出讯飞必须脚踏实地地做,结果“大家都很理解,但大家也都很失望。”联想投资当时也发挥了产业投资者的积极作用,支持讯飞坚持智能语音的方向。实际上讯飞从成立一开始就有收入,而且年年增长,但“早期对技术、研发的投入所占比重相对较大。因此收入无法覆盖成本。大的方向没有问题,只是赢利延迟了。”联想投资董事总经理王能光对讯飞当时的处境非常理解。
刘庆峰在寻找突破口,结果2004年、2005年间,华为的一次公开竞标成了讯飞的转折点。当时参加竞标的除了讯飞,还有IBM,Scan Soft以及Nuance。在投标开始后,几家海外巨头引领价格一直不断往下降。但到了一定程度后,讯飞不降了。“华为是龙头型企业,如果给他们的价格降下来了,我们的价格就不可能上调了,整个产业都将入不敷出。”刘庆峰公开坦言。最后,华为选择了技高一筹且以诚待人的讯飞。
技术领先和专注经营是刘庆峰最终赢得市场的基点。“如果微软只是在做语音,那是最可怕的;如果有3家巨头在做,但都是产业方向的一部分,就不可怕了;如果除了这些巨头还有几十家在做,那么就一点也不可怕了。”刘庆峰觉得自己赢在用一个拳头和这些机构的一个指头在竞争。对刘庆峰而言,“语音是唯一的方向”。此后,讯飞囊括了国际上所有语音软件赛事的冠军,开始在市场份额上占据超过半数的主导权,更保持高速增长的赢利能力,2005年到2007年间,其电信领域语音合成平台产品销售收入年均增长135%。2008年,科大讯飞在深圳证券交易所上市。
“胸怀”是创业者的未来
拿到上市批文的第二天,刘庆峰把企业的核心人员招在一起开会。“上市并不是终点,讯飞离1999年设定的目标(目标是销售百亿,当时只有四十分之一)都还差着一大截。”而他对始终支持讯飞成长的联想投资也说了两句话,“实在抱歉,以前的估值高了一点。你们放心,再过三五年,讯飞完全有希望是联想投资各项目中收益率最高的”。
刘庆峰的表白是有依据的。
根据县级气象部门的业务需求,系统需要实现以下四个基本任务:一是要实现应用平台集成化,需要将现有各种业务系统、预警方式无缝集成到本系统中。二是要实现气象监测实时化,在最短的时间内获取辖区内各类气象要素的实时数据,区域站数据每10分钟更新一次,自动站数据每1小时更新一次。三是要实现预报服务便捷化,就是能够方便快捷地获取省、市各级的指导预报,并对本地各类预报服务材料进行统一管理。四是要进一步提高灾害性天气的预警能力,能够将预报预警等服务产品自动转换成语音文件,通过短信、96121、DAB、电话主叫等方式及时给指定区域的预警服务人员,增强对外预警能力。整个系统包括前台可视化业务平台部分和后台自动化数据采集部分。前台可视化业务平台部分包含现有业务平台集成、实况数据查询、指导产品查询、预报服务产品制作、预警信息等多个功能。后台自动化数据采集包含实况数据的采集入库、指导预报产品采集和数据的简单维护。从而实现多个业务平台的集成、区域自动站资料实况监视与查询、服务产品制作及预警信息的,即建立了一个集数据采集、存储、开发、管理、分析和信息等系统功能于一体的县级综合信息平台。系统功能丰富、数据量大,需要一个庞大的数据基础,针对县级台站软硬件资源相对较弱的特点,系统采用分布式数据结构,即将数据库设置在不同的服务器中。公用数据调用市局数据库数据,如区域站实况数据,系统通过2M内网专线调取数据。其他数据则存放在台站本地的数据库,既整合了资源,提高了数据利用率,又有效地解决了县级台站资源不足,技术保障能力较弱的问题。根据数据内容的不同,数据的存放形式也有所区别,对于区域站数据、灾情信息数据、人员信息数据等以SQL数据库的形式保存,而对于预报预警等服务产品则以TXT、WORD等文本形式保存。数据采集程序自动采集实时数据存放到相应的数据库,业务平台根据需要调取数据信息,并且对部分数据进行修改、删除等操作。
2系统主要功能模块的具体实现
系统在VisualStudio2008平台中采用C#语言开发,系统数据库使用的是SQLServer2008数据库。根据系统的功能需求,设计了业务平台、实况资料、指导产品、预报制作、服务对象管理、预警信息、灾情信息检索、气象灾害防御等8大模块23个子模块,以菜单形式分布在平台主界面上。
2.1实况查询模块设计
实况查询模块主要功能是查询自动站和区域站的实时观测数据,包括表格方式查询和图形方式查询两个子模块。本模块融合了GIS技术、信息技术、数据挖掘技术、OLAP技术、分布式存储计算技术、Internet技术、网络传输技术、WebService技术、信息流模型技术等一系列先进技术,为推动气象部门全方位信息化而提供的整体应用系统和全程解决方案。表格查询模块利用2个comboBox控件获取查询区域和查询要素,2个dateTimePicker控件获取查询的起止时间,使用访问组件远程连接市局区域站数据库,执行SQL查询命令,查询满足条件的数据记录,按照程序设定的格式,填充到dataGridView表格控件中。为了便于用户操作,程序提供了多个筛选条件,用于查询指定级别的要素数据,并设置了快捷查询按钮。同时模块中还增加了数据导出功能,能够将查询结果导出到word文档,使用户能够方便快速地制作气象服务产品。实况数据图形方式查询模块采用C#+SQL2005+MapInfo2005应用开发模式,在.NET框架下开发组件式GIS,遵循气象数据信息采集气象数据处理数据处理建立气象数据GIS空间分析地图形式显示的流程来实现。根据气象自动站所采集到的数据经过质量控制以及分析处理后,建立气象数据仓库,利用C#开发工具与Mapinfo控件提供的各类数据接口,用SQL命令从基础气象数据仓库中查询出经过筛选的满足空间数据条件的结果,其中包括区域选择、经纬度、要素选择时间段和雨量或者温度等级筛选条件等,从而获取到创建地理信息管理系统所需要的数据,然后建立相应的空间数据集;利用MapControl控件加载图形信息,首先加载湖南的shape地图库,然后利用GIS地理信息系统,把各个气象要素结果作为一个个layer分层叠加在地理信息系统图上,用图形的方式显示查询各个气象站点的实时数据。这样,就实现了用图形的方式显示查询的各个气象站点实时数据。在某种程度上可以说,把气象数据作为一个图层导入GIS系统,就可以轻而易举地建立基于对该类气象数据进行分析处理的气象业务系统。
2.2服务对象管理模块设计
服务对象管理模块用于对预报预警服务对象的信息进行添加、删除、修改和电话号码导出等管理。系统开发初期,采集了辖区内各乡镇(含村组)、水库、学校等部门负责人姓名、电话、工作单位、所在乡镇等联系信息,输入到本地服务器中新建的服务对象信息库,利用SQL查询命令查询指定乡镇、指定部门的负责人联系信息。随后建立filestream文件对象,并指定字符编码方式,就能够将查询的电话号码导出到TXT文件中,便于利用各种方式对不同乡镇、工作单位的人员与之相应的预警信息。
2.3预警信息模块设计
预警信息模块包含系统集成和语音合成两大部分4个子模块,系统集成部分就是将现有的短信平台、DAB平台、电话主叫平台等信息系统集成到本平台中,用户点击菜单选项就可以直接打开相应的信息平台。语音合成模块是利用TTS语音合成技术将预警信息转换为音频文件,用于电话主叫服务。TTS技术本身原理十分复杂,但是微软的Mi-crosoftSpeechSDK5.1开发包提供了TTS语音引擎接口,这些SDK主要包括语音应用程序编程接口SAPI和微软语音识别引擎及微软语音合成引擎;可以通过编程语言灵活将其中的“类”应用到编制的程序中。SAPI的TTS都是通过SpVoice对象来完成的。SpVoice类是支持语音合成(TTS)的核心类,通过SpVoice对象调用TTS引擎,然后按SpVoice的Speak()方法中指定的两参数Text和Flages方式进行朗读,最后只将语音输出到一个音频文件,这样就完成了文本文件到音频文件的转换。
2.4灾情检索模块设计
灾情信息检索模块包括历史灾情资料检索和灾情资料入库2个子模块,系统设计建立了灾情信息数据库,将全市历史灾情普查数据导入数据库中,灾情检索子模块根据指定的年份和灾情种类,查询满足条件的灾情信息。灾情资料入库子模块用于输入灾情发生的时间、地点、种类、天气实况、灾情损失等信息,将灾情信息添加到数据库中。系统提供了两种入库方式,一是将灾情普查数据EXCEL文件批量导入数据库,需要创建一个DataSet对象,先获取EXCEL的数据导入到DataSet中,再把dataset中的数据库insert到数据库;二是手工输入单条灾情信息各项内容,用in-sert命令直接插入数据库中。
3小结
《财经天下》周刊=EW
胡郁=HY
EW:科大讯飞的业务布局情况现在是怎样的?
HY:科大讯飞现在的业务布局主要是两部分:第一是通过人工智能技术和平台级业务,将语音识别、自然语言处理能力授权给第三方,或者与其他公司合作。目前科大讯飞重点关注的领域是移动互联网、智能家居、电信运营商智能语音服务、智能车载系统和政府便民工程。我们与第三方合作是通过科大讯飞云平台实现的,这是我们的语音能力向各个行业输出的一种方式。通过这个方式,我们很容易发现平台上面的各种应用的优缺点,我们能够获得很多有价值的数据。第二,科大讯飞正在将自己的技术与产业结合,目前我们在教育行业做得还不错。我们现在还有一个“讯飞超脑”的项目,这是科大讯飞面向人工智能领域开展的重大技术攻关项目,目标是帮助科大讯飞从机器“能听会说”到“能理解会预测”。
EW:创业初期遇到过哪些突出的问题?
HY:我们是1999年底成立的,到2004年才实现盈亏平衡,在这期间确实遇到了很多问题。主要是两个方面:首先,那时候技术并不成熟。在2000年的时候,国内有很多语音技术创业公司,科大讯飞是唯一一家生存下来并且发展壮大的,因为我们当时选择的路径还算成功,语音合成在当时是相对成熟点的技术,虽然让机器说话也说不太好。那些选择做语音识别的公司,很多没有成功,就是因为当时这个技术太不成熟。
另外,在中国做生意,比较容易成功的商人,可能是比较懂人际关系的,有一定市场经验的,但我们那时候都是一群学生出来创业,包括董事长刘庆峰,1998年还在读博士,1999年出来,对商业模式、公司管理等方面没有什么概念,经历了很长的一段摸索期。
在中国,做产品和市场的人,比做技术的人更容易成功,这是一个普遍规律。在中国做技术,很多都是在国家体制内,像研究院这样的地方或者国营企业;如果要民营的话,那么在中国的环境下寻找到合适的商业模式并且做大其实是很难的一件事情,所以中国民营的科技创新公司不多。
EW:发展到现在,经历过哪些关键时刻?
HY:我觉得有这样几个关键时刻:第一个是在2000年的时候,我们第一次能够把我们的语音合成技术卖给大客户,就是华为。那时我们的软件还很不稳定,经常崩溃,华为的团队说我们把他们当成测试员了。然后我们的创始人团队,三天三夜没睡觉,把软件做稳定了,就是为了能够通过华为的测试。
第二个关键时刻是,我们在2004年实现了盈亏平衡。当时我们找到了一种可行的商业模式――为一些大的客户提供服务,比如说呼叫中心、银行、电信等,赚到了一些钱。而同时期的很多同样的公司要么没活下来,要么就发展得很小。
第三个关键时刻就是我们2008年上市,这标志着我们在资本市场上开始有一个很好的渠道,我们可以更快地发展。
还有一个关键时刻就是,在2009年的时候,我们注意到,移动互联网来得很快,手机输入这块将会有需求,我们就做了一个讯飞语音输入法,现在是国内第二大输入法,第一是搜狗。另外,我们做了一个语音云开放平台,现在已有16万开发者连接到我们平台上,连接的设备超过了8个亿。这两者让我们在移动互联网时代能够占据一席之地,也让我们在消费者业务层面有了很大的一个突破。
最后一个关键时刻就是,我们在2009年的时候,开始在教育业务上有了突破。我们做到了可以用机器评价学生发音的准确程度,还可以评价英语口语的表达水平。另外,我们可以让机器识别出手写的卷子,实现自动批改。我们现在要攻克的是提高机器的理解能力,让机器人能够参加高考。目前机器人参加高考勉强能及格,我们原来的计划是10年内让机器考上一本,现在改成3年内考上一本。人和机器其实是相反的:人0到6岁学常识,这对人是比较容易的,人培养理解能力很容易,但是学习知识很难;而机器能够装下很多知识,但是它不懂常识,所以有人说机器达到了6岁小孩的水平,那是用人的成长阶段去衡量,其实是错的。
EW:为什么科大讯飞会选择教育这个领域?
HY:一方面,就是我们想为国家做点贡献,我们的技术能够帮助教育行业更先进;另一方面,就是我们觉得教育有比较广阔的商业前景。我们有的是政府采购给学校,也有直接卖给家长和学生的产品。我们是希望能够成为国内教育方面的人工智能的最大参与者。
我们进入教育行业,首先是从普通话水平测试开始,然后是英语口语水平测试,后来我们进入英语教学的课堂,提供一些智能设备和软件,然后我们又参与了考试,实现自动批改。学校里面会有很多智能化的系统,我们把这些东西综合起来,提供一个整体的方案。现在我们是国内教育领域用人工智能提供整体解决方案的最大厂商。
EW:这些年来,科大讯飞有哪些事情是具有开拓性意义的?
HY:第一个我觉得是把语音合成能够做到实用化,这是公司成立的基石;第二就是把语音识别做到了可用化――我们不是最早做语音识别的,但我们是把技术做得最成熟的;第三个就是我们将语音测评带进学校,开创了一个新局面,这是我们商业模式上的创新,我们现在还在努力寻找其他新的商业模式。
EW:相较时下众多创业企业,你认为科大讯飞最为显著的特色是什么?它和别的互联网技术公司有什么差别? 对于创业17年来公司营收仍主要依靠政府补贴这一颇受争议的商业模式,科大讯飞轮值总裁胡郁直言,这与以技术为核心的中国初创企业的特殊性有关,如果早期没有政府扶持,这类企业将难于生存。
HY:科大讯飞本质上是一个科技创新型公司,科技创新型公司的标准,不是看它赚了多少钱,而是看它的技术是不是世界上最先进的。我们最突出的特点是,我们一直在做核心技术创新和原始创新,不是在别的技术基础上进行微创新,而是在做核心技术的突破性创新。
我觉得我们和别的互联网技术公司最大的差别是,我们比较沉得住气,方向很明确。很多公司什么方向热就做什么,比较浮躁,我们相对来说比较执着于自己原来确定的方向。
很多人对我们的评价是,做了十分才说七分。这是优点也是缺点:优点是大家对我们的印象是比较扎实的,缺点是影响力方面可能宣传不够。
EW:有人说你们在风格上更像一家硅谷公司。你认同这种观点吗?
HY:硅谷技术创新型公司的最大特点是,它不仅仅技术领先于全球,它的商业模式也是领先于全球的,而且美国公司有个很重要的特点,它们是全球化的公司。中国虽然现在有很多互联网企业,但在全球化方面还是不够。科大讯飞现在在语音技术方面,无论是合成还是识别,都能够在中文领域做到最先进,但我们也有需要突破的地方。很多人觉得我们低调,其实我觉得有一个原因是,我们的商业模式不能够跟当前世界上最主流的商业模式吻合,所以这也是科大讯飞面临的最大的挑战。
EW:能否在商业模式上稍作展开?
HY:我们原来的商业模式是To B的,就是售卖技术,用技术跟别人合作。现在我们的目标是,用技术引起一个产业的突破,从而建造新的产业生态系统。我们现在探索的新的商业模式是,更靠近消费者,就是要着重To C。这不一定得直接面对消费者,我们可以用更靠近消费者的业务来达到这个目标,比如我们和汽车厂商合作,汽车内的语音业务就是直接面对消费者的。
EW:国内语音市场这些年在你看来有哪些重要变化?
HY:2000年以前,语音并不被大家关注,那时还没有什么大的语音公司,主要是国外一些大企业像摩托罗拉、IBM等在中国做研究。那么在2000年到2010年之间,以科大讯飞为代表的国内公司逐步把语音合成和语音识别市场抢了回来,现在来看,外国公司在中国的语音业务已经很少了。
近几年有两个新的变化:一个是以BAT为代表的互联网公司已开始进入语音市场,并且投入了很大力量。但他们做语音是为自己的生态服务的,并不是想从这上面赚钱,实际上也赚不到什么钱。现在专业做语音的最大的公司应该是科大讯飞。另外一个就是,很多小的创业公司也开始进入这个市场,但做得都不是太好,技术很重要。
EW:巨头的进入会给你们带来压力吗?
HY:当然。压力不是来自于技术,我们的技术是最先进的,压力来自于商业模式。这个没办法去模仿哪家公司,都要靠自己慢慢去摸索。一个公司如果想要长期保持领先,不仅仅是技术能力,商业模式上一定要走出自己的道路并建立起自己的生态。
我们原来做的是To B ,现在To B 的公司很多,如果想要成为一个生态的话,只有这个肯定不够。我们一定要让生态里有C端用户,这就会有很多变现方式,只要我们提供的服务是用户需要的,并且是高质量的,我们就可以从用户手里赚到钱。
现在我们还是免费的服务,我们通过这种方式收集用户数据,根据这些数据来优化产品,当产品体验足够好时,用户会愿意付费。当然我们也可以有其他收费方式,提供给用户的产品可以是全程免费的,在用户和我们的机器交互时,机器会记住用户的喜好和需求,这时智能终端可以给用户推荐产品,我们可以向产品提供商收取费用,类似于广告费。当然,交互是最重要的,将来在车上、电视上、音箱上甚至玩具上都能够实现人机交互。我们现在的语音合成技术已经很成熟了,机器可以发出明星的声音,我们要不断增加语音交互中的用户体验。
EW:语音市场的竞争还不算太激烈吧?
HY:在发展的过程中,如果大家朝着一个方向的话,自然而然就会有竞争。但是现在的问题在于,我们并不知道将来的物联网时代会发展成什么样,谁也没有一个准确的方向。在一个新的时代里,观察过程会有三个阶段:第一阶段是混沌期,就是大家都不知道将来会发生什么;第二阶段叫形成期,就是大家已经有方向、有规划地发展了;第三阶段叫决胜期,就是各家开始激烈竞争赛跑,像滴滴和快的当时一样。语音市场现在处于混沌期到形成期的过渡阶段,大家都不知道怎么干,还在互相观望,互相挖点技术人才,摸索摸索方向。
EW:科大讯飞会是第一个找到方向的吗?
HY:我们一定是,但是做出来怎么样,还不知道,谋事在人,成事在天。我们现在的方向是,软硬一体化、云端一体化、技术服务一体化,我们不能做一个纯技术的公司,要把技术和内容和服务结合。比如说语音合成,我们就一定要和明星名人资源结合,我们现在可以达到让罗振宇给你读文章的水平。 语言是柄双刃剑,在挡住外国产品进入中国的同时,自己的产品进入其他国家也很难。胡郁介绍称,科大讯飞英语产品做得还不错,但西班牙语、法语、德语等其他语言产品还不行。
EW:科大讯飞得到过一些负面评价吗?
HY:讯飞的体量在去年的时候只有二十多亿,今年也就四五十个亿。现在市盈率已达到150倍。我们的市盈率不太稳定,因为大家看好一个东西,但这个东西一直没出来,所以就会不稳定。很多人说我们都在靠政府补贴,其实是这样,一个以技术为核心的公司,在中国如果不依赖政府,肯定成长不起来,但过度依赖政府,将来的空间会少一点。我们一开始的确就是依赖政府补贴,否则一下子进入市场,是养活不了自己的,只有在跨过一定的技术门槛后,我们才能靠市场养活自己。我们现在已经在找更合适的商业模式,以减少对政府的依赖。我们现在看到很多人工智能公司,他们已经找到了赚钱的方法,但这对我们来说仍然是个挑战。
EW:其实现在很多人在怀疑你们的盈利能力。
HY:这种怀疑是对的,我们虽然说在很多测评上面取得了不错的成绩,但是并没有达到让大家信服的程度。事情还没成之前,你说你是英雄,谁信?武松打虎,得把老虎打死了,结果出来了,大家才把他看成英雄,现在我说我能打死老虎,谁信呢?我们现在就是在努力证明自己。
EW:相较北上广深,合肥的商业环境是不是差了一点?为什么一直留在合肥?
HY:坦白讲,合肥这个地方很适合做研究,但商业氛围和商业创新环境确实和北上广深杭相比是有巨大差距的。但我们还是一直留在合肥,如果我们不是在合肥,我们的人早已经被挖了七八遍了,在我们这边拿50万年薪的人,腾讯可以给150万。我们为什么能在核心技术上持续深入,并且取得领先世界的水平,就是因为在合肥能够真正静下心来做研究。在北京给他100万的薪水,马上就会有人拿200万来挖,工作一有变动,研究就会停滞下来。北上广太浮躁了,这些地方房价那么高,让人怎么安心做研究?我们现在在京津冀,上海广州深圳杭州都有分部,但我觉得做研究的人,还是来合肥好,一线城市安不下心来。
EW:如果你们工资比其他公司低的话,用什么来吸引人才?
HY:追求。世界上还是有一批有追求的人,就是在中国用人工智能改变世界。
EW:资本对于你们是一个什么作用?
HY:我觉得一个公司一定要借助资本的力量,资本是最重要的。我们不能只靠追求来生活,我们要给这些做出巨大成绩和贡献的人体面的生活。有了资本,我才能真正吸引到优秀的人,解决他们的后顾之忧,他们想要去旅游的时候就能够去世界上任何一个国家去旅游,我们要给他们与能力匹配的薪资。
EW:除了受到资本的青睐外,你们自己也有投资。你们在投资上的构想是怎样的?
HY:战略投资是围绕着我们的战略布局来投。我们现在有三大战略板块,教育、智慧城市,还有消费者业务。
EW:科大讯飞的生态能描述一下吗?
HY:我们现在首先要在教育这个方向做成一个核心技术支撑的开放平台,大家有什么内容都可以放上来,可以对接到学校;在智慧城市方面,我们希望能够通过大数据和人工智能,为交通、社会信息化管理、医疗等提供智能服务;最后在消费者业务上,我们要建立生态入口,让用户用语音的方式与机器进行交互,让机器越来越了解用户的需要。
EW:现在每年研发投入有多大?
HY:收入的25%。主要用于几个方面,核心技术、云计算和各个领域应用的开发。我们现在还有很多需要突破的,像核心技术现在其实还没有达到我们想要的水准,我们还要持续努力,因为技术爆炸是一个持续的过程,不是说一瞬间的,而是在一点点改进中获得的。
EW:作为科大讯飞重点攻坚的领域,目前人工智能在你看来处于什么阶段?
HY:现在业界谈人工智能分成三个阶段,计算智能、感知智能和认知智能。人工智能目前处于感知阶段。人在计算智能上比机器人差,感知智能上好一点,认知智能上会更好,所以说,我们现在的切入点叫语音和语言为入口的认知革命。人类最早成为世界的统治者是因为人类发生了认知革命而不是农业革命。机器人也需要认知革命,机器人认知革命的第一i就是先理解语言,我们现在的使命是要让机器能听会说,能理解会思考。接下来我们把这个技术跟很多行业,如医疗、卫生、法律等结合起来。
EW:人工智能为什么这两年这么火?过几年它还会这么热吗?
HY:人工智能能火起来,主要是因为核心算法、数据量和应用模式三个方面成熟了,因此它在技术上可以大规模应用于产业。科大讯飞在核心技术方面还比较有优势,在数据的收集上,现在的“讯飞语音云”用户超过8亿,开放云平台的应用项目8万多个,我们正在尝试各个场景的应用。人工智能过几年是不是还能这么火还很难说,现在大数据已经不那么热了,就是大家接受了这个概念以后就没人天天喊了。
EW:现在你们的挑战主要来自哪些方面?
HY:一个就是核心技术还需要时间来突破;另一个就是我们要寻找到合适的商业模式;第三就是我们需要很多综合性人才,不仅仅是技术人员,还需要会市场的、懂产品的、懂宣传的、会做品牌传播的人。坦白讲,我们原来是一个To B的公司,在品牌宣传方面没什么经验,现在需要更多这样的人。
EW:在产品出口方面,有没有遇到一些问题?
HY:问题很大。我们的产品在国际上还没有产生什么效益。我们最大的问题是,语言是个双刃剑,我们可以挡住外国产品进入中国,但是我们进入别的国家也很难。我们现在英语做得不错,但在西班牙语、法语、德语等其他语言国家,我们就不行。
【关键词】单片机;语音信息;语音信号
0.引言
随着数字化信息处理、合成技术和大规模集成电路的不断进步,各种语音合成芯片应用不断扩大。在其控制之中大多都是采用PC机或微控制器的方法,这种方法的控制手段不但需要硬件的支持,同时也需要对软件系统和各种指令进行严肃处理。伴随着目前社会技术的不断发展,语音信息采集与处理措施要求不断增加,在处理之中,是通过将模拟语音信号通过相应软件和系统转变形成数字信号,再由单片机控制储存在存储器中,形成一套系统的工作流程。
1.芯片介绍
单片机作为一种集成电路芯片,是通过采用各种超大规模的集成电路技术将具有各种数据处理和函数计算能力的中央处理器、随机处理器以及定时器等终端系统和功能集成到一个完整的硅片之中形成一个完善而又系统化的微型计算机系统措施,这种电路芯片在目前被广泛的应用在各种工业生产和控制领域之中。伴随着社会的进步,单片机呈现出其顽强的生命力,以高速发展的优势迅速的应用在各个信息处理之中。
1.1 ISD4OO4芯片介绍
ISD公司多电位直接模拟量存储的专利技术是目前单片机的主要制造技术措施,在单片机的制造中成功的将模拟语音数据写入芯片之中的存储单元,不需要进行其他转换便可形成自然而又清晰的语音信号。ISD4OO4语音芯片采用C14OS技术,通过在内部装置韩警惕的振荡器和防混叠过滤器等方式来扩大存储器容量,增加计算效率和准确度,因此只需要很少的器件就可以在其中构成一套完整的声音录入系统和回放体系,这在系统设计中不但能够节约设计消耗时间,同时能够避免设计中其他元件的增多。
在目前ISD公司的单片机构成中主要是通过信号输入系统、信号输出部分、存储系统、采样时钟部分和SPI部分六部分构成。其在构成中信号输入部分—音频信号放大器和五极点抗混叠滤波器:而信号输出部分在控制的过程中是通过平滑过滤器和自动静噪处理器来实现的。存储部—非易失性多电平模拟存储阵列;采样时钟部分一内部时钟振荡器和调节器:SPI—录、放、快进等操作的SPI接口;电源接口部分。
1.2 AT89C52芯片介绍
AT89C52芯片是一种低功耗、高性能的片内含有8KB快闪可编程/擦除只读存储器的8位CMOS微控制器,使用高密度、非易失存储技术制造,并且与8OC31引脚和指令系统完全兼容。芯片上的FPEROM允许在线编程或采用通用的非易失存储编程器对程序存储器重复编程。
2.系统方案设计
ISD器件在录音存储操作之前,要对信号作调整。首先将输入信号放大到存储电路动态范围要求的最佳电平,这主要由内部放大器来完成。放大后的信号进入五级抗混叠滤波器进行调整。模拟信号的存储采用采样技术,利用抗混叠滤波器可以去掉采样频率I/2以上的输入频率分量,使所有采样数据都满足奈奎斯特定理,滤波器是一个连接时间五极点的低通滤波器。录音时,输入信号通过模拟收发器写入模拟多电平存储阵列中。将采样信号经过电平移位生成非易失性写入过程所需要的电压。采样时钟同时用于存储阵列的地址译码,以便将采样信号顺序地写入存储阵列中。放音时,录入的模拟电压在同一采样时钟的控制下顺序地从存储阵列中读出,重构原来的采样波形,输出通路上的平滑滤波器去掉采样频率分量,并恢复原始波形,ISD器件的采样频率通过内部温度补偿的基准振荡器来控制,这个振荡器不需要外接元件,采样频率取自内部振荡电路之后的一组分频器。平滑滤波后的信号经过自动静噪处理传送入放大器作为输出音频功放的输入信号,推动扬声器。
2.1语音输出电路
LW386是一种集成音频功放,同时其中具有着自身功能消耗低,电压的增长稳定,对电源电压的控制范围较为合理,单片机在应用的时候失真效率和要求较低。尽管LM386的应用非常简单,但稍不注意,特别是器件上电、断电瞬间,甚至工作稳定后,一些操作(如插拔音频插头、旋音量调节钮)都会带来的瞬态冲击,在输出喇叭上会产生噪声。
2.2录音电路
ISD器件采用录音时间为8分钟的ISD4OO4-8器件,以单片机AT89C52为微控制器,外接语音段录放控制键盘和LED显示器,外部存储器24CO2用于保存各语音段首地址及总语音段数,为了改善语音量,要提高输入端信噪比,因此在ISD语音输入端采用放大电路单端输入。
2.3放音电路
本系统可以主要分为三部分:单片机的控制部分、放音部分和显示部分。本文的控制部分主要由单片机89C52构成,包含必要的按键电路、复位电路和看门狗电路等电路,放音部分主要由ISD4OO4构成。
3.软件设计
3.1 SPI口设计思想
模拟元件正常连接后,对芯片内部信息进行分段管理的操作。从上面的分析可知,只要给语音芯片的MOSI引脚输入8位控制命令就可使ISD芯片从当前地址执行相应的录放操作;同样使用8位的读指令,就能在串行输出MISO弓{脚获得VOF和EOM信息。在时钟输入SCLK弓{脚端输入8个串行时钟就能保证5位指令的输入和芯片内部8位信息的输出。但是,MOSI、MISO、SCLK、SS的各引脚,必须满足SP的时序关系。
3.2上电顺序
程序工作思想电路上电后,程序首先完成程序的初始化,随后查询按键状态,进入系统待机状态。如果有按键按下,则转去执行按键指向的工作程序。按键包括放音键,程序将首先判断是去还是回,并点亮相应的指示灯。自动读出第一段的放音内容。如果不是首次按下,程序则首先判断当前位置,并以该位置为依据获得存放该站放音内容的首地址。调用放音子程序,读入前面获得的本次放音内容首地址,开始放音。
4.结束语
在传统的语音录敖过程中,语音信号要经过设备豹接受后再转化为模拟电信号,遥过前置放大器把语音信号放大,通过带通滤波之后。去掉多余的干扰,再经过A/D转换为数字信号,控制器对其进行处理和存储。之后再由D/A转换为模拟信号,达到放音的目的。使用这种方法既复杂又容易使声音失真。所以,本文介绍了一种单片语音处理芯片ISD4OO4。通过对ISD4OO4语音芯片的简单介绍,熟悉了ISD4OO4的基本应用。通过对基于单片机控制系统的设计实现了语音的录入和播放。并阐述了系统工作各部件的性能特性,基于微处理系统的设计实现了录音和放音。此系统设计灵活,成本低,语音器件抗干扰性强,应用效果良好。 [科]
【参考文献】