首页 > 技术 > 技术文摘 > 语音识别:PDA的理想输入选择

语音识别:PDA的理想输入选择

2001-09-27 00:00:00   作者:   来源:   评论:0 点击:


 

用户不断地要求所用装置更小、更轻便同时又更易于使用。能解决这三方面问题的一种可行技术就是语音识别。这种技术由于清除了传统的输入器件(如键盘或笔接口),故具备更小和更轻便的特点。   

解决容易使用问题更需要有一点技巧,装置所采用的技术是否恰当。从某种意义上讲,这又必须根据目标应用是什么而采取不同的处理。语音识别两个最通用的模式是语音从属和语音独立。   

语音从属与语音独立   

语音从属意味着必须有培训系统而且通常它只可识别培训系统的人所讲的词。语音独立系统则可以识别几乎所有讲话人的词。在这种情况下,可以听懂的词汇通常也是相当有限的。   

语音从属的一个例子是语音拨号器,在语音拨号中用户输入要存储的人名。几次重复这些名字,拨号器正确地“记录”是如何讲的。当它听到这些名字时,它给出适当的信息,也有采用自动拨号机拨号的。语音独立使用的是计算器,它只有15个词:10个数字和算术运算。   

如何处理来自不同制造厂家的词汇,Sensory公司采用把用语(vocabulary)划分成词组(word set)。根据应用,把很多必需用的词组成一个命令树(command tree),这里的限制因素是系统的存储器容量,它通常取决于系统中可用的存储量或成本预算。   

对于语音独立词组来讲,存储器需要量大约为700字节/词。在语音从属模式中,它为128字节/词。   

Sensory公司设置语音独立词组为14个词。如果用户有很多词要识别,则可在一个命令树中建立自己的应用分支,只需用一个低音命令分支为独立的功能,其中每一个功能都具有它自己的语音独立词组。这样它对每一个词都有不同的上下文,在词组中通过共享可以再用这些词。   

在语音拨号器应用中,第一命令包“friends(朋友)”,“busiress(业务)”和“relatives(亲戚)”等。根据所讲的这些词,系统将转移到第二组命令,如所含的词为“first”(对于人名,从字母表前半部分的一个字母开始)或“last”(对于人名从字母表的后半分部一个字母开始)。直到找到所希望的名字为止。   

语音独立和语音从属之间的另一个差别是所需要的存储量,因为语音独立系统已经被培训,它的700字节/词直接包含在应用代码中。代码一般存储在片外ROM、非易失存储器(如闪存)或直接掩膜进微控制器中。   

语音从属词汇需要在运行时间存储到可写存储器中,这不是困难的,因为通常它只需很小的存储量。一个EEPROM器件通常即可担当此任。在128字节/词中,64个词可存储在一个k字节EEPROM中,这对于大部分的应用是合适的。   

影响语音识别系统精度的因素之一是所接收的信号品质,主要由两个因素(背景噪声和所用传声器)确定。   

背景噪声可用系统内的噪声消除算法处理。建议用定向传声器,往往传声器本身具有内含的噪声消除功能。   

传声器空间问题   

由于大部分便携装置所采用的体积尺寸会对传声器产生另外的问题。它们是如此的小,以致使分配给传声器的空间不够大或不是最好的位置。通常他们也没有处理语音识别的设计。   

现在可用的传声器对于语音从属系统是可以接受的,但现在的传声器不适合用在实现语音独立的平台上。   

在视距范围内,目前普遍采用手持装置实现移动口授。这意味着用户可用PDA检索他们的e-mail,以口授应答进入PDA,然后无线发送应答或接入连接的PC。   

可惜现在没有一个可接受的嵌入传声器能满足在手持装置中进行e-mail所需求的精度。   

很多设计人员希望增加语音识别到现有的产品中。识别问题严重受限制的原因是把传声器放在何处和如何设计。虽然设计人员喜欢采用功能强的处理器来处理此问题,但是,具有高性能的处理器将无助于问题的解决。假若输入信号有缺陷,你对它做的再多也没有用。静电、噪声和回路等都能影响语音的品质。   

试用DSP

设计一个语音识别系统最好方法之一是采用DSP。Sensory公司最近推出Voice Activation软件,该软件适合DSP基应用(如电话、无线设备、汽车和消费类电子)。Voice Activation软件是为高噪声环境应用设计的。该公司声称基于该软件的系统在80dB噪声环境中可达到优于98%的精度。   

利用DSP算法的另一结构出自Advanced Recognition Technologies公司,该公司的语音识别技术称之为smARTspeak,它与WinCE兼容并可定制用于专用的OS,适用于蜂窝电话和PDA市场。   

ART的识别算法可运行在价廉、低性能、具有最小存储器的微处理器中。另外,这些算法用综合API(应用编程接口)系统书写,使它们很容易地转移或应用于几乎所有装置。Port此技术的优点是通过软件实现语音控制,不增加系统的硬件成本。   

Sensory公司的微处理器为便携系统提供了关键性能——低功率和休眠模式以降低功耗。处理器可自己置到休眠,同时借助一条I/O线(一般用一按键)唤醒,或用一个内部定时器作周期性唤醒。   

用RSC-264T和RSC-364芯片进行设计时必须用外部ROM。RSC-264T是一款低档器件,用在对成本敏感的消费类电子和玩具中。它是一个8位微控制器,类似于工业标准8051。这可使熟悉8051指令系统的设计人员能很快开始编写代码。一个片上传声器前置放大器有助于进一步降低系统成本。RSC-364是一款高档器件,设计用于消费类电子和电话应用。   

尽管这些器件是专门为语音识别设计的,但它们仍具有处理通用微处理器任务的能力。一个小系统不需要独立的处理器,以避免增加电流损耗和成本。能工作在2.4~2.5V的系统,可采用两节AAA电池供电。   

一个RISC芯核(如Hitachi公司的SH)可做为语音识别的处理器,其中软件编程接口(SPI)位于处理器和应用部件之间(见图1)。  

图1 用RISC芯核实现语音识别

Information Storage Devices公司设计的VoiceDSP也是基于DSP结构基础上。该产品把多种DSP功能集成在单片上,为电话、汽车和消费类应用提供优异的成本效率解决方案。   

ISD-T360SA处理器把16位DSP和16位RISC芯核技术结合在一起(见图2)。它具有系统支持功能,如中断控制单元、编码/解码器接口(主和从)、到主系统微控制器的接口,以及闪存和DRAM用的存储器处理。片上ROM存有VoiceDSP软件。

图2 集成DSP和RISC芯核技术

语音压缩是语音识别的另一方面。Digital Voice Systems的AMBE-2000是一款声码器,它含有该公司的AMBE+声码器技术。它提供长途应用品质的语音(在4kbits),可工作在2~9.6kbits/s任何用户确定的位率。它包含一个带内置Viterbi译码器的卷积FEC编码器(它具有4位软决策译码)。   

AMBE-2000特性有:3V工作,半双工或全双工模式,自动语音和无声检测以及回声消除。这些特性使它很适合于无线应用。用TIDSP芯核可简化代码写入。   

专用和标准OS  

与PDA有关的最通用的操作系统是Windows CE和Palm OS。大部分的手持装置运行专用OS。几乎所有的便携装置都具有不同的配置、占位置面积、CPU和存储器子系统。从第三方开发者的观点,迫切希望选择一种或两种平台进行开发。现在,这两种平台就是WinCE和Palm OS。   

在应用软件方面,Dragon Systems公司的Naturally Speaking Mobile Organizer易使用户的讲话变为e-mail。此软件不仅识别所讲的词,而且分析讲了什么并产生所希望的操作。例如,用户讲“send an e-mail”(发e-mail)或“schedule an appoinement”(安排约会),录音器在PDA中存储信息直到用户的计算机可用为止。然后,当PDA PC连接时PC记录和分析所讲的内容。最后,Naturally Speaking Mobile Organizer命令应用采取适当的操作。兼容的应用包括Microsoft Outlook 98,Palm Pilot Desktop,Lotus Notes,Gold Mine和Symantec ACT! 4.0等。

摘自PDA时代

相关阅读:

分享到: 收藏

专题