首页 > 技术 > 技术文摘 > 语音识别技术:让你的智能手机更聪明

语音识别技术:让你的智能手机更聪明

2011-03-31 00:00:00   作者:   来源:   评论:0 点击:


  当语音识别技术最早开始被应用到电脑桌面时,不少人对这项技术信心十足,认为将它全面替代键盘和鼠标,开启一个新的交互时代。多年过去了,这一幕始终没有出现,语音识别技术始终处于不温不火的状态。而现在,随着智能手机的流行,语音识别技术重新看到了成为主流应用的希望。这一次,其应用和研发的推动力明显不同于电脑领域。
  在手机上更有市场
  语音识别最早出现在20世纪50年代,进入60年代早期,IBM曾研究出一种可以识别16个单词的设备,并且能做简单的算术运算。到20世纪80年代美国Dragon Systems公司推出了首个面向PC的语音识别技术DragonDictate。它只能识别单个单词,要求一次只读一个。现在这个产品还在(属于Nuance公司),已经有了11版,可以识别正常语速的对话。
  语音识别之所以一直难以在桌面领域流行,有两个重要限制因素。首先,为了保证识别迅速而且准确,系统必须接受训练以建立用户的语音模式,如Vista、Windows 7自带的语音识别软件都需要给系统一定的学习时间来识别用户的发音。第二个因素是键盘的流行,大多数人已经习惯打字而不是说话。
  而语音识别技术要流行需要两个条件:一个是语音识别软件简单易用,另一个是某种场合只能说话而使用键盘很不方便。而这种场景已经出现,并且出现了很长时间,这就是移动电话领域。
  Nuance产品和市场高级副总裁Matt Revis解释了桌面和移动环境的不同:“桌面是一个固定的环境,桌面环境中的语音识别技术主要用于完成办公软件、网页浏览、通信移动等应用,而移动环境则完全不同,用户可能在室外正处于移动状态,而且需要免提。”
  Gartner分析师Tuong Nguyen也认为语音识别在移动场景中更有价值:“从使用的角度看,语音识别在手持设备的价值要大得多。因为它提供了一个用户友好、直观的输入方法,特别是对那些没有实体键盘的触摸屏手机而言。”
  由于移动设备通常只有较小的存储空间和比较有限的计算机能力,所以,语音识别在手机上的应用也经历了一个发展过程。早期的语音识别应用非常简单,主要用于识别号码进行拨号。当今的手机内存已经达到了几百兆,另外还有GB级别的闪存,对语音识别技术的限制已经很少。语音识别能力提高的另一个条件是网络,网络带宽的增加使得我们可以把一些处理放到远程服务器上完成。
  如今手机上的语音识别技术已经远不止语音拨号。主要包括以下三个方面:
  声控:语音拨号就是声控功能的一种,过去声控功能只能编辑几条固定的命令让手机完成指定的动作,而现在则要强大得多,而且不用预先编辑,手机可以执行相应的动作。比如,对手机说“拨12345”或者“给妈妈拨号”等,它就可以完成拨号。
  语音转文字:iPhone上有一个Dragon Dictation的应用程序,使用它用户可以通过语音记笔记和发送电子邮件、更新Twitter;黑莓上也有类似功能的应用,如Dragon for Email;Android手机自带的语音识别软件可以帮助用户通过语音发送短信。
  翻译:这项技术目前还不太成熟,不过也已经有了一些应用,如iPhone上的Jibbigo就可以翻译单词、短语和简单的句子,让双方进行简单的交流。
  未来发展方向
  如果要问一个语音技术工程师,语音识别技术的未来会如何发展,他通常会说:自然语言处理。
  所谓自然语言处理就是系统能够理解你的意思,而不只是知道你说的是什么。在这样的系统中,用户可以根据自己习惯不受约束地表达自己的意思。
  不过,要在对话中实现自然语言处理面临双重挑战:首先,你必须识别出说的什么,然后还要理解要表达什么意思。第一步现在越来越容易,而第二步却非常困难:人们表达的意思与上下文环境高度相关,即使是人类自身也可能不能正确理解,更何况是电脑。
  好在随着手机功能的丰富将帮助系统理解人们所要表达的真正含义。语音识别系统可以把用户所说的话与手机所感受到的外界环境等信息结合起来,从而提供更准确的结果。比如,一个用户正在餐馆就餐,他就很可能用到点菜、埋单、预订、叫出租车等词汇。
  语音识别技术的另一个应用针对某个用户进行专门的定制,这其实有些类似桌面语音识别应用的发音学习。例如,最新版的谷歌语音搜索提供一个选项,允许针对用户自己定制一个语音识别系统。如果用户选择了自己的语音识别系统,谷歌就会把这个用户和他的发音方式联系起来,从而让谷歌能够针对这个用户的发音建立一个专门的识别模型。
  语音识别技术的另一个未来发展领域是游戏,语音可以大大丰富游戏的娱乐性,比如,直接给宇宙飞船发命令或者对嫌疑人进行审讯。
  总体而言,到目前为止,对于手机而言语音识别技术还是一项锦上添花的技术。好在这一技术正在不断改进,为有朝一日的突破奠定基础,而手机恰恰为这项技术的突破提供了一个非常好的舞台。
  语音识别技术的工作原理
  语音识别技术的工作原理是利用语言发音的统计模型,也就是比较输入语音和该语言的统计模型,设法找到最接近的匹配单词。建立某个语言的统计模型需要大量的存储空间,比如需要存储该语言所有的基本发音、所有单词以及所有单词之间可能组合在一起的发音方式,在此之上,还有口音以及因年龄、性别不同而带来的发音差异等。
  以Google的语音搜索(Voice Search)为例,它需要两个统计模型:声学模型、语言模型。声学模型是通过提取录音和说话者录音的脚本来建立的,而语言模型主要搞清楚哪些单词最有可能跟在另外一些单词之后,以提高识别的准确性。

计世网

相关阅读:

分享到: 收藏

专题