首页 > 技术 > 技术文摘 > 擒获未来:下一代的语音识别技术

擒获未来:下一代的语音识别技术

2004-02-17 00:00:00   作者:   来源:   评论:0 点击:



  “也许不需要那么长,”美国乔治亚理工学院的电子计算机工程系教授Fred Juang说,“下一代的语音识别机可能在五到十年内成为现实。”Juang教授是语音识别研究领域的专家,他曾参与自动电话接线语音识别技术的开发。现在这一技术已经广泛的用于各行业。
  他在正在西雅图召开的美国科学促进协会(AAAS)的年会上说,为了制造出能够真正和人自然交流的机器来,需要对现在的语音识别技术所依赖的理论进行根本的改造。
  现在的语音识别技术基本上是由机器对人的语音进行信号处理,然后将其与预先设计的文字数据库进行比对,将与收到的语音信号最相匹配的文字挑选出来,然后按照预先设定的一些语法规则排列,从而实现从语音到文字的转变。如果得到的文本和人原来表达的意思相同或相近,那么,我们就可以说,机器完成了语音识别。完成这一过程的主要数学基础就是一种叫做隐含马尔可夫模型的算法。
  研究者们发现,基于这种算法的语音识别技术对于一些简单的人机对话能够达到不错的效果,但对于达到自如的相互交谈来说还远远不够。通常来说,对于设定的场景,设定主题的对话,语音识别机会有比较好的表现效果。例如,定票服务,电话接驳,听写等等。实际上,语音识别技术在这些方面的应用已经日渐广泛。特别是随着移动通信的发展,诸如语音拨号,语音邮件已经开始或者将要开始进入应用领域。但是,困扰语音识别多年的根本性问题仍然没有得到解决。华盛顿大学的玛丽·奥斯腾多夫说道。一个重要的方面是,目前的人机交流仍然出于一种非自然的,非谈话的状态。“我们会时刻注意到,我们是在和机器,而不是和人在说话,”她说。简而言之,你无法期待它完全像人一样反应。一旦你想要和它聊天一样说话,它就无法应对了。
  人讲话中经常出现的停顿,重复,发音不清,“嗯”,“啊”,等等,对机器来说无异于一场恶梦。再考虑到方言,口音的影响,语音识别机的出错率往往让任何一个使用者丧失信心。
  另一方面的挑战是,人讲话往往并非在非常安静的环境,外界环境的噪声,其他人的插话,等等,会极大影响语音识别的准确性。正是由于这种环境对声音的扭曲和人类交谈的随意性的特点,使得语音识别准确率的提高困难重重。
  科学家们尝试了各种办法,包括设计各种新算法,改进受话麦克风的设计,以及开发具有学习和纠错能力的识别机,等等。试验已经证明,通过改进受话麦克风的设计,可以比较明显的“过滤”噪音,提高识别的质量。但这还远远不够。而开发具有学习和纠错能力的识别机还处于起步阶段。而另外一种,更加前沿的探索则是,使语音识别机具有人类的“常识”。通过赋予机器人类语言的语义学知识,语法知识,模拟人识别语音的过程,从而企望达到更好的识别率和更自然的交流。
  Juang所说的下一代语音识别机正是这一前沿探索之一。
  他说,当人们在交谈时,往往对某些指称的内容已经有了共识。例如,如果一群电子工程师在交谈时,他们可能会使用“它”来指代刚刚谈到的欧姆定律。但对机器来说,却完全不知道它指称为何,更不用说理解其真正含义了。“如果每一次讨论时都需要对其进行指定的话,交流就会变得极其笨拙了。”他说。“能够理解上下文中的指称对自然语言交流来说是关键的。如果机器能作到这点,就能够和人自然的交流了。”他设想一套框架,由一些所谓的“信息探测器”组成,旨在收集,分析话音中的“意思”,而非简单的字词。这种识别机将能够自己学习,能够像人一样,在没听懂时说:“我没听懂”。要求进一步说明。
  而要实现这一设想,Juang认为需要研究新的,超越隐含马尔可夫模型的算法。而实际上,包括他在内的世界各国的不少研究者正在这方面努力。“我们正处在发展新模式的起步阶段,可以说,我们已经有了所需框架的百分之六十了。其它的一些问题并不是不可解决,”Juang说。
  也许。
  但剩下的百分四十的部分也许不像看起来的那么简单。语音技术发展的经验似乎表明,每当研究者前进一步,离最终的目标似乎就“似近实远”。我们对基本问题——例如人的语音识别过程——的了解越深入,让我们感到困惑无力的地方似乎也越多。Juang和许多的同行是乐观派,不过可能也有同样数量的其它研究者没有这么乐观.“也许,在我们真正了解人自身识别语言的全部秘密之前,我们只能接受不那么像人的机器语音识别。”微软研究院的阿塞罗说.

新浪科技(tech.sina.com.cn)

相关阅读:

分享到: 收藏

专题