首页>>>技术>>>语音应用>>>语音合成(TTS)  语音合成产品

 

回归到“通天塔”之前
——语音翻译技术和应用展望

徐波 2002/03/11

  西方圣经上“通天塔”和 “巴别塔”的故事路人皆知,其目的就是为了说明人类沟通的重要性。事实上,人类一直在寻找克服语言障碍的途径:先是翻译,再是世界语,直到目前的自动翻译。甚至还有人提出,随着语言的逐渐消融,最终将回归到造“通天塔”之前天下人的语言都一样的原始状态,彻底扫除语言障碍。

作者简介:

  徐波 1988年毕业于浙江大学,此后在中科院自动化所从事语音、语言信息处理和识别等方面的研究,于1992年和1997年分别获得工学硕士和博士学位,1997年被破格提升为该所研究员、博士生导师。现任国家模式识别重点实验室副主任、口语信息处理研究组组长、清华大学信息学院客座教授、中国中文信息处理学会常务理事、YOCSEF学术委员会委员、中国声学学会和中国自动化学会委员及《自动化学报》编委。目前主要的研究方向包括语音识别的鲁棒性问题、口语理解、智能搜索、人机对话、口语的统计翻译等。

  计算技术的发展为机器代替人从事翻译工作、最终消除人类交流障碍打开了希望之门。这个思路可以追溯到1945年,当时信息论的先驱Warren Weaver就认为语言的翻译过程可以抽象成编码和解码过程,这种思想其实就是机器翻译的基石,并提出了机器翻译的可计算性。不过要从理论上证明机器翻译完全可计算并不是一件容易的事情,50年自动翻译的发展也表明,从实践上证明其可计算性同样非常困难。针对机器翻译的现状,有人挖苦地说:“MT,不是Machine Translation的缩写,而是Mad Translation的缩写。”这虽然有些极端,但真实地道出了实现自动翻译有多难。

领域限定更可行

  既然无领域限制的自动翻译是如此之难,那限定领域的自动翻译是否可行?20世纪80年代以来,自动翻译技术的一个分支就是着手把机器翻译和语音识别、语音合成相结合,进行直接的口语翻译,这方面的研究首先起源于对语音识别技术的研究。2000年,在北京召开的口语信息处理国际会议(ICSLP2000)上,就把“新世纪跨语言的口语交流(Spoken Language Processing in Trans-language and Trans-modal Communications for the New Century)”作为大会的主题。

  计算机的口语信息处理不仅仅是人机交互的强大工具,也是使用不同语言的人群之间交流的强大工具。与书面语言翻译相比,语音翻译在限定场景下的口语交流上更具优势,例如机场、海关、旅馆咨询、购物、餐馆对话、旅游观光、娱乐、天气预报、公共交通等场景中的交流。对其中的巨大市场需求,人们已达成共识。另一方面,语音翻译比文本翻译更加复杂和艰难,系统要面对从语音识别、机器翻译到语音合成的所有难题。所以,语音翻译对应用领域进行限制很自然,这意味着我们可以用一些针对性较强的翻译方法来完成语音翻译的目标,而不必过分追求系统的通用性。

  翻译方法需综合

  在有明确限定的领域中,语音识别技术一般能取得比较高的准确率。只要收集的样本能对限定领域的语言现象有比较好的覆盖,翻译方法特别是基于经验主义的翻译方法,就会非常适用。最典型的经验主义方法是基于实例或模板的方法,其基本思想是研究语料库中出现的句型,然后进行通用化处理,并建立一个句型库,在翻译的时候,通过匹配库中的模板就可以获得可靠性较高的翻译。

  另一种更加高级的模型是基于双语语料的统计方法,这种方法从研究双语语料句对之间的对位关系开始。下图中的例句表示了在词汇层和短语层的混合对位。

  从图中可以看出,互译句对之间存在着不同层次上的对应关系,通过统计的方法,可算出中文和英文词汇之间的翻译概率,以及位置关系对翻译概率的影响,最终可通过纯数学的方法来实现翻译过程。该方法目前在双语的口语翻译中逐步成为一种主流方法。在对德国的Verbmobil项目第二阶段的完整评估中,一共测试了四种方法,分别是基于转换的翻译、基于对话意图的翻译、基于实例的翻译和基于统计的翻译。由于基于统计的翻译对语音识别错误具有较好的容错性,加上统计学的大量优点,使其翻译错误率还不到其他方法的一半。

  当然统计方法也有缺点,它缺少语言知识和结构信息,因而需要与其他方法结合使用,例如与基于实例的翻译方法相结合。这样不仅可以考虑句子的整体结构,还可以利用语言语法结构的统计信息。

  此外,找到适当的中间语言一直是自动翻译的理想,但由于自然语言的复杂性,要找到既完备又具有很强表达能力的中间语言非常困难。不过,为了实现多国语言之间的互译,中间语言是一个非常好的思路,那样任何两种语言之间的翻译所需的工作量只与语种的数量成正比。在多语种互译中类似于C-STAR Ⅲ IF的中间语言口语翻译是一个非常重要的方向。

  发展前景美好而曲折

  目前国际上对口语翻译比较有影响的研究计划和组织主要有德国的Verbmobil开发计划和国际口语翻译先进研究组织(C-STAR)。Verbmobil计划是由德国BMBF出资,日本ATR International、美国Carnegie Mellon University、德国Deutsches Forschungszentrum für Künstliche Intelligenz等22所大学和7个公司参与,Siemens负责集成的一个语音翻译系统研究计划。

  1993~1996年,该计划完成了第一阶段原型系统的设计,该系统又称为Verbmobil Demonstrator,包括2500个单词量的德英翻译和400个单词量的德日翻译,主要应用在商业会晤和日程安排领域。

  1997~2000年,该系统的单词量增加到1万个,语种以德、英、日为主向多语种扩展,应用领域也扩展为旅游日程安排、旅馆预订等多个领域。

  C-STAR的全称是International consortium for Speech Translation Advanced Research,成立于1991年,发起者为日本ATR、美国CMU大学、Siemens等国际知名研究机构,最初称为C-STAR I。这个国际组织以实现多语种的自由交谈为目标,并于1993年进行了世界上第一个语音翻译系统的演示。其后,许多科技机构相继投入其中,并得到各国政府部门的支持,C-STAR也随之发展壮大。到今天,已经发展到了C-STAR Ⅲ,其中包括7个核心成员和20多个观察成员。

  语音翻译是一个很具挑战性的人类科学工程,然而人类对挑战的应对也是充满智慧的,过去10年不断取得进展的语音翻译也证明了这一点。虽然我们很难为语音翻译给出一个准确的进展时间表,但可以大胆地给出一个对未来展望的时间表:

   30年之后将会有无领域限制的翻译系统,届时人类的全球交流基本没有障碍。 北京成功申请到了2008年奥运会的举办权,这对语音翻译的需求更加迫切。要实现奥申委提出的在整个奥运期间“Any Time”、“Any Where”、“Any One”和“Any Device”提供智能化多语言信息服务的承诺,首先就要克服语言交流的瓶颈问题,我们相信语音翻译技术在这方面将大有可为。

计算机世界报 2002/03/11



相关链接:
构建更加人性化的交谈式语音应用 2002-03-11
语音合成——灿烂的前景 巨大的商机 2002-01-30
语音合成技术及国内外发展现状 2002-01-30
Evoice有声电子邮件系统 2002-01-30
语音合成系统的关键技术 2002-01-30

分类信息:  语音合成TTS_与_语音识别ASR     技术_语音合成_文摘   技术_语音识别_文摘