自然流畅的文语转换系统——木兰

2004/06/11

  语音门户、呼叫中心、声讯服务等基于语音合成技术的文语转换应用已经越来越多地进入我们的工作和生活中。“木兰”是由位于北京的微软亚洲研究院研发并具有顶级性能的文语转换系统,木兰有哪些重要特点?木兰文语转换的真实应用效果如何?

  语音技术的飞速发展使语音技术的应用日趋普及,特别是语音合成和语音识别两种技术的结合,已经使越来越多的崭新应用与服务成为现实。

  例如,在2002年韩日世界杯期间,中国电信在全国296个168信息台同步采用语音技术,将中央电视台不断发出的比赛花絮和最新赛况的文字信息播报给通过电话查询的广大球迷。

  语音合成技术已经被应用在奇瑞QQ轿车的“i-Say数码听”系统上,通过“i-Say数码听”系统,用户可以将下载到系统电脑中的文本文件、电子邮件、网络新闻或小说等转换成语音在车内收听。还可以通过特定的服务网站订阅新闻、天气预报、英语学习等信息至车上收听,享受个性化的网络信息服务。

  “木兰”文语转换系统是由位于北京的微软亚洲研究院(MSRA)研发的,基于领先的语音合成技术的顶级文语转换系统。通过对“木兰”介绍和分析,我们将对语音合成技术及其应用有更进一步的了解,并展望机器人向人类“进化”的动人前景。

“木兰”文语转换系统

  “木兰”文语转换系统是由MSRA研发的中英文双语文语转换系统,其性能在中英文文语转换系统中处于顶级水准。“木兰”文语转换系统有两个重要的特征:1. 它是第一个真正的双语系统,可以非常自然地处理包含有英文词句的中文语句。2. 它应用了诸如“韵律生成的最小错误准则”等先进技术,能够最大程度地保证所生成语音的自然度。

  在我们用到的各种中文文字材料中(如技术文献或电子邮件),常常包含有英文单词和短语,甚至包含一些英文句子。而普通的汉语文语转换系统通常不能很自然和正确地读出夹杂在中文文稿中的英文文字,这成为了汉语文语转换系统应用的一个重要障碍。为了解决这个问题,通常的做法是采用在两个不同文语转换系统之间不断切换的方式。这种切换方式的最大缺点是最后生成的语音会丧失整体的语调,由于一个句子被切分成若干段并由两个系统分别合成,人们听起来会很不舒服,甚至听不懂。MSRA的“木兰”系统是第一个真正的双语系统。在“木兰”文语转换系统中,由于两种语言之间的切换完全在系统内进行,因此生成的双语语音具有非常自然的整句语调。

  “木兰”区别于传统语音合成系统的另一个重要特征是:它充分兼顾了自然言语韵律特性中的全局稳定性和局部可变性。也就是说,在不违反韵律特征的全局约束的前提下,“木兰”尽可能地保留了自然言语韵律中所固有的自由度。因此木兰系统合成出来的语音克服了在其他系统中常会出现的音质下降问题,如由于韵律预测模型的局限性导致的单一语调问题或由音高、音长调节算法引入的机器味和嗡嗡声。木兰系统最大程度上保持了原始音库中发音人的韵律特点,所以生成的语音听起来相当自然。

合成语音的质量

  合成语音的质量,我们通常可以从可懂度和自然度两方面进行评价。代表当前先进水平的文语转换系统都已经能够合成出可懂度相当高的语音。但是这些系统生成的语音的自然度与人类实际的语音之间还有明显的差距。在对几个代表目前最高水平的汉语TTS 系统进行的主观评价中,播音员语音的测试得分是4.5,而合成语音的最高分只有3.2。虽然合成语音的质量已达到了基本可以接受的水平,但其自然度与人的语音还有相当明显的差距。虽然目前最先进的语音合成技术在以传播信息为主要目的的场合,如语音门户、呼叫中心、声讯服务等应用中已经越来越被广大用户接受,但如果将它们用于更强调语言内涵的场合,如讲故事、读小说、讲笑话等,往往会不尽人意。增强合成语音的表现力是语音合成技术的未来发展方向。

韵律组织

  韵律组织在言语交流中起着非常重要的作用,它不仅是清楚表达语义的关键,还能直接反映讲话人的态度、意向、情绪以及对听话人的期望等信息。人在讲话时,总是先将这些意识层的信息转化成音系层的表达手段,如选择怎样的声调、语调、轻重模式、节律模式等,最后再通过控制发音器官来实现相应的声学目标。通常认为与韵律有关的声学参数包括音高、音长、音强和停延等。在语音合成的研究历程中,建立韵律预测模型一直都是一个研究重点。

语音合成

  语音合成和语音识别技术是实现人机语音交流,建立一个具有能听会说功能的应用系统所必需的两项关键技术。使电脑具有类似于人一样的说话能力,无疑将使其更具人性化特征,为相关应用带来更广阔的发展空间。与语音识别相比,语音合成技术相对说来要成熟一些,并已开始向产业化方向迈进。

  语音合成,又称文语转换(Text to Speech,TTS)技术,它是一门涉及到声学、语言学、统计分析、人工智能、数字信号处理等多个学科的技术。语音合成技术要解决的主要问题就是如何将文字信息转化为可听的声音信息,也就是说让电脑可以像人一样开口说话。这里所说的“像人一样开口说话”与传统的声音回放有着本质的区别。诸如录音机等这些传统的声音回放设备是通过预先录制声音,然后回放来让设备“说话”的。而计算机语音合成技术则可以实现在任何时候将任意文本转换成具有高自然度的语音的目的,真正让电脑“像人一样开口说话”。

由木兰合成的中文、英文和中英文双语的例子

SOHO是Small Office Home Office的缩写,亦即“小型的、家庭的办公室”的含义。
木兰TTS:http://research.microsoft.com/users/minchu/singlevoice/smp5.wav
其他TTS:http://research.microsoft.com/users/minchu/twovoice/smp5.wav

它与InternetInformationServer、MicrosoftExchange、SNAServer结合可形成一个数据集市的工作平台。
木兰TTS:http://research.microsoft.com/users/minchu/singlevoice/smp7.wav
其他TTS:http://research.microsoft.com/users/minchu/twovoice/smp7.wav

比如“很久没见了”这句话,英文正确的说法应该是“I haven't seen you for a long time.”,一些人凑凑合合地说成“Long time no see.”——不合语法,但意思明白了。
木兰TTS:http://research.microsoft.com/users/minchu/singlevoice/smp15.wav

More recently, we have expanded our efforts in both speech synthesis and speech recognition to other languages.
木兰TTS:http://research.microsoft.com/users/minchu/english/smp3.wav

清晨,从阳台上一抹朝阳斜射进来。设计方案将使每套住户都有朝阳的房间。
木兰TTS:http://research.microsoft.com/users/minchu/mandarin/smp1.wav

词典词与韵律词

  目前的多数汉语语音合成系统都是以词典词为单位合成。但是在口语中经常是以韵律词为韵律单位。韵律词在汉语普通话的合成中是最重要韵律单位。韵律词被定义为一组在实际语流中联系紧密的、经常联在一起发音的音节。

  一个韵律词可以包含几个词典词,一个词典词也可以包含几个韵律词。

例如:我/买/了/一/本/好/书。

  如果按照语法每个字都是一个词典词,然而在自然口语中可以分为:

  我/买了/一本/好书。

  这里看出,词典词与韵律词有极大的差异,其中“买了”“一本”“好书”,都是韵律词。而我们平常说话是正是根据这种韵律词来分词断句的。只有按照韵律词来合成语句,才符合人们的习惯。

“木兰”的特征技术

  下面,让我们来看看MSRA的研究人员是如何对自然言语韵律组织中的不确定性进行研究的。我们还将进一步了解为何MSAR的“韵律生成的最小错误准则”技术的应用,能够最大程度地保证所生成语音的自然度。

研究方法

  MSRA用于研究材料属于微软亚洲研究院语音合成语料库的一个部分,这个部分包括1000个汉语单句的两遍录音。这些句子主要选自人民日报,部分选自小说、散文和天气预报,长度在10~30字之间,三分之一是单句,其余是复句。两遍录音是由同一个专业发音人在相隔半年时间内重复录制的。由于发音人没有特意通过改变某些韵律参数来表达特殊的语义,可以认为两遍录音的发音规划是基本相同的,所表达的语义也是相同的。因此,可以进一步断定,两遍录音中的韵律参数和韵律结构如果存在差异,这种差异不是语义表达的需要而导致的,这种差异可以理解为韵律组织中的不确定性。

  研究人员将对两遍录音中的节律组织和相应语音单元的音高和音长进行比较,从而探讨在相同的发音规划和语义表达前提下,发音人在节律层级的组织和韵律参数的控制上有多大的自由度。为了叙述方便,在下文中将这1000个句子的两遍录音分别称为HF1 和HF2, 而同一个句子中的同一个字的两遍读音称为两遍录音中的相应语音单元。


  同一句子,进行两遍录音(在图中,一次用蓝色表示,另一次用橙色表示)。研究发现,尽管两遍录音的内容和所表达的意思完全相同,但在连续语流中各音段的长度和音高都有相当大的变化范围。

时长组织的不确定性

  MSRA的研究人员发现:两遍录音的整体时间长度分布是相当一致的。但是,如果比较两遍录音中的相应语音单元的时长,就会看到明显的差异。这些差异说明,虽然受到特定的上下文和语义表达的约束,音段长度的取值仍有相当大的变化范围,其可变范围可以大到所有音段的整体变化范围的50%左右。

  由此可以看出,在言语组织中,各音段长度的选择不存在惟一的最优解。事实上,在不改变所要传达的各种意识层面的信息的前提下,连续语流中各音段的长度可在相当大的范围内变化,即语音单元的音段长度有相当大的不确定性。

音高组织的不确定性

  MSRA的研究人员发现:两遍录音的整体音高分布是相当一致的。但是,如果比较两遍录音中相应单元的音高,也会看到明显的差异。也就是说,虽然受到特定的上下文和语义表达的约束,音段音高的取值也有相当大的变化范围,其可变范围可以大到所有音段的整体变化范围的45%左右。

  由此可以看出,言语组织中,在不改变所要传达的各种意识层面的信息的前提下,连续语流中各音段的音高也可在相当大的范围内变化,即,音高组织也存在不确定性。

韵律组块中的不确定性

  韵律组织的一个重要表现是组块。同一句子可以由不同的韵律组块构成,例如,对于“从经济和环保的角度看”这句话,在HF1 中被处理成了四个韵律词的“从经济 | 和环保的 | 角度 | 看”,在HF2中,则被处理成“从 | 经济 | 和 | 环保的 | 角度 | 看”, 包含六个韵律词。

  从研究的结果可以看出:实际朗读或讲话时具体使用那种组织方式,可能受个人讲话习惯、语速等因素的影响,也有相当大的随意性。

  从上述音高、音长的分配以及节律单元三组对比分析可以看出,在自然言语的韵律组织中,音高、音长和韵律组块等都存在相当大的不确定性。由此可以得到结论,韵律参数的取值存在一定的不确定性是自然言语的一个重要特征。事实上,正像我们写作时经常特意选用不同的词汇来表达同一个意思以避免文字上的重复,我们在讲话时也会特意调节一下韵律参数以避免韵律的重复(调节的前提是不改变所要传达的信息)。如果反复重复同样的韵律结构就会使讲出来的话单调、缺乏表现力,使听者很快疲惫、跑神。


  通过“木兰”在线演示系统:“http://research.microsoft.com/speech/tts”(中文)与“http://research.microsoft.com/speech/engtts”(英文),人们可以亲身体验MSRA的研究成果。

传统韵律模型的局限

  传统的韵律预测模型都是建立在一个确定性假设上,即,对于任意给定的一个文字串,存在一个惟一且最优的韵律实现方案。许多学者尝试着用各种机器学习的方法,通过一个给的定文本预测合成语音中应当使用的韵律,或者从给定的一系列韵律中预测最终的韵律参数。在对音高、音长的预测中最常用的优化准则是使每个预测值与它相应的参考值最接近。基于这样的准则,预测模型的输出将是自然言语中可能出现的各种韵律变化在某种条件下的最常用值。如果自然言语的韵律参数的可变范围不太大,这样的处理是适当的。

  但事实上,即便是同一个发音人在同样的语义和情感规划下重复发音,他采用的韵律参数仍然存在相当大的变化,即言语的韵律组织中存在着不确定性。传统韵律模型的弱点在于过度强调韵律的确定性或可预测性,而忽视了韵律组织中存在的不确定性,即在表达同样的语义和情感的前提下,韵律参数的取值并不惟一,而是存在一个可选择的范围。要合成接近真人讲话的语音必须同时抓住韵律组织的确定性和不确定性。

韵律生成的最小错误准则

  要想合成与真人发音逼近的语音,必须在生成语音的韵律模式中适当引入不确定性。因此,MSAR提出通过改变韵律预测的优化准则,在韵律建模中引入适当的不确定性。其关键在于:将韵律预测的准则从“使生成的韵律模式的出现概率最大化”转变为“使生成错误的韵律模式的概率最小化”。这样在排除可能产生韵律错误的区域后,剩余区域内通常还保留着不止一条完整的路径。在这些保留路径中,很难说其中哪条比其它路径更好,因此,可以认为它们是等价的韵律实现。在生成语音时,采用其中任意一条都是可以的。

  人讲话时在音高、音长的分配以及节律单元的组织中都有相当大的自由度。自然言语的丰富性在相当大的程度上得益于这种自由度的运用。而传统语音合成系统中的韵律预测模型的弱点恰恰在于忽略了韵律组织中的自由度。因此,MSRA在“木兰”文语转换系统中应用了独特的韵律预测基本原则,即,用最小错误概率准则代替传统的最大生成概率准则。用该准则技术生成的语音的自然度比以往有了显著提高。

语音合成技术的应用

  近年来,语音对话系统、语音呼叫中心、语音触发的网站和电子邮件服务等实际应用的迅速发展,掀起了对文语转换(TTS)技术的一个前所未有的需求高峰。大量的应用需求也促使TTS 技术的研究和开发迈上了一个新台阶。一方面,TTS 核心技术的研发单位不断推出新的开发平台。另一方面,越来越多的语音技术开发商致力于在各种TTS 开发平台上的应用产品开发,TTS 技术的在线应用实例也不断涌现。

  语音合成技术可以代替人工录音,为声讯平台提供功能更强大的信息查询节目。早期的电话高考查分系统,通常只提供考分查询功能。其中涉及文字的部分采用录音剪切(事先录音,流程回放)的方式来实现,而在涉及分数的部分则采用语音卡进行简单数字合成的方式来实现,查询的内容较单一。应用了语音合成技术后,电话查分系统就可以提供更大信息量和动态信息的查询,如考分查询、学校和专业录取分数线查询、学校和专业情况介绍等。此外,使用语音合成技术还可以使服务推出的速度大大加快。

  语音门户是语音合成技术应用的又一个实例。语音门户是一种电话服务,通过这种服务,用户能够从任何一个普通电话机上获取基于互联网的信息、开展电子商务以及获得个人通信服务。这是一项在语音技术发展基础上产生的新的交流方式,充分显示了语音合成和语音识别的强大功能。语音门户系统可以提供用户网络上所有的信息,用户通过电话接入网络操纵远程的信息源,以得到信息或进行电子化交易。目前在国内已经投入运行的语音门户系统主要的功能是查询服务,查询的内容主要包括:新闻、生活公告、天气预报、航班查询、财经参考、股票行情、外汇牌价、农业供求、自我教育、法律顾问等。

  在以2008年“数字奥运”为目标的“面向奥运多语言信息服务系统”的研发中,语音合成是最为关键技术之一。多语种语音合成产品是构成整个服务网络系统的重要组成部分,其主要目的是:借助语音合成技术,利用电脑将文本信息按用户选定的语种自动播报出来。相关系统将支持包括汉语、英语、日语在内的多种语言,及时地为来自全球各地的用户以语音形式提供信息发布、信息查询、人机交互等多种形式的奥运信息服务。这些语音合成产品的推出,必然会为“科技奥运”、“人文奥运”贡献自己的力量。

CHIP新电脑



相关链接:
Dynamics的“灵活”战略 2009-09-28
微软国内首推Push mail 酷派3G产品率先支持 2009-09-28
鲍尔默:我们搞砸了Windows Mobile 7 2009-09-25
微软全球基础服务部门副总裁离职加盟思科 2009-09-24
微软推最新手机操作系统WindowsMobile6.5 2009-09-04

分类信息:     技术_语音合成_解决方案