首页>>厂商>>语音识别与合成>>科大讯飞

科大讯飞InterPhonic 3.0语音合成系统新特性预览

2004/01/12

  领先的专业语音技术提供商-科大讯飞日前宣布其新一代重量级语音合成系统InterPhonic 3.0将于2004年第一季度推出。

  科大讯飞每一代语音合成系统的推出都标志着中文语音合成技术产品的一个全新里程碑,在效果表现和功能特性上的持续推进也得到了众多客户的充分肯定。InterPhonic 3.0延续了科大讯飞的技术产品基本路线与原则,即基于对语音合成技术发展的深入思考、稳健把握和对用户需求的广泛收集与详细分析,将以全新的面貌展现在合作伙伴与客户面前。

  现在我们已经可以预览InterPhonic 3.0的一些重要新特性:

1.全新风格的女声音库,并支持多音库管理和运行时自由切换;
  随着语音技术的迅速发展,应用也随之不断深入,语音合成技术正日益在更广阔的范围内体现出其独特的优势,已由简单信息发布迅速向更加丰富的信息服务内容扩展。用户对电话信道上的语音效果提出了新的要求,要求更加人性化,更加亲切自然。基于运营商和集成商的新要求,并调查了最终用户的反馈意见,科大讯飞确定了新一代合成系统的发音风格,制作推出了新的女声音库。在制作新的音库时,对录音语料的选取上充分考虑了新闻、财经、电信等行业的内容,使新的音库能适合于更加广泛的应用范围。新的女声音库,由专业播音员录制,音质清脆甜美,节奏活泼自然,更加符合人性化合成语音的要求。

  除支持全新风格的女声音库外,InterPhonic 3.0语音合成系统也同时支持原有的语调平稳,语气正式的女声音库。InterPhonic 3.0允许客户选择安装两种音库中的任意一个,或者是同时安装两个音库。并且提供了这两种音库自由切换的功能。客户可以在系统运行的情况下,通过参数设置切换合成服务的发音人。这样客户可以根据业务的变化,选择更加适合应用需要的发音人,而使整个语音应用能提供给用户更加自然的感受。

2.中文合成技术和中英文混读合成技术方面都有新的突破;
  科大讯飞在中文语音合成的研究领域一直走在业界的最前列,InterPhonic 3.0合成系统发布版本中,将基础研究的重要技术成果成功转化到产品中,包含了在中文合成技术和中英文混读合成技术方面最新的成果。InterPhonic 3.0采用改进的单元挑选算法,并增加了备选语音单元的数量,使合成系统能更加准确选择满足实际应用环境的语音单元,不仅使合成语音更加自然,而且使系统在更大的应用范围下也能保证合成效果的稳定性。采用新的韵律预测算法,减少了合成语音中韵律跳跃的现象,保证合成效果更加的流畅。InterPhonic 3.0还采用了新的语音拼接的算法,解决了协同发音和单元衔接的问题,使合成语音更加的清晰。

3.在中文文本分析和处理的多个方面都有显著的改进;
  要正确的进行语音合成,必须要对输入的文本进行正确分析和处理,这个问题不仅牵涉到对文本进行语法层面的分析,还牵涉到对文本语意层面的理解,即自然语言理解层面,一直是研究领域的难题。科大讯飞的基础研究部门在文本分析领域的长期积累和不懈创新,保证了语音合成系统的文本分析能力在历次评测中一向都是最领先的,在实际应用中也得到了广大客户的一致认可。

  在分析了不同应用领域的文本特征之后,采用了统计和规则相结合的方法来进行中文信息的分析处理。收集了大量与客户的业务领域相关的文本和实际应用中需要合成的文本信息,在进行统计分析之后,进一步优化了统计模型和数据库,并且增加了大量的处理规则,提升了文本中词组的识别和特殊符号的处理的准确性。通过统计和规则的结合,系统既保证了对大量文本分析处理的正确性,也保证在一些特殊语言环境下分析处理的正确性。

4.支持定制资源包和行业专用版;
  InterPhonic CE 2.0开始支持以定制资源库的方式,提供针对具体应用领域的合成效果更加优化的系统。经多一年时间与客户的交流和资源的制作,科大讯飞已经可以提供证券、气象、保险、电力等行业的定制资源包。这些定制资源包在实际应用环境取得效果提高已经得到了验证。InterPhonic 3.0将继续对定制资源包这一重要特性提供支持,同时还将继续支持行业专用版,如银行专业版,以满足银行业日益增长的语音应用需要。

5.背景音支持;
  通过实验和对实际应用环境的考察分析发现,在合成语音或提示音中适当的添加背景音乐,可以改善用户在实际应用过程中的体验,使语音服务更加的亲切自然。在目前的电话语音应用中,如果客户希望实现背景音和合成语音的同步播放,必须了解一定的语音知识,学习使用专业的语音制作工具。科大讯飞考虑了客户的实际要求,在InterPhonic 3.0系统中实现了背景音的管理和与合成语音的自动融合。客户可以使用系统提供的工具,添加预录好的背景音乐,调整背景音乐和合成语音的音量的对比关系,并且可以试听增加了背景音之后的语音效果。在合成过程中,客户只需要在文本中添加CSSML标记,就可以通过序号引用已经添加的背景音乐。客户不需要开发工作,不需要修改已有的应用程序,就可以实现有背景音乐的语音合成功能。

6.用户提示音资源管理;
  目前的电话语音系统的业务流程中往往需要同时使用预录的提示音和合成语音结合进行提供语音服务。因此在应用设计和业务开发过程中,需要频繁地处理提示音播放与语音合成的切换以及之间的过渡衔接等问题,增加了流程的复杂程度。而提示音与合成语音的衔接处理不好,就容易造成语音差异明显,影响服务的整体效果与质量。

  InterPhonic 3.0中具有对提示音的统一管理和处理的功能。用户可以将提示音添加到系统中作为资源,并提供了自动或手动的方式调整提示音的语音特征,使提示音和合成语音合成更好的衔接。客户使用CSSML文本标记利用序号引用提示音,通过合成系统的开发接口得到的语音数据会自动处理提示音与合成语音的拼接问题。客户不需要的额外的开发工作就可以提升同时使用两种语音的情况下播报的语音效果。如果结合InterPhonic 3.0新支持的背景音特性,两段语音之间有背景音乐进行过渡,语音应用的效果将更加自然。

7.提供功能丰富、使用便捷的合成工具包。
  致力于语音合成核心引擎的纵深研发和不断提升之外,科大讯飞同时不断推出方便语音开发与应用的工具,帮助合作伙伴和客户提高语音应用的效果和效率。InterPhonic 3.0对语音合成工具包进一步进行丰富与完善,这里面既包括一些客户已经熟悉的TTS Doctor技术支持工具、CSSML Editor可视化编辑工具,还将新增性能评估计算工具,并完善离线语音合成套件等等。合理地运用这些工具,有利于合作伙伴和客户更好的维护与应用语音合成系统,缩短语音应用集成开发的时间。

  以上只是InterPhonic 3.0部分新特性的预览,InterPhonic 3.0同时还支持目前市场主流应用的InterPhonic CE 2.2的所有重要特性。我们相信,随着InterPhonic 3.0的推出,将促使语音应用迈上更高的台阶。

科大讯飞公司供稿 CTI论坛编辑



相关链接:
讯飞畅言语音教具系统荣获“创新软件产品” 2009-09-08
科大讯飞嵌入式语音新产品发布会在深圳举行 2009-09-07
“会说话”的显示屏提升居民小区信息服务水平 2009-09-07
讯飞语音助力太平人寿客服中心 2009-08-28
讯飞语音助力CDMA手机竞争终端市场 2009-08-14

分类信息:     技术_语音合成_解决方案