对于中英文混合的语音合成问题,传统的解决方案是采用中文和英文两种合成引擎。合成时先将中英文文本进行分离,然后在不同的引擎下分别进行合成,最后将合成数据汇集输出。这种合成方法存在着中英文不同音、衔接部分跳跃大等弊端。另外,如果在传统的单一语种(如中文、英文等)语音合成方法的基础上开发不同语种的语音合成系统,可行性不大。
为了解决这个问题,科大讯飞公司将中英文混杂的文本作为“第三种语言”进行专门研究,并建立了一套综合考虑中英文混合情况的文本分析体系和韵律规则模型。根据这个开发思路,讯飞InterPhonic C&E Rev 1.0语音平台系统应运而生,成为了语音合成技术的“第三种引擎”。
系统的五项技术创新
(1) 多语种文本分析体系
该平台可同时对纯中文、纯英文或是中英文混合的文本进行相应的处理。该分析体系具有完备的文本分析知识库,并在人名识别规则、多音字处理规则、特殊符号处理规则的积累等方面具有优势。
(2) 先进的语言学层次结构体系
该系统将国内最新的汉语连续语流标注体系CToBI进行工程化应用,可以准确地对连续语流中不同层次的语言现象进行描述;同时采用先进的汉语语音韵律描述体系,提高了系统的整体语音效果。
(3) 基于数据统计和人工智能的韵律模型构架
该系统基于先进的大语种库语音合成方法,进行了超大规模的自然语流数据库的制作,并以此作为数据统计和机器学习的训练数据,建立了较为完善的基频、时长、能量、停顿模型。
(4) 具备改进型PSOLA算法的韵律调整功能
采用最先进的PSOLA语音算法工具,使得系统在语速调整和运行稳定性等方面有更优秀的表现。
(5)高自然度、高流畅度的语音合成效果
据权威机构评测,该系统针对新闻等不同文体的文本合成,均可达到4.3分(5分制)的自然度,能够适应多语种文本的语音合成场合。
系统的多行业应用
(1)电信业
除了能够完成电信业原有的114查号系统、话费查询、话费催缴、代缴以及电信法规、业务咨询等基本业务,还可以使电信运营商能够搭建各种电话信息应用平台,提供诸如预订业务、大众呼叫等多项增值服务。
(2)证券业
可以通过清晰自然的语音实现个人信息(包括资金、股份、委托情况、成交情况等)、股市行情(包括股票行情、指数、指标等)以及股评与业绩报告的实时查询,将证券业务拓展到通信网上。
(3)银行业
可使银行业客服中心实现账户资料查询、历史记录查询、利率汇率实时查询等多项动态查询业务,同时可以帮助电话银行扩展自动服务的业务种类。
(4)保险业
能够提供公司的公共信息、客户保单信息、业务员认证信息的动态查询服务,改变了目前保险业客服中心可操作性差的弱点。
(5)电力行业
可以向用户提供业务受理进程查询、电费额明细查询、电费催缴、故障通知及其他各类信息咨询,并可在此基础上,利用已有的资源开展外包业务。
(6)邮政行业
可以帮助邮政客户服务中心以一个统一的服务平台面向用户,融合包括邮政金融、邮政特快、报刊发行、集邮等在内的各项邮政服务,为用户提供咨询、查询、受理以及投诉等多项业务。
此外,采用语音合成技术可以改变原有声讯平台服务种类单一的弱点,开展诸如考试查分、广播电视节目的动态查询、节目的实时点播与点评、电话学位防伪查询系统、电话产品防伪等业务。(科大讯飞公司供稿)