国际领先的“得意”声纹识别引擎_语音识别

国际领先的“得意”声纹识别引擎

2005/07/20

　　得意公司的声纹识别引擎（d-Ear VPR）包括声纹辨认版本和声纹确认版本，可以是文本无关的，也可以是文本相关的，而且均支持开集的识别方式。其中文本无关的版本同时具有文本和语言的无关性，对语音长度的要求也非常低，通常训练只需要几十秒有效语音，而识别阶段只需几秒钟的有效语音即可。有很高的识别精度，也可以灵活地调整操作点参数从而适应于不同应用的需求。

"得意"声纹识别引擎具备以下技术特征：

对声纹的识别与所说的文本和语言无关性。用户训练系统和系统对用户的声音进行鉴别和确认，可以是完全不同的文本，完全不同的语言。比如，在用户在系统注册声音时，可以使用中文说一段文学章节，而识别时用户可以用英文谈论计算机的发展方向。

对语音长度没有特殊要求。训练语音最长8秒，使用时的测试语音2-4 秒，并可不断累积调整声纹模型精度；用户训练系统，让其记住其声纹，只需要几秒种的声音；而在识别时，系统只要获得被测试人几秒的声音，就可以进行声纹识别。

很高的精度。d-Ear VPR技术的辨认和确认准确度都很高，说话人辨认的正确率不小于99%；说话人确认的误识率和误拒率均低于1%；

识别速度快，能确保实时识别。声纹识别引擎具有十倍以上的实时率，可多路并发识别，即10秒的语音片断，引擎1秒内就可以处理完成。

操作点调整方便：根据"准确率＋不确定率＋错误率＝100%"，可按不同的应用需求调整操作点阈值，使最终准确率达到最高或使错误率降到最低。

声纹模型存储空间小：每个人的声纹模型存储空间小于5KB。

高安全性，不怕录音冒用：如果别人用各类录音设备（比如录音机、MP3、录音电话、窃听器、高精度的专业录音系统等）事先录下您的声音，即使录音设备很先进、录音效果非常好，在把录音回放尝试进行声纹身份认证时，声音信号经过模拟到数字、再从数字到模拟的两次信号转换过程，声音的频谱就会有明显的衰减和失真，这种失真很容易被声纹加密锁的认证程序分辩出来。所以依靠录音去尝试登录，不能通过声纹认证，也就是说，通过录音不能冒用身份。

"得意"声纹识别技术与其他声纹识别技术的比较

	得意声纹识别技术	其他声纹识别技术
1	具文本无关性，确保了身份确认的安全性和用户的方便性　　对声纹的识别与所说的文本和语言无关,用户训练系统和系统对用户的声音进行鉴别和确认，可以是完全不同的文本，完全不同的语言。比如，在用户在系统注册声音时，可以使用中文说一段文学章节，而识别时用户可以用英文谈论计算机的发展方向。	与文本相关，安全性和使用方便性都显不足　　对声纹的识别与所说的文本和语言相关,用户训练系统和系统对用户的声音进行鉴别和确认，必须是完全一致的文本，使用相同的语言，容易导致口令的外泄。
2	对语音长度没有特殊要求，方便实际的应用　　使用时的测试语音2-4 秒，并可不断累积调整声纹模型精度；用户训练系统，让其记住其声纹，只需要几秒种的声音；而在识别时，系统只要获得被测试人几秒的声音，就可以进行声纹识别。	要求进行特定的语音训练，用户需跟着朗读和学习，方便性和实用性不强
3	很高的精度　　得意的技术辨认和确认准确度都很高，说话人辨认的正确率不小于99%；说话人确认的误识率和误拒率均低于1%	精度一般　　识别精度约为90％，误识率和误拒率相对较高
4	操作点调整方便　　可根据实际情况和环境，按不同的应用需求调整操作点阈值，使最终准确率达到最高或使错误率降到最低。	没有操作点调整功能　　不同用户和不同的环境使用只能使用同一模型，不能确保高的安全性和准确率
5	声纹模型存储空间小　　每个人的声纹模型存储空间小于5KB，能可靠地存储于加密钥匙内，与硬件紧密结合能最高程度地保证系统的安全性，防止非法的攻击和窃取	声纹模型存储空间小　　不能存储于加密钥匙内，没有硬件的保护，不能有效防止非法的攻击和窃取

得意音通公司供稿 CTI论坛编辑