1.回波抵消与语音打断技术
一般用户可能对DTMF抢拨的概念比较熟悉,其实语音打断相当于在语音识别过程中的“抢拨”,有了这一功能,使用语音识别系统时就不必等待“嘀”声之后才能讲话了,而是可以随时用语音打断提示音,直接进入语音识别(这一过程称为barge in)。这个功能也可用于自动留言系统,同样不必等待“嘀”音即可开始留言录音。实现这一功能的重要基础是实现回波抑制,只有实现了完全的回波抑制,语音卡所接收到的信号才是“纯净”的来自对方的语音,而不再含有提示语音的回波成份,然后再附加一些波形分析,用于区分噪声和人声,就可以实现效果较好的语音打断功能了。
电话线路上回波产生的根源是线路阻抗不平衡,由于话机阻抗一致性较差,电话用户线长度不一,单独依靠硬件电路是不可能实现较好的回波抑制的。三汇语音卡采用了自适应回波抵消技术,由DSP执行数字信号处理算法,可以自动跟踪线路阻抗情况,将回波抵消算法调至最佳位置。三汇语音卡的回波抵消功能达到了G.168电信级回波抵消算法的要求,而这一功能原先只用于卫星电话等高端应用。有了自适应回波抵消功能,使得语音卡在以下几个方面的性能得到极大的提高:(1)DTMF,信号音(忙音等)的检测不再受放音的干扰,其接收效果与静音状态完全相同。(2)可以实现上面说的barge in的功能。(3)在作为IP网关等延处时较大的应用时,通道远端将不会听到自己讲话的回音。(4)在电话会议应用中,可以准确地分辨话音、DTMF、忙音等信号自来会议的某一方,并且完全消除了自激的可能性。
2.DTMF和信号音精确检测技术
DTMF信号的精确检测,是证券电话委托等IVR系统的关键性指标。而信号音的精确检测则在自动拨号过程中和及时检测对方挂机方面有重要作用。三汇语音卡采用DSP数字信号处理技术完全取代了专用芯片进行检测的方式。DSP中运行了三汇公司自行研制的高性能算法,采用FFT频域分析和时域分析相结合的方法,将待检测的信号与语音和噪声进行精确分离,从而使混杂在语音和其它噪声中的信号音的检测效果大大优于专用芯片,经实际测试,在大音量播放三汇公司的汉字语音库的同时,拨入DTMF号码,其正确接收率高达99.9%,效果接近于无声状态。
三汇语音卡每个通道均有4个独立的带通滤波器用于信号音检测,每个滤波器的频率带宽等参数均可调节,使得三汇语音卡能检测各种类型的忙音、回铃音、传真呼叫音等信号音,可以支持单频或双频的信号音,还可以同时检测两种信号音,例如在小交换机应用时,同时检测来自外线和内线的忙音,并加以区分。由于DSP算法的灵活性,用户可以对信号音检测的各类工作参数进行方便地设置,必要时还可以根据用户需求检测未知的特种信号音。
3.7号信令与ISDN解决方案
7号信令以其可靠性、快速性和功能强大的特点,正逐步取代1号信令。ISDN由于具有可以开通数据业务的特性,也已在用户数字中继线上获得应用,在E1线上的ISDN业务称作ISDN PRI,又称30B+D,其30个B通道对应于数字中继卡的30个时隙,既可以开通普通电话语音业务,又可开通INTER网接入等数据业务。
三汇公司的数字中继卡提供最为高效、简洁、灵活的7号信令和ISDN解决方案,三汇数字中继卡采用卡上的DSP软件处理全部信令接续功能,无需专门的信令卡。只要上载不同的DSP软件,即可在同一块卡上处理1号,7号和ISDN信令,无需增加或更换板卡,这一特性极大地方便了系统升级。
单块数字中继卡能够同时处理两个7号信令链路,并可实现整个系统中所有的信令链路之间的负荷均衡和热备份倒换和倒回。一个典型的采用三汇数字中继卡的7号信令系统,如下图所示:
数字中继卡上的DSP完成7号信令MTP第一至第三层的信令链路处理,由驱动软件完成TUP和ISUP层的协议处理,包含有7号信令链路的微机作为server,通过TCP/IP协议为其它不包含信令链路的client提供接续控制。
4、分布式电话会议技术
传统的语音卡系统需要开通电话会议功能时,通常需要配置专门的电话会议卡。三汇语音卡利用卡上充足的DSP资源,推出全新的分布式电话会议概念,即每个通道都有自己的电话会议资源,参加会议的发言者将发言内容传送到总线上,会议的听众(包括发言者本身),从总线上取得全部发言信号,在本通道的会议混音器内完成会议混音,并按照通常会议卡的功能对会议信号进行音量均衡处理,取得完美的电话会议效果,还可以将整个会议的内容自动进行录音并保存为单一的文件。
由于会议的资源是分布在各个通道,因此电话会议功能可以具有极大的灵活性,只有一块卡的小系统也可以拥有电话会议功能,既可以召开所有通道参加的大会议,也可以同时召开一系列参加人数不同的小会议,会议功能的各项指标,如会议数目,会议参加人数,发言人数等基本上都不受限制。下图以一个三方会议的实现说明分布式电话会议的概念。
5、语音压缩与WAV文件格式
电信局交换机常用的数字化语音数据是PCM格式,其采样速率为8000次/秒,频率响应为300~3400Hz,以8bit表示每一个采样点,采用Alaw或μlaw非线性编码,音质大致相当于13~14bit的线性PCM编码。这一编码方式的数据速率为64kbps,或8kbytes/秒。普通的语音卡一般采用Alaw或者μLaw语音格式。三汇语音卡利用DSP的强大运算能力,可同时支持这两种格式的语音文件,还能够支持ADPCM格式,将数据速率压缩至32kbps,还可以实现不同的通道同时以不同的语音格式进行录放音,从而使系统可以支持不同格式的提示音在不同的通道同时播放而不必预先转换格式。三汇的IP语音卡和录音卡还支持G723.1和G729A/B的语音压缩格式,数据可压缩至5.3K和6.4kbps,压缩率高达1/12。采用较高的压缩率,可以大大减轻主机CPU负荷,使得单机可支持的工作通道成倍增加。三汇语音卡还是目前唯一支持直接以WINDOWS标准的WAV格式文件进行录放音的语音卡和录音卡。无论是Alaw,μlaw,还是ADPCM和G723.1均支持WAV文件,这一特性使得语音卡使用的语音文件可与声卡等多媒体设备直接互换,而不需要进行格式转换,还极大地方便了使用功能强大的语音编辑软件如cooledit等对语音文件直接进行编辑和处理。
6、PCI总线与H.100总线
PCI总线是新一代PC的外设扩充总线,目前在商用PC机中已逐渐取代了ISA总线的位置。三汇公司的语音卡产品也适时推出了全系列的PCI总线的语音卡和录音卡。原来的ISA总线的模拟卡、数字中继卡和录音卡型号,基本上都有相应的PCI总线的型号。PCI总线上还新增了一些高密度产品,如4E1数字中继卡,32路IP资源卡等。
PCI总线的突出优点是数据传输速度快,32位总线采用33M时钟频率即可高达133Mbyte/s,远高于ISA总线的667 kbytes/s。用于语音卡时,实际数据传输速率可以比ISA总线高6-12倍,在同样通道数的情况下,用于数据传输的CPU时间可以大大节省,也就是可以在一台微机内容纳更多的通道,三汇PCI语音卡无论是数字卡还是模拟卡,在一台微机内可支持480个通道同时录音或放音,考虑到部分通道处于接续状态,实际单机可安装的通道数还要高于这一数字,PCI总线使得单台微机高密度应用成为可能。
PCI总线的另一显著优势是可以使语音卡成为即插即用(PNP)设备,安装PCI语音卡就象安装PCI的声卡、网卡一样方便。用户可以省去一大堆繁琐的I/O地址和IRQ设置,并且不用担心出现资源冲突而导致安装失败。
H.100总线标准是ECTF(CT厂商论坛)确定的CT产品互联标准,这一标准结束了语音卡卡间交换总线的标准之争,统一了 Dialogic公司的SC总线和其它厂商的MVIP总线。并且能够提供高达4096个时隙的交换能力,适应于PCI语音卡的高密度应用。这一总线还能通过简单的无源适配器与原有的MVIP总线互联,也能于三汇公司ISA语音卡上的ST-BUS互联。三汇公司的PCI语音卡全部采用了完整的H.100总线,可与任何支持CT-Bus H.100的设备互联。
适用于CT语音系统的PC总线的又一进展是CPCI总线(Compac PCI)。这一总线在电气特性上与PCI总线完全相同,但支持热插拨功能,并具有不同的物理结构和尺寸标准,与之相配套的卡间交换总线是CT-BUS H.110标准,同样支持热插拨。CPCI总线的这一特性使得语音卡可以进入高可靠性要求的电信级应用,大大缩短了故障恢复时间,并可以在不间断服务的情况下进行系统扩容。三汇公司已开始进行CPCI语音卡的前期研究,不久将推出全线高端产品支持CPCI总线。
7.FSK通讯技术
FSK即频移键控调制技术,是一种在电话线上进行数据通讯的手段,通讯速率可高达1200bps或2400bps,是用DTMF信号进行通讯的30至60倍,在一定程度上可以起到调制解调器(MODEM)的作用,但其实现手段比MODEM简单,成本也低。FSK的一个典型应用是用来传送电话主叫号码(Caller_ID),使用FSK方式可以比DTMF方式传送更多的信息,例如时间和主叫方姓名等。三汇语音卡采用DSP技术实现了完全附合标准的FSK信号接收和发送,除用于接收来电号码之外,还可应用于通用的数据传输领域,例如与PDA配合实现股票信息的快速下载,作为远程抄表系统的中心端与前端配合实现远程抄表系统等,这类应用其前后端的复杂性和实现成本均远低于采用普通MODEM的方案,非常适用于速率要求较低的数据通信场合。
8.多层结构驱动软件与S.100标准
众多的语音卡厂家都有自己的驱动软件体系结构和API接口标准,这给用户带来了较大困难,采用某一种语音卡的API编写的应用程序不能很容易的移植到其它厂家的产品上。ECTF针对这一情况,发布了S.100软件标准,该标准将CT产品的软件结构分为多个层次,并且定义了层次之间的接口标准及最终的API标准。三汇语音卡的设备驱动软件参照S.100标准,分为三个层次,最底层是硬件层,完成对语音卡硬件的全部操作,中间层是系统服务层(SSM),提供与语音卡硬件无关的基本功能调用,最上层是API层,是基于系统服务的功能调用来完成的,各个层次间都有固定的接口标准。这一体系结构使得三汇语音卡在兼容性上具有极大的优势,当驱动软件支持新的语音卡产品时,只要新增一个最底层的设备驱动即可,SSM服务器和API层不必作改动。这样不仅实现了三汇语音卡之间自身的兼容,还可以通过SSM提供的基本功能调用组合,实现与其他厂商的驱动软件API相兼容,三汇语音卡驱动软件目前已成功兼容国内外部分语音卡产品的API,原使用该API的用户软件可以不作任何修改直接运行在三汇语音卡上。下一步三汇语音卡的目标是兼容S.100标准所提供的API接口,并兼容大部分国内外主流语音卡厂商的API标准。
9.传真/MODEM资源与模拟串口技术
三汇语音卡系列中传真/MODEM资源卡能够为CTI系统提供完善的传真解决方案。三汇传真卡采用标准的33.6K MODEM芯片作为基本硬件配置,既能实现速率最高为33600bps的点对点数据通讯,又能实现最高速率为14400bps的Group3传真的接收和发送。驱动软件能够自行管理传真收发的过程,用户只要指定收发传真的文件名即可,编程极为方便,驱动软件还支持将文本格式或图像格式与传真文件之间互相转换。三汇传真卡的软件还能通过打印的方式将任何可打印的文件转换为传真格式,例如WORD文件、PDF文件等均可方便地转换。
三汇公司的传真/MODEM卡驱动软件还采用了先进的“虚拟串口”技术,即在WINDOWS 95/98或WINDOWS NT系统下安装驱动软件,能够产生虚拟的COM口,有几个传真通道即产生几个COM口,采用该技术后,用户原来基于标准串口的应用程序可以不加修改直接运行于三汇传真/MODEM卡上,基于CAPI或TAPI有关串行口部分的应用也可直接运行。这一技术相当于实现了多用户卡与多个MODEM的组合,用户原先基于这类配置的系统也可直接运行于三汇传真/MODEM卡上,使得系统更为简洁,可靠性大为提高。
10.IP电话网关解决方案
IP电话以其节省话费的显著优势,正处于快速成长期。企业级的IP电话的常见的解决方案是采用IP电话网关来获得传统的PBX与IP网络之间的连接,其结构如下:
企业级的IP网关一般采用专用设备,例如具有IP功能的路由器等。该类设备价格较高,并且可扩展性和升级性方面有一定的局限。采用在CTI领域广泛应用的电话语音卡基于PC平台来构成IP电话网关,不仅可以实现专用设备的全部功能,还具有一系列的优势。
电话语音卡在IP网关中的典型应用结构如下:
在PC机平台内,可插入三种不同类型的语音卡,中继卡用于连接企业原有的用户交换机,使得分机用户可以通过IP网络接打电话,中继线可采用模拟线或数字中继线、座席卡用于直接连接电话用户,常用于没有用户交换机的场合;传真卡用于完成IP网络上的传真中继功能。所有的语音卡之间采用卡间交换总线相连,以便实现互相通话和传真资源共享。PC平台内一般还需要网卡实现与INTERNET的连接。网关软件是该IP网关的关键部分,完成对语音卡的控制和IP协议处理。
采用语音卡和PC平台构成IP网关相对于专用设备来说,具有明显的优势:
1.成本较低。这一点在采用国产语音卡时更为明显。并且系统容量(通道数)越多,成本优势越明显。
2.配置灵活。可以实现内外线和传真资源数量的任意配置。
3.软硬件扩充性和升级性好。只要增加板卡即可增加系统容量,网关软件可随时方便地升级,适用于新的标准或增加新功能。
4.便于和CTI系统进行系统集成,实现INTERNET呼叫中心。
5.功能强大,除了可以实现IP网关功能,还可实现企业用户交换机功能。
当然由于语音卡的固有特性,这类系统也有不足之处,主要表现为可靠性较专用设备低,还与PC机平台及操作系统的稳定性有关,并且不能实现热插拔功能,停机至重启动需较长时间。但这些缺点对企业级应用并不构成大的障碍。
语音卡在IP应用中的技术关键与IP电话的技术关键是一致的,主要是以下几个方面:
1.语音压缩:可以由语音卡上的DSP完成,也可以由PC机软件完成。当通道数较少时,首选PC机软件,可以节省硬件成本。
2.回声抵消:由于IP电话的延迟较大,必须由语音卡作近端短延时回波抵消,一般由语音卡上的DSP执行自适应算法实现。
3.传输延时:语音卡及其设备驱动程序改进后,可将附加的数据延时减小至8ms以内,大大小于压缩算法和网络传输的时延,基本上可以忽略。
4.传真接续与DTMF接续:目前通常采用传真存储转发的方式解决IP电话上的传真接续问题,延迟时间仅几十秒,在可以接受的范围内。对于DTMF等音频带内特殊信号,采用检测→合成的办法进行接续,保证信号不会由于语音压缩而受损。
根据以上的分析,采用语音卡和PC机作为IP电话网关的硬件平台,具有多方面的优势,目前三汇公司的SHP系列语音卡已经成功地运用于IP电话网关,用户使用情况良好。随着该系列语音卡为这一类型的应用再作进一步的改进和完善,将更加推进语音卡与IP电话的有机结合。
11.三汇语音卡与DSP技术
三汇公司是国内最早全面采用DSP技术的语音卡厂家之一。2000年初,三汇与Ti(德州仪器)全面合作,在语音卡上全面使用了Ti最新的DSP芯片TMS320C5402,该芯片是专为多通道语音处理而优化设计的DSP芯片,处理能力高达100MIPS,并且设计有与音频芯片直接接口的高速多通道串行口,还有与PC机CPU直接接口的并行口(HPI),通过HPI接口,主机CPU可直接访问DSP芯片内部的程序空间和数据空间。正是由于这一特性,使得语音卡的设计变得较为简洁,可靠性也大为提高。
由于C5402芯片不仅有极强的数字信号运算能力,还有较强的事务处理能力,因此三汇数字中继卡的7号信令和ISDN协议的处理也完全由卡上的DSP完成,而不再需要在卡上安装通用CPU了。
由于DSP的应用,使得三汇语音卡在许多方面的性能都得到了极大的提升,其双音频和信号音检测的准确性,大大超过常规电路,并实现了分布式的电话会议等复杂的功能。由于DSP芯片上运行的程序是在每次初始化的时候由驱动软件装载的,因此不需要改变硬件就可以为语音卡增加新的硬件功能或是处理不同的信令协议标准。
12.语音卡的模块化技术
早期部分国内语音卡曾经采用交换机模块作为语音卡的电话接口部分,由于交换机模块不是专为语音卡设计的,存在体积较大,接口总线不能标准化,品质不易控制等诸多问题。为此三汇语音卡同国际主流产品一样采用了一体化结构,无论电话接口部分和数字信号处理部分均完全采用自行设计的电路,较好地保证了语音卡可靠性,线路阻抗特性也完全可以控制,以便符合电信进网要求。
但是这种单体结构也存在一定的局限性,主要是通道类型和通道数量固定,单块卡通常是4或8的信数,只能是固定的外线或座席通道。三汇公司针对这一局限性,提出了语音卡设计中全新的模块化概念:即采用完全自行设计定义的通用型语音卡底板和模块,这样使得三汇新一代模块化语音卡兼具采用交换机模块和一体化结构的优势,又克服了两者的局限性。三汇定义了统一的模块接口,使得一块底板的全部通道可以使用外线座席、录音等任何一种三汇公司的模块。三汇语音卡的底板上还可以安装铃流,馈电(升压逆变)模块,可以实现真正意义上的一体化系统。以典型的SHT-16A型模块化语音卡为例,该卡可以实现16个通道以内的外线和座席的任意配置,还带有铃流收发器和馈电,采用RJ45插座引线输入,无需外置接线盒,真正的实现一块卡上的呼叫中心。模块化技术还有利于用户今后的扩容升级或结构调整。
杭州三汇公司供稿 CTI论坛编辑