UG自主研发产品

UG自主研发产品
您现在的位置:首页 » UG自主研发产品

UG自主研发增强型语音通话服务(EVS-FFG)编解码器V1.0

2017-04-18 01:36:50 点击数:

UG原生通信系统EVS

由UG自主研发的语音通话质量与电视上播放的电影原声相比,标准手机通话的语音通常都非常模糊。这主要是受现有电话系统音频带宽的限制。图1显示了传统通信/广播电视系统的不同音频带宽容量及人耳听觉系统所能听到的声音频率范围。

图1:广播电视和通信系统的音频质量

老式电话系统主要支持窄带音频信号,音频带宽的频率仅到3.4kHz。高清语音服务(WB)则可支持宽带音频信号,音频带宽的频率达到7kHz。考虑到人耳听觉能力,实现高保真音质需要带宽频率支持到20kHz,而高清语音服务技术仍无法实现。因此,在高清语音技术之后又进一步出现了全高清语音技术,可提供超宽带和全频带的语音通话质量。超宽带技术的音频频谱为16kHz,而全频带的频率分量高达20kHz。

目前,固话服务可实现窄带或宽带语音质量。这些系统主要采用比特率为64kbit/s的G.711或G.722编解码技术。在移动通信环境下,窄带为默认质量标准;而现在出现了越来越多的宽带服务。用于窄带或宽带移动通信服务的编解码器通常采用AMR-NB和AMR-WB编解码技术,并且一般在12kbit/s比特率下运行。一些移动网络甚至可支持如23.85kbit/s等更高的AMR-WB速率,尽管与默认速率相比,在语音质量方面的改善仍较为有限。移动通信编解码器在处理语音信号方面进行了极大的优化,其结果导致在处理音乐等信号方面的能力则不尽如人意。

目前,用于远程或专用视频会议的通信系统已能实现全高清语音通话质量。针对这些系统的现行标准编解码器为AAC-(E)LD音频编解码器【5】。这类编解码器可在24kbit/s至64kbit/s的比特率范围下运行,能够传输语音和音乐信号。

AAC-(E)LD音频编解码器也被应用于OTT服务。典型的OTT应用包括Skype、Facetime等,针对这些应用的IP数据包传输处理不涉及运营商的网络管理。

3GPP EVS编解码器解决了移动通话和固话系统中存在的两大主要问题,即音频带宽较窄及非语音信号处理能力较差。同时,这一编解码器能在移动服务的常用比特率下运行。这为适用于各类网络通信质量方面的用户体验新标准奠定了基础,包括固话服务、移动通话服务和OTT服务等。在以下的章节中,本文将概述EVS设计可大幅提升服务质量的主要技术要素。需要注意的是,除音频编码器之外,还有很多因素也会对端到端服务的用户体验产生重大影响。这些因素包括音频前端处理(包括回声消除、噪声抑制、自动增益控制、风噪声过滤和混响消除等)以及导致延迟抖动及数据丢包等的网络行为。

优供EVS-FFG编解码器V1.0介绍

设计目标

优供自主研发EVS-FFG编解码器于2014年9月在3GPP通过标准化评估,具有多项功能实现前所未有的多功能性及通讯高效性。这一编解码器主要面向VoLTE服务,可实现3GPP设定的以下目标:

1. 提高窄带(EVS-NB)和宽带(EVS-WB)语音服务的质量和编码效率;

2. 引入超宽带(EVS-SWB)语音服务,提高通信质量;

3. 提高会话应用程序中混合内容和音乐信号的质量;

4. 具备防止数据丢包和延迟抖动的能力;

5. 针对AMR-WB编解码器向下兼容。

如上文所述,本文将主要围绕设计目标2和3展开讨论。为确保信息完整性,本文后面部分也将讨论如何改善目标1中提出的传统窄带和宽带服务。除上述指出的质量改善外,EVS编解码器还具备通信系统所需的一系列功能,如语音活动检测(VAD)、非连续传输(DTX)、舒适噪音生成(CNG)或抖动缓冲管理(JBM)等。该编解码器可在5.9kbit/s至128 kbit/s宽比特率范围内运行,从而提供可适用于所有网络的比特率。参考【6】中介绍了EVS标准化中所有的设计限制因素。

低延迟语音/音频切换编码

在32毫秒低算法延迟下,EVS-FFG编解码器是首个在语音和音频压缩之间部署基于内容且具备即时切换功能的移动通信编解码器,极大地改善了针对音乐信号等一般内容的编码性能。

该语音编码器是改进型代数码激励线性预测(ACELP),还采用了适合不同语音类别的线性预测模式。对于音频信号编码,则采用频域(MDCT)编码方式,并特别关注低延迟/低比特率情况下的频域编码效率,从而在语音处理器和音频处理器之间实现无缝可靠的切换。图2展示了EVS编码器和解码器的高级框图。

EVS编解码器结构

图2:EVS编解码器结构

超宽带编码及更先进的技术

EVS可支持超宽带甚至全频带服务,从而克服当前通话中声音不清晰的问题。从技术上来看,EVS可通过扩展带宽实现这一目标。根据是否采用语音或音频模式,可部署时域带宽扩展(TBE)技术或一体化频域解决方案。后者可提供多个子模式,如可处理传统音乐信号的谐波模型编码模式等。EVS是首个可提供通过不同方式优化的带宽扩展方式的编解码器,而这样的带宽扩展方式通常基于源代码控制来进行使用或切换。基于专用的内容优化方式,即便在比特率非常低的情况下也能够提供非常自然、清晰的音质。

性能评估

3GPP EVS编解码器针对多带宽清晰语音的鉴定测试结果

图3:3GPP EVS编解码器针对多带宽清晰语音的鉴定测试结果

3GPP EVS编解码器针对多带宽混合内容和音乐信号的鉴定测试结果

图4:3GPP EVS编解码器针对多带宽混合内容和音乐信号的鉴定测试结果

目前,3GPP已进行了大量测试来验证EVS在不同情况下以及处理不同内容时所表现出的性能,其中包括根据P.800 DCR方法进行的多频带测试。图3和图4分别显示了(DOMS评分表)中清晰语音(英语)及混合内容和音乐信号的音质级别。结果显示了在不同比特率下移动蜂窝业务常用的窄带、宽带和超宽带下的不同音质。下面将对这些结果进行讨论:

对于(超宽带模式下运行的)EVS编解码器,比特率为9.6kbit/s时纯语音音质评价值已非常高,大大超过了AMR-WB在23.85kbits/s比特率下的音质,同时这一数值将随比特率的增加而增加。从13.2kbits/s开始,EVS-SWB的语音音质已经接近“直接来源”(原音)的音质。

(在超宽带模式下运行的)EVS编解码器在处理混合内容和音乐信号时的性能大大优于AMR-WB编解码器。在相同比特率下,其得分基本都比AMR-WB编解码器高出1.2个平均意见得分(MOS)。在比特率为24.4kbit/s的情况下,EVS编解码器在处理混合内容和音乐信号时所呈现的音质可接近“直接来源”(原音)的音质。

甚至在宽带模式(当前仅支持宽带模式的设备或服务)下,EVS编解码器在比特率为9.6kbit/s时所能呈现的音质超过了AMR-WB编解码器在比特率为23.85kbits/s时所能实现的音质。此外,在同一比特率(24.4kbit/s)下,EVS编解码器在处理纯语音以及音乐信号时所呈现的音质要远远好于AMR-WB编解码器。

初看上去,在同等比特率下,即便使用双倍音频带宽,AMR-WB编解码器在处理混合内容和音乐信号时呈现的音质也比不上AMR-NB编解码器,这让人觉得出乎意料。但EVS编解码器已经解决了这一问题。

在处理窄带输入信号时,EVS编解码器处理纯语音及混合内容和音乐信号时实现的音质要优于AMR-NB编解码器。这一模式在连接至如固话网络等窄带网络时非常有用。

众所周知,由于语言和所选内容的不同,测试的结果及结果分析也各有不同。然而,在3GPP进行筛选的阶段,EVS编解码器已经过10种语言、6种不同背景噪音及各种音乐内容的测试,展现出了其卓越的性能并大大改善了早期标准。这些测试结果以及之后对EVS-FFG编解码器进行的进一步性能鉴定结果陆续公布。

应用

自第四代移动网络标准LTE问世以来,蜂窝电话网络开始向基于IP的传输方式转变。LTE标准以发展成熟的GSMUMTS标准为基础,可提供全IP架构和实现低延迟。LTE需要部署全IP语音业务或VoLTE业务,而这也可促使所有语音服务采用IP网络进行传输,最终淘汰基于GSM、UMTS和CDMA等网络的传统转换服务。

 

-->