音频编码技术探讨及在广电中的应用

Broadcast and Production - - Contents - 李秋萍中国国际广播电台

李秋萍未来随着技术的发展和受众理念的变化,网络播出化需求越来越多,直播和录播的网络化播出是未来的趋势,随着硬件能力的提升,可以轻松实时完成复杂编解码算法;另外随着AOIP技术技术发展,利用虚拟声卡技术、分布式计算等云计算技术可进行大规模的虚拟化编码

声音的传播是以波的形式进行的,在物理学的角度是一种能量。在电声领域,发生设备在拾音、传输、放音的环节其实就是能量的转换,声音在拾音设备中从振动的声音能量转换为电能,电能传输至放音设备,从电能转换为振动的声能传输至我们人耳中,这是从能量角度的理解。从信息的角度理解,

字V U表。显示属性,可以自定义显示的属性。工作电平相当于调音台的工作电平。另外还可以进行通道属性设置,如图3所示:

主要项目有:峰值储备,即动态调整范围的最大值。线性输入的工作电平、峰值储备、修正为(4,18,0)的意义是当一个为(4+18+0/100)=22dbu的信号到达声卡时,数字V U为满刻度电平0d B F S。线性输出的工作电平、峰值储备、修正为(4,18,0)的意义是当一个0d B F S的文件播放时,声卡将输出(4+18+0/100)=22dbu的信号。2.发送阶段在节目发送时,即录制站新发节目时,对音频文件进行质量审核,检查文件格式、相位、电平、大块静 声音就是一种信源,而信源传递的信息可以理解为一系列的变化,因此在拾音环节,可以将声音理解为声的变化转换为电的变化,在放音环节,则可以理解为将电的变化转换为声的变化。在上世纪八九十年代,声音和电的转换和传输时以模拟信号为基础进行的,所谓模拟信号,就是通过一个感应设备,实时感应声的变化,实时转换为电的变化,实时传输,实时将电的变化转换为声的变化。以上的过程是连续的,其优势在于,可以完整的采集、传输、还原音频的信号的变化,没有信息的遗漏,完整还原;但是其也有天然的劣势,那就是在传输过程

音、故障帧等参数进行自动监测与分析,是否合格,以保证输出节目的质量。自动判断修改过的节目,及时分析处理,对音频文件的电平、相位进行校正和归一化处理。软件在后台配置录制站新发节目质量检测参数,包括检测反相、检测大段静音、检测坏帧、检测左右音量差异和检测电平。由于电台实用录制软件多进行语言类节目录制,所以平均电平正常范围在DBFS(-30、-5)。如图4所示:

如果待发送的新节目不符合参数条件,工作站软件会反馈异常信息,提示制作人员重新调整节目,如图5所示:

另外,工作站软件还部署同步检测服务器,开启播出库音频文件质量监测服务,对从制作同步到播出的所有音频节目,还会统一进行监测,进 行多次质量把关,对有问题的音频节目,及时分析处理,对电平、相位等进行校正和归一化处理,以提高节目播出节目质量。

四.总结

随着广播电视事业的发展,对音频节目质量的要求越来越高,提高音频节目质量一直是专业技术人员的最终要求。节目的录音制作是一项综合性的技术工作,涉及面很广。这就要求技术人员具有较全面的电声技术知识,利用活学活用现有的音频制作软 件,从而提高音频制作水平。B&P

中,信息难免会有损失,因为整个拾音、传输、放音是一个连续的过程,所以只要一有损失或干扰,听众就会有很直观的感受;这个缺点同时也存在于音频存储过程。所以模拟音频的缺点在于,抗干扰能力差。因此后续的技术在声音的传输之前和之后各加入了一个环节,即数模转换和模数转换,因此前文讨论的过程变为拾音-模数转换-传输-数模转换-放音,这个过程的作用是将模拟信号转换为数字信号,这其中已经涉及了音频编码,加入这两个环节的优点在于数字信号是不连续的、而且是电压值得判断,可以承受一定的损失,抗干扰能力强。随着网络技术的发展,音频开始在网络中传输,这又产生了新的问题,传统的数字信号在网络中传输占用很大的带宽,为了解决这个问题,产生了一系列压缩编码技术,将音频中的冗余信息去掉,减少了数据量,使音频信号可以在网络中传输。本文以下要讨论音频的数模转换过程,和音频压缩编码的原理,对比目前主流的音频编码技术,探讨在广电领域中音频编码技术的应用。

二.音频压缩编码技术探讨

1.模数转换

模数转换是将模拟信号转换为数字信号的过程,该过程分为采样、量化和编码三部分。采样过程是将连续的模拟电信号变为离散的数字电信号的过程,即在1秒内多次记录模拟电信号的幅度值,形成多个离散的幅度值,1秒内记录的次数为采样率,一般广播信号的采样率为48k H Z或44.K H Z,即每秒采样48000次或44100次。采样后,每个幅度值需要经过量化转换为可以用数字信号表达的值,量化即对幅度值进行分割,将无限多个幅度信号取值分割为有限个取值。分割完成后,编码部分就是将分割的幅度值,进行表达,即用二进制的形式记录每一个经过采样和量化的幅度值,形成二进制编码。在量化过程中,对幅度值得分割越精细,二进制编码中采用的位数越多,一般广播信号采用24位或者16位的位数记录音频信号的幅度值,即经过采样的音频信号的幅度值可以有2的24次方或者16次方种表示。以上过程就是模拟信号转换为数字信号的过程,在声音播放时,通过逆过程将数字信号转换为模拟信号进行播放。以上的编码过程称为脉冲编码调制Pcm(pulse Coding Modulation)技术。可以发现运用该技术对音频质量有两个关键的影响点,即采样率和量化位数,采样率越高、量化位数越多,音频的本身包含的信息量越多,但同时数据量越大。一般C D音质均用16位的量化编码,44.1k H Z的采样率,立体声声道,其1s的数据量为44.1k*16*2=1.411m,即1.41m b i t/s,这种数据量在网络传输中会占用较大的带宽,实用性差,因此后续发展的音频编码技术致力于降低音频中的数据量,为音频压缩编码。

2.音频编码技术原理

音频压缩编码分为有损压缩编码和无损压缩编码。

·无损压缩编码

无损压缩编码并没有减少音频中的信息量,其主要是根据 数据的统计学原理,进行数据压缩,可以完全恢复原始数据。无损音频压缩编码虽然没有减少信息量,但压缩比较低,一般可实现1.5:1至3.5比1的比特率压缩,取决于信息的复杂度。较为常见的无损压缩编码有Huffman 哈夫曼编码。其主要统计最频繁出现的信息,分配这类信息较低的比特;同时分配最不频繁出现的信息较多的比特,这样可以减低整个信息的平均码长,达到数据压缩的目的。

·有损压缩编码

有损压缩编码的主要原理是消除音频中的冗余信息,虽然是冗余信息,但也包含了一定的信息量,因此有损压缩编码对音频有信息损失,压缩比越高,损失越大。数字音频信号中的冗余可以分为时域冗余,频域冗余和听觉冗余。有损压缩编码就是去掉以上冗余信息,实现音频压缩的目的。其中时域冗余包括幅度冗余,即小幅度信号针对动态范围的数据位闲置;也包括时域上相邻信号间的相似性,可以通过相似信号的差值表达压缩数据,同时还包括信号周期的相关性。频域冗余主要表现为功率谱密度的非均匀性,即大部分音频低频的能量分布高于高频的能量分布。听觉冗余是主要的压缩依据,其主要原理是通过人耳的听觉特征,设计心理学模型,去掉音频中人耳无法感受到的音频信息,实现音频压缩的目的。应用最广泛的是利用人耳的掩蔽效应,如下图1所示,人耳掩蔽效应是指在一个频率上较强的声音可以掩盖对其周边频率内的声音,被掩蔽的声音本来是可闻的,但是由于有掩蔽声音的存在,变得不可闻。掩蔽声音对其周边频率形成的掩蔽阈值曲线,低于掩蔽曲线下的声音都被掩蔽,在音频压缩中可以去除掉。以上是频域掩蔽,时域掩蔽是指一个瞬时强音会对其前段时间和后段时间的弱音造成掩蔽,使其不可闻。

大部分低码率的压缩算法,充分利用了人耳的掩蔽效应,如子带编码。子带编码通过滤波器将音频分为多个子带,计算每个子带内的平均声级和掩蔽声级,对比心理学模型,确定量化位数,保证量化噪声不可闻,并将量化比特分配给可闻的音频。

三.几种音频编码技术分析

所有目前流行的音频编码技术主要是在三个方面进行取舍,音频信息量、压缩比、计算复杂度。音频信息量高,就意味着更低的压缩比,音频的数据量就大。如果要实现信息量高,同时压缩比低,就要采取比较复杂的运算过程。随着计算硬件能力的提升,目前高复杂的运算已经可以短时间内完成,因此高压缩比而且高保真度的音频压缩算法广泛发展。下文探讨目前比较流行的音频压缩算法。

·MP3编码

M P E G编码为1988年成立的图像活动专家组开发的,旨在为音频和视频开发数据缩减技术,其中M P E G-1分为三层,M P3为M P E G-1的第三层编码。主要使用A S P E C(A u d i o Spectral Perceptual Entropy Encoding)自适应谱分析听觉熵编码。MP3编码可以实现10:1到12:1的压缩比,使用可变换的编解码器,设计比较复杂,但是可以在较低的码率下获得中等的保真度。其普遍的码率为64K b i t/s,在该码率下依然能保证高品质传输,非常适合网络传输。

MPEG层3使用临界频带滤波器,把声音频带分成非等带宽的子带。心理学模型使用频域遮蔽和时域遮蔽特性,并考虑了立体声数据的冗余,用哈夫曼编码进行统计压缩。其编码过程为先将一个1152采样点的宽带数据块通过多相滤波器分为32个子带,每个子带进行M D C T变换,通过心理学模型进行动态的比特分配,最后通过霍夫曼和游程长度熵编码通过统计属性进行数据进一步的无损压缩。在编码过程中,帧与帧之间的数据率是可以变化的,通过心理学模型动态进行比特率分配,以此实现较少的比特展现相对饱满的音质。MPEG层3编码可以在多种立体声编码方法中选择,可选四种基本模式,包括普通立体声模式、相互独立的左右声道,M/s(mid/side processing)立体声模式,对整个频谱进行M/S编码;强度立体声模式,对低频进行左/右编码,对高频区域进行强度编码。

·AAC编码

AAC编码不同于传统的编码

A A C是M P E G-2中基于声音感知编码标准。在M P E G-4中也有改进。与M P3相同,主要使用听觉系统的掩蔽特性来减少声音的数据量。但各项指标方面更由于M P3编码。A A C支持8k H z到96k H z采样频率,支持5.1声道编码,最多可提供48个声道。压缩比可达到18:1。在聆听测试中,320b i t/s的多声道A A C编码在性能上超过了传统编码,基本很难区分还原声音与原始声音的区别。

AAC技术使用参考模型结构,该结构定义了各种接口,可以在三种不同的描述文件中进行组合,这种模块化结构使编码技术升级变得简单易行。AAC编码是MPEG-4标准中编码高质量音频工具的核心,并支持无损压缩编码。

·AC3编码

A C3编码也被称为杜比编码。基于感觉编码设计,设计初衷是应用于商业电影中,因此A C3编码支持多声道编码,支持5.1声道编码格式。5.1声道能以384b i t/s进行编码,压缩比可 以达到13:1.A C3编码支持32-640k b i t/s的多种比特率。编码器可以解码出环绕声、双声道立体声等多种格式。其优势在于可以将一组多声道音频高效率的编码为单一低比特率音频流。

四.音频编码技术广电的应用

目前广播电台已经实现了数字化的节目制作、播出和传输;同时随着新媒体的发展,网络化播出节目量快速增长,因此音频编码技术在广播电台中广泛应用。1.音频编码技术在广播电台中的应用在音频制作中,广播电台早已经完成了数字化制播,通过音频工作站进行节目制作,未来可能进一步向云制作过程转变。音频工作站制作一般采用无损压缩格式,如w a v格式,采样率为44.1k,16b i t或24b i t编码,立体声声道。w a v文件数据块由脉冲调制编码(PCM)格式组成,其中声道0代表左声道,声道1代表右声道。wav编码相对简单,属于无损压缩编码,作为音频制作端产出的节目,便于后续的压缩成文件播出或传输。w a v文件的缺点是占用存储空间大,对于多路节目播出的播出工作站来说,是较大的存储开销。因此需要进行文件压缩,目前大部分音频播出站采用m p3格式进行播出,而且很多广播电台音频素材库中的音频也用m p3的形式进行存储,m p3文件中包含I D3标签,包含了音频文件的标题、艺术家、专辑、年份、等种类信息,便于文件的分类存储和检索;同时m p3可以实现高品质的音频压缩,既保证了小的数据量,同时也保证了相对高质量的音频播出。随着网络技术的发展,以网络点播、组播的形式进行广播节目网络化播出的应用越来越广泛,网络播出音频主要是数据流的传输,由路由器进行复制和分发数据,同时实时传输协议R T P进行实时数据同步,通过Q o S服务保证协议保证传输质量,实时流传输一些(R S T P)专门进行流传输应用,将多媒体的系统开销降至最低。在信源编码部分,为了保证小的数据量传输,节省网络带宽,需要进行信源编码,在保证音频解码质量的前提下降数据量压缩至最低,应用比较广泛的音频编码有MP3、RM、WMA、AAC等。

音频编码在中国国际广播电台网络直播中的应用:国际台网络压缩系统从音频矩阵取A E S3音频信号,如下图2所示,传输至音频编码器进行编码,编码后传输至服务器提供网络音频直播服务。系统连接如图2所示:

国际台编码器采用V I E W C A S T公司的移动式编码设备niagaragostream,实时将aes3音频信号编码成mpeg-4 A A C音频格式进行网络直播,该设备具有简单的编码设定页面和远程编码监控页面,支持平衡、非平衡多种音频接口,可将单一节目源编码至不同码率、不同格式。在实际应用中,综合节目实际情况和带宽环境调整码率,一般对音质要求较高的音

乐节目码率为128kbit/s,普通节目码率为48kbit/s。

音频编码在中国国际广播电台传输系统中的应用:国际台传输至地球站的传输系统通过哈雷编码器接收切换器输出的A E S3信号,编码器统一编码为M P E G-2标准音频格式,M P E G-2的声音压缩编码采用与M P E G-1声音相同的编译码器,层1、层2和层3的结构也相同,但能支持5.1声道和7.1声道的环绕立体声。国际台大部分节目压缩码率为96k b/s,封装成TS流复用,通过ASI接口进行传输。如下图3所示。

音频编码在中国国际广播电台转播活动中的应用:在转播活动中,有时面对复杂的转播环境,或者重要的转播活动;需要利用网络通路作为主要或者备份传输通路。网络通路如果不是专线传输,网络环境复杂多变,而且如果通过无线网络传输,码率传输受到网络因素影响更大。因此需要采用压缩编码的方式减少码率,减少网络碰撞或堵塞,保证传输信息的完整度。

国际台采用COMREX公司的COMREX ACCESS设备完成转播活动,系统图如下图4所示所示:

利用COMREX公司的BRIC(BROAD Reliable Internet C o d e c,可靠的广播互联网编解码)技术,可以通过编解码算法,利用极小的带宽传输高质量的音频信号。该技术内置错误隐藏算法,容忍数据包丢失,将延时做到最小;采用智能抖动缓存管理技术,根据网络状况调整缓存大小,动态调整延时,使音质所受损失降低至最小。B R I C技术中运用三种编码算法,分别是BRIC-ULB、BRIC-HQ1、BRIC-HQ2,其中U L B算法压缩比最高,输出码率为14k b/s,音频质量相当于G.722标准,而码率只有标准的四分之一。G.722编码采样频率为16Khz,采用adpcm(adaptive different pulse code m o d u l a t i o n)自适应脉冲编码原理进行编码,只采用声音样本中增量变化的信息,低频部分被分配较多比特。H Q1算法支持双声道和立体声音频编码,可对音频上限为15k H z的音频进行编码,码率为28k b/s。h Q2算法码率为30k b/s,可以进行立 体声编码,能保证高质量的音频传输。同时该comrex access设备还支持m e p g等多种音频格式编码和无损编码的音频传输,可以根据实际使用情况灵活调整,国际台在应用中使用AAC编码较多。

2.音频编码技术在广电其他领域的应用

·AVS编码在国内广电中的应用

Avs(audio Video coding Standard,音视频编码标准)编码是我国自主研发的编码技术,主要分为系统、视频、音频、数字版权管理等四个主要部分。其中音频编码应用了感知音频编码框架,在地码率64k b/s的码率下,效果优于m P3编码技术。该编码标准最多支持32个主声道,输出码率为1696k b/s。目前a V S+编码格式广泛应用于国内卫星传输高清频道与地面高清频道;国内大部分有限电视数字机顶盒也内置A V S+芯片,并应用A V S+编码器。目前国内已经成了A V S产业联盟,未来在家电、广电、电信、音响等多个产业领域, AVS将得到广泛应用。

·CDR融合数字广播中的编码技术应用

Cdr(china Digital Radio)原为中国数字广播,2017年正式更名为融合数字广播(Convergent Digital Radio),是中国自主开发的数字广播标准,其音频编码部分采用D R A编码的地码率扩展版本D R A+,D R A编码是中国自主开发的音频编码标准,广泛应用于数字电视、网络、移动流媒体领域。D R A+编码增加了频带复制、参数立体声、分层模块等技术对Dra音频编码进行扩展,输出码率范围为16kb/s至384kb/s,其中码率为48k b/s的立体声编码音频收听效果优于f M广播,码率为96k b/s的立体声编码效果接近c D音质。目前国外,尤其欧洲正在逐步完成广播的数字化改造,中国该项工作也在稳步进行中。C D R已经完成了多个行业标准,并稳步推进标准的国际化进程。在实际应用中,相关设备包括、音频编码器、复用器和发射接收设备已经开始生产,并与多个厂商制定了C D R芯片和车载接收方案,中央覆盖工程也在稳步推进,目前使用各地现有的中央一套频率资源进行数字化改造,全国多个省市已经完成了台站建设。相信在不久的将来,中国将会实现用自主研发的音频编码技术进行数字化广播全覆盖。

未来随着技术的发展和受众理念的变化,网络播出化需求越来越多,直播和录播的网络化播出是未来的趋势,随着硬件能力的提升,可以轻松实时完成复杂编解码算法;另外随着AOIP技术技术发展,利用虚拟声卡技术、分布式计算等云计算技术可进行大规模的虚拟化编码。同时高品质的视频播出产生了多声道的音频编码需求,因此未来音频编码算法的还有很大 发展空间。B&P

参考文献

1.《浅析数字音频编码技术》,于丽娟,《山西电子技术》2006年第1期。

2.《数字音频编码及其应用》,汪波、黄佩伟、钟幼平、范戈,《信息技术》2006年第9期。

图5 检测结果

图3 通道设置

图4 检测选项

图1

图2

图4

图3

Newspapers in Chinese (Simplified)

Newspapers from China

© PressReader. All rights reserved.