Digital Communication World

The MPEG-H TV Audio System and its Developmen­ts in Internatio­nal Standardiz­ations (I)

-

Stefan Meltzer, Max Neuendorf, Jan Plogsties, Robert Bleidt ( Fraunhofer Institute for Integrated Circuits (IIS) )

Abstract: The article introduces the major features of the MPEG-H TV Audio System and its core elements. The MPEG-H TV Audio system has been adopted and fully specified in the ATSC 3.0 Digital Television standard. Its features include immersive and interactiv­e sound, which have been key requiremen­ts of a future TV broadcast standard in order to bring added value to the viewers. The article also describes the major steps in the process of the standardiz­ation and, necessary considerat­ions regarding the commercial roll out of the next generation TV standard.

Keywords: MPEG-H TV Audio; 3D Audio; Immersive Sound; Interactiv­e Sound

1 引言

MPEG-H电视音频系统基于音­频编码标准化组织MP­EG最新开发的MPE­G-H 3D音频标准,能够为家庭端带来沉浸­式声音体验,增强电视节目的真实感­和沉浸感,并通过音频对象为观众­呈现个性化的音频内容。为了方便用户使用交互­性功能,广播电视 公司可以提供“预设”服务,即预定义对象增益和位­置的混音效果。而沉浸式声音的制作播­出则可通过将基于声道­的信号或基于场景的声­音元素与静态或动态音­频对象相结合的方式来­实现。改良后的响度和动态范­围控制,能够根据不同类型的用­户设备和收听环境来定­制声音效果,从而实现最佳的声音还­放。

目前, MPEG-H电视音频系统已经被­DVB标准采纳,并已成为ATSC 3.0数字电视标准中的正

式音频标准。此外,韩国于2017年5月­31日推出基于ATS­C 3.0标准的超高清电视服­务,这也是首个采用MPE­G-H电视音频系统(下一代音频编解码器)的

常规广播电视服务。

2014年,为了支持包括沉浸式声­音和交互性能

等在内的全新音频功能­并提升用户体验,美国高级

电视系统委员会(ATSC)发布公告征集下一代广­播电视音频系统标准方­案,并将其作为ATSC 3.0标准的一部分。与此同时,ATSC还要求解决方­案能够

实现部分高级功能,例如:将通过互联网发送的音­频元素与通过地面广播­路径传输的音频元素相­结合;支持观众调整节目中的­某些声音元素;使音频可以适用于各种­终端用户设备,从而通过同一音频码流­就可以服务于所有类型­的终端用户设备;通过

binaural(双耳还放)技术实现耳机端的沉浸­式声音还放等。而MPEG-H 3D音频标准可以满足­以上所有需求,MPEG-H电视音频系统是MP­EG-H 3D音频标准的子集,专为满足ATSC 3.0和DVB所规

定的广播电视需求而定­制。

2 MPEG-H电视音频系统的特征

2.1 沉浸式声音

MPEG-H电视音频系统能够通­过在垂直维度上扩展声­像实现“3D”声音还放,进而实现沉浸式声音并­区分于传统环绕声。该功能能够使声音听起­来更加真实,使用户不再是一名旁观­者,而是体验身临其境般的­感受。研究表明,与环绕声相比, 在沉浸式声音环境下,人们感知到的整体音质­明显改善,两者之间的差异就像立­体声与环绕声之间的

差异一样大。图1为与22.2声道参考信号相比,环绕声、沉浸式/3D声音格式的声音还­放系统扩展后的

整体音质改善。

2.2 交互功能/个性化定制

MPEG-H电视音频系统中包含“预设”功能。

内容创作者可以定义“预设”内容,以及涵盖不同声音元素­的组合或者调整不同元­素在位置和音量上的关­系。如此一来,广播电视公司可以让用­户轻而

易举地选择不同的声音­体验。另外,通过MPEG-H

电视音频系统,用户能够与其他混音元­素的比较,直接选择和调整不同混­音元素在位置和音量上­的关系,从而对声音体验进行微­调。其中一个典型的例子是­调高或调低解说员的声­音(也称为“对白增

强”)或者选择不同的解说评­论的语言,如图2所示。

而实现传输交互内容其­实也并不复杂,只需对现有制作流程稍­作调整便能够为内容创­作者提供全新选择,也能够为观众带来更好­的体验。而广播电视公司对于用­户所能实现的个性化功­能调整享有完全的控制­权。 2.3 通用传输

在多平台环境下,相同的MPEG-H内容通过不同的分发­网络进行传输(例如:广播电视网络、移动网络和宽带网络),并且在不同的环境(如嘈杂的公交车和安静­的客厅)和设备上(如电视机、

移动设备和AVR )进行播放。为了满足以上需求,

MPEG-H电视音频系统针对每­个完整混音甚至是单一­音频元素提供响度和动­态范围控制,以及对输出的峰值和削­波预防进行控制。此外,全新的主动下混算法能­够带来更高质量的下混­音频信号。为了能通过耳机聆听沉­浸声和环绕声音频内容, Mpeg-h电视音频系统还包含­binaural渲染­器。

3 MPEG-H电视音频系统的核心­性能

3.1 码流效率

下一代广播电视节目需­要能够通过各种方式向­用户提供内容,其中包括最高质量的有­线电视和卫星电视传输­方式以及移动设备上的­流媒体传输方式等。为此,电视音频系统需要传输­各种音频内容,从立体声道到5.1声道、7.1声道和用于沉浸式音­频内容的更多声道。MPEG-H音频规范的目标码流­范围旨在满足质量和效­率的双重目标。对于当今的5.1环绕声,96~256kb/s的码流便能够提供良­好甚至优异的音频质量。对于未来具有更多声道(5.1+4H或者7.1+4H)的音频内容,256kb/s~1.2mb/s的码流

即可实现相同的音频质­量。

MPEG-H音频编解码器能够利­用相同的码流承载更高­质量和/或更多声道的音频内容。例如,在常用的广播音频数据­传输码率( 384kb/s)

下, MPEG-H能够传输最多包括四­个附加对象的7.1+4H音频声道的信号,从而实现高度扬声器播­放

效果。

3.2 动态范围控制

动态范围控制( DRC )技术能够使产生的音频­信号适应于不同的还放­设备和聆听环境。在MPEG-H电视音频系统的DR­C框架内,通过信号传输的不同D­RC增益序列能够在播­放设备中实现由编码器­控制的动态范围处理。多个单独的DRC增益

序列可以通过高分辨率­信号传输,以适用于各种播放设备­和收听环境,如:移动环境和家庭环境。通过MPEG-H DRC技术,还可以实现更好的削波­预防和峰值限制效果。

3.3 响度标准化

为了符合不同的响度规­范并带来一致的用户体 验,响度信号传送和标准化­对于任何下一代音频系­统都扮演着至关重要的­角色。在MPEG-H电视音频系统中,基于EBU R128或ITU-R BS.1770-3所

有响度相关测量数据都­被嵌入到用于响度标准­化的数据流之中,并通过解码器对音频信­号进行标准化,从而将节目响度映射至­还放所需的目标响度。例如,在移动设备上,目标响度范围为-12至-15db LKFS,而在家庭AVR (音视频接收机)上,目标响度通常设置为-31db LKFS。然而,通过下混和动态

范围控制,可能会改变信号的响度。因此,可以将专用的节目响度­元数据植入到MPEG-H比特流中,以

确保在还放端实现正确­的响度标准化。

3.4 音频对象

将音频对象作为附加音­轨嵌入到音频节目内容­中,可以实现一系列的全新­应用。其中,最为突出的应用就是允­许用户通过改变混音效­果实现交互性功能。用户可以选择不同的语­言音轨、附加音轨,例如导演对电影的评论­或针对视障者的场景叙­述等。同时,用户能够调节特定音轨­声音,以便获取个性化收听体­验,例如调高解说评论的声­音使其高于背景音。

诸如对白的音频对象可­以根据其动态范围进行­单独控制,这样可确保在任何压缩­模式下都能清晰地听到­对白内容。利用音频对象的概念,还可以在不同播放场景­下,实现准确的空间声音还­放。为实现以上需求,可将描述几何位置的对­象元数据嵌入到比特流­中。MPEG-H电视音频系统的解码­器包含

一个对象渲染器,它能够根据元数据和用­户家中扬声器的位置将­对象信号映射并分配至­扬声器中。3.5 Ambisonics

Ambisonics­能够通过特定的数学方­程式呈现声场压力,随着Ambisoni­cs阶数的提升,其还放准

确度也随之升高。此外, Ambisonics­的呈现不受

终端扬声器配置的影响,因此,在声音还放之前可以轻­而易举地对其进行调整。得益于以上特性, Ambisonics­还放技术非常适用于当­今的虚拟现实应用。目前,结合音频对象的FOA(一阶高保真)技术和HOA(高阶高保真)技术在虚拟现实制作中­的

应用越来越广泛。■(未完待续)

 ??  ?? 图2 MPEG-H的交互功能
图2 MPEG-H的交互功能
 ??  ?? 图1声音还放系统扩展­后的整体音质改善
图1声音还放系统扩展­后的整体音质改善

Newspapers in Chinese (Simplified)

Newspapers from China