Получите образец ТУ или ГОСТа за 3 минуты

Получите ТУ или ГОСТ на почту за 4 минуты

ГОСТ Р 53556.1-2012

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ТЕХНИЧЕСКОМУ РЕГУЛИРОВАНИЮ И МЕТРОЛОГИИ

ГОСТР 53556.1 — 2012

НАЦИОНАЛЬНЫЙ

СТАНДАРТ

РОССИЙСКОЙ

ФЕДЕРАЦИИ

Звуковое вещание цифровое

КОДИРОВАНИЕ СИГНАЛОВ ЗВУКОВОГО ВЕЩАНИЯ С СОКРАЩЕНИЕМ ИЗБЫТОЧНОСТИ ДЛЯ ПЕРЕДАЧИ ПО ЦИФРОВЫМ КАНАЛАМ СВЯЗИ. ЧАСТЬ 3 (MPEG-4 AUDIO)

Общие требования к кодированию

Издание официальное

Москва

Стандартинформ

2014

Предисловие

Цели и принципы стандартизации в Российской Федерации установлены Федеральным законом от 27 декабря 2002 г. № 184-ФЗ «О техническом регулировании», а правила применения национальных стандартов Российской Федерации – ГОСТ Р 1.0 – 2004 «Стандартизация в Российской Федерации. Основные положения»

Сведения о стандарте

1    РАЗРАБОТАН Санкт-Петербургским филиалом Центрального научно-исследовательского института связи «Ленинградское отделение» (ФГУП ЛО ЦНИИС)

2    ВНЕСЕН Техническим комитетом по стандартизации № 480 «Связь»

3    УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 20 ноября 2012 г. № 940-ст

4    Настоящий стандарт разработан с учетом основных нормативных положений международного стандарта ИСО/МЭК 14496-3:2009 Информационные технологии. Кодирование аудиовизуальных объектов. Часть 3. Аудио (ИСО/МЭК14496-3:2009 Information technology – Coding of audio-visual objects -Part 3: Audio) [1]

5    ВВЕДЕН ВПЕРВЫЕ

Правила применения настоящего стандарта установлены в ГОСТ Р 1.0-2012 (раздел 8). Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе «Национальные стандарты», а официальный текст изменений и поправок – в ежемесячном информационном указателе «Национальные стандарты». В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске информационном указателе «Национальные стандарты». Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования – на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (gost.ru)

© Стандартинформ, 2014

Настоящий стандарт не может быть полностью или частично воспроизведен, тиражирован и распространен в качестве официального издания без разрешения Федерального агентства по техническому регулированию и метрологии

3.5.1.2.11    Тип объекта TTSI

Объект TTSI поддерживается инструментами TTSI. Это позволяет осуществить передачу фонемных дескрипторов речи на очень низких скоростях для дальнейшего синтеза. MPEG-4 не дает определения самому методу синтеза речи; инструменты TTSI скорее определяют интерфейс нестандартных методов синтеза. Этот метод позволяет получить скорость передачи 200 – 1200 бит/с.

3.5.1.2.12    Тип объекта Main Synthetic

Объект Main Synthetic позволяет использовать все инструменты MPEG-4 Structured Audio. Это обеспечивает гибкий, высококачественный алгоритмический синтез на основе языка синтеза музыки SAOL, эффективный таблично-волновой синтез с форматом банка сэмплов SASBF и реализует высококачественное сведение и пост-продакшн с набором инструментов Systems AudioBIFS. Описание звука может быть передано на скоростях от 0 кбит/с (не требуется непрерывная передача) до 3-4 кбит/с для чрезвычайно экспрессивных звуков в формате Structured Audio MPEG-4.

3.5.1.2.13    Тип объекта Wavetable Synthesis

Объект таблично-волнового синтеза поддерживается только форматом SASBF и инструментами MIDI. Это позволяет использовать простой сэмплерный синтез, когда качество и гибкость полного набора инструментов синтеза не требуются.

3.5.1.2.14    Тип объекта General MIDI

Объект General MIDI включен только для предоставления функциональной совместимости с существующим контентом. Стандартизованное качество звучания и свойства декодера объектом General MIDI не предоставляются.

3.5.1.2.15    Тип объекта Algorithmic Synthesis и Audio FX

Объект Algorithmic Synthesis обеспечивает синтез звука на основе SAOL при очень низких скоростях передачи. Он также используется для поддержки узла AudioBIFS AudioFX там, где не требуется синтезированный звук.

3.5.1.2.16    Тип объекта Error Resilient (ER) AAC Low Complexity (LC)

Тип объекта Error Resilient (ER) AAC Low Complexity (LC) является копией объекта AAC MPEG-4 Low Complexity с дополнительными функциональными возможностями.

3.5.1.2.17    Тип объекта Error Resilient (ER) AAC Long Term Predictor (LTP)

Тип объекта Error Resilient (ER) AAC Long Term Predictor (LTP) является копией объекта AAC MPEG-4 LTP с дополнительными функциональными возможностями.

3.5.1.2.18    Тип объекта Error Resilient (ER) AAC scalable

Тип объекта Error Resilient (ER) AAC scalable является копией объекта AAC MPEG-4 scalable с дополнительными функциональными возможностями.

3.5.1.2.19    Тип объекта Error Resilient (ER) TwinVQ

Тип объекта Error Resilient (ER) AAC TwinVQ является копией объекта AAC MPEG-4 TwinVQ с дополнительными функциональными возможностями.

3.5.1.2.20    Тип объекта Error Resilient (ER) BSAC

Объект BSAC ER поддерживается инструментом точного масштабирования (BSAC). Это позволяет обеспечить как устойчивость к ошибкам, так и точную масштабируемость шага квантования в кодере MPEG-4 General Audio (GA). Данный объект используется в комбинации с инструментами кодирования ААС и заменяет кодирование без потерь и форматирование полезного потока бит кодера AAC MPEG-4. Доступно большое количество масштабируемых уровней, что обеспечивает уровень расширения на скорости 1 кбит/с/канал, то есть 2 кбит/с шага для сигнала стерео.

3.5.1.2.21    Тип объекта Error Resilient (ER) AAC LD

Объект AAC LD поддерживается инструментом кодирования AAC с низкой задержкой. Он также допускает комбинации с инструментами PNS и LTP. Объект AAC LD расширяет использование универсального низкоскоростного кодирования аудио на приложения, требующие очень низкой задержки кодирования / декодирования (например дуплексная связь в режиме реального времени).

3.5.1.2.22    Тип объекта Error Resilient (ER) CELP

Объект ER CELP поддерживается инструментами сжатия тишины и ER. Это позволяет уменьшить среднюю скорость передачи благодаря более низкому сжатию для участков тишины с дополнительными функциональными возможностями.

3.5.1.2.23    Тип объекта Error Resilient (ER) HVXC

Объект ER HVXC поддерживается инструментами параметрического речевого кодирования (HVXC), которые обеспечивают режимы с фиксированной скоростью передачи данных (2,0-4,0 кбит/с)

ГОСТ P 53556.1-2012

и режимы с переменной скоростью передачи данных (<2,0 кбит/с и <4,0 кбит/с), как с использованием масштабирования, так и без него, с возможностью изменения высоты и скорости воспроизведения. Синтаксис инструмента ЕР и способность устранения ошибок поддерживаются для использования в каналах связи, подверженных ошибкам. Поддерживаются только звуковые сигналы с частотой дискретизации 8 кГц, моно.

3.5.1.2.24    Тип объекта Error Resilient (ER) HILN

Объект ER HILN поддерживается инструментами параметрического кодирования звука (HILN: гармонические и индивидуальные линии вместе с шумом), которые обеспечивают кодирование обычных звуковых сигналов при очень низких скоростях передачи в пределах от менее 4 кбит/с до более 16 кбит/с. Доступны масштабируемость скорости передачи с возможностью изменения высоты и скорости воспроизведения. Объект ER HILN поддерживает звуковые объекты моно в широком диапазоне частот дискретизации.

3.5.1.2.25    Тип объекта Error Resilient (ER) Parametric

Объект ER Parametric поддерживается инструментами параметрического кодирования звука и кодирования речи HILN и HVXC. Этот встроенный параметрический кодер комбинирует функциональные возможности объектов ER HILN и ER HVXC. Поддерживаются только звуковые сигналы моно с частотой дискретизации 8 кГц.

3.5.1.2.26    Тип объекта SSC Audio

Объект SSC (синусоидальное кодирование) комбинирует инструменты параметрического кодирования SSC: транзиенты, синусоиды, шум и параметрическое стерео. Поддерживаются сигналы моно, двойное моно и стерео (параметрическое) с частотой дискретизации 44,1 кГц.

3.5.1.2.27    Тип объекта Layer-1 Audio

Объект Layers является копией алгоритма кодирования уровня I.

3.5.1.2.28    Тип объекта Layer-2 Audio

Объект Layer-2 является копией алгоритма кодирования уровня II.

3.5.1.2.29    Тип объекта Layer-3 Audio

Объект Layer-З схоже алгоритмом кодирования уровня III.

3.5.1.2.30    Тип объекта ALS Audio

Тип объекта ALS копия алгоритма кодирования без потерь (ALS), содержит соответствующие инструменты ALS.

3.5.1.2.31    Тип объекта SLS Audio

Объект SLS поддерживается инструментом масштабируемого кодирования без потерь, который обеспечивает точное масштабирование расширения кодирования без потерь в перцепционных звуковых кодеках MPEG, таких как ААС, позволяя применять различные шаги по улучшению – от качества звучания основного алгоритма до кодирования без потерь и почти незаметного кодирования. Он также обеспечивает stand-alone кодирование звука без потерь, когда основной звуковой кодек отключен.

3.5.1.2.32    SLS Тип объекта SLS Non-Core Audio

Объект SLS non-core поддерживается инструментом масштабируемого кодирования без потерь. Он подобен типу объекта SLS, однако основной звуковой кодек отключен.

3.5.1.2.33    Тип объекта PS

Тип объекта PS содержит инструмент PS и может быть объединен с инструментом SBR.

3.5.1.2.34    Тип объекта MPEG Surround

Объект MPEG Surround содержит служебную информацию MPEG Surround.

3.5.1.2.35    Тип объекта SMR Simple

Тип объекта SMR Simple используется для передачи музыкальных партитур для их аудио и видео обработки. Кодированные данные содержат информацию относительно основной партитуры, частей (то есть партий отдельных инструментов), возможных многоязычных текстов, связанных с частями, правил визуального форматирования, которые будут использоваться при обработке видео, шрифтов для специальных музыкальных символов и информации синхронизации. Шрифты и информация синхронизации представлены как двоичные данные, остальные – как XML данные. Тип объекта SMR Simple может передать XML данные в виде простого XML текста или как gzip XML.

3.5.1.2.36    Тип объекта SMR Main

Тип объекта SMR Main может передавать музыкальные партитуры, как тип объекта SMR Simple, однако в этом случае XML данные могут быть закодированы инструментами MPEG-B.

9

3.5.1.2.37 Тип объекта Error Resilient (ER) AAC ELD

Тип объекта с улучшенной низкой задержкой (ER AAC ELD) идентичен типу объекта ER AAC LD с добавлением банка фильтров с низкой задержкой (LDFB) и улучшенного окна. Возможны комбинации с инструментом PNS, так же как и с инструментом низкой задержки SBR. Тип объекта ER AAC ELD расширяет применение универсального низкоскоростного кодирования звука для приложений, требующих очень низкой задержки кодирования/декодирования (например, дуплексная связь в режиме реального времени).

3.5.2 Звуковые профили и уровни

3.5.2.1 Профили

Определены следующие звуковые профили (см. таблицу 3):

1    Речевой профиль обеспечивает параметрический речевой кодер, речевой кодер CELP и интерфейс преобразования текста в речь.

2    Профиль синтезированного звука обеспечивает возможность генерировать звук и речь при очень низких скоростях передачи.

3    Масштабируемый профиль – надмножество речевого профиля, является подходящим для масштабируемого кодирования речи и музыки для Интернета и цифрового вещания.

4    Основной профиль – надмножество масштабируемого профиля, речевого профиля и профиля звукового синтеза, содержит инструменты для обычного и синтезированного звука.

5    Профиль высокого качества содержит речевой кодер CELP и кодер низкой сложности ААС, включающий долгосрочное предсказание. Масштабируемое кодирование может быть выполнено объектом типа AAC Scalable. Дополнительно может применяться новый ER синтаксис потока битов.

6    Профиль низкой задержки содержит речевые кодеры HVXC и CELP (дополнительно использующие ER синтаксис), кодер ААС низкой задержки и интерфейс преобразования текста в речь TTSI.

7    Профиль натурального звука содержит все доступные в MPEG-А инструменты для кодирования натурального звука.

8    Профиль звука для Интернета содержит типы объектов с низкой задержкой и масштабированием ААС, включая TwinVQ и BSAC. Эта конфигурация предназначена для расширения коммуникационных приложений при помощи не-MPEG алгоритмов кодирования речи с высоким качеством.

9    Профиль ААС содержит тип звукового объекта 2 (AAC-LC).

10    Профиль ААС высокой производительности содержит типы звуковых объектов 5 (SBR) и 2 (AAC-LC). Профиль ААС высокой производительности является надмножеством профиля ААС.

11    Профиль ААС высокой производительности версии 2 содержит типы звуковых объектов 5 (SBR), 29 (PS) и 2 (AAC-LC). Профиль ААС высокой производительности версии 2 является надмножеством профиля ААС высокой производительности.

12    Профиль ААС с низкой задержкой содержит тип звукового объекта 23 (ER ААС LD).

Таблица 3 – Определение звуковых профилей

ID типа объекта

Тип объекта Audio

Speech Audio Profile

Synthetic Audio Profile

Scalable Audio Profile

Main Audio Profile

High Quality Audio Profile

Low Delay Audio Profile

Natural Audio Profile

Mobile Audio Internetworking Profile

q>

О

High Efficiency AAC Profile

High Efficiency AAC VI Profile

Low Delay AAC Profile

0

Null

1

ААС main

X

X

2

ААС LC

X

X

X

X

X

X

X

3

ААС SSR

X

X

4

ААС LTP

X

X

X

X

5

SBR

X

X

6

ААС Scalable

X

X

X

X

7

TwinVQ

X

X

X

8

CELP

X

X

X

X

X

X

9

HVXC

X

X

X

X

X

Окончание таблицы 3

ID типа объекта

Тип объекта Audio

Speech Audio Profile

Synthetic Audio Profile

Scalable Audio Profile

Main Audio Profile

High Quality Audio Profile

Low Delay Audio Profile

Natural Audio Profile

Mobile Audio Internetworking Profile

AAC Profile

High Efficiency AAC Profile

High Efficiency AAC V2 Profile

Low Delay AAC Profile

10

(зарезервировано)

11

(зарезервировано)

12

TTSI

X

X

X

X

X

X

13

Main synthetic

X

X

14

Wavetable synthesis

X*

X*

15

General MIDI

X*

X*

16

Algorithmic Synthesis and Audio FX

X*

X*

17

ERAACLC

X

X

X

18

(зарезервировано)

19

ERAACLTP

X

X

20

ER AAC Scalable

X

X

X

21

ER TwinVQ

X

X

22

ER BSAC

X

X

23

ERAACLD

X

X

X

X

24

ER CELP

X

X

X

25

ERHVXC

X

X

26

ER HILN

X

27

ER Parametric

X

28

SSC

29

PS

X

30

MPEG Surround

31

(escape)

32

Layers

33

Layer-2

34

Layer-3

35

DST

36

ALS

37

SLS

38

SLS non-core

39

ER AAC ELD

40

SMR Simple

41

SMR Main

В дополнение к описаниям профилей, данным выше, необходимо отметить, что объекты ААС Scalable, использующие широкополосный уровень ядра CELP (с или без синтаксиса полезного битового потока ER) не являются частью какого бы то ни было звукового профиля.

3.5.2.2 Единицы сложности

Единицы сложности введены для того, чтобы дать приблизительную оценку сложности декодера в терминах вычислительной мощности и использования RAM, необходимых для обработки полезной части потока бит MPEG-4 Аудио в зависимости от определенных параметров.

Приблизительная вычислительная мощность дана в единицах вычислительной сложности (PCU), выраженных в MOPS. Приблизительное использование оперативной памяти дано в единицах использования памяти (RCU), выраженных в килословах (1000 слов). Количество RCU не включает в себя объем буфера, который может быть разделен между различными объектами и/или каналами.

11

Если уровень профиля определен максимальным числом единиц сложности, то гибкая конфигурация декодера, обрабатывающего различные типы объектов, допустима при условии, что оба значения сложности (PCU и RCU) для декодирования и преобразования частоты дискретизации (если требуется) не превышают этот предел.

Таблица 4 дает оценку сложности для различных типов объектов. Значения PCL/даны в MOPS на канал, значения RCU- в килословах на канал (в ААС термин «канал» соответствует основному каналу, например, канал SCE, один канал СРЕ или канал независимо переключаемого ССЕ).

Таблица 4 – Сложность типов звуковых объектов и преобразования частоты дискретизации

Тип объекта

Параметры

PCU (MOPS)

RCU

Примечания

ААС Main

fs = 48 кГц

5

5

1

AACLC

fs = 48 кГц

3

3

1

ААС SSR

fs = 48 кГц

4

3

1

ААС LTP

fs = 48 кГц

4

4

1

SBR

fs = 24/48 кГц (iniout) (SBR tool)

3

2.5

1

fs = 24/48 кГц (in/out) (Low Power SBR tool)

2

1.5

1

fs = 48/48 кГц (in/out)

(Down Sampled SBR tool)

4.5

2.5

1

fs = 48/48 кГц (in/out)

(Low Power Down Sampled)

SBR tool)

3

1.5

1

AAC Scalable

fs = 48 кГц

5

4

1,2

Twin VQ

fs = 24 кГц

2

3

1

CELP

fs = 8 кГц

1

1

CELP

fs = 16 кГц

2

1

CELP

fs = 8/16 кГц (bandwidth scalable)

3

1

HVXC

fs = 8 кГц

2

1

TTSI

4

General MIDI

4

1

Wavetable

Synthesis

fs = 22,05 кГц

Зависит от потока битов

Зависит от потока битов

Main Synthetic

Зависит от потока битов

Зависит от потока битов

Algorithmic Synthesis and AudioFX

Зависит от потока битов

Зависит от потока битов

Sampling Rate Conversion

rf= 2, 3, 4, 6, 8, 12

2

0.5

3

ERAAC LC

fs = 48 кГц

3

3

1

ERAAC LTP

fs = 48 кГц

4

4

1

ER AAC Scalable

fs = 48 кГц

5

4

1,2

ER TwinVQ

fs = 24 кГц

2

3

1

ER BSAC

fs = 48 кГц (Размер входного буфера=26000 битов)

4

4

1

fs = 48 кГц (Размер входного буфера =106000 битов)

4

8

ERAAC LD

fs = 48 кГц

3

2

1

ER CELP

fs = 8 кГц

2

1

fs = 16 кГц

3

1

ER HVXC

fs = 8 кГц

2

1

ER HILN

fs = 16 кГц, ns=93

15

2

6

fs = 16 кГц, ns=47

8

2

Окончание таблицы 4

Тип объекта

Параметры

PCU (MOPS)

RCU

Примечания

ER Parametric

fs = 8 кГц, ns=47

4

2

5,6

ER ААС ELD

fs = 48 кГц

3

2

1

ER AAC ELD, Low Delay SBR tool only

fs = 24/48 кГц (in/out) (SBR tool)

3

2.5

1

fs = 24/48 кГц (in/out) (Low Power SBR tool)

2

1.5

1

fs = 48/48 кГц (in/out) (Down Sampled SBR tool)

4.5

2.5

1

fs = 48/48 кГц (in/out)

(Low Power Down Sampled

SBR tool)

3

1.5

1

Определения:

fs = частота дискретизации

rf = отношение частот дискретизации

Примечания

1    PCU пропорционально частоте дискретизации.

2    Включает основной декодер.

3    Сложность для синтеза речи не учитывается.

4    Параметрический кодер в режиме HILN, для режима HVXC см. ER HVXC.

5    PCU зависит от fs и ns, см. ниже.

6    Преобразование частоты дискретизации необходимо, если объекты с различными частотами дискретизации объединены в сцене. Указанные значения должны быть добавлены для каждого необходимого преобразования.

PCU для HILN:

Вычислительная сложность HILN зависит от частоты дискретизации fs и максимального числа синусоид ns, которое должно быть синтезировано одновременно. Значение ns для фрейма является общим количеством гармонических и индивидуальных линий, синтезируемых в этом фрейме, то есть суммой начальных, промежуточных и конечных линий. Для fs в кГц PCU в MOPS вычисляется следующим образом:

PCU= (1 + 0,15*ns) * fe/16

Типовые максимальные значения ns составляют 47 для HILN 6 кбит/с и 93 для потоков HILN 16 кбит/с.

PCU и RCU для ААС:

Для типов объектов ААС PCU и RCU зависят от частоты дисретизации и конфигурации каналов следующим образом:

PCU

PCU = (fs / fs_ref) * PCU_ref * (2 * #СРЕ + #SCE + #LFE + #lndepCouplingCh + 0.3 * #DepCou-plingCh)

fs:    фактическая частота дискретизации

fs_ref. эталонная частота дискретизации (частота дискретизации для данного PCU_ref) PCU_ref. эталонное PCU, данное в таблице 4 #SCE:    количество SCE

#СРЕ:

RCU #СРЕ <2:

RCU = RCU_ref* [#SCE + 0,5 * #LFE + 0,5 * #lndepCouplingCh + 0,4 * #DepCouplingCh] + [RCU_ref + (RCU_ref-1)] * #CPE #CPE> = 2:

RCU = RCU_ref* [#SCE + 0,5 * #LFE + 0,5 * #lndepCouplingCh + 0,4 * #DepCouplingCh] + [RCU_ref + (RCU_ref-1) * (2 * #CPE -1)]

RCU_ref    эталонное RCU, данное в таблице 4

#SCE:    количество SCE

#CPE:    количество CPE

13

3.5.2.3 Уровни профилей

Под числом звуковых каналов понимается число основных звуковых каналов. На основании количества основных звуковых каналов (А) в таблице 5 указано число каналов LFE (L), число независимо переключаемых спаренных каналов (/) и число зависимо переключаемых спаренных каналов (D) для типов объектов, полученных из многоканального ААС в форме A.L.I.D.

Таблица 5 – Максимальное число индивидуальных типов каналов ААС в зависимости от указанного количества основных звуковых каналов

Количество основных звуковых каналов

АОТ

1

2

3

1 (ААС main)

1.0.0.0

2.0.0.0

5.1.1.1

2 (ААС LC)

1.0.0.0

2.0.0.0

5.1.0.1

3 {ААС SSR)

1.0.0.0

2.0.0.0

5.1.0.0

4 (ААС LTP)

1.0.0.0

2,0.0.0

5.1.0.1

17 [ERAACLC)

1.0.0.0

2.0.0.0

5.1.0.0

19 [ERAAC LTP)

1.0.0.0

2.0.0.0

5.1.0.0

23 (ER ААС LD)

1.0.0.0

2.0.0.0

5.1.0.0

Примечание – В случае масштабируемых схем кодирования для определения количества объектов, допустимых по сложности, учитывается только первая реализация каждого типа объекта. Например, в масштабируемом кодере, состоящем из основного кодера CELP и двух уровней расширения, реализованных средствами масштабируемых объектов ААС, считается один объект CELP и один масштабируемый объект ААС; учитываются их соответствующие показатели сложности, так как практически отсутствуют затраты, связанные со вторым (и выше) уровенем расширения GA.

Уровни профиля речи

Определены два уровня по числу объектов:

1.    Один речевой объект.

2.    До 20 речевых объектов.

Уровни профиля синтезированного звука

Определены три уровня:

1.    Синтезированный звук 1: все элементы полезной части потока бит могут использоваться с:

–    режимом пониженной производительности

–    только основными частотами дискретизации

–    только одним объектом TTSI

2.    Синтезированный звук 2: все элементы полезной части потока бит могут использоваться с:

–    режимом средней производительности.

–    только основными частотами дискретизации

–    максимум четырьмя объектами TTSI

3.    Синтезированный звук 3: все элементы полезной части потока бит могут использоваться с:

–    режимом высокой производительности

–    максимум двенадцатью объектами TTSI

–    уровнями масштабируемого профиля

Профилем определены четыре уровня; четвертый уровень определяется единицами сложности:

1.    Максимальное значение частоты дискретизации – 24 кГц, один моно объект (все типы объектов).

2.    Максимальное значение частоты дискретизации – 24 кГц, один стерео объект или два моно (все типы объектов).

3.    Максимальное значение частоты дискретизации – 48 кГц, один стерео объект или два моно (все типы объектов).

4.    Максимальное значение частоты дискретизации – 48 кГц, один 5-канальный объект или несколько объектов с одним целочисленным множителем частоты дискретизации максимум для двух каналов.

Разрешена гибкая конфигурация при PCU<30 и RCU< 19.

Для типов звуковых объектов 2 (ААС LC) и 4 (ААС LTP) допускается длина фрейма только 1024 отсчета для уровней 1, 2, 3 и 4. Для типов звуковых объектов 2 (ААС LC) и 4 (ААС LTP) не допускаются моно или стерео элементы сведения для уровней 1, 2, 3 и 4. Для типа звуковых объектов

ГОСТ P 53556.1-2012

6 (ААС Scalable) применяются следующие ограничения. Число уровней ААС не должно превышать 8 для всех масштабируемых конфигураций. Если тип звукового объекта 8 (CELP) будет использоваться как основной кодер уровня, то число уровней CELP не должно превышать 2. Если тип звукового объекта 7 (TwinVQ) используется как основной кодер уровня, разрешен только один моно уровень TwinVQ.

Уровни основного профиля

Основной профиль содержит все натуральные и синтезированные типы объектов. Уровни определяются как комбинация двух различных типов уровней двух различных показателей, определенных для натуральных инструментов (показатели на основе вычислительной мощности) и инструментов синтеза (макропоказатели).

Для типов объектов, не принадлежащих профилю синтезированного звука определены четыре уровня:

–    Натуральный звук 1: PCU<40, RCU <202.

–    Натуральный звук 2: PCU<80, RCU <643.

–    Натуральный звук 3: PCl/<160, RCU<1284.

–    Натуральный звук 4: PCU<320, RCU <256.

Для типов объектов, принадлежащих к профилю синтезированного звука, определены те же самые три уровня, то есть синтезированный звук 1, синтезированный звук 2 и синтезированный звук 3.

Четыре уровня определены для основного профиля:

–    Натуральный звук 1 + синтезированный звук 1.

–    Натуральный звук 2 + синтезированный звук 1.

–    Натуральный звук 3 + синтезированный звук 2.

–    Натуральный звук 4 + синтезированный звук 3.

Для типов звуковых объектов 1 (ААС main), 2 (ААС LC), 3 (ААС SSR) и 4 (ААС LTP) допустима длина фрейма только 1024 отсчета для уровней 1,2, 3 и 4. Для типов звуковых объектов 1 (ААС main), 2 (ААС LR), 3 (ААС SSR) и 4 (ААС LTP) не разрешены моно или стерео элементы сведения для уровней 1,2, 3 и 4. Для типа звуковых объектов 6 (ААС Scalable) применяются следующие ограничения. Число уровней ААС не должно превышать 8 в любой из масштабируемых конфигураций. Если тип звуковых объектов 8 (CELP) используется как основной кодер уровня, то число уровней CELP не должно превышать 2. Если тип звукового объекта 7 (TwinVQ) используется как основной кодер слоя, то разрешен только один моно уровень TwinVQ.

Уровни профиля высокого качества приведены в таблице 6.

Таблица 6 – Уровни профиля высокого качества

Уровень

Максимум

каналов/

объект

Максимальная частота дискретизации, кГц

Max PCU **

Max RCU **

EP-Tool: Максимальная избыточность класса FEC *, %

EP-Tool: Максимальное число этапов чередования на объект

1

2

22,05

5

8

0

0

2

2

48

10

8

0

0

3

5

48

25

-| 2 ***

0

0

4

5

48

100

42 ***

0

0

5

2

22,05

5

8

20

9

6

2

48

10

8

20

9

7

5

48

25

-| 2 ***

20

22

8

5

48

100

42 ***

20

22

* Значение определяет максимальную избыточность на основе доступного звукового объекта с самой большой длиной фрейма. Избыточность может принимать большие значения в случае меньших длин фрейма. Однако использование любого FEC класса не разрешено при 0 %. Предел действителен для каждого звукового объекта. Так как это значение не учитывает ни заголовок ЕР и его биты защиты, ни любой CRC, 5 % всегда должны быть добавлены к этому значению для получения необходимого увеличения минимального входного буфера декодера. Это подразумевает, что не более, чем 5 % может быть потрачено для заголовка ЕР и его бит защиты или любого CRC.

** Уровни 5 – 8 не включают оперативную память и вычислительную сложность для инструмента ЕР.

*** Подразумевается совместное использование рабочих буферов для множественных объектов и элементов канальных пар.

Для типов звуковых объектов 2 (ААС LC), 4 (ААС LTP), 17 (ERAAC LC) и 19 (ERAAC LTP) допустима длина фрейма только 1024 отсчета для уровней 1,2, 3, 4, 5, 6, 7 и 8. Для типов звуковых объектов 2 (ААС LC) и 4 (ААС LTP) не разрешены моно или стерео элементы сведения для уровней 1,2,3, 4, 5, 6, 7 и 8. Для типа звуковых объектов 6 и 20 (ER) ААС Scalable) применяются следующие ограничения. Число уровней ААС не должно превышать 8 для любой масштабируемой конфигурации. Если тип звукового объекта 8 или 24 (ER) CELP) будет использоваться как основной кодер уровня, то число уровней CELP не должно превышать 2.

Уровни профиля низкой задержки приведены в таблице 7.

Таблица 7 – Уровни профиля низкой задержки

Уровень

Максимум

каналов/

объект

Максимальная частота дискретизации, кГц

MaxPCU **

Max RCU **

EP-Tool\ Максимальная избыточность класса FEC *, %

EP-Tooi Максимальное число этапов чередования на объект

1

1

8

2

1

0

0

2

1

16

3

1

0

0

3

1

48

3

2

0

0

4

2

48

24

j 2 ***

0

0

5

1

8

2

1

100

5

6

1

16

3

1

100

5

7

1

48

3

2

20

5

8

2

48

24

j 2 ***

20

9

Уровни профиля натурального звука приведены в таблице 8. Таблица 8 – Уровни профиля натурального звука

Уровень

Максимальная частота дискретизации, кГц

Max PCU ****

ЕР-Тоо!’. Максимальная избыточность класса FEC *, %

EP-Toot Максимальное число этапов чередования на объект

1

48

20

0

0

2

96

100

0

0

3

48

20

20

9

4

96

100

20

22

Для данного профиля нет ограничений по RCU.

Для типов звуковых объектов 1 (AAC main), 2 (AAC LC), 3 (AAC SSR), 4 (AAC LTP), 17 (ER ААС LC) и 19 (ER ААС LTP) допустима длина фрейма только 1024 отсчета для уровней 1,2, 3 и 4. Для типов звуковых объектов 1 (ААС main), 2 (ААС LC), 3 (ААС SSR) и 4 (ААС LTP) не разрешены моно или стерео элементы сведения для уровней 1,2, 3 и 4. Для типа звуковых объектов 6 и 20 (ER) ААС Scalable) применяются следующие ограничения. Число уровней ААС не должно превышать 8 для любой масштабируемой конфигурации. Если тип звукового объекта 8 или 24 (ER) CELP) будет использоваться как основной кодер уровня, то число уровней CELP не должно превышать 2. Если тип звукового объекта 7 или 21 (ER) TwinVQ) будет использоваться как основной кодер уровня, то только один моно уровень TwinVQ допустим.

* Значение определяет максимальную избыточность на основе доступного звукового объекта с самой большой длиной фрейма. Избыточность может принимать большие значения в случае меньших длин фрейма. Однако использование любого FEC класса не разрешено при 0 %. Предел действителен для каждого звукового объекта. Так как это значение не учитывает ни заголовок ЕР и его биты защиты, ни любой CRC, 5 % всегда должны быть добавлены к этому значению для получения необходимого увеличения минимального входного буфера декодера. Это подразумевает, что не более, чем 5 % может быть потрачено для заголовка ЕР и его бит защиты или любого CRC.

** Уровни 5 – 8 не включают оперативную память и вычислительную сложность для инструмента ЕР.

*** Подразумевается совместное использование рабочих буферов для множественных объектов и элементов канальных пар.

**** Уровни 3 и 4 не включают оперативную память и вычислительную сложность для инструмента ЕР.

16

Уровни профиля звука для Интернета приведены в таблице 9.

Таблица 9 – Уровни профиля звука для Интернета

Уровень

Максимум

каналов/

объект

Максимальная частота дискретизации, кГц

Мах PCU **

Мах RCU .. …

Максимальное число объеков аудио

EP-Tool: Максимальная избыточность класса FEC * %

ЕР-ТооГ. Максимальное число этапов чередования на объект

1

1

24

2.5

4

1

0

0

2

2

48

10

8

2

0

0

3

5

48

25

^ 2 ****

0

0

4

1

24

2.5

4

1

20

5

5

2

48

10

8

2

20

9

6

5

48

25

^ 2 ****

20

22

Для типа звуковых объектов 17 (ER ААС LC) допустима длина фрейма только 1024 отсчета для уровней 1,2, 3, 4, 5 и 6. Для типа звуковых объектов 20 (ER AAC Scalable) применяются следующие ограничения. Число уровней ААС не должно превышать 8 для любой масштабируемой конфигурации. Если тип звукового объекта 21 (ER TwinVQ) будет использоваться как основной кодер уровня, то только один моно уровень TwinVQ допустим.

Уровни профиля ААС приведены в таблице 10.

Таблица 10 – Уровни профиля ААС

Уровень

Максимальное число каналов/ объект

Максимальная частота дискретизации, кГц

Max PCU

Max RCU

1

2

24

3

5

2

2

48

6

5

3

не применяется

не применяется

не применяется

не применяется

4

5

48

19

15

5

5

96

38

15

Для типа звукового объекта 2 (ААС LC) не разрешены моно или стерео элементы сведения. Уровни с пометкой «не применяется» введены для сохранения иерархической структуры профиля ААС и профиля ААС высокой производительности. Следовательно, декодер, поддерживающий профиль ААС высокой производительности на данном уровне, может декодировать поток профиля ААС того же самого или более низкого уровня. Уровни с пометкой «не применяется» не обозначены в таблице audioProfileLevellndication (таблица 14).

Уровни профиля ААС высокой производительности приведены в таблице 11.

Таблица 11 – Уровни профиля ААС высокой производительности

Уровень

Максимальное число каналов/ объект

Максимальная частота дискретизации ААС, SBR отсутствует, кГц

Максимальная частота дискретизации ААС, SBR присутствует, кГц

Максимальная частота дискретизации SBR, кГц (ввод/ вывод)

Мах

PCU

Мах

RCU

MaxPCU,

мало

мощный

SBR

Max RCU, маломощный SBR

1

NA

NA

NA

NA

NA

NA

NA

NA

2

2

48

24

24/48

9

10

7

8

3

2

48

48

48/48 (примечание 1)

15

10

12

8

* Значение определяет максимальную избыточность на основе доступного звукового объекта с самой большой длиной фрейма. Избыточность может принимать большие значения в случае меньших длин фрейма. Однако использование любого FEC класса не разрешено при 0 %. Предел действителен для каждого звукового объекта. Так как это значение не учитывает ни заголовок ЕР и его биты защиты, ни любой CRC, 5 % всегда должны быть добавлены к этому значению для получения необходимого увеличения минимального входного буфера декодера. Это подразумевает, что не более, чем 5 % может быть потрачено для заголовка ЕР и его бит защиты или любого CRC.

** Максимальное значение RCU для одного канала в любом объекте этой конфигурации – 4. Для ER BSAC это является ограничением входного размера буфера. Максимальный возможный размер входного буфера в битах для этого случая дается PCU/RCU (таблица 4).

*** Уровни 4-6 не включают оперативную память и вычислительную сложность для инструмента ЕР.

**** Подразумевается совместное использование рабочих буферов для множественных объектов и элементов канальных пар.

17

ГОСТ P 53556.1-2012

Содержание

1    Область применения……………………………………………………………………………………………………………………1

2    Нормативные ссылки……………………………………………………………………………………………………………………1

3    Термины, определения, символы и сокращения…………………………………………………………………………….2

3.1    Термины и определения…………………………………………………………………………………………………………….2

3.2    Символы и сокращения……………………………………………………………………………………………………………..3

3.3    Метод описания синтаксиса потока битов…………………………………………………………………………………..4

3.4    Арифметические типы данных……………………………………………………………………………………………………5

3.5    Технический обзор…………………………………………………………………………………………………………………….5

3.6    Интерфейс MPEG-4 Системы………………………………………………………………………………………………….20

3.7    Транспортный поток MPEG-4 Аудио…………………………………………………………………………………………37

3.8    Защита от ошибок……………………………………………………………………………………………………………………50

Приложение А (справочное) Форматы обмена аудиофайлами………………………………………………………..68

Приложение Б (справочное) Инструмент защиты от ошибок…………………………………………………………..72

Библиография………………………………………………………………………………………………………………………………91

III

Окончание таблицы 11

Уровень

Максимальное число каналов/ объект

Максимальная частота дискретизации ААС, SBR отсутствует, кГц

Максимальная частота дискретизации ААС, SBR присутствует, кГц

Максимальная частота дискретизации SBR, кГц (ввод/ вывод)

Мах

PCU

Мах

RCU

Max PCU, маломощный SBR

Max RCU, маломощный SBR

4

5

48

24/48 (примечание 2)

48/48 (примечание 1)

25

28

20

23

5

5

96

48

48/96

49

28

39

23

Примечание 1    –    Для    уровней 3 и 4 декодера является обязательным управле

ние инструментом SBR в режиме децимации, если частота дискретизации ядра ААС превышает 24 кГц. Следовательно, если инструмент SBR обрабатывает сигнал ААС на частоте 48 кГц, то внутренняя частота дискретизации инструмента SBR составит 96 кГц, однако выходной сигнал будет подвергнут децимации инструментом SBR до 48 кГц.

Примечание 2 – Для одного или двух каналов максимальная частота дискретизации ААС с включенным SBR составляет 48 кГц. Для более чем двух каналов максимальная частота дискретизации ААС с включенным SBR составляет 24 кГц.

Для типа звукового объекта 2 (ААС LC) не разрешены моно или стерео элементы сведения. Уровни профиля ААС высокой производительности версии 2 приведены в таблице 12.

Таблица 12 – Уровни профиля ААС высокой производительности версии 2

Уровень (примечание 1)

Максимальное число каналов/

объект

Максимальная частота дискретизации ААС, SBR отсутствует, кГц

Максимальная частота дискретизации ААС, SBR присутствует, кГц

Максимальная частота дискретизации SBR, кГц (ввод/ вывод)

Мах

PCU

Мах

RCU

MaxPCU HQ/LPSBR (примечание 5)

Max RCU HQ/LP SBR (примечание 5)

1

NA

NA

NA

NA

NA

NA

NA

NA

2

2

48

24

24/48

9

10

9

10

3

2

48

24/48

(примечание 3)

48/48

(примечание 2)

15

10

15

10

4

5

48

24/48 (примечание 4)

48/48 (примечание 2)

25

28

20

23

5

5

96

48

48/96

49

28

39

23

Примечание 1- Декодеры уровней 2, 3 и 4 НЕ ААС профиля версии 2 реализуют базовую версию параметрического инструмента стерео. Декодер уровня 5 не должен быть ограничен базовой версией параметрического инструмента стерео.

Примечание 2 – Для уровней декодера 3 и 4 инструмент SBR должен использоваться в режиме децимации, если частота дискретизации ядра ААС выше, чем 24 кГц. Следовательно, если инструмент SBR будет обрабатывать сигнал ААС с частотой дискретизации 48 кГц, то внутренняя частота дискретизации инструмента SBR составит 96 кГц, однако при этом входной сигнал будет децимирован инструментом SBRp,о 48 кГц.

Примечание 3 – Если присутствуют параметрические стерео данные, то максимальная частота дискретизации ААС составляет 24 кГц, в противном случае максимальная частота дискретизации ААС составляет 48 кГц.

Примечание 4 – Для одного или двух каналов максимальная частота дискретизации ААС с включенным SBR составляет 48 кГц. Для большего числа каналов максимальная частота дискретизации ААС с включенным SBR составляет 24 кГц.

Примечание 5 – Количество PCU/RCU дается для декодера, использующего инструмент SBR, если необходимо.

Для типа звукового объекта 2 (ААС LC) не разрешены моно или стерео элементы сведения.

Декодер профиля НЕ ААС V2 обрабатывает с помощью инструмента HQ SBR потоки бит, содержащие параметрические стерео данные. Для потоков бит, не содержащих параметрические стерео данные, декодер профиля НЕ ААС V2 может использовать инструмент HQ SBR или инструмент LP SBR.

Только потоки бит, содержащие строго один отдельный канальный элемент ААС, могут содержать параметрические стерео данные. Потоки бит, содержащие больше одного канала в части ААС, не должны содержать параметрические стерео данные.

Уровни профиля ААС с низкой задержкой приведены в таблице 13.

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

Звуковое вещание цифровое КОДИРОВАНИЕ СИГНАЛОВ ЗВУКОВОГО ВЕЩАНИЯ С СОКРАЩЕНИЕМ ИЗБЫТОЧНОСТИ ДЛЯ ПЕРЕДАЧИ ПО ЦИФРОВЫМ КАНАЛАМ СВЯЗИ.

ЧАСТЬ 3 (MPEG-4 AUDIO)

Общие требования к кодированию

Digital sound broadcasting.Coding of sound broadcasting signals with redundancy reduction for transfer on digital communication channels. Part III (MPEG-4 audio). General requirements for coding

Дата введения – 2013-09-01

1    Область применения

Для достижения лучшего качества звучания на низких скоростях передачи данных (менее 64 Кбит/с на канал) вводятся три дополнительных частоты дискретизации (Fs) -16 кГц, 22,05 кГц и 24 кГц. Это позволяет поддерживать звуковые сигналы с полосами частот 7,5 кГц, 10,3 кГц и 11,25 кГц соответственно, и обеспечивать передачу сигналов звукового вещания по стандартным каналам (ГОСТ Р 52742-2007 и ГОСТ Р 53537-2009).

Синтаксис, семантика и методы кодирования ГОСТ Р 54711-2011 сохраняются в данном стандарте, за исключением определения поля частоты дискретизации, поля скорости передачи и таблиц распределения бит. Новые значения действительны, если бит ID в заголовке ГОСТ Р 54711-2011 равняется нулю. Для получения лучшей производительности звуковой системы параметры психоакустической модели, используемой в кодере, должны быть изменены соответственно.

Вход кодера и выход декодера совместимы с существующими стандартами ИКМ, такими как ГОСТ 27667-88, ГОСТ 28376-89.

Показатели, определенные настоящим документом, являются базовыми для профессиональной и бытовой аппаратуры – проигрывателей компакт-дисков, усилителей сигналов звуковой частоты и другого оборудования класса Hi-Fi.

Универсальная и совместимая многоканальная звуковая система применима для спутникового и наземного телевизионного вещания, цифрового звукового вещания (наземного и спутникового), также как и для других носителей, например:

CATV    Кабельное телевидение;

CDAD    Кабельное цифровое звуковое вещание;

DAB    Широковещательная передача цифрового звукового сигнала;

DVD    Цифровой универсальный диск;

ENG    Электронные новости (включая новости по спутнику);

HDTV    Телевидение высокой четкости;

IPC    Межличностное общение (видеоконференция, видеотелефон и т. д.);

ISM Интерактивные носители (оптические диски и т. д.).

2    Нормативные ссылки

В настоящем стандарте использованы нормативные ссылки на следующие стандарты:

ГОСТ Р 54711-2011 Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. MPEG-1 часть III (MPEG-1 audio)

ГОСТ Р 54712-2011 Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. MPEG-2, часть III (MPEG-2 audio)

Издание официальное

ГОСТ Р 54713-2011 Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. MPEG-2, часть VII. Усовершенствованное кодирование звука (MPEG-2 ААС)

ГОСТ Р 53556.0-2009 Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. MPEG-4, часть III (MPEG-4 audio). Основные положения

ГОСТ Р 52742-2007 Каналы и тракты звукового вещания. Типовые структуры. Основные параметры качества. Методы измерений

ГОСТ Р 53537-2009 Звуковое вещание. Основные электрические параметры каналов и трактов студийного качества (с полосой частот 20 …20000 Гц)

ГОСТ 27667-88 Система цифровая звуковая «Компакт-диск». Параметры

ГОСТ 28376-89 Компакт-диск. Параметры и размеры

Примечание – При пользовании настоящим стандартом целесообразно проверить действие ссылочных стандартов и классификаторов в информационной системе общего пользования – на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет или по ежегодно издаваемому информационному указателю «Национальные стандарты», который опубликован по состоянию на 1 января текущего года, и по соответствующим ежемесячно издаваемым информационным указателям, опубликованным в текущем году. Если ссылочный документ заменен (изменен), то при пользовании настоящим стандартом следует руководствоваться замененным (измененным) документом. Если ссылочный документ отменен без замены, то положение, в котором дана ссылка на него, применяется в части, не затрагивающей эту ссылку.

3 Термины, определения, символы и сокращения

3.1    Термины и определения

В настоящем стандарте применены термины и сокращения с соответствующими определениями, по ГОСТ Р 53556.0-2009, а также следующие термины с соответствующими определениями, не вошедшие в указанный стандарт:

3.1.1    буфер: Устройство памяти большой емкости, позволяющее записывать и хранить большой объем данных.

3.1.2    программа ААС: Основные звуковые каналы, спаренные каналы, канал Ife и связанные потоки данных, которые должы быть декодированы и воспроизведены одновременно. Программа может быть задана по умолчанию или с помощью program_config_element Q. Данные sir>gle_channel_element (), channel_pair_element 0, coupling_channel_element 0, lfe_channel_element 0 или data_stream_element () могут сопровождать одну или более программ в любом заданном потоке.

3.1.3    звуковой блок доступа: Часть звуковых данных в пределах элементарного потока с возможностью индивидуального доступа.

3.1.4    звуковой композитный блок: Часть выходных данных, которую звуковой декодер производит из звуковых блоков доступа.

3.1.5    абсолютное время: Время, которому соответствует тот или иной звук; реальное время. Время в партитуре.

3.1.6    фактический параметр: Параметр команды.

3.1.7    адаптивная кодовая книга: Способ кодирования длительной периодичности сигнала. Входными параметрами кодовой книги являются перекрывающиеся сегменты прошлых возбуждений.

3.1.8    API: Интерфейс прикладного программирования.

3.1.9    масштабируемость полосы пропускания: Возможность менять полосу пропускания сигнала во время передачи.

3.1.10    ELD: Расширенная низкая задержка.

3.1.11    ЕР: Защита от ошибок.

3.1.12    R: Способность системы противостоять ошибкам.

3.1.13    возбуждение: Сигнал возбуждения представляет вход модуля LPC.

3.1.14    межфреймовое предсказание: Метод предсказания значений в текущем фрейме по значениям в предыдущих фреймах. Используется в VQ LSP.

3.1.15    LTP: Долгосрочное предсказание.

3.1.16    основные звуковые каналы: Весь single_channel_elements или channel_pair_elements в одной программе.

2

ГОСТ P 53556.1-2012

3.1.17    MIDI: Стандарт цифрового интерфейса музыкальных инструментов.

3.1.18    смешанный голосовой фрейм: Речевой сегмент, в котором присутствуют как голосовые, так и неголосовые компоненты.

3.1.19    PS: Параметрическое стерео.

3.1.20    TTSI: Интерфейс преобразования текста в речь.

3.1.21    VQ: Векторное квантование.

3.1.22    VXC: Векторное кодирование возбуждения. Синоним CELP.

3.2 Символы и сокращения

3.2.1    Математические операторы

Математические операторы, используемые в настоящем стандарте, аналогичны используемым в языке программирования С. Однако целочисленное деление с усечением и округление определены особым образом. Побитные операторы определяются с учетом представления чисел в дополнительном коде. Нумерация и счетчики циклов обычно начинаются с нуля.

+ Сложение.

–    Вычитание (как бинарный оператор) или отрицание (как унарный оператор).

++ Инкремент.

–    – Декремент.

* Умножение.

Л Возведение в степень.

/ Целочисленное деление с округлением к меньшему по модулю целому. Например, 7/4 и -7/4 округляются до одного, а -7/4 и 7/-4 округляются до минус одного.

// Целочисленное деление с округлением к ближайшему целому числу. Полуцелые числа округляются в сторону ближайшего большего по модулю числа, если не указано другое. Например 3//2 округляется до двух, а -3//2 округляется до минус двух.

DIV Целочисленное разделение с округлением результата в сторону -оо.

| | Абсолютное значение. | х | = х, когда х > 0;

| х | = 0, когда х == 0;

| х | = -х, когда х < 0.

% Деление с остатком. Операция определена только для положительных чисел.

Sign () Принимает следующие значения:    Sign    (х)    =    1, когда х > 0;

Sign (х) = 0, когда х = 0;

Sign (х) = -1, когда х < 0.

NINT () Округление до ближайшего целого. Возвращает самое близкое к вещественному аргументу целочисленное значение. Полуцелые числа округляются в сторону от нуля, sin    Синус,

cos    Косинус,

ехр    Экспонента.

V    Квадратный корень.

log1 о    Логарифм    по основанию 10.

1оде    Натуральный логарифм.

1од2    Логарифм    по основанию 2.

3.2.2    Логические операторы

II Логическое ИЛИ.

&&    Логическое И.

!    Логическое НЕ.

3.2.3    Операторы сравнения

>    Больше.

>    =    Больше или равно.

<    Меньше.

<=    Меньше или равно.

==    Равно.

! =    Не равно.

3

max    Максимальное значение.

min    Минимальное значение.

3.2.4    Побитные операторы

Использование побитных операций подразумевает представление чисел в дополнительном коде.

& Побитное И.

| Побитное ИЛИ.

»    Сдвиг    вправо.

«    Сдвиг    влево.

3.2.5    Оператор присвоения

= Оператор присвоения.

3.2.6    Мнемоники

Следующие мнемоники подлежат определению для описания различных типов данных, используемых в кодированном потоке битов.

bslbf    Битовая строка, младший бит слева, в соответствии с настоящим стандартом. Бито

вые строки пишутся, как строка единиц и нулей внутри одинарных кавычек, например, ‘1000 000Г. Пробелы внутри битовой строки вводятся для удобства чтения и не имеют никакого значения.

L, С, R, LS, RS Левый, центральный, правый, левый окружения и правый окружения звуковые каналы объемного звучания.

rpchof    Коэффициенты остатка от деления на порождающий полином, сначала следует ко

эффициент высшего порядка. uimsbf    Целое число без знака, старший бит первый.

vlclbf    Код с переменной длиной слова, левый бит первый, где «левый» относится к порядку,

в котором пишутся коды с переменной длиной. window    Номер текущего временного интервала в случае blockjtype == 2, 0 < window<2.

В многобайтовых словах старший байт является первым.

3.2.7 Константы

л 3,14159265358… е 2,71828182845…

3.3 Метод описания синтаксиса потока битов

Для выражения условий присутствия элементов данных используются следующие конструкции, указанные обычным шрифтом:

while ( condition ) {    Если    «истина»,    то    группа    элементов    данных    появляется    в    потоке    данных.

data_element Это повторяется, пока условие не «ложь».

do {    Элемент    данных    всегда появляется, по крайней мере, один раз.

data_element Элемент данных повторяется, пока условие не «ложь».

} while (condition )

if ( condition) {    Если условие является «истиной», то первая группа элементов данных по-

data_element является в потоке данных.

;

else{    Если условие не является «истиной», то вторая группа элементов данных

data_element появляется в потоке данных.

ГОСТ P 53556.1-2012

for(expr 1; ехрг2; ехргЪ) { ЕхрП является инициализирующим выражением цикла. Обычно оно опре-data_element деляет начальное состояние счетчика. Ехрг2 является условием, определяющим проверку перед каждой итерацией цикла. Цикл завершается, ког-}    да    условие    не    является    «истиной».    ЕхргЗ    является выражением, которое

выполняется в конце каждой итерации цикла, обычно оно инкрементирует счетчик.

data_element [ ]

data_element [n] data_element [m] [л]

data_element [l\ [m] [n]

data_element [m.. .n]

Группа элементов данных может содержать вложенные условные конструкции. Для компактности скобки {} могут быть опущены, когда следует только один элемент данных.

data_element [ ] является массивом данных.

Количество элементов массива зависит от контекста. data_element [п] является (л+1)-ым элементом массива данных. datajelement [т] [л] является элементом (л7+1)-ой строки (п+1)-го столбца двухмерного массива данных.

data_element [I] [т] [л] является (/+1), (Л7+1), (л+1)-ым элементом трехмерного массива данных.

data_element [т…п] содержит биты массива data_element с т по л включительно.

3.4    Арифметические типы данных

INT32    32-битное знаковое целое с дополнением к нулю.

INT64    64-битное знаковое целое с дополнением к нулю.

3.5    Технический обзор

3.5.1    Типы звуковых объектов MPEG-4

3.5.1.1    Определение типов звуковых объектов приведено в таблице 1.

Таблица 1- Определение типов звуковых объектов на основе инструментов/модулей

Ю типа объекта

Тип объекта Audio

1 aain control 1

D

.5

■c

о

<0

■ic

о

о

2

1 window shanes – standard 1

1 window shanes- AAC LD 1

1 Low Delav Window 1

1 filterbank – standard 1

1 filterbank – SSR 1

1TNS 1

1 intensitv 1

1 counlina 1

1 freauencv deomain nrediction 1

\PNS 1

1SIAQ_I

CO

CO

u.

1 unsamnlina filter tooi 1

1 auantisation&codina – AAC 1

\ auantisation&codina-TwinVQ 1

1 auantisation&codina – BSAC 1

V)

о

£

о:

UJ

о

ч

ч

1ER navload svntax 1

1EP Tool 1 1

1 CELP 1

1 Silence Comnression 1

1 HVXC 1

1 SA tools 1

I sasbf i

1 MIDI \

1HILN \

LTTSI_I

1 SBR 1

1 low delav SBR 1

<b

>

(0

-J

1 Laver-2 1

1 Lever-3 1

1SSC (Transient. Sinusoid) 1

1 Parametric stereo 1

1 InteoerM/S 1

1 Поимечания 1

0

Null

1

AAC main

X

X

X

X

X

X

X

X

X

X

2

2

AACLC

X

X

X

X

X

X

X

X

X

3

AAC SSR

X

X

X

X

X

X

X

X

X

X

4

AAC LTP

X

X

X

X

X

X

X

X

X

X

2

5

SBR

X

6

AAC Scalable

X

X

X

X

X

X

X

X

X

X

X

X

6

7

TwinVQ

X

X

X

X

X

X

X

8

CELP

X

9

HVXC

X

10

(зарезервировано)

11

(зарезервировано)

12

TTSI

X

13

Main synthetic

X

X

X

3

14

Wavetable synthesis

X

X

4

15

General MIDI

X

Окончание таблицы 1

ID типа объекта

Тип объекта Audio

1 aain control 1

1 block swltchlna 1

1 window shaDes – standard 1

1 window shaDes – AAC LD 1

1

1

re

o3

О

о

1 filterbank – standard 1

1 filterbank – SSR 1

1TNS 1

-J

1 intensitv 1

1 couplina 1

1 freauencv deomain Drediction 1

1 PNS 1

1 OVIS1

CO

CO

U.

1 uosamolina filter tool 1

1 auantisation&codina – AAC 1

1 auantisation&codina – TwinVO 1

1 auantisation&codina – BSAC 1

1 AAC ER Tools 1

1 ER Davload svntax 1

1 EP Tool 1 1

1 CELP 1

1 Silence ComDression 1

1HVXC 1

1 SA tools 1

1SASBF 1

1 MIDI 1

1 HILN 1

\TTSI_I

1SBR 1

1 low delav SBR 1

bl.

-J

1 Laver- 2 1

1 Laver-3 1

1 SSC (Transient. Sinusoid) 1

1 Parametric stereo 1

1 InteaerM/S 1

1 Поимечания 1

16

Algorithmic Synthesis and AudioFX

X

17

ERAACLC

X

X

X

X

X

X

X

X

X

X

X

18

(зарезервировано)

19

ERAACLTP

X

X

X

X

X

X

X

X

X

X

X

X

5

20

ER AAC scalable

X

X

X

X

X

X

X

X

X

X

X

X

X

X

6

21

ER TwinVQ

X

X

X

X

X

X

X

X

22

ER BSAC

X

X

X

X

X

X

X

X

X

X

23

ERAACLD

X

X

X

X

X

X

X

X

X

X

X

24

ER CELP

X

X

X

X

25

ERHVXC

X

X

X

X

26

ER HILN

X

X

X

27

ER Parametric

X

X

X

X

X

28

SSC

X

X

29

PS

X

X

30

MPEG Surround

31

(escape)

32

Layers

X

33

Layer-2

X

34

Layer-3

X

35

DST

X

36

ALS

X

37

SLS

X

X

X

X

X

38

SLS non-core

X

X

39

ER AAC ELD

X

X

X

X

X

X

X

X

X

X

X

40

SMR Simple

41

SMR Main

42-95

(зарезервировано)

Примечания

1    Функция битового поиска обязательна для декодера. Однако функции обнаружения и исправления ошибок являются необязательными.

2    Содержит AAC LC.

3    Содержит таблично-волновой синтез, алгоритмический синтез и звуковые эффекты.

4    Содержит спецификацию General MIDI.

5    Содержит ER AAC LC.

6    Инструмент передискретизации требуется только в комбинации с основным кодером.

3.5.1.2 Описание

3.5.1.2.1    Тип объекта NULL

Объект NULL обеспечивает возможность подать необработанные ИКМ отсчеты непосредственно в звуковой процессор. Декодирование не применяется, однако дескриптор звуковых объектов используется для определения частоты дискретизации и конфигурации звуковых каналов.

3.5.1.2.2    Тип объекта AAC – Main

Объект AAC Main очень схож с профилем А AC Main. Однако, дополнительно доступен инструмент PNS. Ограничения профиля AAC Main относительно различных программ и элементов сведения

6

ГОСТ P 53556.1-2012

также относятся к типу объекта AAC Main. Все многоканальные возможности AAC MPEG-2 доступны. Декодер, способный декодировать поток основного объекта MPEG-4, также в состоянии анализировать и декодировать поток необработанных данных AAC MPEG-2. С другой стороны, не смотря на то, что кодер AAC MPEG-2 может анализировать полезный поток битов А AC MPEG-4 Main, возможна ошибка декодирования из-за использования PNS.

3.5.1.2.3    Тип объекта AAC – Low Complexity (LC)

Тип объекта AAC MPEG-4 Low Complexity является копией профиля пониженной сложности А АС MPEG-2 с теми же ограничениями, как и для типа объекта AAC Main.

3.5.1.2.4    Тип объекта AAC – Scalable Sampling Rate (SSR)

Тип объекта AAC MPEG-4 Scalable Sampling Rate является копией профиля масштабируемой частоты дискретизации AAC MPEG-2 с теми же ограничениями, как и для типа объекта AAC Main.

3.5.1.2.5    Тип объекта А АС – Long Term Predictor (LTP)

Тип объекта AAC MPEG-4 LTP подобен типу объекта AAC Main, однако, предсказатель AAC MPEG-2 заменен долговременным предсказателем. LTP достигает схожего усиления эффективности кодирования, но требует значительно более низкой сложности реализации. Полезный поток бит профиля AAC MPEG-2 LC может быть декодирован декодером объекта LTP AAC MPEG-4 без ограничений.

3.5.1.2.6    Тип объекта SBR

Объект SBR содержит инструмент SBR и может быть объединен с типами звуковых объектов, обозначенными в таблице 2.

Таблица 2 – Типы звуковых объектов, которые могут быть объединены с инструментом SBR

Тип звукового объекта

ID типа объекта

AAC main

1

AACLC

2

AAC SSR

3

AAC LTP

4

AAC Scalable

6

ER AACLC

17

ER AAC LTP

19

ERAAC Scalable

20

ER BSAC

22

3.5.1.2.7    Тип объекта AAC Scalable

Объект AAC Scalable использует различный синтаксис полезного потока бит для реализации масштабируемости скорости передачи и полосы пропускания. Доступно большое количество масштабируемых комбинаций, включая комбинации с инструментами TwinVQ и CELP. Однако, поддерживаются только моно или 2-канальные стерео объекты.

3.5.1.2.8    Тип объекта TwinVQ

Объект TwinVQ принадлежит схеме кодирования GA, реализующей квантование коэффициентов МДКП. Эта схема кодирования основана на векторном квантовании с фиксированной скоростью вместо кода Хаффмана в ААС.

Доступны низкие скорости передачи для моно и стерео. Схемы масштабируемых скоростей также доступны в профиле Scalable Audio, объединенном с типом объекта AAC Scalable.

3.5.1.2.9    Тип объекта CELP

Объект CELP поддерживается инструментами кодирования речи CELP, которые обеспечивают кодирование на частотах дискретизации 8 кГц и 16 кГц при скоростях передачи данных в диапазоне 4-24 кбит/с. Дополнительно доступны масштабируемость скорости передачи и полосы пропускания для обеспечения масштабируемого декодирования потоков CELP. Объект CELP всегда содержит только один моно сигнал.

3.5.1.2.10    Тип объекта HVXC

Объект HVXC поддерживается инструментами параметрического кодирования речи (HVXC), которые обеспечивают режимы кодирования с фиксированной скоростью передачи данных (2,0 – 4,0 кбит/с) в масштабируемой и немасштабируемой схеме, режим с переменной скоростью передачи данных (<2,0 кбит/с) и функции изменения высоты и скорости воспроизведения. Поддерживаются только звуковые сигналы с частотой дискретизации 8 кГц, моно.

7

1 Область применения

2 Нормативные ссылки

3 Термины, определения, символы и сокращения

     3.1 Термины и определения

     3.2 Символы и сокращения

     3.3 Метод описания синтаксиса потока битов

     3.4 Арифметические типы данных

     3.5 Технический обзор

     3.6 Интерфейс МРЕG—4 Системы

     3.7 Транспортный поток МРЕG—4 Аудио

     3.8 Защита от ошибок

Приложение А (справочное) Форматы обмена аудиофайлами

Приложение Б (справочное) Инструмент защиты от ошибок

Библиография

Стр. 1
стр. 1
Стр. 2
стр. 2
Стр. 3
стр. 3
Стр. 4
стр. 4
Стр. 5
стр. 5
Стр. 6
стр. 6
Стр. 7
стр. 7
Стр. 8
стр. 8
Стр. 9
стр. 9
Стр. 10
стр. 10
Стр. 11
стр. 11
Стр. 12
стр. 12
Стр. 13
стр. 13
Стр. 14
стр. 14
Стр. 15
стр. 15
Стр. 16
стр. 16
Стр. 17
стр. 17
Стр. 18
стр. 18
Стр. 19
стр. 19
Стр. 20
стр. 20
Стр. 21
стр. 21
Стр. 22
стр. 22
Стр. 23
стр. 23
Стр. 24
стр. 24
Стр. 25
стр. 25
Стр. 26
стр. 26
Стр. 27
стр. 27
Стр. 28
стр. 28
Стр. 29
стр. 29
Стр. 30
стр. 30
Николай Иванов

Эксперт по стандартизации и метрологии! Разрешительная и нормативная документация.

Оцените автора
Все-ГОСТЫ РУ
Добавить комментарий