MSU Audio Codecs Comparison In Time and Time-Frequency Domain
Сравнения Кодеков во Временном и Частотно-Временном Домене

MSU Graphics & Media Lab (Audio Group)

Руководитель проекта: Александр Жирков
Замеры: Валентин Вербовой
Обработка: Александр Страбыкин
Текст: Валентин Вербовой, Александр Страбыкин
Консультант: Дмитрий Ватолин


Статистика


  • Тестовых последовательностей - 5.
  • Всего протестировано 10 кодеков с помощью различных метрик на основе PSNR (Peak signal-to-noise ratio) и нескольких методов визуализации сигналов.
  • Сведены результаты тестирования для битрейтов 8-192 kbps
  • Отчет о тестировании - 43 страницы в PDF.
MSU Audio Codecs Comparison In Time and Time-Frequency Domain (скачать PDF - 1.9 Mb).

Введение в автоматическое сравнение кодеков


В данной статье рассматривается несколько автоматических метрик для оценки качества работы аудио-кодеков, основыванных на технологии PSNR сравнения. Вместе с универсальными кодеками были протестированы и специализированные речевые кодеки, как на речевых, так и на музыкальных аудио-последовательностях, и построены сводные диаграммы качества c различной степенью сжатия. Необходимо отметить, что ни одна PSNR метрика не может дать результата абсолютно адекватного человеческому восприятию, для этого в статье приведены некоторые системы визуализации различий в сигналах, которые позволяют более глубоко понять характер изменений в сжатом звуке для каждого кодека. PSNR метрики могут давать не коpректный результат по многим причинам, основные из которых:

  • Не все кодеки сохраняют форму волны исходного сигнала, в результате чего PSNR сравнения по форме волны может давать неадекватную оценку качества сохранения сигнала по сравнению с оценкой "на слух". Для решения этой проблемы использовались метрики работающие как в амплитудно-временном представлении сигнала, так и в спектрально-временном представлении.



    Представление звукового сигнала в виде волны (вверху) и в виде спектрограммы (внизу)

  • Для уменьшения объема сжимаемой информации многие кодеки не сохраняют высокие частоты, что так же может сильно сказываться на результатах сравнения сигнала, но быть мало заметно при прослушивании. Для большей корректности результата в спектрально-временном представлении рассматривались 3 спектральных полосы соответствующих низкочастотным, среднечастотным и высокочастотным звуковым составляющим.


    На данном изображении представлены спектры двух сигналов (синяя область + красная = спектр первого сигнала, а синяя + зеленая = спектр второго сигнала). Очевидно, у второго сигнала отсутствуют высокие частоты. (вертикальная ось - амплитуда в децибелах, горизонтальная - частота)

  • Для уменьшения количества сжимаемой информации многие современные кодеки используют модели психоакустики для удаления части сигнала, которую обычно не улавливает человек. Данные модели могут сильно различаться у различных кодеков. Для наглядной демонстрации подобных особенностей изменения сигналов в статью включены различные методы спектральной визуализации.
  • Существенно искажают результаты тестирования небольшие изменения общей энергии сигнала, которая может быть не заметна на слух. Данные артефакты также хорошо заметны при спектральной визуализации сигналов.

Download


Связаться с нами можно по адресу: 


Другие материалы

Сравнение аудио кодеков на битрейте 32Кб/с / MSU 32 kbps Audio Codecs Comparison
Материалы по видео


Смотрите также материалы:
- По цветовым пространствам
- По JPEG
- По JPEG-2000