Re: словарное сжатие аудио с потерями


Сайт о сжатии >> Форум #Компрессор# >> [Ответить] [Ответы]

Автор: REPLICATOR, <metodika@mail.ru>
Moscow, RU, 29 июня 2004 года в 20:39:34

В ответ на : словарное сжатие аудио с потерями от captain cobalt в 23 июня 2004 года в 19:34:46:


> Идея: искать в звуковом потоке фрагменты,
> "одинаковые" с точки зрения модели
> психоакустической чувствительности.

> Отождествить и применить какой-нибудь словарный метод.

> Известно науке об этом что нибудь?

Много чего перепробовали сами, есть определенные в основном негативные результаты. В принципе стоить обсудить при встрече.

Требования по алгоритму выставлялись следующие:

Есть алгоритм ассоциативной компрессии/распознавания
алфавитно-паттерновой информации с би-тривной структурой данных.

Есть обоснованные предположения, что
современная популярная музыка в силу примитивности и ограниченности
ее структуры и арранжировки, а так же природы ее компьютерного
создания из сэмплов, должна обладать высокой избыточностью.

Необходимо инвариантное амплитудно-частотное представление для
элиминации громкостных и частотно-разностных представлений одного
и того же. Т.е. если мы можем посчитать инварианты громкости, то
избавляемся от большого числа "несовершенных копий", ловим линейный сдвиг
спектра по частоте с сохранением его структуры - еще лучше, их
комбинации - опять же...

По идее в качестве кванта алфавита - буквы - хочется иметь
инвариантное амплитудно-частотное представление моментального спектра
в некоем минимальном окне,и далее формировать из него векторы -
слова, для дальнейшего распознавания и компрессии. Размер окна должен
быть установлен исходя из объективных характеристик сигнала (44100/16)
психоакустических человеческих допусков детализации по
амплитуде/частоте, и возможно с динамической коррекцией в зависимости
от текущей тембрально/амплитудной насыщенности.

Скорее всего для этого необходимо применение вэйвлет преобразования с
вынесением за скобки констант по амплитуде и частотному сдвигу, чтобы
хранить и сравнивать буквы-пропорции, а не буквы-абсолютные значения.

В качестве дополнительных препроцессов видится некий корреляционный
анализ типа биспектрального или триспектрального. Есть подозрение, что
таким образом можно будет победить не только буквальные повторения
одного и того же звучания на разной частоте/громкости, но и наложение
таких звучаний друг на друга, если они были представлены в базе знаний
ранее, что даст еще большую компрессию. Поскольку не ставиться задача
разделения на "чистые инструменты", или переписи их в партитуру, то
вполне допустима аппроксимация звучания уже накопленными элементами
базы комплексного состава (т.е. неким подобием сэмплов, использованных
диджеем при "творении" очередного попсового чуда, пусть даже если этот
сэмпл - это одновременный аккорд всего сифонического оркестра). По
идее достижение данного уровня инвариантности позволит эффективно
распознавать/сжимать и реверберацию/эхо как амплитудно/частотные
реплики некоего исходного сигнала.

Ответы:



Ответить на это сообщение

Тема:

Имя (желательно полное):

E-Mail:

URL:

Город:

Страна:

Вежливый и подробный комментарий:
(Форматируйте его, пожалуйста, как почту - короткими строками
Еnter в конце строки, пустая строка между параграфами).

Пожалуйста, заполните все поля.
И не нажимайте по два раза на кнопку! Дождитесь ответа сервера.