[an error occurred while processing this directive] [an error occurred while processing this directive]

Re: словарное сжатие аудио с потерями

Сайт о сжатии >> Форум #Компрессор# >> [Ответить] [Ответы]

Автор: REPLICATOR, <metodika@mail.ru>
Moscow, RU, 29 июня 2004 года в 20:39:34

В ответ на : словарное сжатие аудио с потерями от captain cobalt в 23 июня 2004 года в 19:34:46:

> Идея: искать в звуковом потоке фрагменты,
> "одинаковые" с точки зрения модели
> психоакустической чувствительности.

> Отождествить и применить какой-нибудь словарный метод.

> Известно науке об этом что нибудь?

Много чего перепробовали сами, есть определенные в основном негативные результаты. В принципе стоить обсудить при встрече.

Требования по алгоритму выставлялись следующие:

Есть алгоритм ассоциативной компрессии/распознавания
алфавитно-паттерновой информации с би-тривной структурой данных.

Есть обоснованные предположения, что
современная популярная музыка в силу примитивности и ограниченности
ее структуры и арранжировки, а так же природы ее компьютерного
создания из сэмплов, должна обладать высокой избыточностью.

Необходимо инвариантное амплитудно-частотное представление для
элиминации громкостных и частотно-разностных представлений одного
и того же. Т.е. если мы можем посчитать инварианты громкости, то
избавляемся от большого числа "несовершенных копий", ловим линейный сдвиг
спектра по частоте с сохранением его структуры - еще лучше, их
комбинации - опять же...

По идее в качестве кванта алфавита - буквы - хочется иметь
инвариантное амплитудно-частотное представление моментального спектра
в некоем минимальном окне,и далее формировать из него векторы -
слова, для дальнейшего распознавания и компрессии. Размер окна должен
быть установлен исходя из объективных характеристик сигнала (44100/16)
психоакустических человеческих допусков детализации по
амплитуде/частоте, и возможно с динамической коррекцией в зависимости
от текущей тембрально/амплитудной насыщенности.

Скорее всего для этого необходимо применение вэйвлет преобразования с
вынесением за скобки констант по амплитуде и частотному сдвигу, чтобы
хранить и сравнивать буквы-пропорции, а не буквы-абсолютные значения.

В качестве дополнительных препроцессов видится некий корреляционный
анализ типа биспектрального или триспектрального. Есть подозрение, что
таким образом можно будет победить не только буквальные повторения
одного и того же звучания на разной частоте/громкости, но и наложение
таких звучаний друг на друга, если они были представлены в базе знаний
ранее, что даст еще большую компрессию. Поскольку не ставиться задача
разделения на "чистые инструменты", или переписи их в партитуру, то
вполне допустима аппроксимация звучания уже накопленными элементами
базы комплексного состава (т.е. неким подобием сэмплов, использованных
диджеем при "творении" очередного попсового чуда, пусть даже если этот
сэмпл - это одновременный аккорд всего сифонического оркестра). По
идее достижение данного уровня инвариантности позволит эффективно
распознавать/сжимать и реверберацию/эхо как амплитудно/частотные
реплики некоего исходного сигнала.

Ответы:

[an error occurred while processing this directive]

Ответить на это сообщение

Тема:

Имя (желательно полное):

E-Mail:

URL:

Город:

Страна:

Вежливый и подробный комментарий:
(Форматируйте его, пожалуйста, как почту - короткими строками
Еnter в конце строки, пустая строка между параграфами).
> > Идея: искать в звуковом потоке фрагменты, > > "одинаковые" с точки зрения модели > > психоакустической чувствительности. > > Отождествить и применить какой-нибудь словарный метод. > > Известно науке об этом что нибудь? > Много чего перепробовали сами, есть определенные в основном негативные результаты. В принципе стоить обсудить при встрече. > Требования по алгоритму выставлялись следующие: > Есть алгоритм ассоциативной компрессии/распознавания > алфавитно-паттерновой информации с би-тривной структурой данных. > Есть обоснованные предположения, что > современная популярная музыка в силу примитивности и ограниченности > ее структуры и арранжировки, а так же природы ее компьютерного > создания из сэмплов, должна обладать высокой избыточностью. > Необходимо инвариантное амплитудно-частотное представление для > элиминации громкостных и частотно-разностных представлений одного > и того же. Т.е. если мы можем посчитать инварианты громкости, то > избавляемся от большого числа "несовершенных копий", ловим линейный сдвиг > спектра по частоте с сохранением его структуры - еще лучше, их > комбинации - опять же... > По идее в качестве кванта алфавита - буквы - хочется иметь > инвариантное амплитудно-частотное представление моментального спектра > в некоем минимальном окне,и далее формировать из него векторы - > слова, для дальнейшего распознавания и компрессии. Размер окна должен > быть установлен исходя из объективных характеристик сигнала (44100/16) > психоакустических человеческих допусков детализации по > амплитуде/частоте, и возможно с динамической коррекцией в зависимости > от текущей тембрально/амплитудной насыщенности. > Скорее всего для этого необходимо применение вэйвлет преобразования с > вынесением за скобки констант по амплитуде и частотному сдвигу, чтобы > хранить и сравнивать буквы-пропорции, а не буквы-абсолютные значения. > В качестве дополнительных препроцессов видится некий корреляционный > анализ типа биспектрального или триспектрального. Есть подозрение, что > таким образом можно будет победить не только буквальные повторения > одного и того же звучания на разной частоте/громкости, но и наложение > таких звучаний друг на друга, если они были представлены в базе знаний > ранее, что даст еще большую компрессию. Поскольку не ставиться задача > разделения на "чистые инструменты", или переписи их в партитуру, то > вполне допустима аппроксимация звучания уже накопленными элементами > базы комплексного состава (т.е. неким подобием сэмплов, использованных > диджеем при "творении" очередного попсового чуда, пусть даже если этот > сэмпл - это одновременный аккорд всего сифонического оркестра). По > идее достижение данного уровня инвариантности позволит эффективно > распознавать/сжимать и реверберацию/эхо как амплитудно/частотные > реплики некоего исходного сигнала.

Пожалуйста, заполните все поля.
И не нажимайте по два раза на кнопку! Дождитесь ответа сервера.

[an error occurred while processing this directive]