Автор: REPLICATOR, <metodika@mail.ru>
Moscow, RU, 29 июня 2004 года в 20:39:34
В ответ на : словарное сжатие аудио с потерями от captain cobalt
в 23 июня 2004 года в 19:34:46:
> Идея: искать в звуковом потоке фрагменты, > "одинаковые" с точки зрения модели > психоакустической чувствительности.> Отождествить и применить какой-нибудь словарный метод. > Известно науке об этом что нибудь? Много чего перепробовали сами, есть определенные в основном негативные результаты. В принципе стоить обсудить при встрече. Требования по алгоритму выставлялись следующие: Есть алгоритм ассоциативной компрессии/распознавания алфавитно-паттерновой информации с би-тривной структурой данных. Есть обоснованные предположения, что современная популярная музыка в силу примитивности и ограниченности ее структуры и арранжировки, а так же природы ее компьютерного создания из сэмплов, должна обладать высокой избыточностью. Необходимо инвариантное амплитудно-частотное представление для элиминации громкостных и частотно-разностных представлений одного и того же. Т.е. если мы можем посчитать инварианты громкости, то избавляемся от большого числа "несовершенных копий", ловим линейный сдвиг спектра по частоте с сохранением его структуры - еще лучше, их комбинации - опять же... По идее в качестве кванта алфавита - буквы - хочется иметь инвариантное амплитудно-частотное представление моментального спектра в некоем минимальном окне,и далее формировать из него векторы - слова, для дальнейшего распознавания и компрессии. Размер окна должен быть установлен исходя из объективных характеристик сигнала (44100/16) психоакустических человеческих допусков детализации по амплитуде/частоте, и возможно с динамической коррекцией в зависимости от текущей тембрально/амплитудной насыщенности. Скорее всего для этого необходимо применение вэйвлет преобразования с вынесением за скобки констант по амплитуде и частотному сдвигу, чтобы хранить и сравнивать буквы-пропорции, а не буквы-абсолютные значения. В качестве дополнительных препроцессов видится некий корреляционный анализ типа биспектрального или триспектрального. Есть подозрение, что таким образом можно будет победить не только буквальные повторения одного и того же звучания на разной частоте/громкости, но и наложение таких звучаний друг на друга, если они были представлены в базе знаний ранее, что даст еще большую компрессию. Поскольку не ставиться задача разделения на "чистые инструменты", или переписи их в партитуру, то вполне допустима аппроксимация звучания уже накопленными элементами базы комплексного состава (т.е. неким подобием сэмплов, использованных диджеем при "творении" очередного попсового чуда, пусть даже если этот сэмпл - это одновременный аккорд всего сифонического оркестра). По идее достижение данного уровня инвариантности позволит эффективно распознавать/сжимать и реверберацию/эхо как амплитудно/частотные реплики некоего исходного сигнала.
|