Автор: Serge Osnach, <ench@intelserv.kiev.ua>
Киев, Украина, 26 мая 2002 года в 14:53:32
В ответ на : Re: PPMonstr I от Maxim Smirnov
в 26 мая 2002 года в 12:49:34:
> > > Предлагаю перенести разговор в > > > фидошную эху ru.compress > > > Форум не особо удобен как средство > > > общения. > > Перенес и туда. :) > Пока не вижу. Не дошло письмо ;( Прийдется в форуме общаться.> [RS] > > > Я пробовал, мне не понравилось. > > > Неэффективно. Затрачиваемое время > > > лучше пустить на что-нибудь другое. > > > Скажем, на взвешивание. > > Элементы CTW? > > Особенно мне понравилось взвешивание разных контекстов в сочетании с LOE. > Можно и без CTW, просто веса > подбирать :-) > Разумеется, все подряд лучше не > взвешивать, а выполнять это только > в тех случаях, когда оценка "не > вызывает доверия". Так обычно при LOE отбрасываются именно "не внушающие доверия" контексты. Вот их я и домешиваю к тем контекстам, где реально приисходит сжатие. > > > > Да, обьясни магию чисел - в > > > маскированных контекстах увеличиваю > > > частоту на 1/4 для всех символов, > > > которые (Symbol XOR Recent) > > > И что? :-) > > > Лучше сжимается? > > > Надо анализировать структуру файла, > > > это же алфавитом определяется. > > В том-то и магия, что я не нашел > _реального_ файла, где такой подход > ухудшает сжатие :) > Так. Если я правильно понимаю, > то (Symbol XOR Recent) предполагает > истинность для всех Symbol != > Recent :-) Recent оцениваем отдельно. Кстати, в оригинале было (Symbol XOR Recent) Если контексты замаскированы, то, > видимо, мы там уже были и ничегошеньки > не нашли. Поэтому условие выполнится > для всех символов. И всем мы > добавим 1/4. Поскольку некая > контекстная модель не позволила нам > оценить символ, то, вероятно, она > еще "молода", либо меняется поведение > источника. То, что мы добавляет одну > и ту же величину всем счетчикам, на > самом деле означает, что увеличиваем > кодовое пространство, отводимое редко > встречавшимся символам. Т.к. > проявилась неустойчивость модели, то > вероятно, что изменилось условное > распределение вероятностей, и последние > вполне могли стать первыми, и > предсказание улучшается. > Вот, в качестве рабочей гипотезы :-) Попробую выразить проще -- во многих случаях в маскированных контекстах вероятность Recent-символа полезно уменьшать, а не увеличивать. > [SEE] > > > Логично. > > С балансировщиком одна проблема - из- > за его "шатаний" сжатие на однородных > файлах (такстах) чуть-чуть, но > ухудшается. Есть идеи по подавлению > шатаний? > Нет, я с этим особо не > экспериментировал. Насколько помню, > результаты замеров возможных улучшений меня не особо увлекли своей > значимостью. Может, дело просто в неудачной реализации? Я реализовал балансировку отдельно для каждого порядка контекста, и результатом доволен. И потом, балансировщик позволяет более вольно обходиться с оценкой вероятности символов...
|