Автор: Maxim Smirnov, <msmirn@newmail.ru>
SPb, Russia, 26 мая 2002 года в 12:49:34
В ответ на : Re: PPMonstr I от Serge Osnach
в 25 мая 2002 года в 13:24:42:
> > Предлагаю перенести разговор в > > фидошную эху ru.compress > > Форум не особо удобен как средство > > общения. > Перенес и туда. :)Пока не вижу. [RS] > > Я пробовал, мне не понравилось. > > Неэффективно. Затрачиваемое время > > лучше пустить на что-нибудь другое. > > Скажем, на взвешивание. > Элементы CTW? > Особенно мне понравилось взвешивание разных контекстов в сочетании с LOE. Можно и без CTW, просто веса подбирать :-) Разумеется, все подряд лучше не взвешивать, а выполнять это только в тех случаях, когда оценка "не вызывает доверия". > > > Да, обьясни магию чисел - в > > маскированных контекстах увеличиваю > > частоту на 1/4 для всех символов, > > которые (Symbol XOR Recent) > > И что? :-) > > Лучше сжимается? > > Надо анализировать структуру файла, > > это же алфавитом определяется. > В том-то и магия, что я не нашел _реального_ файла, где такой подход ухудшает сжатие :) Так. Если я правильно понимаю, то (Symbol XOR Recent) предполагает истинность для всех Symbol != Recent :-) Если контексты замаскированы, то, видимо, мы там уже были и ничегошеньки не нашли. Поэтому условие выполнится для всех символов. И всем мы добавим 1/4. Поскольку некая контекстная модель не позволила нам оценить символ, то, вероятно, она еще "молода", либо меняется поведение источника. То, что мы добавляет одну и ту же величину всем счетчикам, на самом деле означает, что увеличиваем кодовое пространство, отводимое редко встречавшимся символам. Т.к. проявилась неустойчивость модели, то вероятно, что изменилось условное распределение вероятностей, и последние вполне могли стать первыми, и предсказание улучшается. Вот, в качестве рабочей гипотезы :-) [SEE] > > Логично. > С балансировщиком одна проблема - из- за его "шатаний" сжатие на однородных файлах (такстах) чуть-чуть, но ухудшается. Есть идеи по подавлению шатаний? Нет, я с этим особо не экспериментировал. Насколько помню, результаты замеров возможных улучшений меня не особо увлекли своей значимостью.
|