Re: Неспешно делается неторопливый HMM-архиватор.


Сайт о сжатии >> Форум #Компрессор# >> [Ответить] [Ответы]

Автор: Олег Набатов, <oleg_nabatov@mail.ru>
25 июля 2003 года в 17:47:53

В ответ на : Re: Неспешно делается неторопливый HMM-архиватор. от Maxim Smirnov в 25 июля 2003 года в 14:36:18:


> > Просто у меня перед глазами график весов букв, каждое слово в виде параболы.

поправка - гипербола

>Вторые уже пожаты, а первый кажется можно улучшить.
> Спорно. Хилые доводы :-)

Теория предполагает что сочетания слов ppm отслеживает и угадывает первую букву, а практика говорит что для этого нужно паковать достаточно большие файлы. Так скажем у нового архиватора коэффициент компрессии должен расти при росте размера файла быстрее чем у ppm. Соответственно небольшие файлы будут сжиматься хуже, но это не страшно.

> Не осознал...

значит мы достигли согласия в недостаточном понимании этого вопроса :)

> Речь идет о классификации без
> обучения?

В яблочко.
Кстати чего еще нет у архиваторов это сохранения своего опыта. Еще одно подтверждение что их возможности стоят не дорого. Архиваторы очень много считают и все на свалку. Было бы разумно время тратить на улучшение моделей, доведение ее до "алгоритмичности". А пакуя файл вставлять туда эту модель как микро-dll.

> О "разжижении" первых символов
> я как-то писал в ru.compress
> http://compression.graphicon.ru/fido/ru.compress.0111.htm

Хитро, конечно, действительно эксклюзив, я бы даже сказал "ручная работа" :).
Теоретически HMM как раз должен покрыть множество таких фильтров.
Осталось подстановки находить во время работы, добавить спец-символы, и сделать переменным число "холостых ходов", сейчас там 0 или 1 на символ, можно бы больше.
Заметьте всего несколько подстановок дают ощутимый эффект, а что будет если их будут мегабайты?

Ответы:



Ответить на это сообщение

Тема:

Имя (желательно полное):

E-Mail:

URL:

Город:

Страна:

Вежливый и подробный комментарий:
(Форматируйте его, пожалуйста, как почту - короткими строками
Еnter в конце строки, пустая строка между параграфами).

Пожалуйста, заполните все поля.
И не нажимайте по два раза на кнопку! Дождитесь ответа сервера.