Автор: Maxim Smirnov, <ms@compression.ru>
SPb, 25 июля 2003 года в 14:36:18
В ответ на : Re: Неспешно делается неторопливый HMM-архиватор. от Олег Набатов
в 25 июля 2003 года в 14:15:29:
> >> В ppm-архиве основной вес приходится на ошибки Марковской модели. > >Гм. А неосновной?> Просто у меня перед глазами график весов букв, каждое слово в виде параболы. > Начало короткое но буквы тяжелые, остальное слово длинное но буквы легче, в общем два довольно разных участка. В итоге пол веса архива это первые участки, половина вторые. Вторые уже пожаты, а первый кажется можно улучшить. Спорно. Хилые доводы :-)
> >Попробуй перевернуть _слова_ ;-)
> Для русского языка будет лучше т.к. за пробелом будет окончание которых меньше, а зная окончания можно лучше догадаться корень какой части речи. > Если я правильно понимаю то ppm должен в обратную сторону жать русский текстр немного лучше, а hmm это что-то вроде русификации текста. Да. Для английского эффект проявляется гораздо слабее.
> >Попробуй просто разметить слова > >флагами их принадлежности к части > >речи и построить смешанную модель. > >Может, 2-3% выигрыша и будет.
> Как-то слишком дискретно, мне бы в оттенках и полутонах :) > Может не совсем о hmm речь, суть в том что строить не небольшой набор типов слов, а большое дерево в котором внизу будут типы слов, выше типы фраз, т.е. грамматика. Одно плавно переходит в другое. Слова заменяем символами типов и снова ищем "слова" в этом представлении, напримем "сг" - "существительное глагол". Я говорил об оценке. > > *флаг*-*слово*-*флаг*-*слово*- > Но новое представление должно быть не выжимкой где целому слову исходного файла соответствует единственный флаг, а перекодировка всего файла, т.е. таким же по объему. В этом вся суть. От -*слова*- только пробел останется. Не осознал...
> Адаптивный вариант должен будет перестраивать классификацию слов после поступления каждого нового. Сначала нужен не архиватор, а собственно модель, классификацию можно строить один раз. Пока слова предполагаю сравнивать каждое с каждым, так что даже N^3 выходит. Если выигрыш будет то можно и о скорости подумать.
Речь идет о классификации без обучения?
> > Может, 2-3% выигрыша и будет. > > По крайней мере, никто о большем > > не заявлял.
> :) > Я придерживаюсь своей грубой оценки. Треть веса первых участков, т.е. 30% размера архива. Если ppm жмет файл до 33% исходного размера то hmm должен до 22% Да ради бога :-) PS О "разжижении" первых символов я как-то писал в ru.compress http://compression.graphicon.ru/fido/ru.compress.0111.htm
см. "перестановочный фильтр"
|