[an error occurred while processing this directive] [an error occurred while processing this directive]

Re: Неспешно делается неторопливый HMM-архиватор.

Сайт о сжатии >> Форум #Компрессор# >> [Ответить] [Ответы]

Автор: Maxim Smirnov, <ms@compression.ru>
SPb, 25 июля 2003 года в 14:36:18

В ответ на : Re: Неспешно делается неторопливый HMM-архиватор. от Олег Набатов в 25 июля 2003 года в 14:15:29:

> >> В ppm-архиве основной вес приходится на ошибки Марковской модели.
> >Гм. А неосновной?

> Просто у меня перед глазами график весов букв, каждое слово в виде параболы.
> Начало короткое но буквы тяжелые, остальное слово длинное но буквы легче, в общем два довольно разных участка. В итоге пол веса архива это первые участки, половина вторые. Вторые уже пожаты, а первый кажется можно улучшить.

Спорно. Хилые доводы :-)

> >Попробуй перевернуть _слова_ ;-)

> Для русского языка будет лучше т.к. за пробелом будет окончание которых меньше, а зная окончания можно лучше догадаться корень какой части речи.
> Если я правильно понимаю то ppm должен в обратную сторону жать русский текстр немного лучше, а hmm это что-то вроде русификации текста.

Да. Для английского эффект проявляется
гораздо слабее.

> >Попробуй просто разметить слова
> >флагами их принадлежности к части
> >речи и построить смешанную модель.
> >Может, 2-3% выигрыша и будет.

> Как-то слишком дискретно, мне бы в оттенках и полутонах :)
> Может не совсем о hmm речь, суть в том что строить не небольшой набор типов слов, а большое дерево в котором внизу будут типы слов, выше типы фраз, т.е. грамматика. Одно плавно переходит в другое. Слова заменяем символами типов и снова ищем "слова" в этом представлении, напримем "сг" - "существительное глагол".

Я говорил об оценке.

> > *флаг*-*слово*-*флаг*-*слово*-
> Но новое представление должно быть не выжимкой где целому слову исходного файла соответствует единственный флаг, а перекодировка всего файла, т.е. таким же по объему. В этом вся суть. От -*слова*- только пробел останется.

Не осознал...

> Адаптивный вариант должен будет перестраивать классификацию слов после поступления каждого нового. Сначала нужен не архиватор, а собственно модель, классификацию можно строить один раз. Пока слова предполагаю сравнивать каждое с каждым, так что даже N^3 выходит. Если выигрыш будет то можно и о скорости подумать.

Речь идет о классификации без
обучения?

> > Может, 2-3% выигрыша и будет.
> > По крайней мере, никто о большем
> > не заявлял.

> :)
> Я придерживаюсь своей грубой оценки. Треть веса первых участков, т.е. 30% размера архива. Если ppm жмет файл до 33% исходного размера то hmm должен до 22%

Да ради бога :-)

PS
О "разжижении" первых символов
я как-то писал в ru.compress
http://compression.graphicon.ru/fido/ru.compress.0111.htm

см. "перестановочный фильтр"

Ответы:

Re: Неспешно делается неторопливый HMM-архиватор. ass-nice 03:33:19 04/9/2004 (0)
Re: Неспешно делается неторопливый HMM-архиватор. Олег Набатов 17:47:53 25/7/2003 (5)
- HMM первого порядка Олег Набатов 19:58:36 25/7/2003 (4)
  - Re: HMM первого порядка transvestite-bank 12:56:26 21/9/2004 (0)
  - Re: HMM первого порядка x-comic 04:53:35 05/9/2004 (0)
  - Re: HMM первого порядка machine-fuck 03:33:20 04/9/2004 (0)
  - Re: HMM первого порядка amateur-picture 18:50:39 02/9/2004 (0)

[an error occurred while processing this directive]

Ответить на это сообщение

Тема:

Имя (желательно полное):

E-Mail:

URL:

Город:

Страна:

Вежливый и подробный комментарий:
(Форматируйте его, пожалуйста, как почту - короткими строками
Еnter в конце строки, пустая строка между параграфами).
> > >> В ppm-архиве основной вес приходится на ошибки Марковской модели. > > >Гм. А неосновной? > > Просто у меня перед глазами график весов букв, каждое слово в виде параболы. > > Начало короткое но буквы тяжелые, остальное слово длинное но буквы легче, в общем два довольно разных участка. В итоге пол веса архива это первые участки, половина вторые. Вторые уже пожаты, а первый кажется можно улучшить. > > Спорно. Хилые доводы :-) > > > >Попробуй перевернуть _слова_ ;-) > > Для русского языка будет лучше т.к. за пробелом будет окончание которых меньше, а зная окончания можно лучше догадаться корень какой части речи. > > Если я правильно понимаю то ppm должен в обратную сторону жать русский текстр немного лучше, а hmm это что-то вроде русификации текста. > > Да. Для английского эффект проявляется > гораздо слабее. > > > >Попробуй просто разметить слова > > >флагами их принадлежности к части > > >речи и построить смешанную модель. > > >Может, 2-3% выигрыша и будет. > > Как-то слишком дискретно, мне бы в оттенках и полутонах :) > > Может не совсем о hmm речь, суть в том что строить не небольшой набор типов слов, а большое дерево в котором внизу будут типы слов, выше типы фраз, т.е. грамматика. Одно плавно переходит в другое. Слова заменяем символами типов и снова ищем "слова" в этом представлении, напримем "сг" - "существительное глагол". > Я говорил об оценке. > > > *флаг*-*слово*-*флаг*-*слово*- > > Но новое представление должно быть не выжимкой где целому слову исходного файла соответствует единственный флаг, а перекодировка всего файла, т.е. таким же по объему. В этом вся суть. От -*слова*- только пробел останется. > > Не осознал... > > > Адаптивный вариант должен будет перестраивать классификацию слов после поступления каждого нового. Сначала нужен не архиватор, а собственно модель, классификацию можно строить один раз. Пока слова предполагаю сравнивать каждое с каждым, так что даже N^3 выходит. Если выигрыш будет то можно и о скорости подумать. > > Речь идет о классификации без > обучения? > > > > Может, 2-3% выигрыша и будет. > > > По крайней мере, никто о большем > > > не заявлял. > > :) > > Я придерживаюсь своей грубой оценки. Треть веса первых участков, т.е. 30% размера архива. Если ppm жмет файл до 33% исходного размера то hmm должен до 22% > Да ради бога :-) > > PS > О "разжижении" первых символов > я как-то писал в ru.compress > http://compression.graphicon.ru/fido/ru.compress.0111.htm > см. "перестановочный фильтр"

Пожалуйста, заполните все поля.
И не нажимайте по два раза на кнопку! Дождитесь ответа сервера.

[an error occurred while processing this directive]