Re: ПРЕПРОЦЕССИНГ для текстовых файлов


Сайт о сжатии >> Форум #Компрессор# >> [Ответить] [Ответы]

Автор: Оленька, <ofdv@mail.ru>
Минск, РБ, 04 ноября 2002 года в 14:42:11

В ответ на : Re: ПРЕПРОЦЕССИНГ для текстовых файлов от Maxim Smirnov в 04 ноября 2002 года в 11:39:03:


> > Всем привет еще раз ! :)

> > Может кто поделится Info по сабжу ?

> То, что лежит в download/text.html,
> вполне себе представительный
> материал.

> > ВСЕ приветсвуется : алгоритмы для подсчета статистики биграмм/триграмм, собственно препроцессинг и проч...

> А какие проблемы с подсчетами?
> Берем ба-а-альшой набор файлов
> нужной тематики и считаем.
> Строчки кидаем в хеш или в дерево.

> Фильтры можно использовать из компрессора DC, там можно вырубить
> ключами собственно bwt и dc.
> На странице Шкарина вроде как лежит
> препроцессор для Lipt. Он, правда,
> не особо хорош, но прикинуть
> эффективность можно. Возможно
> как можно использовать словарь
> в entropy.


Большое спасибо :) !

Только зачем засорять оперативную память ? -- это насчет хэша.. ведь для хорошей статистики нужен хотя бы Мег txt
дерево?здесь же нет никакой иерархической структуры... дерево ради красивого слова... ?..
мне кажется, что использование OLE-шки какрой-нибудь БД было ло бы удобнее...
или я ошибаюсь ?


Ответы:



Ответить на это сообщение

Тема:

Имя (желательно полное):

E-Mail:

URL:

Город:

Страна:

Вежливый и подробный комментарий:
(Форматируйте его, пожалуйста, как почту - короткими строками
Еnter в конце строки, пустая строка между параграфами).

Пожалуйста, заполните все поля.
И не нажимайте по два раза на кнопку! Дождитесь ответа сервера.