Сжатие текстов :

<< Классификация и разметка текстов с использованием методов сжатия данных

>> Русские материалы | Английские материалы | Ссылки

Смотрите также материалы:
- Сжатие текстов
- Моделирование естественных языков
- Сжатие с помощью грамматических моделей
- Предсказание по частичному совпадению (PPM)
- Контекстные методы сжатия (без PPM)
- Обзоры универсальных алгоритмов сжатия данных



Русские материалы | Английские материалы | Ссылки
Авторы Название Описание Рейтинг
Хмелев Д.В. Классификация и разметка с использованием методов сжатия данных Краткое введение к разделу (которое получилось не совсем кратким).
2003
HTML
5
Хмелев Д.В. Использование информационной метрики в анализе текстового материала на примере корпуса текстов А. и Б. Стругацких Об одном способе построения количественной метрики для оценки степени близости текстов. Материал содержит небольшой экскурс по теме. Ставится ряд открытых вопросов.
2004
PDF  199 кбайт
?


>> Русские материалы | Английские материалы | Ссылки
Teahan W.J., Harper D.J. Using compression-based language models for text categorization ...We show how a compression-based approach <to text categorization> can in fact produce competitive results compared with the traditional machine learning approaches, and in some cases outperform them...
In J. Callan, B. Croft and J. Lafferty, editors, Workshop on Language Modeling and Information Retrieval, pages 83-88. ARDA, Carnegie Mellon University, 2001.
Страница публикаций Teahan W.J.
PDF.RAR  160 кбайт
PS.RAR    83 кбайт
?
Teahan W.J., Wen Y., McNab R., Witten I.H. A Compression-based Algorithm for Chinese Word Segmentation The Chinese language is written without using spaces or other word delimiters. Although a text may be thought of as a corresponding sequence of words, there is considerable ambiguity in the placement of boundaries. Interpreting a text as a sequence of words is beneficial for some information retrieval and storage tasks: for example, full-text search, word-based compression, and keyphrase extraction. We describe a scheme that infers appropriate positions for word boundaries using an adaptive language model that is standard in text compression. It is trained on a corpus of pre-segmented text, and when applied to new text, interpolates word boundaries so as to maximize the compression obtained. This simple and general method performs well with respect to specialized schemes for Chinese language segmentation.
Computational Linguistics, 26(3):375-393, 2000.
Страница публикаций Teahan W.J.
PDF.RAR  127 кбайт
PS.RAR    75 кбайт
?
Teahan W.J. Text Classification and Segmentation Using Minimum Cross-Entropy Several methods for classifying and segmenting text are described. These are based on ranking text sequences by their cross-entropy calculated using a fixed order character-based Markov model adapted from the PPM text compression algorithm. Experimental results show that the methods are a significant improvement over previously used methods in a number of areas...
Proceedings of the International Conference on Content-based Multimedia Information Access (RIAO 2000), pages 943-961. C.I.D.-C.A.S.I.S, Paris, France, 2000. ISBN 2-905450-07-X.
Страница публикаций Teahan W.J.
PDF.RAR  242 кбайт
PS.RAR    106 кбайт
?
Witten I.H., Bray Z., Mahoui M., Teahan W.J. Text mining: A new frontier for lossless compression ...Text mining is about looking for patterns in text. It may be defined as the process of analyzing text to extract information that is useful for particular purposes... This paper aims to promote text compression as a key technology for text mining.
Proceedings of the IEEE Data Compression Conference. IEEE Computer Society Press, 1999.
Страница публикаций Teahan W.J.
PDF.RAR  35 кбайт
PS.RAR    32 кбайт
?
Ming Li, Xin Chen, Xin Li, Bin Ma, Paul Vitanyi The similarity metric В довольно многословном введении вводится и обосновывается так называемая информационная метрика на бинарных словах d(x,y)=max(K(x|y),K(y|x))/max(K(x),K(y)), где K(x) и K(x|y) --- безусловная и условная сложности по Колмогорову. Затем программы сжатия используются для приближённого вычисления K(x) и K(x|y) в задачах классификации видов по геному и языков по тексту декларации прав человека. Интересно, что вместо K(x) можно (в классификации по геному) использовать N(x) --- число неповторяющихся подстрок длины k.
IEEE Trans. Inform. Th., To appear.
Страница публикаций Paul Vitanyi
PDF.RAR  199 кбайт
5
R. Cilibrasi, P.M.B. Vitanyi Clustering by compression Метрика, изобретённая в предыдущей статье, используется для построения иерархических деревьев: музыка классифицируется по жанрам, тексты русских классиков и их переводы по авторам и переводчикам, распознаются изображения цифр, классифицируется вирус атипичной пневмонии (SARS), а также виды млекопитающих по геному, и конечно же языки по декларации прав человека.
CWI manuscript 2003, Submitted.
Страница публикаций Paul Vitanyi
PDF.RAR  204 кбайт
PS.RAR  96 кбайт
4


>> Русские материалы | Английские материалы | Ссылки
Страница Пола Витаньи (Paul Vitanyi) Активный учёный в теории информации и применениях к классификации. Большое число публикаций on-line и ссылок.

Смотрите также материалы:
- Сжатие текстов
- Моделирование естественных языков
- Сжатие с помощью грамматических моделей
- Предсказание по частичному совпадению (PPM)
- Контекстные методы сжатия (без PPM)
- Обзоры универсальных алгоритмов сжатия данных


наверх