Сжатие текстов :
<< Классификация и разметка текстов с использованием методов сжатия данных
>> Русские материалы | Английские материалы | СсылкиСмотрите также материалы:
- Сжатие текстов
- Моделирование естественных языков
- Сжатие с помощью грамматических моделей
- Предсказание по частичному совпадению (PPM)
- Контекстные методы сжатия (без PPM)
- Обзоры универсальных алгоритмов сжатия данных
Русские материалы | Английские материалы | Ссылки |
|||
Авторы | Название | Описание | Рейтинг |
Хмелев Д.В. | Классификация и разметка с использованием методов сжатия данных | Краткое введение к разделу (которое получилось не совсем кратким).
2003 HTML |
|
Хмелев Д.В. | Использование информационной метрики в анализе текстового материала на примере корпуса текстов А. и Б. Стругацких | Об одном способе построения количественной метрики для оценки степени близости текстов. Материал содержит небольшой экскурс по теме. Ставится ряд открытых вопросов.
2004 PDF 199 кбайт |
|
>> Русские материалы | Английские материалы | Ссылки |
|||
Teahan W.J., Harper D.J. | Using compression-based language models for text categorization | ...We show how a compression-based approach <to text categorization> can in fact produce competitive results compared with the traditional machine learning approaches, and in some cases outperform them... In J. Callan, B. Croft and J. Lafferty, editors, Workshop on Language Modeling and Information Retrieval, pages 83-88. ARDA, Carnegie Mellon University, 2001. Страница публикаций Teahan W.J. PDF.RAR 160 кбайт PS.RAR 83 кбайт |
|
Teahan W.J., Wen Y., McNab R., Witten I.H. | A Compression-based Algorithm for Chinese Word Segmentation | The Chinese language is written without using spaces or other word delimiters.
Although a text may be thought of as a corresponding sequence of words, there
is considerable ambiguity in the placement of boundaries. Interpreting a text as
a sequence of words is beneficial for some information retrieval and storage
tasks: for example, full-text search, word-based compression, and keyphrase
extraction. We describe a scheme that infers appropriate positions for word boundaries
using an adaptive language model that is standard in text compression. It is
trained on a corpus of pre-segmented text, and when applied to new text,
interpolates word boundaries so as to maximize the compression obtained. This
simple and general method performs well with respect to specialized schemes
for Chinese language segmentation. Computational Linguistics, 26(3):375-393, 2000. Страница публикаций Teahan W.J. PDF.RAR 127 кбайт PS.RAR 75 кбайт |
|
Teahan W.J. | Text Classification and Segmentation Using Minimum Cross-Entropy | Several methods for classifying and segmenting text are described. These are based on ranking text sequences by their cross-entropy calculated using a fixed order character-based Markov model adapted from the PPM text compression algorithm. Experimental results show that the methods are a significant improvement over previously used methods in a number of areas... Proceedings of the International Conference on Content-based Multimedia Information Access (RIAO 2000), pages 943-961. C.I.D.-C.A.S.I.S, Paris, France, 2000. ISBN 2-905450-07-X. Страница публикаций Teahan W.J. PDF.RAR 242 кбайт PS.RAR 106 кбайт |
|
Witten I.H., Bray Z., Mahoui M., Teahan W.J. | Text mining: A new frontier for lossless compression | ...Text mining is about looking for patterns in text. It may be defined as the
process of analyzing text to extract information that is useful for particular purposes...
This paper aims to promote text compression as a key technology for text mining. Proceedings of the IEEE Data Compression Conference. IEEE Computer Society Press, 1999. Страница публикаций Teahan W.J. PDF.RAR 35 кбайт PS.RAR 32 кбайт |
|
Ming Li, Xin Chen, Xin Li, Bin Ma, Paul Vitanyi | The similarity metric | В довольно многословном введении вводится и обосновывается так называемая
информационная метрика на бинарных словах
d(x,y)=max(K(x|y),K(y|x))/max(K(x),K(y)), где K(x) и K(x|y) ---
безусловная и условная сложности по Колмогорову. Затем программы сжатия
используются для приближённого вычисления K(x) и K(x|y) в задачах
классификации видов по геному и языков по тексту декларации прав человека.
Интересно, что вместо K(x) можно (в классификации по геному) использовать
N(x) --- число неповторяющихся подстрок длины k.
IEEE Trans. Inform. Th., To appear. Страница публикаций Paul Vitanyi PDF.RAR 199 кбайт |
|
R. Cilibrasi, P.M.B. Vitanyi | Clustering by compression | Метрика, изобретённая в предыдущей статье, используется для построения
иерархических деревьев: музыка классифицируется по жанрам, тексты
русских классиков и их переводы по авторам и переводчикам, распознаются
изображения цифр, классифицируется вирус атипичной пневмонии (SARS), а
также виды млекопитающих по геному, и конечно же языки по декларации прав
человека.
CWI manuscript 2003, Submitted. Страница публикаций Paul Vitanyi PDF.RAR 204 кбайт PS.RAR 96 кбайт |
|
>> Русские материалы | Английские материалы | Ссылки |
|||
Страница Пола Витаньи (Paul Vitanyi) | Активный учёный в теории информации и применениях к классификации. Большое число публикаций on-line и ссылок. |
Смотрите также материалы:
- Сжатие текстов
- Моделирование естественных языков
- Сжатие с помощью грамматических моделей
- Предсказание по частичному совпадению (PPM)
- Контекстные методы сжатия (без PPM)
- Обзоры универсальных алгоритмов сжатия данных
наверх