Сжатие текстов


Английские материалы   Исходные тексты компрессоров

Русские материалы
Авторы Название статьи Описание Рейтинг
Шелвин Е. Задачка сжатия словаря Постановка задачи разработки эффективной модели для словаря.
HTML
Кадач А.В. Сжатие текстов и гипертекстов Рассмотрен метод сжатия текстов на естественных языках, основанный на замене слов текста их номерами в словаре, упорядоченном по частоте употребления слов, позволяющий декодировать произвольный участок текста, что невозможно при использовании известных методов сжатия... Данная статья полностью вошла в диссертацию автора, поэтому представлена здесь просто "для порядка".
//Программирование, 1997, N4, С. 47-56.
PDF.RAR  827 кбайт
5
Смирнов М.А. Использование методов сжатия данных без потерь информации в условиях жестких ограничений на ресурсы устройства-декодера Небольшое исследование вопроса сжатия данных при жестких ограничениях на ресурсы декодера, в первую очередь по памяти. Сравнивается эффективность различных методов при адаптивном и статическом подходах. Для сравниваемых программ показывается взаимосвязь достигаемого коэффициента сжатия, скорости декодирования и требуемого для декодирования объема памяти. Основное внимание уделяется экономному кодированию текста на естественном языке.
Отредактированная версия данного текста была опубликована как:
Осипов Л.А., Смирнов М.А. Использование методов сжатия данных без потерь информации в условиях жестких ограничений на ресурсы устройства-декодера //Информационно-управляющие системы, 2004. - N4. - С.7-15.
2004
HTML  220 кбайт
PDF    165 кбайт
5
Смирнов М.А. Методы повышения степени сжатия текстов на естественных языках для алгоритмов неискажающего сжатия данных Показывается возможность заметного увеличения степени сжатия текстов на естественных языках за счет учета грамматики языка без непосредственного построения соответствующей вероятностной модели. С целью усиления сжатия текстовых данных предлагается простая схема предварительной обработки (на основе LIPT), особенность которой состоит в расстановке маркеров (тегов) принадлежности слова к некоторой части речи.
2002
HTML  110 кбайт
PDF    102 кбайт
?


Английские материалы
Teahan W.J. Modelling English text Данная диссертация посвящена изучению статистических моделей текста. Большое внимание уделяется моделям класса Prediction by Partial Matching (PPM). Исследовано несколько способов повышения точности моделей текста (и, следовательно, сжатия, если модели используются в компрессорах).
Department of Computer Science, The University of Waikato, Hamilton, New Zealand, May 1998.
PDF.RAR  1674 кбайт
PS.RAR    958 кбайт
5
Kruse H., Mukherjee A. Improve Text Compression Ratios with Burrows-Wheeler Transform Эффективность препроцессинга текстов при их сжатии с помощью BWT-компрессоров: изменение алфавита и словарное преобразование.
Department of Computer Science, The University of Waikato, Hamilton, New Zealand, May 1998.
PDF.RAR  113 кбайт
PS.RAR    56 кбайт
4
Awan F., Mukherjee A. LIPT: A Lossless Text Transform to Improve Compression Препроцессинг текстов с помощью алгоритма словарного преобразования LIPT.
Proceedings of International Conference on Information and Theory: Coding and Computing, IEEE Computer Society, Las Vegas Nevada, April 2001.
PDF.RAR  40 кбайт
5
Sun W., Mukherjee A., Zhang N. A Dictionary-Based Multi-Corpora Text Compression System Описание StarNT -- усовершенствованного LIPT. За счет простых изменений алгоритма LIPT часто можно улучшить сжатие на несколько процентов относительно исходного.
2003.
Работа была представлена в материалах конференции DCC'03 одностраничными тезисами.
PDF.RAR  134 кбайт
4
Grabowski, Sz. Text preprocessing for Burrows-Wheeler block sorting compression Эффективность препроцессинга текстов: преобразование заглавных букв, модификация разделителей, словарное преобразование. На примере BWT-компрессоров.
VII Konferencja "Sieci i Systemy Informatyczne" (7th Conference "Networks and IT Systems"), Lodz, Oct. 1999, conf. proc., pp. 229-239.
PDF.RAR  68 кбайт
RTF.RAR  14 кбайт
5
Fenwick P., Brierley S. Compression of Unicode files Исследование эффективности сжатия текстов в различных форматах, в том числе Unicode, с помощью алгоритмов разных типов.
Department of Computer Science, The University of Auckland, 1998.
PDF.RAR  59 кбайт
3
Moffat A., Sharman N., Zobel J. Static Compression for Dynamic Texts Two problems arise when semi-static word-based compression methods are applied to large texts, such as those stored in information retrieval systems. First, the space required for the model during decoding can become very large. Second, the need to handle document insertions means that the collection must be periodically recompressed if compression effciency is to be maintained. Here we show that with careful management the impact of both of these drawbacks can be minimised...
Proceedings of the 1994 IEEE Data Compression Conference, Snowbird, Utah, March 1994.
PDF.RAR  138 кбайт
?
Witten I., Bell T., Moffat A., Nevill-Manning C., Smith T., Thimbleby H. Semantic and Generative Models for Lossy Text Compression Рассмотрено несколько способов сжатия текста с потерями. Что-то ближе к реферированию, что-то к преобразованию с не очень большими потерями с точки зрения семантики. Техники могут быть полезны и для беспотерьного сжатия.
The Computer Journal, Vol.37, No.2, pp.83-87, 1994.
PDF  81 кбайт
5
Abel J., Teahan W. Text Preprocessing for Data Compression Исчерпывающее описание существующих способов подготовки текста для последующего эффективного сжатия
IEEE, 2003
PDF  92 кбайт
Horspool R.N., Cormack G.V. Constructing Word-Based Text Compression Algorithms Рассмотрено 4 алгоритма пословного сжатия на основе: адаптивного кодирования по Хаффману, LZW, PPM 1-0, контекстного моделирования первого порядка с учетом предполагаемой части речи. Даются сравнительные результаты на нескольких небольших файлах. Весьма любопытная статья, несмотря на ее возраст. Было бы интересно посмотреть на современные реализации с более сложными схемами моделирования, использующие больший объем памяти.
Страница публикаций R. Nigel Horspool'а
Proceedings of IEEE Data Compression Conference (DCC'92), Snowbird, UT, March 1992, pp. 62-71.
PDF.RAR  23 кбайт
4+
Skibinski P., Grabowski Sz., Deorowicz S. Revisiting dictionary-based compression Еще один вариант LIPT. За счет нескольких модификаций и дополнительного препроцессинга удалось существенно превысить показатели StarNT (LIPT-клон). Описано большое число финтов ушами при сжатии текстов. Можно использовать в качестве реферативной статьи по теме.
15.01.2005. Принято к публикации в журнале "Software–Practice and Experience"
PDF.RAR  224 кбайт
4+
Mahoney M. Fast Text Compression with Neural Networks Сказ о том, что от искусственных нейронных сетей иногда бывает некоторая польза. Достигнуто сжатие на уровне простого PPM при приемлемой скорости работы.
Proceedings of the Thirteenth International Florida Artificial Intelligence Research Society Conference, 2000, pp.230-324.
Домашняя страница
PDF.RAR  79 кбайт
5


Исходные тексты компрессоров

наверх