Сжатие текстов
Английские материалы Исходные тексты компрессоров
Русские материалы |
|||
Авторы | Название статьи | Описание | Рейтинг |
Шелвин Е. | Задачка сжатия словаря | Постановка задачи разработки эффективной модели для словаря.
HTML |
|
Кадач А.В. | Сжатие текстов и гипертекстов | Рассмотрен метод сжатия текстов на естественных языках, основанный на замене слов текста их
номерами в словаре, упорядоченном по частоте употребления слов, позволяющий декодировать произвольный участок текста, что невозможно при использовании известных методов сжатия... Данная статья полностью вошла в
диссертацию автора, поэтому представлена здесь просто "для порядка".
//Программирование, 1997, N4, С. 47-56. PDF.RAR 827 кбайт |
|
Смирнов М.А. | Использование методов сжатия данных без потерь информации в условиях жестких ограничений на ресурсы устройства-декодера | Небольшое исследование вопроса сжатия данных при жестких ограничениях на ресурсы декодера, в первую очередь по памяти. Сравнивается эффективность различных методов при адаптивном и статическом подходах. Для сравниваемых программ показывается взаимосвязь достигаемого коэффициента сжатия, скорости декодирования и требуемого для декодирования объема памяти. Основное внимание уделяется экономному кодированию текста на естественном языке.
Отредактированная версия данного текста была опубликована как: Осипов Л.А., Смирнов М.А. Использование методов сжатия данных без потерь информации в условиях жестких ограничений на ресурсы устройства-декодера //Информационно-управляющие системы, 2004. - N4. - С.7-15. 2004 HTML 220 кбайт PDF 165 кбайт |
|
Смирнов М.А. | Методы повышения степени сжатия текстов на естественных языках для алгоритмов неискажающего сжатия данных | Показывается возможность заметного увеличения степени сжатия текстов на естественных языках за счет учета грамматики языка без непосредственного построения соответствующей вероятностной модели. С целью усиления сжатия текстовых данных предлагается простая схема предварительной обработки (на основе LIPT), особенность которой состоит в расстановке маркеров (тегов) принадлежности слова к некоторой части речи.
2002 HTML 110 кбайт PDF 102 кбайт |
|
Английские материалы | |||
Teahan W.J. | Modelling English text | Данная диссертация посвящена изучению статистических моделей текста. Большое внимание уделяется моделям класса Prediction by Partial Matching (PPM). Исследовано несколько способов повышения точности моделей текста (и, следовательно, сжатия, если модели используются в компрессорах).
Department of Computer Science, The University of Waikato, Hamilton, New Zealand, May 1998. PDF.RAR 1674 кбайт PS.RAR 958 кбайт |
|
Kruse H., Mukherjee A. | Improve Text Compression Ratios with Burrows-Wheeler Transform | Эффективность препроцессинга текстов при их сжатии с помощью BWT-компрессоров: изменение алфавита и словарное преобразование.
Department of Computer Science, The University of Waikato, Hamilton, New Zealand, May 1998. PDF.RAR 113 кбайт PS.RAR 56 кбайт |
|
Awan F., Mukherjee A. | LIPT: A Lossless Text Transform to Improve Compression | Препроцессинг текстов с помощью алгоритма словарного преобразования LIPT.
Proceedings of International Conference on Information and Theory: Coding and Computing, IEEE Computer Society, Las Vegas Nevada, April 2001. PDF.RAR 40 кбайт |
|
Sun W., Mukherjee A., Zhang N. | A Dictionary-Based Multi-Corpora Text Compression System | Описание StarNT -- усовершенствованного LIPT. За счет простых изменений алгоритма LIPT часто можно улучшить сжатие на несколько процентов относительно исходного.
2003. Работа была представлена в материалах конференции DCC'03 одностраничными тезисами. PDF.RAR 134 кбайт |
|
Grabowski, Sz. | Text preprocessing for Burrows-Wheeler block sorting compression | Эффективность препроцессинга текстов: преобразование заглавных букв, модификация разделителей, словарное преобразование. На примере BWT-компрессоров.
VII Konferencja "Sieci i Systemy Informatyczne" (7th Conference "Networks and IT Systems"), Lodz, Oct. 1999, conf. proc., pp. 229-239. PDF.RAR 68 кбайт RTF.RAR 14 кбайт |
|
Fenwick P., Brierley S. | Compression of Unicode files | Исследование эффективности сжатия текстов в различных форматах, в том числе Unicode, с помощью алгоритмов разных типов.
Department of Computer Science, The University of Auckland, 1998. PDF.RAR 59 кбайт |
|
Moffat A., Sharman N., Zobel J. | Static Compression for Dynamic Texts | Two problems arise when semi-static word-based compression methods are applied to large texts, such as those stored in information retrieval systems. First, the space required for the model during decoding can become very large. Second, the need to handle document insertions means that the collection must be periodically recompressed if compression effciency is to be maintained. Here we show that with careful management the impact of both of these drawbacks can be minimised...
Proceedings of the 1994 IEEE Data Compression Conference, Snowbird, Utah, March 1994. PDF.RAR 138 кбайт |
|
Witten I., Bell T., Moffat A., Nevill-Manning C., Smith T., Thimbleby H. | Semantic and Generative Models for Lossy Text Compression | Рассмотрено несколько способов сжатия текста с потерями. Что-то ближе к реферированию, что-то к преобразованию с не очень большими потерями с точки зрения семантики. Техники могут быть полезны и для беспотерьного сжатия.
The Computer Journal, Vol.37, No.2, pp.83-87, 1994. PDF 81 кбайт |
|
Abel J., Teahan W. | Text Preprocessing for Data Compression | Исчерпывающее описание существующих способов подготовки текста для последующего эффективного сжатия
IEEE, 2003 PDF 92 кбайт |
|
Horspool R.N., Cormack G.V. | Constructing Word-Based Text Compression Algorithms | Рассмотрено 4 алгоритма пословного сжатия на основе: адаптивного
кодирования по Хаффману, LZW, PPM 1-0, контекстного моделирования первого порядка с учетом
предполагаемой части речи. Даются сравнительные результаты на нескольких небольших файлах. Весьма любопытная
статья, несмотря на ее возраст. Было бы интересно посмотреть на современные реализации
с более сложными схемами моделирования, использующие больший объем памяти.
Страница публикаций R. Nigel Horspool'а Proceedings of IEEE Data Compression Conference (DCC'92), Snowbird, UT, March 1992, pp. 62-71. PDF.RAR 23 кбайт |
|
Skibinski P., Grabowski Sz., Deorowicz S. | Revisiting dictionary-based compression | Еще один вариант LIPT. За счет нескольких модификаций и дополнительного препроцессинга удалось существенно превысить показатели StarNT (LIPT-клон).
Описано большое число финтов ушами при сжатии текстов. Можно использовать в качестве реферативной статьи по теме.
15.01.2005. Принято к публикации в журнале "Software–Practice and Experience" PDF.RAR 224 кбайт |
|
Mahoney M. | Fast Text Compression with Neural Networks | Сказ о том, что от искусственных нейронных сетей иногда бывает некоторая польза. Достигнуто сжатие на уровне простого PPM при приемлемой скорости работы.
Proceedings of the Thirteenth International Florida Artificial Intelligence Research Society Conference, 2000, pp.230-324. Домашняя страница PDF.RAR 79 кбайт |
|
Исходные тексты компрессоров |
наверх