>> PPMN | The Calgary corpus Compression Challenge | Прочее

PPMN (PPM-компрессор)

Автор - Максим Смирнов

Программа PPMN позволяет однозначно перекодировать один файл в другой, при этом размер полученного файла будет, вероятно, меньше размера исходного :-)
В качестве бонуса поддерживается и обратное преобразование.

Краткое описание компрессора

В PPMN реализовано PPM-моделирование ограниченного порядка. Используется механизм вторичной оценки ухода (SEE) и применяется наследование информации. Поиск контекстной информации реализован с помощью хеширования. Реализовано большое количество методов препроцессинга текстовых данных. Особенности PPMN изложены подробнее в книге "Методы сжатия данных" (смотри, в частности, пункт "Компрессоры и архиваторы, использующие контекстное моделирование" главы 4 раздела 1). В настоящее время компрессор представляет разве что академический интерес.

Последняя версия PPMN:
1.00 beta 1+, Win32 console application
Сравнить характеристики с другими программами можно здесь.

Примеры использования:

  1. Сжать файл "index.html" в "index.pmn"
    ppmn e index.html index.pmn
  2. Разжать файл "index.pmn" в "index.html"
    ppmn d index.pmn index.html
  3. Сжать текстовый файл "bible.txt" в "bible.pmn" в режиме максимального сжатия
    ppmn e -mt1 -o8 -m:50 bible.txt bible.pmn

The Calgary corpus Compression Challenge

Модифицированная версия PPMN была в свое время использована для установки рекорда в соревновании "The Calgary corpus Compression Challenge", проводимом Леонидом Брухисом. О подробностях конкурса можно прочесть здесь.

Прочее

Вообще говоря, я довольно много всякого пишу. В том числе околонаучные и ненаучные тексты по сжатию данных. На сервере имеются следующие вещи:
  • книга "Методы сжатия данных" (главы 3, 4 и 7 раздела 1);
  • PPM FAQ -- популярное введение в контекстное моделирование;
  • Обзор применения методов безущербного сжатия данных в СУБД HTML PDF (403 кбайт);
  • Использование методов сжатия данных без потерь информации в условиях жестких ограничений на ресурсы устройства-декодера HTML PDF (165 кбайт);
  • Методы повышения степени сжатия текстов на естественных языках для алгоритмов неискажающего сжатия данных HTML PDF (102 кбайт).