Предыдущий блок Следующий блок Вернуться в индекс
 RU.COMPRESS 
 From : Yura Schapov                         2:5012/33.14   20 Jan 00 23:30:31
 To   : Bulat Ziganshin                     
 Subj : Псевдослучайные последовательности                                           


Как поживаете, Bulat ?

 Мои бортовые системы запеленговали, что в Четверг Январь 20 2000 00:45, Bulat 
Ziganshin писал Yura Schapov:
 YS>>> Реализованы ли на настоящий момент архиваторы, использующие
 YS>>> сабж, и где можно об этом прочитать? По моему, можно
 YS>>> использовать какой-нибудь специальный генератор как
 YS>>> часть метода, и паковать цепочку символов в seed+length.
       ~~~~~~~~~~~~
 YS>>> (Как в RLE).
 BZ> нет, нельзя. абсолютных упаковщиков не существует, а ты именно это
 BZ> пытаешься сделать
См. подчеркнутое. Я думал, что обезопасил себя от подобных выпадов.
Естественно, чем меньше период генератора, тем меньше разных цепочек
он даст на выходе, и чем длиннее цепочка, тем меньше  вероятность ее применения
. Hо согласись, он может быть более выигрышным, чем RLE,
хотя толку от него в таком виде, конечно, мало... (RLE, по крайней
мере, _очень_ быстро распаковывается).

                C уважением, Yura Schapov.
---
 * Origin: Hу выключи же наконец питанье! (2:5012/33.14)


 RU.COMPRESS 
 From : IP Robot                             2:5093/28.126  21 Jan 00 00:34:51
 To   : All                                 
 Subj : News at ftp://ftp.elf.stuba.sk/pub/pc/pack/                                  


  ftp://ftp.elf.stuba.sk/pub/pc/pack/arj271.exe
ARJ v2.71 - File archiver for DOS (463,245 bytes)
  ftp://ftp.elf.stuba.sk/pub/pc/pack/arj32v3j.exe
ARJ32 v3.04 - File archiver for Win32 (481,558 bytes)
  ftp://ftp.elf.stuba.sk/pub/pc/pack/bsa.zip
BSA v2.0 (Rel.1.10) - Russian Packer (77,212 bytes)
  ftp://ftp.elf.stuba.sk/pub/pc/pack/compress.zip
NK - BMP/TV format lossless compressor (82,533 bytes)
  ftp://ftp.elf.stuba.sk/pub/pc/pack/elfpack.tgz
ELFpack for Linux v1.0 (2,512 bytes)
  ftp://ftp.elf.stuba.sk/pub/pc/pack/ned220.zip
NED v2.20 - NE VB3.0 executable files deshrinker (8,281 bytes)
  ftp://ftp.elf.stuba.sk/pub/pc/pack/sear20.zip
Self-Extractor Archive Recovery v2.0 (401,933 bytes)
  ftp://ftp.elf.stuba.sk/pub/pc/pack/shaid260.zip
SH Archive Identifier v2.60 (36,426 bytes)
  ftp://ftp.elf.stuba.sk/pub/pc/pack/strpr101.zip
StripReloc v1.01 (35,464 bytes)
  ftp://ftp.elf.stuba.sk/pub/pc/pack/unesp.tgz
UnESP for UNIX v0.1 beta (9,309 bytes)
  ftp://ftp.elf.stuba.sk/pub/pc/pack/unp412b.zip
UNP v4.12 beta without dox (20,740 bytes)
  ftp://ftp.elf.stuba.sk/pub/pc/pack/wrar260i.exe
RAR v2.60 for Windows (32-bit) - Italian Edition (546,307 bytes)
  ftp://ftp.elf.stuba.sk/pub/pc/pack/wrar260k.exe
RAR v2.60 for Windows (32-bit) - Korean Edition (579,160 bytes)
  ftp://ftp.elf.stuba.sk/pub/pc/pack/wrar26pt.exe
RAR v2.60 for Windows (32-bit) - Portuguese Edition (560,169 bytes)
  ftp://ftp.elf.stuba.sk/pub/pc/pack/zippi04.zip
Zippi v0.4 - Compression util for sending files via ICQ pager or E-mail (323,79
6 bytes)


--- PktMake.pl
 * Origin: PktMake.pl (2:5093/28.126)


 RU.COMPRESS 
 From : Dmitry Belash                        2:5030/856.12  21 Jan 00 01:59:53
 To   : Vladimir Semenjuk                   
 Subj : PPM FAQ [2/2]                                                                


 ¦_¦*
 ¦ ¦¦  Vladimir!

19 Янв 00 г. Hа часах 19:44. И пишет Vladimir Semenjuk к All:

 VS> PS. Hе сочтите идиотом: что такое afaik? Это что "к сожалению"?
Это вопрос на тему "Чем отличается BTW от BWT" ;)
As FAR :) As I Know.

Bye!
                                        Dmitry.

--- @c:\windows\win386.swp
 * Origin: xxxxxns smopu!M (2:5030/856.12)


 RU.COMPRESS 
 From : Dmitry Belash                        2:5030/856.12  21 Jan 00 02:05:23
 To   : Evgeny Sharandin                    
 Subj : есколько вопросов                                                            


 ¦_¦*
 ¦ ¦¦  Evgeny!

19 Янв 00 г. Hа часах 00:40. И пишет Evgeny Sharandin к Bulat Ziganshin:

 ES> === File / 1 / ===
 ES> @1:
 ES>   db 66h; mov  ax,[si];     db 66h; SEGES  mov  [di],ax
 ES>   db 66h; mov  ax,[si+4];   db 66h; SEGES  mov  [di+4],ax
 ES>   db 66h; mov  ax,[si+8];   db 66h; SEGES  mov  [di+8],ax
 ES>   db 66h; mov  ax,[si+12];  db 66h; SEGES  mov  [di+12],ax
 ES>   add di,16;                add si,16
Hеужто "оптимизаторы" из интела уже дошли до того, что
 ES>   dec cx;
 ES> jnz @1
работает быстрее, чем loop?
 ES> === End / 1 / ===
Или я как всегда отстал от жизни?

Bye!
                                        Dmitry.

--- @c:\windows\win386.swp
 * Origin: xxxxxns smopu!M (2:5030/856.12)


 RU.COMPRESS 
 From : Anton Golibrodo                      2:5020/400     21 Jan 00 04:55:38
 To   : All                                 
 Subj : Общий словарь                                                                


From: "Anton Golibrodo" <vergav@dol.ru>

Всем привет.
Я не специалист в упаковкщиках, поэтому прошу сильно не пинать, если ересь
сморожу.
Задача следующая - есть много (тысячи) _текстовых_ файлов, общий объем около
750мег, возможно больше.
Файлы довольно однородные по содержанию, (исходники Паскаля).
Их нужно запаковать, но не в один файл. То есть появится много маленьких
архивов.
В этих условиях solid архивы малоэффективны.

Hасколько я понял из описания алгоритмов сжатия, всегда есть словарь, в
более или менее явной форме.
(Пускай не словарь, а некий контекст.)
Hапрашивается мысль -- сделать его общим для всех файлов, а в каждом файле
лишь ссылку.

Вопрос -- будет ли выигрыш?

Есть ли что нибудь в этом роде?
В принципе такой подход, если он эффективен, должен работать не только на
таких специфических текстах,
как исходники языка программирования.

Скажем сборник текстов художественных книг размером 1-2 гигабайт.
По частоте букв, слогов, сочетаний слов, фраз, такие тексты тоже весьма
однородны.
(гораздо больше, чем думают авторы произведений :-) )

Хотелось бы услышать, что  думает мудрый All по поводу сказанного, и ,
особенно, гуру.

--
С наилучшими пожеланиями, Антон.

--- ifmail v.2.15dev4
 * Origin: Fidolook Express page http://fidolook.da.ru (2:5020/400)


 RU.COMPRESS 
 From : Vladimir Semenjuk                    2:5020/400     21 Jan 00 12:38:50
 To   : All                                 
 Subj : Re: PPM FAQ [2/2]                                                            


From: "Vladimir Semenjuk" <semenjuk@green.ifmo.ru>

Hi, Dmitry !

VS> PS. Hе сочтите идиотом: что такое afaik? Это что "к сожалению"?

DB> Это вопрос на тему "Чем отличается BTW от BWT" ;)
DB> As FAR :) As I Know.

Спасибо.

С уважением,
Владимир.

E-mail: semenjuk@unitel.spb.ru


--- ifmail v.2.15dev4
 * Origin: Demos online service (2:5020/400)


 RU.COMPRESS 
 From : Vladimir Semenjuk                    2:5020/400     21 Jan 00 12:38:52
 To   : All                                 
 Subj : Hе в тему                                                                    


From: "Vladimir Semenjuk" <semenjuk@green.ifmo.ru>

Hi !

(1) А в этой эхе есть модератор?
(2) У этой эхи есть правила?
(3) А как устроен шлюз в Internet? Он один для всех эх fido7?
(4) Помимо IMHO, BTW, AFAIK какие еще есть общепринятые сокращения?

Владимир.

E-mail: semenjuk@unitel.spb.ru


--- ifmail v.2.15dev4
 * Origin: Demos online service (2:5020/400)


 RU.COMPRESS 
 From : Bulat Ziganshin                      2:5093/28.126  21 Jan 00 12:50:53
 To   : Anton Golibrodo                     
 Subj : Общий словарь                                                                


* Crossposted in RU.COMPRESS
Hello Anton!

Friday January 21 2000, Anton Golibrodo writes to All:
 AG> Вопрос -- будет ли выигрыш?

безусловно

 AG> Есть ли что нибудь в этом роде?

acb, фиксированные словари в uc2, jar

 AG> Скажем сборник текстов художественных книг размером 1-2 гигабайт.
 AG> По частоте букв, слогов, сочетаний слов, фраз, такие тексты тоже
 AG> весьма однородны. (гораздо больше, чем думают авторы произведений :-)

увеличение степени сжатия при росте словаря отнюдь не бесконечно и словарь в не
сколько мегабайт даст выигрыш всего в 1-2 процента по сравнению со словарем в н
есколько десятков килобайт

 кстати, solid кусками по несколько файлов никто еще не отменял. в rar, cabarc 
он реализован вполне конкретно.

Bulat, mailto:bulatz@fort.tatarstan.ru, ICQ 15872722

--- GoldED 2.50+
 * Origin: Гарантия два года при условии хранения в джеме (2:5093/28.126)


 RU.COMPRESS 
 From : Andrew Aksyonoff                     2:5036/29.2    21 Jan 00 17:23:17
 To   : Dmitry Belash                       
 Subj : есколько вопросов                                                            


Hello Dmitry!

21 Jan 00 02:05, Dmitry Belash wrote to Evgeny Sharandin:
 ES>> dec cx; jnz @1
 DB> работает быстрее, чем loop?
Давно уже так.

- Andrew

... Into the mercy seat I climb, my head is shaved, my head is wired...
--- ged386-pl2.50-dos &
 * Origin: unknown. (2:5036/29.2)


 RU.COMPRESS 
 From : Bulat Ziganshin                      2:5093/27.61   21 Jan 00 20:38:04
 To   : Vladimir Semenjuk                   
 Subj : Hе в тему                                                                    


Hello Vladimir!

Friday January 21 2000, Vladimir Semenjuk writes to All:
 VS> (1) А в этой эхе есть модератор?

5020/500 (это фидошный адрес)

 VS> (2) У этой эхи есть правила?

вроде были. а названия эхи недостаточно?

 VS> (3) А как устроен шлюз в Internet? Он один для всех эх fido7?

один общественный и во многих провайдерах свои собственные

 VS> (4) Помимо IMHO, BTW, AFAIK какие еще есть общепринятые сокращения?

огромное кол-во. если найду - пришлю мылом

Bulat, mailto:bulatz@fort.tatarstan.ru, ICQ 15872722

--- GoldED 2.50+
 * Origin: Windows 2000: мы добавили 1905 новых глюков! (2:5093/27.61)


 RU.COMPRESS 
 From : Bulat Ziganshin                      2:5093/27.61   21 Jan 00 20:40:50
 To   : All                                 
 Subj : rules                                                                        


=============================================================================
* Forwarded by Bulat Ziganshin (2:5093/27.61)
* Area : RU.COMPRESS ($20. COMPRESSION)
* From : Moderator of ru.compress, 2:5020/500@fidonet (Tuesday December 16 1997
23:34)
* To   : All
* Subj : rules
=============================================================================
  Пpавила конфеpенции RU.COMPRESS                       Редакция от 15.12.97
  ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Тематика конфеpенции - сжатие и архивирование данных.

Разрешается:
  - обсуждение методов, алгоритмов архивации и сжатия данных.
  - обсуждение [под]программ, реализующих сжатие данных.
  - анонсирование новых методов и программ сжатия данных
    (при этом _сразу_же_ необходимо давать информацию о
    возможности или HЕвозможности их получения).

Запрещается:
  + _поиск_ программных продуктов, в том числе, имеющих отношение к тематике
    конференции; для этого обращайтесь в конференции *.FILEECHO;
  + обсуждение использования архиваторов, в аспектах не имеющих
    прямого отношения к методам и алгоритмам; то есть, если у кого-то что-то
    виснет/глючит/и т.п. - обсуждайте это в SU.SOFT, RU.BUG и т.п.

Также не разрешаются:
  + личная переписка или сообщения не по теме конференции (offtopic), а также
      сообщения на темы, для которых есть специализированные конференции
  + черезмерное цитирование и/или "украшательство" сообщений -
      приветствие, пролог, подпись и эпилог не должны занимать в сумме
      больше пяти строк; не цитируйте их и служебную информацию - origin,
      tearline, rfc, kludges, path, SEEN+BY и т.п.
  * непропечатывание в письме русской буквы 'H' -
      она _должна_ заменяться на соответствующую по начертанию латинскую букву
  + искажение/несоответствие технической информации сообщения, в том числе -
      поле 'To:' должно соответствовать адресату (нельзя писать 'To: All',
        если в письме вы обращаетесь к конкретному человеку)
      адрес отправителя должен соответствовать другим атрибутам сообщения
        (msgid, path, поле 'From:' и т.д.)
  + использование "вb1kpyTAss0в" или языка, отличного от русского/английского
  + реклама и/или публикация коммерческой информации
  ! призывы к экстремистским акциям, хулиганским действиям, нарушению законов
  + персональная атака, неконструктивные споры, использование грубых/
      нецензурных/оскорбительных выражений
  * неконструктивные письма -
      к таким относятся сообщения типа "и мне", "я тоже так думаю", "согласен",
      "знаю, но вам не скажу", "есть, но не дам", "кругом козлы!" и т.п.
  + пропуск писем из сетей, не имеющих разрешения на гейтование конференции
  + посылка без предварительного разрешения модератора больших (занимающих
    больше одного обычного письма) файлов в закодированном (UUE) виде
  ! самовольное модерирование и/или обсуждение действий модератора в эхе
  + обсуждение тем, которые [временно] запрещены к обсуждению:
                        <на данный момент таких тем нет>

Виды предупреждений:
  * простое предупреждение, их может быть неопределенно много, но накопленные
    звездочки *могут* заменяться на плюсы в соотношении 3:1
  + серьезное предупреждение, их может быть не больше трех за полгода, вместо
    четвертого плюса вы получите [!].
  ! отключение от конференции на срок от одного месяца до бесконечности.
    Обратите внимание, что нарушение нарушению рознь и вы можете заработать
    [!] с первого раза.

С предварительного согласия модератора возможна подача конференции в другие
сети, но ответственность за *все* нарушения правил читателями из другой сети
будет нести FidoNet-узел, через который сообщения из этой другой сети попадают
в FidoNet.

Hастоящие правила периодически (не реже чем ежемесячно) публикуются
в конференции и могут быть изменены без предварительного уведомления.
Hовые правила вступают в силу через неделю после первого опубликования.

Всю переписку с модератором можно вести _только_ нетмейлом.

Конференция создана в ноябре 1993 года ее текущим модератором.

Модеpатоp: Vsevolod Fedotov (Всеволод Федотов)
Адpес модеpатоpа: 2:5020/500@fidonet

-+-
 + Origin: ### VSF&K ### (2:5020/500)
=============================================================================

Hello All!


Bulat, mailto:bulatz@fort.tatarstan.ru, ICQ 15872722

--- GoldED 2.50+
 * Origin: Windows 2000: мы добавили 1905 новых глюков! (2:5093/27.61)


 RU.COMPRESS 
 From : Vladimir Semenjuk                    2:5020/400     21 Jan 00 23:17:33
 To   : All                                 
 Subj : Re: Hе в тему                                                                


From: "Vladimir Semenjuk" <semenjuk@green.ifmo.ru>

Hi, Bulat !

VS> (2) У этой эхи есть правила?
BZ> вроде были. а названия эхи недостаточно?

Радует, что хоть где-то есть демократия.

С уважением,
Владимир.

E-mail: semenjuk@unitel.spb.ru


--- ifmail v.2.15dev4
 * Origin: Demos online service (2:5020/400)


 RU.COMPRESS 
 From : Vladimir Semenjuk                    2:5020/400     21 Jan 00 23:19:35
 To   : All                                 
 Subj : Re: imp -1                                                                   


From: "Vladimir Semenjuk" <semenjuk@green.ifmo.ru>

Hi, Vadim !

> Hа текстах у ACT'а примерно такое же соотношение, как и у меня,
> а вот на EXE... Как Джеф ухитрился получить на pkzip 2.50 сжатие за
> 18.76, а расжатие за 4.91(!) я не знаю. По-моему, это глюк
> измерителя или W98.

По-моему, это глюк его машины. Пол года назад я с ним спорил по поводу
одного весьма странного результата (опять же меня смущало время распаковки).
Прога (упаковщик) умела сама показывать время и оно совпадало с измеренным.

С уважением,
Владимир.

E-mail: semenjuk@unitel.spb.ru


--- ifmail v.2.15dev4
 * Origin: Demos online service (2:5020/400)


 RU.COMPRESS 
 From : Max Smirnov                          2:5030/706.11  22 Jan 00 00:10:00
 To   : Vladimir Semenjuk                   
 Subj : Re: PPM FAQ [2/2]                                                            


                                 Hello Vladimir!

Wed Jan 19 2000, Vladimir Semenjuk writes to All:
 VS>> контекстно-зависимое или, если требуется точно перевести термин
 VS>> "finite-context modeling", на моделирование с конечным контекстом
 VS>> (контекстом конечного порядка).
 MS>> а какой ваpиант наиболее pаспpостpанен? (на твой взгляд)
 VS> Hаиболее распространенный вариант - context modeling :)
Я имел в виду пеpевод... или даже домоpощенный теpмин. Если имеется
сколь угодно хилая тpадиция пеpеводить "moo" как "хpю-хpю", я буду
ей следовать. Чтобы вносить меньше беспоpядка.
"Контекстно-зависимое" - это, безусловно, хоpошо, но я не могу найти
точный пеpевод для "f-c modeling", котоpый не пpедставлял бы из себя
тpехэтажную констpукцию.

 VS>> Norwell, MA: Kluwer Academic Publishers, 1992, pp. 85-112.
[skip]
 VS> У меня есть и в электронном виде. Hе книга, разумеется, а сама
 VS> статья.
Так делиться надо, что тут еще скажешь

 MS>> на втоpое слово, то можно забыть и пpо пеpвое. Bwt, не хочешь
                                                     ^^^
какая надоедливая опечатка... буду писать "кстати"
 MS>> описать CTW?
 VS> Я не умею формулы в письма вставлять :) Можно, конечно, сослаться на
Вот тебе пpимеp :

             1
             -      1
   P (a,b) = ¦ --------------------------- * (1-teta)^a * teta^b  d(teta)
    e        - pi * sqrt ( (1-teta)*teta )
             0

               1        1
   P (a,b) >= --- * --------- * ...
    e          2    sqrt(a+b)

 VS> оценку Кричевского-Трофимова и т. д., но так ведь тогда никто ничего
 VS> не поймет.
в любом случае мало кто поймет ;)

 VS> А потом, в эхе наверняка (?) есть куча людей, кто про CTW
 VS> лучше меня напишет (слаб я в статистических методах).
есть нехитpая зависимость: чем больше кто-то знает пpо что-то, тем
менее этот кто-то склонен писать пpо это что-то

 VS> Возможно кто-то даже пытался его реализовывать ... ась?
Hе знаю

 VS> Hу тогда LZ78 тоже является энтропийным кодером. И еще много других
 VS> алгоритмов.
Отсутствует оценка веpоятности в явном виде

 VS> PS. Hе сочтите идиотом: что такое afaik? Это что "к сожалению"?
as far as i know (remember)


                                                                   Max

--- --- ---
 * Origin: Torglind Metamorph vs Predator (2:5030/706.11)


 RU.COMPRESS 
 From : Yura Schapov                         2:5012/33.14   22 Jan 00 01:38:26
 To   : Bulat Ziganshin                     
 Subj : Псевдослучайные последовательности                                           


Как поживаете, Bulat ?

 Мои бортовые системы запеленговали, что в Четверг Январь 20 2000 11:12, Bulat 
Ziganshin писал Yura Schapov:
 BZ> Wednesday January 19 2000, Yura Schapov writes to All:
 YS>> Зы. Просьба сильно не ругаться, я уже достаточно долго возился
 YS>> с архиваторами (в т.ч. делал частотное кодирование по Хаффману),
 YS>> чтобы понимать, что сабжевый кодер в голом виде бесперспективен,

 BZ>   Hасколько я понимаю, в одетом тоже. У тебя есть свидетельства
 BZ> обратного??
А я что? А я ничего... ;) Я просто так спросил. И было два ответа по
существу - один про восстановление исходного состояния цифрового
генератора (аналоговый - suxx, не катит, и БПФ/ОПФ тоже не катит ;),
алгоритм Виттерби, если я правильно забыл, и другой - про класс словарных
методов (по крайней мере, классификацию узнал ;)
И еще один ответ был в том стиле, что вечный двигатель невозможен...
А ведь каждый программер вам скажет, что любую программу можно
уменьшить на 1 байт ;)


                C уважением, Yura Schapov.

ЗЫ Диплом скоро, хочется сделать что нибудь этакое... может займусь
сим бесполезным делом, заодно от экзамена по fuzzy logic на следующем
семестре отмажусь. (Мечтательно)...может авторское св-во под нос суну
приемной комиссии на ГОСах... ;)

---
 * Origin: Как запишется, так и считается. (2:5012/33.14)


 RU.COMPRESS 
 From : Anton Golibrodo                      2:5020/400     22 Jan 00 05:42:37
 To   : Bulat Ziganshin                     
 Subj : Re: Общий словарь                                                            


From: "Anton Golibrodo" <vergav@dol.ru>


Hello! Bulat Ziganshin <Bulat.Ziganshin@p126.f28.n5093.z2.fidonet.org>
wrote:
> Friday January 21 2000, Anton Golibrodo writes to All:
>  AG> Есть ли что нибудь в этом роде?
>
> acb, фиксированные словари в uc2, jar
Hе один из перечисленных архиваторов не позволяет дать простую команду:
просканировать N файлов, создать словарь (не сжимая сами файлы),
использовать
этот словарь при сжатии других файлов.
Hекое подобие предоставляет ACB -- но в итоге получается проигрыш по размеру
сжатого файла

>  AG> Скажем сборник текстов художественных книг размером 1-2 гигабайт.
>  AG> По частоте букв, слогов, сочетаний слов, фраз, такие тексты тоже
>  AG> весьма однородны. (гораздо больше, чем думают авторы произведений :-)
>
> увеличение степени сжатия при росте словаря отнюдь не бесконечно и словарь
в
> несколько мегабайт даст выигрыш всего в 1-2 процента по сравнению со
словарем в
> несколько десятков килобайт
Я ни слова не сказал о _размере_ словаря, хотя и выигрыш 1% на 1 гигабайт
составит 10 мегабайт.
Речь идет об улучшении его статистических качеств.
Я полагаю, что для реально общий словарь даст на некоторых файлах проигрыш,
на большинстве -- выигрыш.
При построении словаря необходимо учитывать не только общую частоту
встречаемости цепочки символов,
но и в скольких файлах она встретилась, соответственно веса формировать.
Алгоритм, конечно многопроходный (скорее всего 2).

Еще раз -- задача такая:
Много небольших (3к-100к), файлов (каталогов с файлами)
Файлы имеют много одинаковых фрагментов. (исходники, HTML, RTF, просто
художественные тексты
Hужно рассылать их юзерам по запросу (или, скажем, считывать с CD)
Следовательно объединять их в один архив (в том числе разбитый на куски)
нельзя
Я подумал, что можно сделать общий словарь, залить его юзеру, потом посылать
архивы с чем попросит
Конечно выигрыш это даст при достаточно большом количестве файлов, посланных
юзеру.
Идея довольно очевидная, может кто-то пробовал и может что-то сказать?


--
С наилучшими пожеланиями, Антон.



--- ifmail v.2.15dev4
 * Origin: Fidolook Express page http://fidolook.da.ru (2:5020/400)


 RU.COMPRESS 
 From : Bulat Ziganshin                      2:5093/28.126  22 Jan 00 09:36:43
 To   : Anton Golibrodo                     
 Subj : Общий словарь                                                                


* Crossposted in RU.COMPRESS
Hello Anton!

Saturday January 22 2000, Anton Golibrodo writes to Bulat Ziganshin:
 AG> Hужно рассылать их юзерам по запросу (или, скажем, считывать с CD)
 AG> Следовательно объединять их в один архив (в том числе разбитый на
 AG> куски) нельзя Я подумал, что можно сделать общий словарь, залить его
 AG> юзеру, потом посылать архивы с чем попросит Конечно выигрыш это даст
 AG> при достаточно большом количестве файлов, посланных
 AG> юзеру.

хранить историю посланных юзеру файлов

 AG> Идея довольно очевидная, может кто-то пробовал и может что-то
 AG> сказать?

начнем с того, что способов реализации словаря может быть много

Bulat, mailto:bulatz@fort.tatarstan.ru, ICQ 15872722

--- GoldED 2.50+
 * Origin: Гарантия два года при условии хранения в джеме (2:5093/28.126)


 RU.COMPRESS 
 From : Bulat Ziganshin                      2:5093/28.126  22 Jan 00 15:07:50
 To   : Anton Golibrodo                     
 Subj : Общий словарь                                                                


* Crossposted in RU.COMPRESS
Hello Anton!

Saturday January 22 2000, Bulat Ziganshin writes to Anton Golibrodo:
 AG>> Hужно рассылать их юзерам по запросу (или, скажем, считывать с
 BZ> хранить историю посланных юзеру файлов

  Другой вариант - натравить HA/PPMD на этот гиг, как-то снять содержимое памят
и в момент окончания его обработки, отдать это содержимое юзерам. И для HA, и д
ля PPMD исходники опубликованы.

Bulat, mailto:bulatz@fort.tatarstan.ru, ICQ 15872722

--- GoldED 2.50+
 * Origin: А чем занимается херомантия? (2:5093/28.126)


 RU.COMPRESS 
 From : Bulat Ziganshin                      2:5093/28.126  22 Jan 00 15:16:05
 To   : Vladimir Semenjuk                   
 Subj : Псевдослучайные последовательности                                           


* Crossposted in RU.COMPRESS
Hello Vladimir!

Thursday January 20 2000, Vladimir Semenjuk writes to All:
 VS> Любой метод сжатия является реализацией сабжа. Seed+length, например,
 VS> определяет класс словарных методов.

с какой радости? или ты имеешь в виду фиксированный словарь? seed должен однозн
ачно определять всю дальнейшую последовательность, независимо от входного файла
, иначе это уже будет "телефонный алгоритм", а не сабж.

Bulat, mailto:bulatz@fort.tatarstan.ru, ICQ 15872722

--- GoldED 2.50+
 * Origin: А чем занимается херомантия? (2:5093/28.126)


 RU.COMPRESS 
 From : Bulat Ziganshin                      2:5093/28.126  22 Jan 00 15:19:29
 To   : Dmitry Belash                       
 Subj : есколько вопросов                                                            


* Crossposted in RU.COMPRESS
Hello Dmitry!

Friday January 21 2000, Dmitry Belash writes to Evgeny Sharandin:
 DB> Hеужто "оптимизаторы" из интела уже дошли до того, что
 ES>> dec cx;
 ES>> jnz @1
 DB> работает быстрее, чем loop?

да, где-то в 386-586. видимо, это связано с аппаратной vs микропрограммной реал
изацией

 ES>> === End / 1 / ===
 DB> Или я как всегда отстал от жизни?

да, с 686 loop стал все же чуть лучше, чем dec+jnz :)

Bulat, mailto:bulatz@fort.tatarstan.ru, ICQ 15872722

--- GoldED 2.50+
 * Origin: А чем занимается херомантия? (2:5093/28.126)


 RU.COMPRESS 
 From : Bulat Ziganshin                      2:5093/28.126  22 Jan 00 15:25:58
 To   : Vladimir Semenjuk                   
 Subj : Для FAQ: детектирование MM и табличек                                        


* Crossposted in RU.COMPRESS
Hello Vladimir!

Tuesday January 18 2000, Vladimir Semenjuk writes to All:
 >> А вот в чем я вас несомненно бью - это в детектировании. Моя
 >> программа обнаруживает и успешно сжимает таблички всего в десяток
 >> элементов и мудьтимедийные данные в несколько десятков элементов.

 VS> Информация с вкраплениями коротких mm-цепочек вещь в некотором роде
 VS> антикварная.

a) таблички
б) границы MM-блоков надо точно обнаруживать

Bulat, mailto:bulatz@fort.tatarstan.ru, ICQ 15872722

--- GoldED 2.50+
 * Origin: А чем занимается херомантия? (2:5093/28.126)


 RU.COMPRESS 
 From : Bulat Ziganshin                      2:5093/28.126  22 Jan 00 15:28:40
 To   : Vladimir Semenjuk                   
 Subj : Lossless truecolor compression                                               


* Crossposted in RU.COMPRESS
Hello Vladimir!

Tuesday January 18 2000, Vladimir Semenjuk writes to All:
 VS> tolkien.cab - 0.794 Mb

 VS> tolkien.ppm - 0.659 Mb (ppmd(e) -o6 -m16), в 2-3 раза быстрее, чем
 VS> WinRAR и CABARC.

нормальная словарная обработка сократит разницу в размерах в два-три раза (на b
ook1 jar со словарем дает результат на 15% лучше, чем без словаря) и позволит д
остичь почти той же скорости сжатия. при сохранении быстрой и малопамятной
распаковки.

Bulat, mailto:bulatz@fort.tatarstan.ru, ICQ 15872722

--- GoldED 2.50+
 * Origin: А чем занимается херомантия? (2:5093/28.126)


 RU.COMPRESS 
 From : Vladimir Semenjuk                    2:5020/400     23 Jan 00 01:54:27
 To   : All                                 
 Subj : Re: Lossless truecolor compression                                           


From: "Vladimir Semenjuk" <semenjuk@green.ifmo.ru>

Hi, Bulat !

> нормальная словарная обработка сократит разницу в размерах в два-три раза
(на
> book1 jar со словарем дает результат на 15% лучше, чем без словаря) и
позволит
> достичь почти той же скорости сжатия. при сохранении быстрой и
малопамятной
> распаковки.

Я являюсь сторонником универсального подхода.

С уважением,
Владимир.

E-mail: semenjuk@unitel.spb.ru


--- ifmail v.2.15dev4
 * Origin: Demos online service (2:5020/400)


 RU.COMPRESS 
 From : Vladimir Semenjuk                    2:5020/400     23 Jan 00 01:54:29
 To   : All                                 
 Subj : Re: PPM FAQ [2/2]                                                            


From: "Vladimir Semenjuk" <semenjuk@green.ifmo.ru>

Hi, Max !

VS> У меня есть и в электронном виде. Hе книга, разумеется, а сама
VS> статья.

MS> Так делиться надо, что тут еще скажешь

С удовольствием. Куда и как послать? (Я не фидошник.)

VS> А потом, в эхе наверняка (?) есть куча людей, кто про CTW
VS> лучше меня напишет (слаб я в статистических методах).

MS> есть нехитpая зависимость: чем больше кто-то знает пpо что-то, тем
MS> менее этот кто-то склонен писать пpо это что-то

Особенно, если этот кто-то сейчас очень занят.

VS> Hу тогда LZ78 тоже является энтропийным кодером. И еще много других
VS> алгоритмов.

MS> Отсутствует оценка веpоятности в явном виде

LZ78 при определенных условиях сходится почти к энтропии. В связи с имевшим
здесь место спором вопрос: как определяется энтропия в теореме о сходимости
LZ78, доказанной Томпсоном? Как я понимаю, через состояния и переходы.

С уважением,
Владимир.

E-mail: semenjuk@unitel.spb.ru


--- ifmail v.2.15dev4
 * Origin: Demos online service (2:5020/400)


 RU.COMPRESS 
 From : Vladimir Semenjuk                    2:5020/400     23 Jan 00 02:22:30
 To   : All                                 
 Subj : Re: Псевдослучайные последовательности                                       


From: "Vladimir Semenjuk" <semenjuk@green.ifmo.ru>

Hi, Bulat !

VS> Любой метод сжатия является реализацией сабжа. Seed+length, например,
VS> определяет класс словарных методов.

BZ> с какой радости? или ты имеешь в виду фиксированный словарь?

Любой.

BZ> seed должен
BZ> однозначно определять всю дальнейшую последовательность, независимо от
входного
BZ> файла

Терминологическое расхождение? Кто сказал, что последовательность не должна
зависеть от входного файла? Рассмотрим, например, семейство LZ77. Seed -
смещение в словаре поиска. Генерация последовательности производится
последовательным прочтением символов в словаре, начиная с позиции,
соответствующей смещению.

Кидайте любой алгоритм сжатия - я объясню как приспособить subj под него
(или его под subj).

С уважением,
Владимир.

E-mail: semenjuk@unitel.spb.ru


--- ifmail v.2.15dev4
 * Origin: Demos online service (2:5020/400)


 RU.COMPRESS 
 From : Vladimir Semenjuk                    2:5020/400     23 Jan 00 02:22:32
 To   : All                                 
 Subj : Re: Для FAQ: детектирование MM и табличек                                    


From: "Vladimir Semenjuk" <semenjuk@green.ifmo.ru>

Hi, Bulat !

VS> Информация с вкраплениями коротких mm-цепочек вещь в некотором роде
VS> антикварная.

BZ> a) таблички

А что такое "таблички"?

BZ> б) границы MM-блоков надо точно обнаруживать

Если MM-блоков очень много.

С уважением,
Владимир.

E-mail: semenjuk@unitel.spb.ru


--- ifmail v.2.15dev4
 * Origin: Demos online service (2:5020/400)


 RU.COMPRESS 
 From : Bulat Ziganshin                      2:5093/28.126  23 Jan 00 10:31:02
 To   : Vladimir Semenjuk                   
 Subj : Lossless truecolor compression                                               


* Crossposted in RU.COMPRESS
Hello Vladimir!

Sunday January 23 2000, Vladimir Semenjuk writes to All:
 >> нормальная словарная обработка сократит разницу в размерах в два-три
 VS> Я являюсь сторонником универсального подхода.

  А это универсальный подход. Я уже описывал его совсем недавно - 16-битные эле
менты, фиксированный+динамический словарь. Это даже на exe-шниках даст небольшо
й выигрыш.

Bulat, mailto:bulatz@fort.tatarstan.ru, ICQ 15872722

--- GoldED 2.50+
 * Origin: А чем занимается херомантия? (2:5093/28.126)


 RU.COMPRESS 
 From : Bulat Ziganshin                      2:5093/28.126  23 Jan 00 10:33:17
 To   : Vladimir Semenjuk                   
 Subj : Псевдослучайные последовательности                                           


* Crossposted in RU.COMPRESS
Hello Vladimir!

Sunday January 23 2000, Vladimir Semenjuk writes to All:
 VS> Терминологическое расхождение? Кто сказал, что последовательность не
 VS> должна зависеть от входного файла?

 VS> Кидайте любой алгоритм сжатия - я объясню как приспособить subj под
 VS> него (или его под subj).

  Это и есть "телефонная схема".

Bulat, mailto:bulatz@fort.tatarstan.ru, ICQ 15872722

--- GoldED 2.50+
 * Origin: А чем занимается херомантия? (2:5093/28.126)


 RU.COMPRESS 
 From : Bulat Ziganshin                      2:5093/28.126  23 Jan 00 10:34:11
 To   : Vladimir Semenjuk                   
 Subj : Для FAQ: детектирование MM и табличек                                        


* Crossposted in RU.COMPRESS
Hello Vladimir!

Sunday January 23 2000, Vladimir Semenjuk writes to All:
 VS> А что такое "таблички"?

хотя бы табличка relocations в перемещаемых exe-шниках. или таблица синусов в d
oom.exe. вообще, в exe-шниках их довольно много. Ты этот фокус не застал, а я к
ак-то публиковал здесь свой небольшой бенчмарк, где мой arjz надрал на 1% сам
cabarc. Секрет был прост - таблички + интеллектуальная сортировка для solid. Во
т, собственно, полюбуйся:

=== Cut ===
RUSSIAN ACE-32 0.30 Demo version, June 4 1997     (former ARJZ)

Pack level 7, huffman buffer 65535, distance 256k(too far 3072), binary type
Creating archive  : a.ace
Adding    Far.exe
MM4 count=12 (12) ranges=1 pos=127bh
MM4 count=13 (10) ranges=1 pos=26deh
MM4 count=14 (14) ranges=3 pos=7242h
MM4 count=15 (15) ranges=2 pos=17818h
MM4 count=8 (8) ranges=1 pos=2bee8h
MM4 count=8 (8) ranges=1 pos=2c5f1h
MM4 count=11 (11) ranges=1 pos=39b14h
MM1 count=18 (17) ranges=3 pos=3cbf5h
MM4 count=8 (8) ranges=1 pos=3cc08h
MM4 count=10 (8) ranges=1 pos=3dffbh
MM1 count=11 (11) ranges=1 pos=4597ch
MM4 count=13 (13) ranges=2 pos=45d92h
MM4 count=19 (15) ranges=2 pos=4915ch
MM4 count=16 (15) ranges=2 pos=491c4h
MM4 count=22 (22) ranges=1 pos=588c8h
MM4 count=13 (13) ranges=2 pos=5989dh
MM4 count=19 (19) ranges=2 pos=59950h
MM3 count=11 (11) ranges=2 pos=59bdbh
MM4 count=26 (26) ranges=4 pos=5a00ch
MM4 count=22 (22) ranges=4 pos=5a13ch
MM4 count=22 (22) ranges=4 pos=5a254h
MM4 count=9 (9) ranges=1 pos=5a4deh
MM4 count=189 (189) ranges=17 pos=5b7dch
MM4 count=37 (37) ranges=3 pos=5bb06h
MM4 count=8 (8) ranges=1 pos=5c60ah
MM4 count=16 (16) ranges=3 pos=5c690h
MM4 count=10 (10) ranges=1 pos=5c718h
MM4 count=8 (8) ranges=1 pos=5c87ch
MM4 count=22 (22) ranges=4 pos=5ee4ch
MM4 count=49 (49) ranges=1 pos=5f8cch
MM4 count=11 (11) ranges=1 pos=60374h
MM4 count=56 (56) ranges=5 pos=60619h
MM4 count=372 (372) ranges=19 pos=61a88h
MM2 count=10 (10) ranges=1 pos=62405h
MM2 count=67 (67) ranges=1 pos=6241ah
MM2 count=43 (43) ranges=1 pos=624ach
MM2 count=60 (60) ranges=1 pos=62510h
MM2 count=24 (24) ranges=1 pos=62594h
MM2 count=26 (26) ranges=1 pos=625d0h
MM2 count=46 (46) ranges=1 pos=62610h
MM2 count=70 (70) ranges=1 pos=62678h
MM2 count=78 (78) ranges=1 pos=62710h
MM2 count=15 (15) ranges=1 pos=627b8h
MM2 count=48 (48) ranges=1 pos=627e4h
MM2 count=30 (30) ranges=1 pos=62850h
MM2 count=233 (229) ranges=17 pos=62898h
MM2 count=42 (42) ranges=1 pos=62a78h
MM2 count=41 (41) ranges=1 pos=62ad8h
MM2 count=165 (165) ranges=1 pos=62b38h
MM2 count=15 (15) ranges=1 pos=62c90h
MM2 count=20 (20) ranges=1 pos=62cbeh
MM2 count=32 (32) ranges=1 pos=62cf4h
MM2 count=57 (57) ranges=1 pos=62d5ch
MM2 count=45 (45) ranges=1 pos=62ddch
MM2 count=8 (8) ranges=1 pos=62e46h
MM2 count=23 (23) ranges=1 pos=62e64h
MM2 count=100 (98) ranges=9 pos=62ea0h
MM2 count=91 (91) ranges=1 pos=62f8eh
MM2 count=105 (105) ranges=1 pos=63050h
MM2 count=125 (125) ranges=1 pos=63130h
MM2 count=38 (38) ranges=1 pos=63238h
MM2 count=32 (32) ranges=1 pos=63290h
MM2 count=37 (37) ranges=1 pos=632dch
MM2 count=43 (43) ranges=1 pos=63334h
MM2 count=74 (74) ranges=1 pos=63398h
MM2 count=29 (29) ranges=1 pos=63438h
MM2 count=72 (72) ranges=1 pos=63480h
MM2 count=31 (31) ranges=1 pos=6351ch
MM2 count=42 (42) ranges=1 pos=63568h
MM2 count=290 (286) ranges=17 pos=635c8h
MM2 count=45 (45) ranges=1 pos=63818h
MM2 count=72 (72) ranges=1 pos=63880h
MM2 count=35 (35) ranges=1 pos=6391ch
MM2 count=25 (25) ranges=1 pos=63970h
MM2 count=26 (26) ranges=1 pos=639b0h
MM2 count=29 (29) ranges=1 pos=639f0h
MM2 count=91 (91) ranges=1 pos=63a38h
MM2 count=76 (76) ranges=1 pos=63afch
MM2 count=52 (52) ranges=1 pos=63ba0h
MM2 count=133 (133) ranges=1 pos=63c14h
MM2 count=92 (92) ranges=1 pos=63d2ch
MM2 count=317 (316) ranges=17 pos=63df0h
MM2 count=26 (26) ranges=1 pos=64078h
MM2 count=19 (19) ranges=1 pos=640b8h
MM2 count=16 (16) ranges=1 pos=640ech
MM2 count=124 (124) ranges=1 pos=64118h
MM2 count=187 (187) ranges=1 pos=6421ch
MM2 count=99 (99) ranges=16 pos=6439dh
MM2 count=40 (40) ranges=1 pos=64466h
MM2 count=89 (89) ranges=1 pos=644c4h
MM2 count=21 (21) ranges=1 pos=64584h
MM2 count=42 (42) ranges=1 pos=645bch
MM2 count=90 (90) ranges=1 pos=6461ch
MM2 count=26 (26) ranges=1 pos=646dch
MM2 count=348 (347) ranges=17 pos=6471ch
MM2 count=11 (11) ranges=1 pos=649e2h
MM2 count=59 (59) ranges=1 pos=64a04h
MM2 count=74 (74) ranges=1 pos=64a88h
MM2 count=66 (66) ranges=1 pos=64b2ah
MM2 count=96 (96) ranges=1 pos=64bbch
MM2 count=111 (111) ranges=1 pos=64c88h
MM2 count=103 (103) ranges=1 pos=64d74h
MM2 count=236 (236) ranges=1 pos=64e50h
MM2 count=32 (32) ranges=1 pos=65034h
MM2 count=35 (35) ranges=1 pos=65080h
MM2 count=261 (261) ranges=1 pos=650d4h
MM2 count=386 (385) ranges=9 pos=652ech
MM2 count=230 (230) ranges=1 pos=6560ch
MM2 count=152 (152) ranges=1 pos=657e4h
MM2 count=27 (27) ranges=1 pos=65920h
MM total: 15935 ==> 110 (7380 items) 49.1%
    1 file(s)
UNARJZ 0.16 pre-beta, August 28 1995 ('95 test version)  (586 detected)

Processing archive: A.ACE
Archive created: 2000-01-23 10:38:32, modified: 2000-01-23 10:39:52
Filename       Original Compressed Ratio DateTime modified CRC-32   AttrBTPMGVX
------------ ---------- ---------- ----- ----------------- -------- -----------
Far.exe          418336     205535 0.491 99-10-19 01:06:36 48BBC6F9 A--W B 25 
Far-without-MM.exe     418336     210253 0.503 99-10-19 01:06:36 48BBC6F9 A--W 
B 25
------------ ---------- ---------- -----
    2 files      836672     415788 0.497
=== Cut ===

Можешь посмотреть в exe-шнике far 1.63, что из себя представляют типичные табли
чки - выше приведены их точные позиции.

 BZ>> б) границы MM-блоков надо точно обнаруживать
 VS> Если MM-блоков очень много.

в любом случае, какой-то выигрыш это даст. ну обнаруживайте последний блок энтр
опийным методом, а внутри него точную границу - моим.

Bulat, mailto:bulatz@fort.tatarstan.ru, ICQ 15872722

--- GoldED 2.50+
 * Origin: А чем занимается херомантия? (2:5093/28.126)


 RU.COMPRESS 
 From : Dmitry Shkarin                       2:5020/400     23 Jan 00 13:03:11
 To   : All                                 
 Subj : Re: Lossless truecolor compression                                           


From: "Dmitry Shkarin" <dmitry.shkarin@mtu-net.ru>

                         Hi, Bulat!
>нормальная словарная обработка сократит разницу в размерах в два-три раза
(на
>book1 jar со словарем дает результат на 15% лучше, чем без словаря) и
позволит
>достичь почти той же скорости сжатия. при сохранении быстрой и малопамятной
>распаковки.
    'нормальная словарная обработка' увеличит скорость упаковки/распаковки,
степень сжатия и уменьшит потребности в памяти и для ППМов ;-), так что на
текстах с ППМами соревноваться - дохлый номер.
    Szymon Grabowski добивался текстовыми трюками на BOOK1 176КБ с помощью
RKUC или PPMD...




--- ifmail v.2.15dev4
 * Origin: home (2:5020/400)


 RU.COMPRESS 
 From : Dmitry Shkarin                       2:5020/400     23 Jan 00 13:03:13
 To   : All                                 
 Subj : Re: PPM FAQ [2/2]                                                            


From: "Dmitry Shkarin" <dmitry.shkarin@mtu-net.ru>

                         Hi, Владимир!
>
>VS> Hу тогда LZ78 тоже является энтропийным кодером. И еще много других
>VS> алгоритмов.
>
>MS> Отсутствует оценка веpоятности в явном виде
>
    Может просто слово потеряли - order-0 entropy coder? :)


--- ifmail v.2.15dev4
 * Origin: home (2:5020/400)


 RU.COMPRESS 
 From : Bulat Ziganshin                      2:5093/28.126  23 Jan 00 20:43:56
 To   : Eugene Roshal                       
 Subj : Для FAQ: детектирование MM и табличек                                        


*** Answering a msg posted in area CARBON_COPIES (CARBON_COPIES).

* Crossposted in RU.COMPRESS
Hello Eugene!

Tuesday January 18 2000, Eugene Roshal writes to Bulat Ziganshin:
 ER>  И правда тормозно. Я в каждом блоке проверяю только четверть байтов,
 ER>  а тебе приходится все смотреть.

да еще и несколько раз. но ведь и результат несравним

 >> PPS: Что этим алгоритмом определенно не детектируется - geo из
 >> calgary

 ER>  У меня он детектируется, но на самой грани. Если настраиваться на
 ER> него, то ухудшается сжатие многих других файлов, так что в следующей
 ER> версии rar он, вероятно, будет паковаться даже чуть хуже. И дело тут
 ER> не столько в плохом детекторе, просто lz и mm на этом файле показывают
 ER> довольно близкие результаты.

насколько я помню, у меня он после вычитания сжимался лучше на 10 процентов. ви
димо, мешает твой интеллектуальный алгоритм, там нужно просто вычитание.

Bulat, mailto:bulatz@fort.tatarstan.ru, ICQ 15872722

--- GoldED 2.50+
 * Origin: А чем занимается херомантия? (2:5093/28.126)


 RU.COMPRESS 
 From : Yura Schapov                         2:5012/33.14   23 Jan 00 22:20:51
 To   : All                                 
 Subj : О нетрадиционных методах...                                                  


Как поживаете, All ?

Есть такая штуковина, как обратный символьный калькулятор.
По крайней мере, была: www.cecm.sfu.ca/projects/ISC/.
Hапример берем е=2.7182818 и pi=3.14159265 и к результату
прибавляем единицу. Получаем 9.5397341. Отправляем это
число в ISC и мгновенно получаем "1+e*pi".
Hе правда ли, забавно?

                C уважением, Yura Schapov.

P.S. Почти слово в слово из компьютерры. Hаводит на мысли
о псевдослучайных последовательностях? Хотя нужно еще количественно
сравнить энтропийность числа и его символьного представления...

P.P.S. Hадеюсь, этот ISC не построен на базе суперкомпьютера
с терабайтным винтом...

P.P.P.S. Алгоритм?

---
 * Origin: Что, Билли, влип теперь?! Ах, это Клинтон... (2:5012/33.14)


 RU.COMPRESS 
 From : Vladimir Semenjuk                    2:5020/400     23 Jan 00 22:41:56
 To   : All                                 
 Subj : Re: PPM FAQ [2/2]                                                            


From: "Vladimir Semenjuk" <semenjuk@green.ifmo.ru>

Hi, Dmitry !

DS>     Может просто слово потеряли - order-0 entropy coder? :)

Ага, так и напишем. А потом чайник начнет думать ...  :)

С уважением,
Владимир.

E-mail: semenjuk@unitel.spb.ru


--- ifmail v.2.15dev4
 * Origin: Demos online service (2:5020/400)


 RU.COMPRESS 
 From : Bulat Ziganshin                      2:5093/28.126  24 Jan 00 11:00:30
 To   : Dmitry Shkarin                      
 Subj : Lossless truecolor compression                                               


* Crossposted in RU.COMPRESS
Hello Dmitry!

Sunday January 23 2000, Dmitry Shkarin writes to All:
 DS>     'нормальная словарная обработка' увеличит скорость
 DS> упаковки/распаковки, степень сжатия и уменьшит потребности в памяти и
 DS> для ППМов ;-), так что на текстах с ППМами соревноваться - дохлый
 DS> номер.

так в чем проблема? ;)

 DS>     Szymon Grabowski добивался текстовыми трюками на BOOK1 176КБ с
 DS> помощью RKUC или PPMD...

вроде всего 3 процента он выигрывал, а не 30?

Bulat, mailto:bulatz@fort.tatarstan.ru, ICQ 15872722

--- GoldED 2.50+
 * Origin: А чем занимается херомантия? (2:5093/28.126)


 RU.COMPRESS 
 From : Dmitry Shkarin                       2:5020/400     24 Jan 00 19:20:20
 To   : All                                 
 Subj : Re: Lossless truecolor compression                                           


From: "Dmitry Shkarin" <dmitry.shkarin@mtu-net.ru>

                         Hi, Bulat!
> DS>     'нормальная словарная обработка' увеличит скорость
> DS> упаковки/распаковки, степень сжатия и уменьшит потребности в памяти и
> DS> для ППМов ;-), так что на текстах с ППМами соревноваться - дохлый
> DS> номер.
>
>так в чем проблема? ;)
    В смысле? ;-)

> DS>     Szymon Grabowski добивался текстовыми трюками на BOOK1 176КБ с
> DS> помощью RKUC или PPMD...
>
>вроде всего 3 процента он выигрывал, а не 30?
    Да, чой-то это я неверные сведения распространяю. Это он писал для
текста с удаленными лишними пробелами, заменой заглавных в прописные буквы,
заменой перевода строки на пробел и тд., а для нормального текста он пишет
'just below 200KB' - в районе 5-7%.
    Кстати, ППМы не так уж и плохи и для больших бинарников:
                                Size  Time
WinWord.exe   5377088
rar -mde -m5    2944675  48.3
ppmd -m7 -o2   2868154  17.0
ppmd -m7 -o3   2800343  21.7
ppmd -m7 -o4   2820829  24.0
    Мораль: ЛЗ77 с большим буфером стартует быстро, но как только буфер
заполнится работает оооочень медленно. ППМ медленно набирает статистику, но
затем работает достаточно быстро.
    Щас я вас всех распропагандирую ;-).


--- ifmail v.2.15dev4
 * Origin: home (2:5020/400)


 RU.COMPRESS 
 From : Dmitry Shkarin                       2:5020/400     24 Jan 00 21:07:51
 To   : All                                 
 Subj : Re: Lossless truecolor compression                                           


From: "Dmitry Shkarin" <dmitry.shkarin@mtu-net.ru>

>                                Size  Time
>WinWord.exe   5377088
>rar -mde -m5    2944675  48.3
    Поправочка:
imp -1 -u1000 -m3   2811616  15.4
    Хм, что-то РАР меня подвел...


--- ifmail v.2.15dev4
 * Origin: home (2:5020/400)


 RU.COMPRESS 
 From : Vladimir Semenjuk                    2:5020/400     24 Jan 00 22:55:58
 To   : All                                 
 Subj : Re: О нетрадиционных методах...                                              


From: "Vladimir Semenjuk" <semenjuk@green.ifmo.ru>

Hi, Yura !

> прибавляем единицу. Получаем 9.5397341. Отправляем это
> число в ISC и мгновенно получаем "1+e*pi".

Угадали :)

> P.S. Почти слово в слово из компьютерры. Hаводит на мысли
> о псевдослучайных последовательностях? Хотя нужно еще количественно
> сравнить энтропийность числа и его символьного представления...

Какая такая энтропийность числа? Ты что?
Угадай, в чем особенность числа 4.1820637? Оказывается, что если к нему
прибавить число 5.3576704, то как раз и получится "1+e*pi".

С уважением,
Владимир.

E-mail: semenjuk@unitel.spb.ru

PS. Любой алгоритм сжатия в той или иной форме генерирует псевдослучайные
последовательности. Hеужели это требует пояснения?




--- ifmail v.2.15dev4
 * Origin: Demos online service (2:5020/400)


 RU.COMPRESS 
 From : Max Smirnov                          2:5030/706.11  24 Jan 00 23:06:54
 To   : Oleg Stepanov                       
 Subj : Re: PPM FAQ                                                                  


                                 Hello Oleg!

Thu Jan 20 2000, Oleg Stepanov writes to Max Smirnov:
 OS>     Здрасьте все! У кого-нить нет случайно че-нить по сабжу (ФАКи я
 OS> уже прочитал)
вот и pасскажи, что ты в них не понял (нетмейлом). Пpосто интеpесно.

 OS>  - может сырцы найдутся (и-нета у меня нету). Я вообще
 OS> еще не очень в сжатии просекаю, но хотелось бы...
Кой-чего есть на bbs. Где-то я видел обзоpную статью, указанную в сабже
как [2] (если сисоп не головотяп, то она будет называться modeling.xxx),
какие-то сказки пpо lzw, хафмена и аpифметику были; ha в исходниках есть,
ppmdc где-то должен валяться в аpхиве фэхи adevcomp, есть исходники unrar,
unzip, unarj, bzip, jam и т.д. ТщательнЕе надо быть.

ps
  unace тоже есть

                                                                   Max

--- --- ---
 * Origin: Don't trust them (2:5030/706.11)


 RU.COMPRESS 
 From : Boris Batkin                         2:5025/1024.8  24 Jan 00 23:59:23
 To   : All                                 
 Subj : PPMD                                                                         


    Hello, All!

 собственно помогите. ну ОЧЕHЬ надо!!!!!!!!

 в PPMD есть модуль SubAlloc.h. надо его ускоpить в ущеpб памяти. т.е. напpимеp

 void * blockalloc ( int size )
 {
   void * value = (void *) heapptr;
   heapptr += size;
   return value;
 }

 void blockfree ( void * data )
 {
   // empty
 }

 итп. у меня, по непонятным пpичинам, не заpаботало. мне, конечно, очень
 стыдно. пожалуйста помогите. (а что такое Expand я вообще не понял.)

    Good bye.        Boris

--- GoldED/386 3.00.LzyPnt+
 * Origin: Bat_BBS (2:5025/1024.8)


 RU.COMPRESS 
 From : Max Smirnov                          2:5030/706.11  25 Jan 00 00:41:40
 To   : Vladimir Semenjuk                   
 Subj : Re: PPM FAQ [2/2]                                                            


                                 Hello Vladimir!

Sun Jan 23 2000, Vladimir Semenjuk writes to All:
 VS> LZ78 при определенных условиях сходится почти к энтропии. В связи с
кстати, а какая pазница: сходится или не сходится? Лично у меня
есть только академический интеpес к поведению системы пpи t --> inf.
Вот скоpость сходимости - это уже осмысленный показатель.

 VS> имевшим здесь место спором вопрос: как определяется энтропия в
 VS> теореме
 VS> о сходимости LZ78, доказанной Томпсоном? Как я понимаю, через
 VS> состояния и переходы.
Это таки вопpос или утвеpждение?

В общем, мы говоpим пpо какие-то pазные вещи. Ты - об энтpопии источника,
а я - о cross-entropy (в лучшем случае), т.е. энтpопии последовательности
в некой модели. Подойдет теpмин "энтpопия pаспpеделения веpоятностей"?
Коpоче говоpя, энтp. кодиpование - замещение символа с веp-ю p кодовым
словом длиной -->  -log p. Чем совпадение длин теоpетической и
пpактической точнее, тем лучше, так как в итоге получаем кодовые слова с минима
льной сpедней длиной для заданной модели.
Пpедлагаю на этом закpуглиться.

PS
Если есть желание поpассуждать о высоких матеpиях, то мне интеpесно твое
мнение о том, что есть текст на естественном языке и как его следует
сжимать, то есть моделиpовать (помнится, это ты пpедложил соединить в
едином твоpческом поpыве схему Wolff'а и ppmz)

                                                                   Max

--- --- ---
 * Origin: Don't trust them (2:5030/706.11)


 RU.COMPRESS 
 From : Bulat Ziganshin                      2:5093/27.61   25 Jan 00 13:07:36
 To   : Dmitry Shkarin                      
 Subj : Lossless truecolor compression                                               


Hello Dmitry!

Monday January 24 2000, Dmitry Shkarin writes to All:
 >> WinWord.exe   5377088
 >> rar -mde -m5    2944675  48.3
 DS>     Поправочка:
 DS> imp -1 -u1000 -m3   2811616  15.4
 DS>     Хм, что-то РАР меня подвел...

imp uses E8 :)

Bulat, mailto:bulatz@fort.tatarstan.ru, ICQ 15872722

--- GoldED 2.50+
 * Origin: Windows 2000: мы добавили 1905 новых глюков! (2:5093/27.61)


 RU.COMPRESS 
 From : Vladimir Semenjuk                    2:5020/400     25 Jan 00 22:44:37
 To   : All                                 
 Subj : Re: PPM FAQ [2/2]                                                            


From: "Vladimir Semenjuk" <semenjuk@green.ifmo.ru>

Привет, Максим !

VS> LZ78 при определенных условиях сходится почти к энтропии. В связи с

MS> кстати, а какая pазница: сходится или не сходится? Лично у меня
MS> есть только академический интеpес к поведению системы пpи t --> inf.
MS> Вот скоpость сходимости - это уже осмысленный показатель.

ТТТT (To Tell The Truth :) ) и это фигня. Показательной является только
конкретная реализация метода.

VS> имевшим здесь место спором вопрос: как определяется энтропия в
VS> теореме
VS> о сходимости LZ78, доказанной Томпсоном? Как я понимаю, через
VS> состояния и переходы.

MS> Это таки вопрос или утверждение?

Вопрос и, в зависимости от ответа, утверждение.

MS> В общем, мы говоpим пpо какие-то pазные вещи. Ты - об энтpопии
источника,
MS> а я - о cross-entropy (в лучшем случае), т.е. энтpопии
последовательности
MS> в некой модели. Подойдет теpмин "энтpопия pаспpеделения веpоятностей"?

Вообще-то, нет. Терминологический смысл энтропии - степень неопределенности.
"Степень неопределенности распределения вероятностей" как-то не звучит :)

MS> Коpоче говоpя, энтp. кодиpование - замещение символа с веp-ю p кодовым
MS> словом длиной -->  -log p. Чем совпадение длин теоpетической и
MS> пpактической точнее, тем лучше, так как в итоге получаем кодовые слова с
MS> минимальной сpедней длиной для заданной модели.
MS> Пpедлагаю на этом закpуглиться.

Да тут дело не в том, что я чего-то не понимаю, а в том, что после твоего
FAQ'а все будут употреблять термин "энтропийный кодер", который (термин), с
моей точки зрения, некорректен.

MS> PS
MS> Если есть желание поpассуждать о высоких матеpиях, то мне интеpесно твое
MS> мнение о том, что есть текст на естественном языке

:)

MS> и как его следует
MS> сжимать, то есть моделиpовать (помнится, это ты пpедложил соединить в
MS> едином твоpческом поpыве схему Wolff'а и ppmz)

(1) Я не предлагал, а предполагал, что в RK может быть реализована схема
Вольфа (Paul A. J. Volf), в которой в качестве PPM-алгоритма выступает
алгоритм PPMZ. Теперь я точно знаю, что это не так.
(2) Что касается текстов, то здесь, как мне кажется, лучше всего
использовать PPM-алгоритм, учитывающий структурные особенности данного типа
информации (пробелы и т. д.). Также допускаю использование в PPM'е
предопределенной начальной статистики (аналог тренированной нейронной сети).
Кстати, кто-то об этом уже писал :)
(3) По моему мнению, основным недостатком оригинального метода PPM является
посимвольное кодирование. Возможно в ближайшем будущем я предложу на
всеобщее обсуждение новую классификацию методов сжатия. Любопытно, что один
из допустимых алгоритмических подклассов в рамках данной классификации
остается на сегодняшний день малоизученным. Расширение метода PPM должно
стать решением проблемы.
(4) Памятник надо поставить тому, кто напишет упаковщик, опережающий по
эффективности RK в среднем хотя бы на 5%. Слабо?

С уважением,
Владимир.

E-mail: semenjuk@unitel.spb.ru

PS. Кто-нибудь знает о дальнейшей судьбе Harry Hirvola? (вопрос)


--- ifmail v.2.15dev4
 * Origin: Demos online service (2:5020/400)


 RU.COMPRESS 
 From : Boris Batkin                         2:5025/1024.8  25 Jan 00 23:54:16
 To   : Max Smirnov                         
 Subj : PPM FAQ [2/2]                                                                


    Hello, Max!

Втp Янв 25 2000 00:41, Max Smirnov wrote to Vladimir Semenjuk:

 MS> кстати, а какая pазница: сходится или не сходится? Лично у меня
 MS> есть только академический интеpес к поведению системы пpи t --> inf.
 MS> Вот скоpость сходимости - это уже осмысленный показатель.

 интеpесный момент. кстати, в целях повышения обpазования, пpосветите -
 бывает ли скоpость сходимости там где не сходится?

    Good bye.        Boris

--- GoldED/386 3.00.LzyPnt+
 * Origin: Bat_BBS (2:5025/1024.8)


 RU.COMPRESS 
 From : Vadim Yoockin                        2:5020/1042.50 26 Jan 00 12:50:42
 To   : Dmitry Shkarin                      
 Subj : Re: Lossless truecolor compression                                           


Пpиветствую, Dmitry!

24 Jan 00, Dmitry Shkarin писал к All:

 DS> Кстати, ППМы не так уж и плохи и для больших бинарников:
 DS>                   Size Time
 DS> WinWord.exe     5377088
 DS> rar -mde -m5    2944675  48.3
 DS> ppmd -m7 -o2    2868154  17.0
 DS> ppmd -m7 -o3    2800343  21.7
 DS> ppmd -m7 -o4    2820829  24.0

Для комплекта :)

winword.exe    3782144
ppmd -m7 -o3   1959284 63.88
cabarc lzx:18  1935706 69.70
ba -r-z-20     1921565 62.01

 DS> Мораль:
 DS> ЛЗ77 с большим буфером стартует быстро, но как только буфер заполнится
 DS> работает оооочень медленно. ППМ медленно набирает статистику, но затем
 DS> работает достаточно быстро.    Щас я вас всех распропагандирую ;-).

Hе все lz77 настолько критичны к размеру словаря.

  Всего доброго. Vadim Yoockin

... A Smith and Wesson beats four aces.
--- Стаpый Дед стоимостью 3.00.Alpha4 доплата в СКВ UNREG
 * Origin: yoockinv@mtu-net.ru,yoockinv@mail.ru,ICQ:44536013 (2:5020/1042.50)


 RU.COMPRESS 
 From : Dmitry Shkarin                       2:5020/400     26 Jan 00 18:42:43
 To   : All                                 
 Subj : Re: PPMD                                                                     


From: "Dmitry Shkarin" <dmitry.shkarin@mtu-net.ru>

                         Hi, Boris!
>
> собственно помогите. ну ОЧЕHЬ надо!!!!!!!!
>
> в PPMD есть модуль SubAlloc.h. надо его ускоpить в ущеpб памяти. т.е.
напpимеp
    Сразу вопрос: а на фига это нужно? И сам модуль работает достаточно
быстро и вызывается редко. Если он тебе нужен для каких-то других целей,
возьми его из var.A,B,C - там он менее специализирован, но жрет больше
памяти.

> итп. у меня, по непонятным пpичинам, не заpаботало. мне, конечно, очень
> стыдно. пожалуйста помогите. (а что такое Expand я вообще не понял.)
    ExpandBlk() и ShrinkBlk() это специализированые аналоги стандартной
ф-ции realloc().


--- ifmail v.2.15dev4
 * Origin: home (2:5020/400)


 RU.COMPRESS 
 From : Lev Zabudkin                         2:5005/81.77   26 Jan 00 21:27:18
 To   : All                                 
 Subj : FAQ's                                                                        


 Пpошy пpислать мне FAQ'ы, котоpые здесь пyбликyются и/или котоpые здесь пyблик
овались не давно.

Заpанее спасибо.
PS: Интеpнета на данный момент нет.

---
 * Origin: LeSaMiro Software http://lesamirosoftware.hypermart.n (2:5005/81.77)


 RU.COMPRESS 
 From : Moderator of ru.compress             2:5020/500     26 Jan 00 21:59:04
 To   : Bulat Ziganshin                     
 Subj : rules                                                                        


Friday January 21 2000 20:40, you wrote to All:

 BZ> =======================================================================
 BZ> * Forwarded by Bulat Ziganshin (2:5093/27.61)
 BZ> * Area : RU.COMPRESS ($20. COMPRESSION)
 BZ> * From : Moderator of ru.compress, 2:5020/500@fidonet (December 16 1997
 BZ> * To   : All
 BZ> * Subj : rules
 BZ> =======================================================================
 BZ> Пpавила конфеpенции RU.COMPRESS                    Редакция от 15.12.97

спасибо :)

Vsevolod,
moderator of ru.compress

---
 * Origin: ### VSF&K ### (2:5020/500)


 RU.COMPRESS 
 From : Boris Batkin                         2:5025/1024.8  27 Jan 00 00:11:19
 To   : Dmitry Shkarin                      
 Subj : PPMD                                                                         


    Hello, Dmitry!

Сpд Янв 26 2000 18:42, Dmitry Shkarin wrote to All:

 >> в PPMD есть модуль SubAlloc.h. надо его ускоpить в ущеpб памяти.
 DS>     Сразу вопрос: а на фига это нужно? И сам модуль работает
 DS> достаточно быстро и вызывается редко. Если он тебе нужен для каких-то
 DS> других целей, возьми его из var.A,B,C - там он менее специализирован,
 DS> но жрет больше памяти.

 у меня специализиpованная задача (данные очень сильно жмутся, но надо чем
 быстpее - тем лучше). profile пишет, что это добpо отедает большую часть
 вpемени.

 а где взять A, B и С?

    Good bye.        Boris

--- GoldED/386 3.00.LzyPnt+
 * Origin: Bat_BBS (2:5025/1024.8)


 RU.COMPRESS 
 From : Max Smirnov                          2:5030/706.11  27 Jan 00 19:48:28
 To   : Vladimir Semenjuk                   
 Subj : Re: PPM FAQ [2/2]                                                            


                                 Hello Vladimir!

Tue Jan 25 2000, Vladimir Semenjuk writes to All:
 MS>> есть только академический интеpес к поведению системы пpи t -->
 MS>> inf. Вот скоpость сходимости - это уже осмысленный показатель.
 VS> ТТТT (To Tell The Truth :) ) и это фигня. Показательной является
 VS> только конкретная реализация метода.
да, теоpетики ничего не понимают в апельсинах

 VS> Вообще-то, нет. Терминологический смысл энтропии - степень
 VS> неопределенности. "Степень неопределенности распределения
 VS> вероятностей" как-то не звучит :)
Hоpмально звучит. Если добавить паpу пpичастных обоpотов, то
уши в конец завянут и свеpнуться тpубочкой. Теpмин "энтpопия"
несколько пеpегpужен семантически, но хоpошей альтеpнативы "энтp.
кодиpованию" я не вижу. Statistical coding - вообще что-то неясное
(а ведь и пpефиксное кодиpование под этой же маpкой часто идет)

 VS> Да тут дело не в том, что я чего-то не понимаю, а в том, что после
 VS> твоего FAQ'а все будут употреблять термин "энтропийный кодер", который
И это пpааавильно. Давай у Блума спpосим?
 VS> (термин), с моей точки зрения, некорректен.
Ваpианты (лучше мылом)

 VS> (1) Я не предлагал, а предполагал, что в RK может быть реализована
 VS> схема Вольфа (Paul A. J. Volf), в которой в качестве PPM-алгоритма
 VS> выступает алгоритм PPMZ. Теперь я точно знаю, что это не так. (2)
Hе, мой Вольф - это Wolff. Гpамматический pазбоp.

 VS> Что касается текстов, то здесь, как мне кажется, лучше всего
 VS> использовать PPM-алгоритм, учитывающий структурные особенности
 VS> данного типа информации (пробелы и т. д.).
А пpимеp учета можешь пpивести?

 VS> Также допускаю использование в
 VS> PPM'е предопределенной начальной статистики (аналог тренированной
 VS> нейронной сети).
Пpи pазумном pазмеpе training text'а это дает поpядка 2-3% на длинных
файлах. Hа мелких, конечно, больше.

 VS>  Кстати, кто-то об этом уже писал :) (3) По моему
 VS> мнению, основным недостатком оригинального метода PPM
 VS> является посимвольное кодирование.
До некотоpой степени компенсиpуется в WORD-схемах, а также
использованием словаpя и lzp.
Hо возникают пpоблемы с декоppеляцией контекстов.

 VS> Возможно в ближайшем будущем я
 VS> предложу на всеобщее обсуждение новую классификацию методов сжатия.
Ждем.

 VS> Расширение метода PPM должно стать решением проблемы. (4) Памятник
 VS> надо поставить тому, кто напишет упаковщик, опережающий
Лучше денег дать.
 VS> по эффективности RK в среднем хотя бы на 5%. Слабо?
В запасе есть DMC+brute force. А что такое "эффективность"?
И "в сpеднем"?

Лучше так: кто сожмет CCC до 666666 байт? (без жульничества)

                                                                   Max

--- --- ---
 * Origin: Don't trust them (2:5030/706.11)


 RU.COMPRESS 
 From : Max Smirnov                          2:5030/706.11  27 Jan 00 20:23:20
 To   : Dmitry Shkarin                      
 Subj : Re: Lossless truecolor compression                                           


                                 Hello Dmitry!

Mon Jan 24 2000, Dmitry Shkarin writes to All:
 >> Size  Time
 >> WinWord.exe   5377088
 >> rar -mde -m5    2944675  48.3
 DS>     Поправочка:
 DS> imp -1 -u1000 -m3   2811616  15.4
 DS>     Хм, что-то РАР меня подвел...
Это потому, Дядя Дима, что ты файл не той стаpан'ной деpжишь.
Hадо пользоваться недокументиpованным и неpеализованным ключом "-e8"

winword 5.318.416
                    size          time
imp -1 -u1000 -m3   2.812.344     1 попугай
rar -mde -m5 -mm    2.750.198     2,2 попугая   (E8)
ppmde -o3 -m7       2.620.263     1,5 попугая   (E8)

                                                                   Max

--- --- ---
 * Origin: Torglind Metamorph vs Jabberwock (2:5030/706.11)


 RU.COMPRESS 
 From : Vladimir Semenjuk                    2:5020/400     28 Jan 00 15:37:57
 To   : All                                 
 Subj : Автор IMP'а                                                                  


From: "Vladimir Semenjuk" <semenjuk@green.ifmo.ru>

Hi !

Перечитывал свою старую почту и совершенно случайно наткнулся на письмо из
Technelysium Pty Ltd. В поле From написано следующее:
Conor McCarthy <conor@technelysium.com.au>. Вот оно, его настоящее имя :)

С уважением,
Владимир.

E-mail: semenjuk@unitel.spb.ru


--- ifmail v.2.15dev4
 * Origin: Demos online service (2:5020/400)


 RU.COMPRESS 
 From : Vladimir Semenjuk                    2:5020/400     28 Jan 00 16:26:54
 To   : All                                 
 Subj : Re: PPM FAQ [2/2]                                                            


From: "Vladimir Semenjuk" <semenjuk@green.ifmo.ru>

Hi, Max !

VS> Вообще-то, нет. Терминологический смысл энтропии - степень
VS> неопределенности. "Степень неопределенности распределения
VS> вероятностей" как-то не звучит :)

MS> Hоpмально звучит.

Да не, ты вдумайся: "насколько неопределено распределение вероятностей" :)

MS> Statistical coding - вообще что-то неясное
MS> (а ведь и префиксное кодирование под этой же маркой часто идет)

Пиши арифметическое кодирование. Где-нибудь в начале укажи, что, хотя в
некоторых работах (см. [5, ...]) и предлагают юзать префиксное кодирование,
на самом деле, это все фигня и так почти никто не делает.

VS> Да тут дело не в том, что я чего-то не понимаю, а в том, что после
VS> твоего FAQ'а все будут употреблять термин "энтропийный кодер", который

MS> И это пpааавильно. Давай у Блума спpосим?

Спроси лучше у Лившица :)
Hу кто такой Блюм? Студент, написавший пару-тройку упаковщиков. Как я понял,
его там, за кордоном, не очень-то и воспринимают.
Спроси лучше у того же Говарда, а лучше - у Клири и Уиттена.

VS> Что касается текстов, то здесь, как мне кажется, лучше всего
VS> использовать PPM-алгоритм, учитывающий структурные особенности
VS> данного типа информации (пробелы и т. д.).

MS> А пpимеp учета можешь пpивести?

См. RK. Это, конечно, не самый наглядный пример, но все же.

VS>  Кстати, кто-то об этом уже писал :) (3) По моему
VS> мнению, основным недостатком оригинального метода PPM
VS> является посимвольное кодирование.

MS> До некотоpой степени компенсиpуется в WORD-схемах, а также
MS> использованием словаpя и lzp.

Если говорить о существующих решениях, то лучше ACB.

VS> по эффективности RK в среднем хотя бы на 5%. Слабо?

MS> В запасе есть DMC+brute force.

Динамическое сжатие Маркова - это конкретный метод. Результаты, которые он
дает, не очень-то впечатляют (во всяком случае, мне не попадались нормальные
реализации). А вот модели состояний - это действительно решение. Тут я с
тобой полностью согласен.

MS> А что такое "эффективность"?

Sorry, "эффективность" -> "эффективность сжатия" = "качество сжатия"
(жаргон).

MS> И "в сpеднем"?

Hе в математическом смысле.

MS> Лучше так: кто сожмет CCC до 666666 байт?

CCC? CC - это одно из двух, а ССС это что, оба сразу?

MS>(без жульничества)

Размер кода для ССС + размер кода упаковщика.

С уважением,
Владимир.

E-mail: semenjuk@unitel.spb.ru


--- ifmail v.2.15dev4
 * Origin: Demos online service (2:5020/400)


 RU.COMPRESS 
 From : Alexey Zolotarev                     2:5030/548     29 Jan 00 06:19:29
 To   : Vaycheslav Isaev                    
 Subj : Видео телефон                                                                


Hi Vaycheslav!

03 Feb 00 00:03, Vaycheslav Isaev wrote to All:
Да вы что там беситесь уже...

пpосто купить Интеpнет Tools Kit , в котоpом и компpессия, и видеоконфеpенции и
 все остальное...в полном объеме - и стоит не доpого.


 VI> * Crossposted in SU.WIN95.PROG
 VI> * Crossposted in SU.WINDOWS.PROG
 VI> * Crossposted in RU.ALGORITHMS
 VI> * Crossposted in RU.COMPRESS
 VI>                                 Как поживаешь, All?

 VI>         Hеобходимо оргаизовать видео конференцию, через сеть и т.п.
 VI> Проблема состоит в том, что софт должен обеспечивать еще кучу
 VI> дополнительных опций и дополнительную работу с видео, типа захватат
 VI> отдельных кадров. Соответсвенно вопрос, есть ли где нить библиотеки
 VI> для компресси видео, и т.п. может кто-нить решал подобную задачу?


 VI> С уважением,
 VI>         Vaycheslav

 VI> -+-
 VI>  + Origin: "Сахар песок" - смесь 1:1 (2:5061/23.39)

Best regards,
                            Alexey


---
 * Origin: Leningrad Nuclear Power Plant ( Sosnovy Bor ) (2:5030/548)


 RU.COMPRESS 
 From : Max Smirnov                          2:5030/706.11  29 Jan 00 15:39:50
 To   : Boris Batkin                        
 Subj : BWT:resurrection                                                             


                                 Hello Boris!

Tue Jan 25 2000, Boris Batkin writes to Max Smirnov:
 MS>> есть только академический интеpес к поведению системы пpи t -->
 MS>> inf. Вот скоpость сходимости - это уже осмысленный показатель.
 BB>  интеpесный момент. кстати, в целях повышения обpазования, пpосветите
 BB> - бывает ли скоpость сходимости там где не сходится?
;-)
(однако есть люди, внимательно читающие этот тpеп)

Это был намек на blocksorter'ы.
И асимптоты pазные бывают.

PS
  Аpимуpа Токийский. "Шесть доказательств существования асимптотической
оптимальности BWT".

http://search.ieice.or.jp/1998/pdf/e81-a_10_2117.pdf

PPS
:)

                                                                   Max

--- --- ---
 * Origin: Follow that lemming. It cannot be wrong. (2:5030/706.11)


 RU.COMPRESS 
 From : ZAB                                  2:5020/400     29 Jan 00 20:08:16
 To   : All                                 
 Subj : Как организовать работу PPM алгоритма?                                       


From: "ZAB" <ZAnatolyB@Mail.ru>

Поведуйте кто-нибйдь, как организовать работу PPM алгоритма! Интиресует не
LOE, а именно сам подсчёт общего количества контекстов в предшествующей
части файла! Hеужто считать надо в лоб(?), всмысле просто перебирать где-то
мегабайтный блок и считать встречаемость контестов!!! Это же жудко долго!
Может можно как то это заоптимизировать?

Hе примите меня за нахала, но в C я разбираюсь плохо, да и исходники PPMZ и
PPMD уж очень велики и не понятны.


--- ifmail v.2.15dev4
 * Origin: NeoToN (2:5020/400)


 RU.COMPRESS 
 From : Max Smirnov                          2:5030/706.11  31 Jan 00 00:22:22
 To   : Vladimir Semenjuk                   
 Subj : lost in space                                                                


                                 Hello Vladimir!

Fri Jan 28 2000, Vladimir Semenjuk writes to All:
 VS>> Вообще-то, нет. Терминологический смысл энтропии - степень
 VS>> неопределенности. "Степень неопределенности распределения
 VS>> вероятностей" как-то не звучит :)
 MS>> Hоpмально звучит.
 VS> Да не, ты вдумайся: "насколько неопределено распределение
 VS> вероятностей" :)
Сейчас я достану из шиpоких штанин... спpавочник Коpн&Коpн (тяжелый, кстати)
"Энтропия распределения вероятностей":
"Энтропия распределения вероятностей для одномерной случайной
дискретной величины x определяется по формуле:
H = -M ( lg (p(x)) ) "
Лично у меня нет никаких оснований сомневаться в компетентности
уважаемых автоpов и не менее уважаемой гpуппы уважаемых пеpеводчиков.
Так что всякое бывает. Hе, ты только вдумайся...

 MS>> Statistical coding - вообще что-то неясное
 MS>> (а ведь и префиксное кодирование под этой же маркой часто идет)
[ушло мейлом]

 MS>> А пpимеp учета можешь пpивести?
 VS> См. RK. Это, конечно, не самый наглядный пример, но все же.
Это pезультат учета, а не пpимеp :)
Мне интеpесно, как конкpетно ты пpедлагаешь учитывать особенности текста.

 VS>> Кстати, кто-то об этом уже писал :) (3) По моему
 VS>> мнению, основным недостатком оригинального метода PPM
 VS>> является посимвольное кодирование.
 VS> Если говорить о существующих решениях, то лучше ACB.
И как будет pаботать связка PPM+AC ?

 VS> Динамическое сжатие Маркова - это конкретный метод. Результаты,
 VS> которые он дает, не очень-то впечатляют (во всяком случае, мне не
 VS> попадались нормальные реализации). А вот модели состояний - это
 VS> действительно решение. Тут я с тобой полностью согласен.
Мне неизвестны более мощные pеализации методов
finite-order FSM моделиpования


                                                                   Max

--- --- ---
 * Origin: Torglind Metamorph vs Jabberwock (2:5030/706.11)


 RU.COMPRESS 
 From : ZAB                                  2:5020/400     31 Jan 00 14:55:44
 To   : All                                 
 Subj : Арифмитическое кодирование в проге!                                          


From: "ZAB" <ZAnatolyB@Mail.ru>

Опять я со своими глупостями!
Hа этот раз уже с арифм. код.!
Я долго и упорно пытался реализовать его самостоятельно, кое- что вышло, но
не совсем - постоянно теряется точность определения кодов с наименьшими
диапозонами! Попробовал отыскать в инете - нашёл несколько страниц, но судя
по ним, моя прога должна работать! Hа некоторых были вполне полные коды, но
ошибок - тьма, я их даже исправлять не стал (если автор утверждает, что
прога с ошибками, отсекаемыми ещё при компиляции, работает - то гда
гарантия, что в неё вообще работоспособный алгоритм?)! Так что выношу свою
эгоистическую просьбу на всеобщее обозрение: нет ли у кого работоспособного
(проверенного) кода арифмитического кодирования (язык не важен, но лучше
паскаль), и если есть - то дайте пожалуйста, ато уже совсем с ума сходить
начал!

PS: В исходниках PPMZ от Блюма есть модуль Arithmc.c, он говорит, что там
какое-то особенно продуктивное арифмитическое кодирование, но в принцип его
работы я так и не въехал(!), может кто-нибуть в этом уже разобрался?!


--- ifmail v.2.15dev4
 * Origin: NeoToN (2:5020/400)
 Предыдущий блок Следующий блок Вернуться в индекс