Моделирование естественных языков


Английские материалы

Русские материалы
Авторы Название статьи Описание Рейтинг


Английские материалы
Rosenfeld R. Two decades of Statistical Language Modeling: Where Do We Go From Here? Неплохой вводный обзор о достижениях и проблемах статистического моделирования языка.
Proceedings of the IEEE, 88(8), 2000.
PDF  96 кбайт кбайт
4
Teahan W.J. Modelling English text Данная диссертация посвящена изучению статистических моделей текста. Большое внимание уделяется моделям класса Prediction by Partial Matching (PPM). Исследовано несколько способов повышения точности моделей текста (и, следовательно, сжатия, если модели используются в компрессорах).
Department of Computer Science, The University of Waikato, Hamilton, New Zealand, May 1998.
PDF.RAR  1674 кбайт
PS.RAR    958 кбайт
5
Ristad E., Thomas R. Hierarchical Non-Emitting Markov models We describe a simple variant of the interpolated Markov model with non-emitting state transitions and prove that it is strictly more powerful than any Markov model. More importantly, the non-emitting model outperforms the classic interpolated model on natural language texts under a wide range of experimental conditions, with only a modest increase in computational requirements.
Research Report CS-TR-544-97, Department of Computer Science, Princeton University, 1997.
PDF  316 кбайт
PS.RAR  109 кбайт
4+
Ristad E., Thomas R. New Techniques for Context Modeling We introduce three new techniques for statistical language models: extension modeling, nonmonotonic contexts, and the divergence heuristic. Together these techniques result in language models that have few states, even fewer parameters, and low message entropies.
Proc. 33rd Annual Meeting of the ACL (Cambridge, MA, June 1995).
PDF  401 кбайт
PS.RAR  87 кбайт
4
Behr F., Fossum V., Mitzenmacher M., Xiao D. Estimating and Comparing Entropies Across Written Natural Languages Using PPM Compression Сравнивается степень сжатия переводов текстов на разные языки. Выдвигается гипотеза, что при адекватном переводе размер сжатого представления одинаков, т.е. статистическая, "шенноновская" энтропия одинакова. Любопытный текст.
Computer Science Group, Harvard University, Cambridge, Massachusetts, TR-12-02, 2002
PDF.RAR  145 кбайт
PS.RAR  70 кбайт
Тезисы были напечатаны в Proceedings of the 2003 IEEE Data Compression Conference, p. 416.
Страница публикаций Mitzenmacher'a
3

наверх