Linguistics: различия между версиями

Материал из ALT Linux Wiki
Нет описания правки
Строка 23: Строка 23:


* tipa
* tipa
* собрать [http://scripts.sil.org/Gentium Gentium (SIL)]
* собрать [http://scripts.sil.org/Gentium Gentium (SIL)] [http://tug.ctan.org/pkg/gentium пакет для использования Gentium в TeX]


[[Категория:Пользователю]]
[[Категория:Пользователю]]
[[Категория:Специализированный софт]]
[[Категория:Специализированный софт]]

Версия от 21:59, 29 марта 2009

Лингвистика и обработка естественного языка (Natural language processing)

FIXME:организовать в более общие разделы, дополнить

Универсальные (почти) пакеты

  • python-module-nltk Большой пакет, включающий модули python для решения очень широкого круга задач из области корпусной лингвистики и обработки естественного языка. См. домашнюю страницу проекта, и в особенности книгу. Хорошо бы найти добровольцев её перевести на русский язык.

Лемматизация

  • perl-Lingua-Stem — Русский, Немецкий, Францунзский, Итальянский, Датский, Шведский, Португальский FIXME:описание
  • snowball Судя по отзывам, хороший стеммер, поддерживающий много разных языков, включая русский, имеется обёртка для python -- PyStemmer. Всё это хорошо бы собрать в Сизиф. Примечание: уже имеется пакет по имени snowball, другой.

Морфологический и синтаксический анализ

  • aot — Русский, Немецкий, Английский FIXME:описание

Лингвистическая аннотация, базы данных

  • emdros — база данных для аннотированного текста. Оригинальная модель представления аннотированных данных (текста), гибкий язык запросов MQL. Утилиты для импорта из популярных форматов лингвистической аннотации. Графические пользовательские программы для наполнения и запросов к БД.

Коллокации, анализ сочетаемости

  • perl-Text-NSP — пакет для статистического анализа N-грамм в тексте (Ted Pedersen). Не полностью корректно поддерживает unicode, поэтому есть проблемы при обработке русского текста.
  • perl-UCS — пакет для статистического анализа коллокаций (Stefan Evert), UCSTools. Работает с данными от perl-Text-NSP.

Шрифты