Linguistics: различия между версиями
Нет описания правки |
(→Шрифты) |
||
Строка 23: | Строка 23: | ||
* tipa | * tipa | ||
* собрать [http://scripts.sil.org/Gentium Gentium (SIL)] | * собрать [http://scripts.sil.org/Gentium Gentium (SIL)] [http://tug.ctan.org/pkg/gentium пакет для использования Gentium в TeX] | ||
[[Категория:Пользователю]] | [[Категория:Пользователю]] | ||
[[Категория:Специализированный софт]] | [[Категория:Специализированный софт]] |
Версия от 21:59, 29 марта 2009
Лингвистика и обработка естественного языка (Natural language processing)
Универсальные (почти) пакеты
- python-module-nltk Большой пакет, включающий модули python для решения очень широкого круга задач из области корпусной лингвистики и обработки естественного языка. См. домашнюю страницу проекта, и в особенности книгу.
Лемматизация
- perl-Lingua-Stem — Русский, Немецкий, Францунзский, Итальянский, Датский, Шведский, Португальский
- snowball Судя по отзывам, хороший стеммер, поддерживающий много разных языков, включая русский, имеется обёртка для python -- PyStemmer. Всё это хорошо бы собрать в Сизиф.
Морфологический и синтаксический анализ
- aot — Русский, Немецкий, Английский
Лингвистическая аннотация, базы данных
- emdros — база данных для аннотированного текста. Оригинальная модель представления аннотированных данных (текста), гибкий язык запросов MQL. Утилиты для импорта из популярных форматов лингвистической аннотации. Графические пользовательские программы для наполнения и запросов к БД.
Коллокации, анализ сочетаемости
- perl-Text-NSP — пакет для статистического анализа N-грамм в тексте (Ted Pedersen). Не полностью корректно поддерживает unicode, поэтому есть проблемы при обработке русского текста.
- perl-UCS — пакет для статистического анализа коллокаций (Stefan Evert), UCSTools. Работает с данными от perl-Text-NSP.
Шрифты
- tipa
- собрать Gentium (SIL) пакет для использования Gentium в TeX