Linguistics: различия между версиями
Anyr (обсуждение | вклад) Нет описания правки |
Нет описания правки |
||
(не показаны 2 промежуточные версии 2 участников) | |||
Строка 30: | Строка 30: | ||
* собрать [http://scripts.sil.org/Gentium Gentium (SIL)] [http://tug.ctan.org/pkg/gentium пакет для использования Gentium в TeX] | * собрать [http://scripts.sil.org/Gentium Gentium (SIL)] [http://tug.ctan.org/pkg/gentium пакет для использования Gentium в TeX] | ||
[[Категория:Специализированный софт]] | [[Категория:Специализированный софт]] | ||
{{Category navigation|title=Специализированный софт|category=Специализированный софт|sortkey={{SUBPAGENAME}}}} |
Текущая версия от 16:59, 30 июня 2015
Лингвистика и обработка естественного языка (Natural language processing)
Универсальные (почти) пакеты
- python-module-nltk Большой пакет, включающий модули python для решения очень широкого круга задач из области корпусной лингвистики и обработки естественного языка. См. домашнюю страницу проекта, и в особенности книгу.
Лемматизация
- perl-Lingua-Stem — Русский, Немецкий, Францунзский, Итальянский, Датский, Шведский, Португальский
- snowball Судя по отзывам, хороший стеммер, поддерживающий много разных языков, включая русский, имеется обёртка для python -- PyStemmer. Всё это хорошо бы собрать в Сизиф.
Морфологический и синтаксический анализ
- aot — Русский, Немецкий, Английский
Лингвистическая аннотация, базы данных
- emdros — база данных для аннотированного текста. Оригинальная модель представления аннотированных данных (текста), гибкий язык запросов MQL. Утилиты для импорта из популярных форматов лингвистической аннотации. Графические пользовательские программы для наполнения и запросов к БД.
Коллокации, анализ сочетаемости
- perl-Text-NSP — пакет для статистического анализа N-грамм в тексте (Ted Pedersen). Не полностью корректно поддерживает unicode, поэтому есть проблемы при обработке русского текста.
- perl-UCS — пакет для статистического анализа коллокаций (Stefan Evert), UCSTools. Работает с данными от perl-Text-NSP.
Перевод
- OmegaT - это свободная система автоматизированного перевода, поддерживающая память переводов, написанная на языке программирования Java. Эта система предназначена для профессиональных переводчиков. OmegaT не переводит вместо человека! (В отличие от программ, выполняющих «машинный перевод», OmegaT лишь помогает переводчику и упрощает его работу.) Возможности OmegaT включают:
- Anaphraseus - это макрос OpenOffice.org, является по сути системой CAT (Computer-Assisted Translation), инструмент автоматизированного перевода. Программа позволяет создавать, управлять и использовать двуязычные памяти переводов (Translation Memories) на любых языках. Изначально, Anaphraseus был разработан для работы с форматом памяти переводов Wordfast, однако была также включена поддержка экспорта/импорта файлов в формате TMX (Translation Memory Exchange/Обмен памятью переводов) Unicode UTF-16.
- bibtext2tmx - это программа для согласования сегментов оригинального и переведенного текстов для сохранения результатов в TMX формате и последующего использования этого материала в приложениях автоматизированного перевода (CAT).
Шрифты
- tipa
- собрать Gentium (SIL) пакет для использования Gentium в TeX