Linguistics: различия между версиями
(→Шрифты) |
Anyr (обсуждение | вклад) Нет описания правки |
||
Строка 19: | Строка 19: | ||
* '''{{PkgL|perl-Text-NSP}}''' — пакет для статистического анализа N-грамм в тексте (Ted Pedersen). Не полностью корректно поддерживает unicode, поэтому есть проблемы при обработке русского текста. | * '''{{PkgL|perl-Text-NSP}}''' — пакет для статистического анализа N-грамм в тексте (Ted Pedersen). Не полностью корректно поддерживает unicode, поэтому есть проблемы при обработке русского текста. | ||
* '''{{PkgL|perl-UCS}}''' — пакет для статистического анализа коллокаций (Stefan Evert), UCSTools. Работает с данными от {{PkgL|perl-Text-NSP}}. | * '''{{PkgL|perl-UCS}}''' — пакет для статистического анализа коллокаций (Stefan Evert), UCSTools. Работает с данными от {{PkgL|perl-Text-NSP}}. | ||
== Перевод == | |||
* [http://www.omegat.org/ru/omegat.html OmegaT] - это свободная система автоматизированного перевода, поддерживающая память переводов, написанная на языке программирования Java. Эта система предназначена для профессиональных переводчиков. OmegaT не переводит вместо человека! (В отличие от программ, выполняющих «машинный перевод», OmegaT лишь помогает переводчику и упрощает его работу.) Возможности OmegaT включают: | |||
* [http://anaphraseus.sourceforge.net/ Anaphraseus] - это макрос OpenOffice.org, является по сути системой CAT (Computer-Assisted Translation), инструмент автоматизированного перевода. Программа позволяет создавать, управлять и использовать двуязычные памяти переводов (Translation Memories) на любых языках. Изначально, Anaphraseus был разработан для работы с форматом памяти переводов Wordfast, однако была также включена поддержка экспорта/импорта файлов в формате TMX (Translation Memory Exchange/Обмен памятью переводов) Unicode UTF-16. | |||
== Шрифты == | == Шрифты == |
Версия от 14:47, 27 марта 2010
Лингвистика и обработка естественного языка (Natural language processing)
Универсальные (почти) пакеты
- python-module-nltk Большой пакет, включающий модули python для решения очень широкого круга задач из области корпусной лингвистики и обработки естественного языка. См. домашнюю страницу проекта, и в особенности книгу.
Лемматизация
- perl-Lingua-Stem — Русский, Немецкий, Францунзский, Итальянский, Датский, Шведский, Португальский
- snowball Судя по отзывам, хороший стеммер, поддерживающий много разных языков, включая русский, имеется обёртка для python -- PyStemmer. Всё это хорошо бы собрать в Сизиф.
Морфологический и синтаксический анализ
- aot — Русский, Немецкий, Английский
Лингвистическая аннотация, базы данных
- emdros — база данных для аннотированного текста. Оригинальная модель представления аннотированных данных (текста), гибкий язык запросов MQL. Утилиты для импорта из популярных форматов лингвистической аннотации. Графические пользовательские программы для наполнения и запросов к БД.
Коллокации, анализ сочетаемости
- perl-Text-NSP — пакет для статистического анализа N-грамм в тексте (Ted Pedersen). Не полностью корректно поддерживает unicode, поэтому есть проблемы при обработке русского текста.
- perl-UCS — пакет для статистического анализа коллокаций (Stefan Evert), UCSTools. Работает с данными от perl-Text-NSP.
Перевод
- OmegaT - это свободная система автоматизированного перевода, поддерживающая память переводов, написанная на языке программирования Java. Эта система предназначена для профессиональных переводчиков. OmegaT не переводит вместо человека! (В отличие от программ, выполняющих «машинный перевод», OmegaT лишь помогает переводчику и упрощает его работу.) Возможности OmegaT включают:
- Anaphraseus - это макрос OpenOffice.org, является по сути системой CAT (Computer-Assisted Translation), инструмент автоматизированного перевода. Программа позволяет создавать, управлять и использовать двуязычные памяти переводов (Translation Memories) на любых языках. Изначально, Anaphraseus был разработан для работы с форматом памяти переводов Wordfast, однако была также включена поддержка экспорта/импорта файлов в формате TMX (Translation Memory Exchange/Обмен памятью переводов) Unicode UTF-16.
Шрифты
- tipa
- собрать Gentium (SIL) пакет для использования Gentium в TeX