Soft/Vosk: различия между версиями
< Soft
Нет описания правки |
|||
(не показаны 3 промежуточные версии этого же участника) | |||
Строка 17: | Строка 17: | ||
|} | |} | ||
Vosk - библитека для распознавания речи от компании Alpha Cephei Inc. | |||
Особенности: | |||
*Поддерживает 20+ языков и диалектов - русский, английский, индийский английский, немецкий, французский, португальский, испанский, китайский, турецкий, вьетнамский, итальянский, голландский, валенсийский, арабский, греческий, персидский, филиппинский, украинский, казахский, шведский, японский, эсперанто, хинди, чешский, польский, узбекский, корейский, таджикский, гуджарати. В скором времени будут добавлены и другие. | |||
*Работает без доступа к сети даже на мобильных устройствах - Raspberry Pi, Android, iOS | |||
*Устанавливается с помощью простой команды pip3 install vosk без дополнительных шагов | |||
*Модели для каждого языка занимают всего 50Мб, но есть и гораздо более точные большие модели для более точного распознавания | |||
*Сделана для потоковой обработки звука, что позволяет реализовать мгновенную реакцию на команды | |||
*Поддерживает несколько популярных языков программирования - Java, C#, Javascript | |||
*Позволяет быстро настраивать словарь распознавания для улучшения точности распознавания | |||
*Позволяет идентифицировать говорящего | |||
==Установка и настройка== | |||
==Установка Vosk== | ===Установка Vosk=== | ||
{{Note|От рута}} | {{Note|От рута}} | ||
$ su - | $ su - | ||
Строка 30: | Строка 39: | ||
# pip install vosk | # pip install vosk | ||
==Настройка Vosk== | ===Настройка Vosk=== | ||
{{Note|От обычного пользователя}} | {{Note|От обычного пользователя}} | ||
$ git clone https://github.com/alphacep/vosk-api | $ git clone https://github.com/alphacep/vosk-api | ||
Строка 41: | Строка 50: | ||
Идем в {{path|/home/$USER/.cache/vosk/vosk-model-small-en-us-0.22}} и меняем содержимое папки на содержимое архива с языком. | Идем в {{path|/home/$USER/.cache/vosk/vosk-model-small-en-us-0.22}} и меняем содержимое папки на содержимое архива с языком. | ||
==Распознование== | ==Работа у с утилитой== | ||
===Подготовка файла=== | |||
{{Note|От обычного пользователя}} | |||
Конвертируем аудио в wav | |||
$ ffmpeg -i '/home/test/Загрузки/02_08. Первый день на Луне.mp3' -ar 16000 -ac 1 /home/test/nezn.wav | |||
===Распознование=== | |||
Идем в каталог с исполняемыми файлами: | Идем в каталог с исполняемыми файлами: | ||
$ cd /home/test/vosk-api/python/example | $ cd /home/test/vosk-api/python/example | ||
$ python3 test_text.py '/home/test/nezn.wav' | $ python3 test_text.py '/home/test/nezn.wav' | ||
[[Файл:Vosk-незнайка.png|650px]] | |||
====Распознавание в файл субтитров==== | |||
Идем в каталог с исполняемыми файлами: | |||
$ cd /home/test/vosk-api/python/example | |||
$ python3 test_srt.py '/home/test/film.wav' > /home/test/film.srt | |||
Отредактировать полученный файл вы можете с софтом со стрницы [[Soft/Редакторы субтитров]]. | |||
==Источники== | ==Источники== |
Текущая версия от 21:07, 10 ноября 2024
Vosk | |
---|---|
Разработчик(и) | Alpha Cephei Inc. |
Первый выпуск | 2019 |
Лицензия | Apache-2.0 |
Сайт | alphacephei.com github.com |
Vosk - библитека для распознавания речи от компании Alpha Cephei Inc.
Особенности:
- Поддерживает 20+ языков и диалектов - русский, английский, индийский английский, немецкий, французский, португальский, испанский, китайский, турецкий, вьетнамский, итальянский, голландский, валенсийский, арабский, греческий, персидский, филиппинский, украинский, казахский, шведский, японский, эсперанто, хинди, чешский, польский, узбекский, корейский, таджикский, гуджарати. В скором времени будут добавлены и другие.
- Работает без доступа к сети даже на мобильных устройствах - Raspberry Pi, Android, iOS
- Устанавливается с помощью простой команды pip3 install vosk без дополнительных шагов
- Модели для каждого языка занимают всего 50Мб, но есть и гораздо более точные большие модели для более точного распознавания
- Сделана для потоковой обработки звука, что позволяет реализовать мгновенную реакцию на команды
- Поддерживает несколько популярных языков программирования - Java, C#, Javascript
- Позволяет быстро настраивать словарь распознавания для улучшения точности распознавания
- Позволяет идентифицировать говорящего
Установка и настройка
Установка Vosk
Примечание: От рута
$ su -
# apt-get install pip
# pip install vosk
Настройка Vosk
Примечание: От обычного пользователя
$ git clone https://github.com/alphacep/vosk-api
Примечание: Получится папка /home/$USER/vosk-api
$ cd vosk-api/python/example
В указанную папку качаем модель с нужным языком отсюда - https://github.com/kercre123/vosk-models/.
Тут такая закавывка. Vosk автоматически скачивает англицкую модель и перезаписывает все, что вы распакуете вручную. Но и мы не лыком шиты.
Идем в /home/$USER/.cache/vosk/vosk-model-small-en-us-0.22 и меняем содержимое папки на содержимое архива с языком.
Работа у с утилитой
Подготовка файла
Примечание: От обычного пользователя
Конвертируем аудио в wav
$ ffmpeg -i '/home/test/Загрузки/02_08. Первый день на Луне.mp3' -ar 16000 -ac 1 /home/test/nezn.wav
Распознование
Идем в каталог с исполняемыми файлами:
$ cd /home/test/vosk-api/python/example $ python3 test_text.py '/home/test/nezn.wav'
Распознавание в файл субтитров
Идем в каталог с исполняемыми файлами:
$ cd /home/test/vosk-api/python/example $ python3 test_srt.py '/home/test/film.wav' > /home/test/film.srt
Отредактировать полученный файл вы можете с софтом со стрницы Soft/Редакторы субтитров.