Vosk

< Soft

Vosk

Разработчик(и)	Alpha Cephei Inc.
Первый выпуск	2019
Лицензия	Apache-2.0
Сайт	alphacephei.com github.com

Vosk - библитека для распознавания речи от компании Alpha Cephei Inc.

Особенности:

Поддерживает 20+ языков и диалектов - русский, английский, индийский английский, немецкий, французский, португальский, испанский, китайский, турецкий, вьетнамский, итальянский, голландский, валенсийский, арабский, греческий, персидский, филиппинский, украинский, казахский, шведский, японский, эсперанто, хинди, чешский, польский, узбекский, корейский, таджикский, гуджарати. В скором времени будут добавлены и другие.
Работает без доступа к сети даже на мобильных устройствах - Raspberry Pi, Android, iOS
Устанавливается с помощью простой команды pip3 install vosk без дополнительных шагов
Модели для каждого языка занимают всего 50Мб, но есть и гораздо более точные большие модели для более точного распознавания
Сделана для потоковой обработки звука, что позволяет реализовать мгновенную реакцию на команды
Поддерживает несколько популярных языков программирования - Java, C#, Javascript
Позволяет быстро настраивать словарь распознавания для улучшения точности распознавания
Позволяет идентифицировать говорящего

Установка и настройка

Установка Vosk

Примечание: От рута

$ su -

# apt-get install pip

# pip install vosk

Настройка Vosk

Примечание: От обычного пользователя

 $ git clone https://github.com/alphacep/vosk-api

Примечание: Получится папка /home/$USER/vosk-api

 $ cd vosk-api/python/example

В указанную папку качаем модель с нужным языком отсюда - https://github.com/kercre123/vosk-models/.

Тут такая закавывка. Vosk автоматически скачивает англицкую модель и перезаписывает все, что вы распакуете вручную. Но и мы не лыком шиты.

Идем в /home/$USER/.cache/vosk/vosk-model-small-en-us-0.22 и меняем содержимое папки на содержимое архива с языком.

Работа у с утилитой

Подготовка файла

Примечание: От обычного пользователя

Конвертируем аудио в wav

$ ffmpeg -i '/home/test/Загрузки/02_08. Первый день на Луне.mp3' -ar 16000 -ac 1 /home/test/nezn.wav

Распознование

Идем в каталог с исполняемыми файлами:

$ cd /home/test/vosk-api/python/example
$ python3 test_text.py '/home/test/nezn.wav'

Распознавание в файл субтитров

Идем в каталог с исполняемыми файлами:

$ cd /home/test/vosk-api/python/example
$ python3 test_srt.py '/home/test/film.wav' > /home/test/film.srt

Отредактировать полученный файл вы можете с софтом со стрницы Soft/Редакторы субтитров.

Источники

baeldung.com

Софт в ALT Linux

Adobe Flash • AndroidStudio • AnyDesk • Arduino • Audacity • Basilisk • Bleachbit • Cheese • CompressPDF • Converseen • Darktable • Discord • Dislocker • Dosbox • Emulators • Epiphany • F3 • Falkon • Firefox • GIMP • Google Chrome • Grub-customizer • Guvcview • ID3Editors • ImageMagick • Inkscape • Isomaster • JDownloader • Krita • LibreOffice • Mail • MIDI • MKVToolnix • MOC • MyConnector • Newmoon • Notes • OBS • OCR • Opera • Paint • PortProton • Python • Rawtherapee • Recoll • Remmina • Rizin • Rurecoder • Scilab • Shutter • Soft/Brave • Soft/Chromium • Soft/Edge • Soft/FFmpeg • Soft/OnlyOffice • Soft/Skype • SoftmakerOffice • Stellarium • Telegram • VirtualBox • Vivaldi • Vosk • Whatsapp • WINE • WPS Office • Yt-dlp • АнализаторыДисков • Аудиоплееры • Видеоплееры • Видеоредакторы • Двупанельники • Запись дисков • Информация об оборудовании (soft) • Менеджеры буфера обмена • Мессенджеры • МойОфис • Операции с PDF-файлами • Органайзеры • ПросмотрИзображений • Работа со сканером • Редакторы субтитров • Секвенсоры • ТоррентКлиенты • ЧтениеChm • ЧтениеFB2 • ЧтениеPDF • Яндекс Диск • ЯндексБраузер • Категория:Enterprise Software • Категория:Софт c epm • Категория:Софт из flatpak • Категория:Софт-из-архивов • Категория:Хорошо бы собрать пакет