Soft/Vosk: различия между версиями

Текущая версия от 21:07, 10 ноября 2024

Vosk

Разработчик(и)	Alpha Cephei Inc.
Первый выпуск	2019
Лицензия	Apache-2.0
Сайт	alphacephei.com github.com

Vosk - библитека для распознавания речи от компании Alpha Cephei Inc.

Особенности:

Поддерживает 20+ языков и диалектов - русский, английский, индийский английский, немецкий, французский, португальский, испанский, китайский, турецкий, вьетнамский, итальянский, голландский, валенсийский, арабский, греческий, персидский, филиппинский, украинский, казахский, шведский, японский, эсперанто, хинди, чешский, польский, узбекский, корейский, таджикский, гуджарати. В скором времени будут добавлены и другие.
Работает без доступа к сети даже на мобильных устройствах - Raspberry Pi, Android, iOS
Устанавливается с помощью простой команды pip3 install vosk без дополнительных шагов
Модели для каждого языка занимают всего 50Мб, но есть и гораздо более точные большие модели для более точного распознавания
Сделана для потоковой обработки звука, что позволяет реализовать мгновенную реакцию на команды
Поддерживает несколько популярных языков программирования - Java, C#, Javascript
Позволяет быстро настраивать словарь распознавания для улучшения точности распознавания
Позволяет идентифицировать говорящего

Установка и настройка

Установка Vosk

Примечание: От рута

$ su -

# apt-get install pip

# pip install vosk

Настройка Vosk

Примечание: От обычного пользователя

 $ git clone https://github.com/alphacep/vosk-api

Примечание: Получится папка /home/$USER/vosk-api

 $ cd vosk-api/python/example

В указанную папку качаем модель с нужным языком отсюда - https://github.com/kercre123/vosk-models/.

Тут такая закавывка. Vosk автоматически скачивает англицкую модель и перезаписывает все, что вы распакуете вручную. Но и мы не лыком шиты.

Идем в /home/$USER/.cache/vosk/vosk-model-small-en-us-0.22 и меняем содержимое папки на содержимое архива с языком.

Работа у с утилитой

Подготовка файла

Примечание: От обычного пользователя

Конвертируем аудио в wav

$ ffmpeg -i '/home/test/Загрузки/02_08. Первый день на Луне.mp3' -ar 16000 -ac 1 /home/test/nezn.wav

Распознование

Идем в каталог с исполняемыми файлами:

$ cd /home/test/vosk-api/python/example
$ python3 test_text.py '/home/test/nezn.wav'

Распознавание в файл субтитров

Идем в каталог с исполняемыми файлами:

$ cd /home/test/vosk-api/python/example
$ python3 test_srt.py '/home/test/film.wav' > /home/test/film.srt

Отредактировать полученный файл вы можете с софтом со стрницы Soft/Редакторы субтитров.

Источники

baeldung.com

Софт в ALT Linux

Soft/Arduino • Soft/Bleachbit • Soft/CompressPDF • Soft/Converseen • Soft/Darktable • Discord • Dislocker • Soft/Dosbox • Soft/GIMP • Soft/Grub-customizer • Soft/ImageMagick • Soft/Inkscape • Soft/Krita • Soft/Mail • MIDI • PortProton • Soft/Rawtherapee • Soft/Scilab • Soft/Shutter • Soft/AndroidStudio • Soft/Audacity • Soft/Basilisk • Soft/Brave • Soft/Cheese • Soft/Chromium • Soft/Edge • Soft/Epiphany • Soft/Falkon • Soft/FFmpeg • Soft/Firefox • Soft/ID3Editors • Soft/JDownloader • Soft/LibreOffice • Soft/MKVToolnix • Soft/MOC • Soft/Newmoon • Soft/Notes • Soft/OBS • Soft/OnlyOffice • Soft/Opera • Soft/Paint • Soft/Skype • Soft/SoftmakerOffice • Soft/Vivaldi • Soft/Vosk • Soft/Whatsapp • Soft/WPS Office • Soft/yt-dlp • Soft/Аудиоплееры • Soft/Видеоплееры • Soft/Видеоредакторы • Soft/МойОфис • Soft/Органайзеры • Soft/ЧтениеFB2 • Soft/ЧтениеPDF • Soft/ЯндексБраузер • Soft/Stellarium • Telegram • VirtualBox • WINE • Yandex.Disk • Soft/АнализаторыДисков • Soft/Двупанельники • Soft/Редакторы субтитров • Soft/ТоррентКлиенты • Soft/ЧтениеChm • Категория:Софт c epm • Категория:Софт из flatpak • Категория:Софт-из-архивов

@@ Строка 1: / Строка 1: @@
-==Подготовка файла==
+{|class="wikitable" style="float: right; margin-left: 2em"
-{{Note|От обычного пользователя}}
+	!	colspan="2" | Vosk
-Конвертируем аудио в wav
+	|-
- $ ffmpeg -i '/home/test/Загрузки/02_08. Первый день на Луне.mp3' -ar 16000 -ac 1 /home/test/nezn.wav
+	|	colspan="2" | [[Изображение:User-menu-Vosk.png|64px|center]]
+	|-
+	|	'''Разработчик(и)'''
+	|	Alpha Cephei Inc.
+	|-
+	|	'''Первый выпуск'''
+	|	2019
+	|-
+	|	'''Лицензия'''
+	|	Apache-2.0
+	|-
+	|	'''Сайт'''
+	|	[https://alphacephei.com/vosk/ alphacephei.com]<br>[https://github.com/alphacep/vosk github.com]
+|}
+Vosk - библитека для распознавания речи от компании Alpha Cephei Inc.
+Особенности:
+*Поддерживает 20+ языков и диалектов - русский, английский, индийский английский, немецкий, французский, португальский, испанский, китайский, турецкий, вьетнамский, итальянский, голландский, валенсийский, арабский, греческий, персидский, филиппинский, украинский, казахский, шведский, японский, эсперанто, хинди, чешский, польский, узбекский, корейский, таджикский, гуджарати. В скором времени будут добавлены и другие.
+*Работает без доступа к сети даже на мобильных устройствах - Raspberry Pi, Android, iOS
+*Устанавливается с помощью простой команды pip3 install vosk без дополнительных шагов
+*Модели для каждого языка занимают всего 50Мб, но есть и гораздо более точные большие модели для более точного распознавания
+*Сделана для потоковой обработки звука, что позволяет реализовать мгновенную реакцию на команды
+*Поддерживает несколько популярных языков программирования - Java, C#, Javascript
+*Позволяет быстро настраивать словарь распознавания для улучшения точности распознавания
+*Позволяет идентифицировать говорящего
+==Установка и настройка==
-==Установка Vosk==
+===Установка Vosk===
 {{Note|От рута}}
   $ su -
@@ Строка 12: / Строка 39: @@
   # pip install vosk
-==Настройка Vosk==
+===Настройка Vosk===
 {{Note|От обычного пользователя}}
    $ git clone https://github.com/alphacep/vosk-api
@@ Строка 23: / Строка 50: @@
 Идем в {{path|/home/$USER/.cache/vosk/vosk-model-small-en-us-0.22}} и меняем содержимое папки на содержимое архива с языком.
-==Распознование==
+==Работа у с утилитой==
+===Подготовка файла===
+{{Note|От обычного пользователя}}
+Конвертируем аудио в wav
+ $ ffmpeg -i '/home/test/Загрузки/02_08. Первый день на Луне.mp3' -ar 16000 -ac 1 /home/test/nezn.wav
+===Распознование===
 Идем в каталог с исполняемыми файлами:
   $ cd /home/test/vosk-api/python/example
   $ python3 test_text.py '/home/test/nezn.wav'
+[[Файл:Vosk-незнайка.png|650px]]
+====Распознавание в файл субтитров====
+Идем в каталог с исполняемыми файлами:
+ $ cd /home/test/vosk-api/python/example
+ $ python3 test_srt.py '/home/test/film.wav' > /home/test/film.srt
+Отредактировать полученный файл вы можете с софтом со стрницы [[Soft/Редакторы субтитров]].
 ==Источники==