Распознавание речи: различия между версиями

Материал из ALT Linux Wiki
(Перенаправление на Soft/Vosk)
Метка: новое перенаправление
 
(не показана 1 промежуточная версия этого же участника)
Строка 1: Строка 1:
{{stub}}
#REDIRECT[[Soft/Vosk]]
==Подготовка файла==
{{Note|От обычного пользователя}}
Конвертируем аудио в wav
$ ffmpeg -i '/home/test/Загрузки/02_08. Первый день на Луне.mp3' -ar 16000 -ac 1 /home/test/nezn.wav


==Установка Vosk==
{{Note|От рута}}
$ su -
# apt-get install pip
# pip install vosk
==Настройка Vosk==
{{Note|От обычного пользователя}}
  $ git clone https://github.com/alphacep/vosk-api
{{Note|Получится папка {{path|/home/$USER/vosk-api}}}}
  $ cd vosk-api/python/example
В указанную папку качаем модель с нужным языком отсюда - https://github.com/kercre123/vosk-models/.
Тут такая закавывка. Vosk автоматически скачивает англицкую модель и перезаписывает все, что вы распакуете вручную. Но и мы не лыком шиты.
Идем в {{path|/home/$USER/.cache/vosk/vosk-model-small-en-us-0.22}} и меняем содержимое папки на содержимое архива с языком.
==Распознование==
Идем в каталог с исполняемыми файлами:
$ cd /home/test/vosk-api/python/example
$ python3 test_text.py '/home/test/nezn.wav'
==Источники==
*[https://www.baeldung.com/linux/wav-mp3-to-text-speech-recognize baeldung.com]
[[Категория:HOWTO]]
[[Категория:HOWTO]]

Текущая версия от 14:03, 3 ноября 2024

Перенаправление на: