Распознавание речи: различия между версиями

Текущая версия от 14:03, 3 ноября 2024

Перенаправление на:

Soft/Vosk

@@ Строка 1: / Строка 1: @@
-{{stub}}
+#REDIRECT[[Soft/Vosk]]
-==Подготовка файла==
-{{Note|От обычного пользователя}}
-Конвертируем аудио в wav
- $ ffmpeg -i '/home/test/Загрузки/02_08. Первый день на Луне.mp3' -ar 16000 -ac 1 /home/test/nezn.wav
-==Установка Vosk==
-{{Note|От рута}}
- $ su -
- # apt-get install pip
- # pip install vosk
-==Настройка Vosk==
-{{Note|От обычного пользователя}}
-  $ git clone https://github.com/alphacep/vosk-api
-{{Note|Получится папка {{path|/home/$USER/vosk-api}}}}
-  $ cd vosk-api/python/example
-В указанную папку качаем модель с нужным языком отсюда - https://github.com/kercre123/vosk-models/.
-Тут такая закавывка. Vosk автоматически скачивает англицкую модель и перезаписывает все, что вы распакуете вручную. Но и мы не лыком шиты.
-Идем в /home/$USER/.cache/vosk/vosk-model-small-en-us-0.22 и меняем содержимое папки на содержимое архива с языком.
-==Распознование==
-Идем в каталог с исполняемыми файлами:
- $ cd /home/test/vosk-api/python/example
- $ python3 test_text.py '/home/test/nezn.wav'
-==Источники==
-*[https://www.baeldung.com/linux/wav-mp3-to-text-speech-recognize baeldung.com]
 [[Категория:HOWTO]]