Распознавание речи

Материал из ALT Linux Wiki
Версия от 13:44, 3 ноября 2024; Petr-akhlamov (обсуждение | вклад) (Новая страница: «{{stub}} ==Подготовка файла== {{Note|От обычного пользователя}} Конвертируем аудио в wav $ ffmpeg -i '/home/test/Загрузки/02_08. Первый день на Луне.mp3' -ar 16000 -ac 1 /home/test/nezn.wav ==Установка Vosk== {{Note|От рута}} $ su - # apt-get install pip # pip install vosk ==Настройка Vosk== {{Note|От обычного пользователя}}...»)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)
Stub.png
Данная страница находится в разработке.
Эта страница ещё не закончена. Информация, представленная здесь, может оказаться неполной или неверной.

Подготовка файла

Примечание: От обычного пользователя

Конвертируем аудио в wav

$ ffmpeg -i '/home/test/Загрузки/02_08. Первый день на Луне.mp3' -ar 16000 -ac 1 /home/test/nezn.wav

Установка Vosk

Примечание: От рута
$ su -
# apt-get install pip
# pip install vosk

Настройка Vosk

Примечание: От обычного пользователя
 $ git clone https://github.com/alphacep/vosk-api
Примечание: Получится папка /home/$USER/vosk-api
 $ cd vosk-api/python/example

В указанную папку качаем модель с нужным языком отсюда - https://github.com/kercre123/vosk-models/.

Тут такая закавывка. Vosk автоматически скачивает англицкую модель и перезаписывает все, что вы распакуете вручную. Но и мы не лыком шиты.

Идем в /home/$USER/.cache/vosk/vosk-model-small-en-us-0.22 и меняем содержимое папки на содержимое архива с языком.

Распознование

Идем в каталог с исполняемыми файлами:

$ cd /home/test/vosk-api/python/example
$ python3 test_text.py '/home/test/nezn.wav'

Источники