Soft/Vosk: различия между версиями

Материал из ALT Linux Wiki
Нет описания правки
 
(не показаны 4 промежуточные версии этого же участника)
Строка 1: Строка 1:
==Подготовка файла==
{|class="wikitable" style="float: right; margin-left: 2em"
{{Note|От обычного пользователя}}
! colspan="2" | Vosk
Конвертируем аудио в wav
|-
$ ffmpeg -i '/home/test/Загрузки/02_08. Первый день на Луне.mp3' -ar 16000 -ac 1 /home/test/nezn.wav
| colspan="2" | [[Изображение:User-menu-Vosk.png|64px|center]]
|-
| '''Разработчик(и)'''
| Alpha Cephei Inc.
|-
| '''Первый выпуск'''
| 2019
|-
| '''Лицензия'''
| Apache-2.0
|-
| '''Сайт'''
| [https://alphacephei.com/vosk/ alphacephei.com]<br>[https://github.com/alphacep/vosk github.com]
|}
 
Vosk - библитека для распознавания речи от компании Alpha Cephei Inc.
 
Особенности:
*Поддерживает 20+ языков и диалектов - русский, английский, индийский английский, немецкий, французский, португальский, испанский, китайский, турецкий, вьетнамский, итальянский, голландский, валенсийский, арабский, греческий, персидский, филиппинский, украинский, казахский, шведский, японский, эсперанто, хинди, чешский, польский, узбекский, корейский, таджикский, гуджарати. В скором времени будут добавлены и другие.
*Работает без доступа к сети даже на мобильных устройствах - Raspberry Pi, Android, iOS
*Устанавливается с помощью простой команды pip3 install vosk без дополнительных шагов
*Модели для каждого языка занимают всего 50Мб, но есть и гораздо более точные большие модели для более точного распознавания
*Сделана для потоковой обработки звука, что позволяет реализовать мгновенную реакцию на команды
*Поддерживает несколько популярных языков программирования - Java, C#, Javascript
*Позволяет быстро настраивать словарь распознавания для улучшения точности распознавания
*Позволяет идентифицировать говорящего
 
==Установка и настройка==


==Установка Vosk==
===Установка Vosk===
{{Note|От рута}}
{{Note|От рута}}
  $ su -
  $ su -
Строка 12: Строка 39:
  # pip install vosk
  # pip install vosk


==Настройка Vosk==
===Настройка Vosk===
{{Note|От обычного пользователя}}
{{Note|От обычного пользователя}}
   $ git clone https://github.com/alphacep/vosk-api
   $ git clone https://github.com/alphacep/vosk-api
Строка 23: Строка 50:
Идем в {{path|/home/$USER/.cache/vosk/vosk-model-small-en-us-0.22}} и меняем содержимое папки на содержимое архива с языком.
Идем в {{path|/home/$USER/.cache/vosk/vosk-model-small-en-us-0.22}} и меняем содержимое папки на содержимое архива с языком.


==Распознование==
==Работа у с утилитой==
===Подготовка файла===
{{Note|От обычного пользователя}}
Конвертируем аудио в wav
$ ffmpeg -i '/home/test/Загрузки/02_08. Первый день на Луне.mp3' -ar 16000 -ac 1 /home/test/nezn.wav
 
===Распознование===
Идем в каталог с исполняемыми файлами:
Идем в каталог с исполняемыми файлами:
  $ cd /home/test/vosk-api/python/example
  $ cd /home/test/vosk-api/python/example
  $ python3 test_text.py '/home/test/nezn.wav'
  $ python3 test_text.py '/home/test/nezn.wav'
[[Файл:Vosk-незнайка.png|650px]]
====Распознавание в файл субтитров====
Идем в каталог с исполняемыми файлами:
$ cd /home/test/vosk-api/python/example
$ python3 test_srt.py '/home/test/film.wav' > /home/test/film.srt
Отредактировать полученный файл вы можете с софтом со стрницы [[Soft/Редакторы субтитров]].


==Источники==
==Источники==

Текущая версия от 21:07, 10 ноября 2024

Vosk
User-menu-Vosk.png
Разработчик(и) Alpha Cephei Inc.
Первый выпуск 2019
Лицензия Apache-2.0
Сайт alphacephei.com
github.com

Vosk - библитека для распознавания речи от компании Alpha Cephei Inc.

Особенности:

  • Поддерживает 20+ языков и диалектов - русский, английский, индийский английский, немецкий, французский, португальский, испанский, китайский, турецкий, вьетнамский, итальянский, голландский, валенсийский, арабский, греческий, персидский, филиппинский, украинский, казахский, шведский, японский, эсперанто, хинди, чешский, польский, узбекский, корейский, таджикский, гуджарати. В скором времени будут добавлены и другие.
  • Работает без доступа к сети даже на мобильных устройствах - Raspberry Pi, Android, iOS
  • Устанавливается с помощью простой команды pip3 install vosk без дополнительных шагов
  • Модели для каждого языка занимают всего 50Мб, но есть и гораздо более точные большие модели для более точного распознавания
  • Сделана для потоковой обработки звука, что позволяет реализовать мгновенную реакцию на команды
  • Поддерживает несколько популярных языков программирования - Java, C#, Javascript
  • Позволяет быстро настраивать словарь распознавания для улучшения точности распознавания
  • Позволяет идентифицировать говорящего

Установка и настройка

Установка Vosk

Примечание: От рута
$ su -
# apt-get install pip
# pip install vosk

Настройка Vosk

Примечание: От обычного пользователя
 $ git clone https://github.com/alphacep/vosk-api
Примечание: Получится папка /home/$USER/vosk-api
 $ cd vosk-api/python/example

В указанную папку качаем модель с нужным языком отсюда - https://github.com/kercre123/vosk-models/.

Тут такая закавывка. Vosk автоматически скачивает англицкую модель и перезаписывает все, что вы распакуете вручную. Но и мы не лыком шиты.

Идем в /home/$USER/.cache/vosk/vosk-model-small-en-us-0.22 и меняем содержимое папки на содержимое архива с языком.

Работа у с утилитой

Подготовка файла

Примечание: От обычного пользователя

Конвертируем аудио в wav

$ ffmpeg -i '/home/test/Загрузки/02_08. Первый день на Луне.mp3' -ar 16000 -ac 1 /home/test/nezn.wav

Распознование

Идем в каталог с исполняемыми файлами:

$ cd /home/test/vosk-api/python/example
$ python3 test_text.py '/home/test/nezn.wav'

Vosk-незнайка.png

Распознавание в файл субтитров

Идем в каталог с исполняемыми файлами:

$ cd /home/test/vosk-api/python/example
$ python3 test_srt.py '/home/test/film.wav' > /home/test/film.srt

Отредактировать полученный файл вы можете с софтом со стрницы Soft/Редакторы субтитров.

Источники