OCR: различия между версиями
Строка 171: | Строка 171: | ||
{|class="wikitable" style="float:center; margin-left:2em" | {|class="wikitable" style="float:center; margin-left:2em" | ||
!colspan=" | !colspan="6"|Редакторы субтитров | ||
|- | |- | ||
!colspan="2"|Параметры || Cuneiform-qt || gImageReader || OCRFeeder | !colspan="2"|Параметры || Cuneiform-qt || gImageReader || OCRFeeder || VietOCR | ||
|- | |- | ||
|rowspan="4"|Движки||Движок Cuneiform ||style="background-color:black;" | || ||style="background-color:black;" | | |rowspan="4"|Движки||Движок Cuneiform ||style="background-color:black;" | || ||style="background-color:black;" | || | ||
|- | |- | ||
|Движок Tesseract || ||style="background-color:black;" | ||style="background-color:black;" | | |Движок Tesseract || ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" | | ||
|- | |- | ||
|Движок Gocr || || ||style="background-color:black;" | | |Движок Gocr || || ||style="background-color:black;" | || | ||
|- | |- | ||
|Движок Ocrad || || ||style="background-color:black;" | | |Движок Ocrad || || ||style="background-color:black;" | || | ||
|- | |- | ||
|rowspan="2"|Импорт||Импорт изображений ||style="background-color:black;" | ||style="background-color:black;" | ||style="background-color:black;" | | |rowspan="2"|Импорт||Импорт изображений ||style="background-color:black;" | ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" | | ||
|- | |- | ||
|Импорт PDF || ||style="background-color:black;" | ||style="background-color:black;" | | |Импорт PDF || ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" | | ||
|- | |- | ||
|rowspan="6"|Экспорт||Экспорт в txt ||style="background-color:black;" | ||style="background-color:black;" | ||style="background-color:black;" | | |rowspan="6"|Экспорт||Экспорт в txt ||style="background-color:black;" | ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" | | ||
|- | |- | ||
|Экспорт в html ||style="background-color:black;" | || ||style="background-color:black;" | | |Экспорт в html ||style="background-color:black;" | || ||style="background-color:black;" | || | ||
|- | |- | ||
|Экспорт в rtf ||style="background-color:black;" | || || | |Экспорт в rtf ||style="background-color:black;" | || || || | ||
|- | |- | ||
|Экспорт в tex ||style="background-color:black;" | || || | |Экспорт в tex ||style="background-color:black;" | || || || | ||
|- | |- | ||
|Экспорт в odt || || ||style="background-color:black;" | | |Экспорт в odt || || ||style="background-color:black;" | || | ||
|- | |- | ||
|Экспорт в pdf || || ||style="background-color:black;" | | |Экспорт в pdf || || ||style="background-color:black;" | || | ||
|- | |- | ||
|rowspan=" | |rowspan="10"|Возможности||Возможность сканирования || ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" | | ||
|- | |- | ||
|Поворот изображения || ||style="background-color:black;" | || | |Поворот изображения || ||style="background-color:black;" | || || style="background-color:black;" | | ||
|- | |- | ||
|Автоповорот изображения || || ||style="background-color:black;" | | |Автоповорот изображения || || ||style="background-color:black;" | || | ||
|- | |- | ||
|Настройка яркости-контраста || ||style="background-color:black;" | || | |Настройка яркости-контраста || ||style="background-color:black;" | || || style="background-color:black;" | | ||
|- | |- | ||
|Выбор области || ||style="background-color:black;" | ||style="background-color:black;" | | |Выбор области || ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" | | ||
|- | |- | ||
|Автовыбор области || ||style="background-color:black;" | ||style="background-color:black;" | | |Автовыбор области || ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" | | ||
|- | |- | ||
|Unpaper || || ||style="background-color:black;" | | |Unpaper || || ||style="background-color:black;" | || | ||
|- | |- | ||
|Устранение перекосов || || ||style="background-color:black;" | | |Устранение перекосов || || ||style="background-color:black;" | || style="background-color:black;" | | ||
|- | |||
|Ручное удаление переносов || || || || style="background-color:black;" | | |||
|- | |||
|Изменение регистра || || || || style="background-color:black;" | | |||
|} | |} | ||
{{Category navigation|title=Софт в ALT Linux|category=Soft|sortkey={{SUBPAGENAME}}}} | {{Category navigation|title=Софт в ALT Linux|category=Soft|sortkey={{SUBPAGENAME}}}} | ||
{{Category navigation|title=Набор программ|category=SoftKits|sortkey={{SUBPAGENAME}}}} | {{Category navigation|title=Набор программ|category=SoftKits|sortkey={{SUBPAGENAME}}}} |
Версия от 23:56, 8 декабря 2024
Программы для подготовки изображений
Scan Tailor Advanced
Scan Tailor | |
---|---|
Разработчик(и) | Virgil Grigoras |
Первый выпуск | 2022 |
Лицензия | GNU GPL v3 |
Сайт | github.com |
Репозиторий | scantailor |
ScanTailor - программа для подготовки изображения к распознаванию.
Когда вы отсканировали изображение, оно:
- цветное
- может быть не достаточно контрастным
- с неправильной ориентацией
и пр.
ScanTailor пошагово поможет вам максимально подготовить изображение к тому, чтобы OCR как можно лучше распознал текст.
Установка:
# apt-get install scantailor
Программы для распознавания
Cuneiform-qt
Cuneiform-qt | |
---|---|
Разработчик(и) | Андрей Черепанов |
Первый выпуск | 2009 |
Лицензия | GNU GPL v3 |
Сайт | github.com |
Репозиторий | cuneiform-qt |
Для успешного распознавания подготовьте изображение с помощью Scan Tailor Advanced.
Установка:
# apt-get install cuneiform-qt
gImageReader
gImageReader | |
---|---|
Разработчик(и) | Sandro Mani |
Первый выпуск | 2009 |
Лицензия | GNU GPL v3 |
Сайт | github.com |
Репозиторий | gimagereader |
Установка:
# apt-get install gimagereader-qt5
или
# apt-get install gimagereader-gtk
- Программа корректно распознает скан книги в простой неформатированный текст, если выбрать:
- режим распознавания "простой текст"
- русский язык
- режим hOCR, PDF - как и следует - больше подходит для PDF
OCRFeeder
OCRFeeder | |
---|---|
Разработчик(и) | Joaquim Rocha (GNOME) |
Первый выпуск | 2009 |
Лицензия | GNU GPL |
Сайт | wiki.gnome.org |
Репозиторий | ocrfeeder |
Установка:
# apt-get install ocrfeeder
VietOCR
VietOCR | |
---|---|
Разработчик(и) | Quan Nguyen |
Первый выпуск | 2008 |
Лицензия | Apache v2.0 |
Сайт | vietocr.sf.net |
Репозиторий | нет |
VietOCR - GUI для OCR Tesseract. Имеет интерфейс на Java и .NET. Обе версии имеют схожий графический интерфейс пользователя и способны распознавать текст из изображений распространенных форматов.
Версия Java использует Tess4J - Java JNA wrapper для Tesseract OCR API.
Установка:
- Посмотрите версию tesseract в вашей платформе
Примечание: Например, на 8.12.24, в платформе P10, доступен tesseract v5.2.0
- Посмотрите, какая версия Tess4J соответствует версии tesseract
Примечание: Согласно странице выше, версии tesseract v5.2.0 соответствует версия tess4J 5.3
- Посмотрите, какая версия VietOCR соответствует версии tesseract и tess4J
Примечание: Согласно страницам выше, это Version 6.3.0 (7 July 2022)
- Скачайте VietOCR с sourceforge под версию
- Пропишите в файле .bashrc, который находится в домашней папке:
export TESSDATA_PREFIX=/usr/share/tesseract
- В распакованном каталоге VietOCR3 запустите файл VietOCR.jar
Сравнение
Редакторы субтитров | |||||
---|---|---|---|---|---|
Параметры | Cuneiform-qt | gImageReader | OCRFeeder | VietOCR | |
Движки | Движок Cuneiform | ||||
Движок Tesseract | |||||
Движок Gocr | |||||
Движок Ocrad | |||||
Импорт | Импорт изображений | ||||
Импорт PDF | |||||
Экспорт | Экспорт в txt | ||||
Экспорт в html | |||||
Экспорт в rtf | |||||
Экспорт в tex | |||||
Экспорт в odt | |||||
Экспорт в pdf | |||||
Возможности | Возможность сканирования | ||||
Поворот изображения | |||||
Автоповорот изображения | |||||
Настройка яркости-контраста | |||||
Выбор области | |||||
Автовыбор области | |||||
Unpaper | |||||
Устранение перекосов | |||||
Ручное удаление переносов | |||||
Изменение регистра |