OCR: различия между версиями

Материал из ALT Linux Wiki
Строка 161: Строка 161:
*Посмотрите, какая [https://tess4j.sourceforge.net/docs/index.html версия Tess4J] соответствует версии tesseract
*Посмотрите, какая [https://tess4j.sourceforge.net/docs/index.html версия Tess4J] соответствует версии tesseract
{{Note|Согласно странице выше, версии tesseract v5.2.0 соответствует версия tess4J 5.3}}
{{Note|Согласно странице выше, версии tesseract v5.2.0 соответствует версия tess4J 5.3}}
*Посмотрите, какая [https://github.com/nguyenq/VietOCR3/blob/master/versionchanges.txt версия VietOCR] соответствует версии tesseract и tess4J
{{Note|Согласно страницам выше, это Version 6.3.0 (7 July 2022)}}
*Скачайте [https://sourceforge.net/projects/vietocr/files/vietocr/ VietOCR] с sourceforge под версию
*Скачайте [https://sourceforge.net/projects/vietocr/files/vietocr/ VietOCR] с sourceforge под версию
{{Note| }}


===Сравнение===
===Сравнение===

Версия от 23:31, 8 декабря 2024

Программы для подготовки изображений

Scan Tailor Advanced

Scan Tailor
User-menu-scantailor.png
Разработчик(и) Virgil Grigoras
Первый выпуск 2022
Лицензия GNU GPL v3
Сайт github.com
Репозиторий scantailor

Scantailor.png

ScanTailor - программа для подготовки изображения к распознаванию.

Когда вы отсканировали изображение, оно:

  • цветное
  • может быть не достаточно контрастным
  • с неправильной ориентацией

и пр.

ScanTailor пошагово поможет вам максимально подготовить изображение к тому, чтобы OCR как можно лучше распознал текст.

Установка:

# apt-get install scantailor

Программы для распознавания

Cuneiform-qt

Cuneiform-qt
User-menu-cuneiform-qt.png
Разработчик(и) Андрей Черепанов
Первый выпуск 2009
Лицензия GNU GPL v3
Сайт github.com
Репозиторий cuneiform-qt

Cuneiform-qt.png

Для успешного распознавания подготовьте изображение с помощью Scan Tailor Advanced.

Установка:

# apt-get install cuneiform-qt

gImageReader

gImageReader
User-menu-gImageReader.png
Разработчик(и) Sandro Mani
Первый выпуск 2009
Лицензия GNU GPL v3
Сайт github.com
Репозиторий gimagereader

GImageReader.png

Установка:

# apt-get install gimagereader-qt5

или

# apt-get install gimagereader-gtk
  • Программа корректно распознает скан книги в простой неформатированный текст, если выбрать:
    • режим распознавания "простой текст"
    • русский язык
  • режим hOCR, PDF - как и следует - больше подходит для PDF

OCRFeeder

OCRFeeder
User-menu-ocrfeeder.png
Разработчик(и) Joaquim Rocha
(GNOME)
Первый выпуск 2009
Лицензия GNU GPL
Сайт wiki.gnome.org
Репозиторий ocrfeeder

OCRFeeder.png

Установка:

# apt-get install ocrfeeder

VietOCR

VietOCR
User-menu-VietOCR.png
Разработчик(и) Quan Nguyen
Первый выпуск 2008
Лицензия Apache v2.0
Сайт vietocr.sf.net
Репозиторий нет

VietOCR.png

VietOCR - GUI для OCR Tesseract. Имеет интерфейс на Java и .NET. Обе версии имеют схожий графический интерфейс пользователя и способны распознавать текст из изображений распространенных форматов.

Версия Java использует Tess4J - Java JNA wrapper для Tesseract OCR API.

Установка:

  • Посмотрите версию tesseract в вашей платформе
Примечание: Например, на 8.12.24, в платформе P10, доступен tesseract v5.2.0
  • Посмотрите, какая версия Tess4J соответствует версии tesseract
Примечание: Согласно странице выше, версии tesseract v5.2.0 соответствует версия tess4J 5.3
  • Посмотрите, какая версия VietOCR соответствует версии tesseract и tess4J
Примечание: Согласно страницам выше, это Version 6.3.0 (7 July 2022)
  • Скачайте VietOCR с sourceforge под версию

Сравнение

Редакторы субтитров
Параметры Cuneiform-qt gImageReader OCRFeeder
Движки Движок Cuneiform
Движок Tesseract
Движок Gocr
Движок Ocrad
Импорт Импорт изображений
Импорт PDF
Экспорт Экспорт в txt
Экспорт в html
Экспорт в rtf
Экспорт в tex
Экспорт в odt
Экспорт в pdf
Возможности Возможность сканирования
Поворот изображения
Автоповорот изображения
Настройка яркости-контраста
Выбор области
Автовыбор области
Unpaper
Устранение перекосов