OCR: различия между версиями

Текущая версия от 15:54, 9 января 2025

Программы для подготовки изображений

Scan Tailor Advanced

Scan Tailor

Разработчик(и)	Virgil Grigoras
Первый выпуск	2022
Лицензия	GNU GPL v3
Сайт	github.com
Репозиторий	scantailor

ScanTailor - программа для подготовки изображения к распознаванию.

Когда вы отсканировали изображение, оно:

цветное
может быть не достаточно контрастным
с неправильной ориентацией

и пр.

ScanTailor пошагово поможет вам максимально подготовить изображение к тому, чтобы OCR как можно лучше распознал текст.

Установка:

# apt-get install scantailor

Программы для распознавания

Стабильные

Cuneiform-qt

Cuneiform-qt

Разработчик(и)	Андрей Черепанов
Первый выпуск	2009
Лицензия	GNU GPL v3
Сайт	github.com
Репозиторий	cuneiform-qt

Для успешного распознавания подготовьте изображение с помощью Scan Tailor Advanced.

Установка:

# apt-get install cuneiform-qt

gImageReader

gImageReader

Разработчик(и)	Sandro Mani
Первый выпуск	2009
Лицензия	GNU GPL v3
Сайт	github.com
Репозиторий	gimagereader

Установка:

# apt-get install gimagereader-qt5

или

# apt-get install gimagereader-gtk

Программа корректно распознает скан книги в простой неформатированный текст, если выбрать:
- режим распознавания "простой текст"
- русский язык
режим hOCR, PDF - как и следует - больше подходит для PDF

OCRFeeder

OCRFeeder

Разработчик(и)	Joaquim Rocha (GNOME)
Первый выпуск	2009
Лицензия	GNU GPL
Сайт	wiki.gnome.org
Репозиторий	ocrfeeder

Установка:

# apt-get install ocrfeeder

Экспериментальные

VietOCR

VietOCR

Разработчик(и)	Quan Nguyen
Первый выпуск	2008
Лицензия	Apache v2.0
Сайт	vietocr.sf.net
Репозиторий	нет

VietOCR - GUI для OCR Tesseract. Имеет интерфейс на Java и .NET. Обе версии имеют схожий графический интерфейс пользователя и способны распознавать текст из изображений распространенных форматов.

Версия Java использует Tess4J - Java JNA wrapper для Tesseract OCR API.

Установка:

Посмотрите версию tesseract в вашей платформе

Примечание: Например, на 8.12.24, в платформе P10, доступен tesseract v5.2.0

Посмотрите, какая версия Tess4J соответствует версии tesseract

Примечание: Согласно странице выше, версии tesseract v5.2.0 соответствует версия tess4J 5.3

Посмотрите, какая версия VietOCR соответствует версии tesseract и tess4J

Примечание: Согласно страницам выше, это Version 6.3.0 (7 July 2022)

Скачайте VietOCR с sourceforge под версию
Пропишите в файле .bashrc, который находится в домашней папке:

export TESSDATA_PREFIX=/usr/share/tesseract

В распакованном каталоге VietOCR3 запустите файл VietOCR.jar

$ java -jar '/home/test/Загрузки/VietOCR3/VietOCR.jar'

OCRmyPDF

OCRmyPDF

Разработчик(и)	James R. Barlow
Первый выпуск	2023
Лицензия	MPL v2
Сайт	ocrmypdf.readthedocs.io github.com
Репозиторий	ocrmypdf

Примечание: D P10 программа отсутствует, пока есть только в Sisyphus.

OCRmyPDF - консольная утилита, которая получает на вход "pdf с картинками", обрабатывает его с помощью Tesseract и формирует "pdf с текстом". Чем выше разрешение картинки/скана - тем выше точность распознавания.

Установка

Повторюсь, пока есть только в Сизифе!

# apt-get install ocrmypdf

Использование

$ ocrmypdf -l rus '/home/user/Загрузки/praktika dogovor.pdf'  '/home/user/praktika dogovor_fix.pdf

-l - язык, в ISO-формате
сначала указывается "входной файл", потом "выходной"

Вывод команды:

$ ocrmypdf -l rus '/home/user/Загрузки/praktika dogovor.pdf' /home/user/text-test.pdf
Scanning contents     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 7/7 0:00:00
Start processing 7 pages concurrently                                  ocr.py:96
OCR                   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 7/7 0:00:00
Postprocessing...                                                      ocr.py:144
PDF/A conversion      ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 7/7 0:00:00
Linearizing           ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 100/100 0:00:00
Recompressing JPEGs   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━   0% 0/0 -:--:--
Deflating JPEGs       ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 7/7 0:00:00
JBIG2                 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━   0% 0/0 -:--:--
Image optimization ratio: 1.02 savings: 1.6%                    _pipeline.py:994
Total file size ratio: 1.01 savings: 1.1%                       _pipeline.py:997
Output file is a PDF/A-2B (as expected)                         _common.py:474

Сравнение

OCR
Параметры		Cuneiform-qt	gImageReader	OCRFeeder	VietOCR	OCRmyPDF
Движки	Движок Cuneiform
	Движок Tesseract
	Движок Gocr
	Движок Ocrad
Импорт	Импорт изображений
Импорт	Импорт PDF
Экспорт	Экспорт в txt
	Экспорт в html
	Экспорт в rtf
	Экспорт в tex
	Экспорт в odt
	Экспорт в pdf
Возможности	Возможность сканирования
	Поворот изображения
	Автоповорот изображения
	Настройка яркости-контраста
	Выбор области
	Автовыбор области
	Unpaper
	Устранение перекосов
	Ручное удаление переносов
	Изменение регистра

Софт в ALT Linux

Adobe Flash • AndroidStudio • AnyDesk • Arduino • Audacity • Basilisk • Bleachbit • Cheese • CompressPDF • Converseen • Darktable • Discord • Dislocker • Dosbox • Emulators • Epiphany • F3 • Falkon • Firefox • GIMP • Grub-customizer • ID3Editors • ImageMagick • Inkscape • JDownloader • Krita • LibreOffice • Mail • MIDI • MKVToolnix • MOC • Newmoon • Notes • OBS • OCR • Opera • Paint • PortProton • Python • Rawtherapee • Recoll • Rurecoder • Scilab • Shutter • Soft/Brave • Soft/Chromium • Soft/Edge • Soft/FFmpeg • Soft/OnlyOffice • Soft/Skype • SoftmakerOffice • Stellarium • Telegram • VirtualBox • Vivaldi • Vosk • Whatsapp • WINE • WPS Office • Yandex.Disk • Yt-dlp • АнализаторыДисков • Аудиоплееры • Видеоплееры • Видеоредакторы • Двупанельники • Запись дисков • Информация об оборудовании (soft) • МойОфис • Органайзеры • Работа со сканером • Редакторы субтитров • ТоррентКлиенты • ЧтениеChm • ЧтениеFB2 • ЧтениеPDF • ЯндексБраузер • Категория:Софт c epm • Категория:Софт из flatpak • Категория:Софт-из-архивов • Категория:Хорошо бы собрать пакет

Набор программ

MIDI • Paint • Органайзеры • Двупанельники • ЧтениеChm • АнализаторыДисков • ТоррентКлиенты • CompressPDF • ЧтениеFB2 • Аудиоплееры • ЧтениеPDF • Видеоплееры • ID3Editors • Notes • Mail • Видеоредакторы • Редакторы субтитров • OCR • Работа со сканером • Информация об оборудовании (soft) • Запись дисков

@@ Строка 1: / Строка 1: @@
+<span style="font-size:95%">< [[Soft]]</span>
 ==Программы для подготовки изображений==
 ===Scan Tailor Advanced===
@@ Строка 172: / Строка 173: @@
 ====OCRmyPDF====
-{{Внимание|Раздел в разработке}}
 {|class="wikitable" style="float: right; margin-left: 2em"
 	!	colspan="2" | OCRmyPDF
@@ Строка 191: / Строка 191: @@
 	|-
 	|	'''Репозиторий'''
-	|	нет
+	|	[http://packages.altlinux.org/ocrmypdf ocrmypdf]
 |}
-{{Note|На P10 не работает, проверялось в Sisyphus.}}
+{{Note|D P10 программа отсутствует, пока есть только в Sisyphus.}}
 OCRmyPDF - консольная утилита, которая получает на вход "pdf с картинками", обрабатывает его с помощью Tesseract и формирует "pdf с текстом". Чем выше разрешение картинки/скана - тем выше точность распознавания.
 =====Установка=====
-Повторюсь, заработало только в Сизифе!
+Повторюсь, пока есть только в Сизифе!
-Ставим через pip, т.к. в репозитории программы нет, а перепаковка из других дистрибутивов не работает.
-  # apt-get install pip
+  # apt-get install ocrmypdf
- # pip install ocrmypdf
 =====Использование=====
@@ Строка 234: / Строка 230: @@
 {|class="wikitable" style="float:center; margin-left:2em"
-!colspan="6"|Редакторы субтитров
+!colspan="7"|OCR
 |-
-!colspan="2"|Параметры ||  Cuneiform-qt || gImageReader || OCRFeeder || VietOCR
+!colspan="2"|Параметры ||  Cuneiform-qt || gImageReader || OCRFeeder || VietOCR || OCRmyPDF
 |-
-|rowspan="4"|Движки||Движок Cuneiform ||style="background-color:black;" | || ||style="background-color:black;" | ||
+|rowspan="4"|Движки||Движок Cuneiform ||style="background-color:black;" | || ||style="background-color:black;" | || ||
 |-
-|Движок Tesseract || ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" |
+|Движок Tesseract || ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" | || style="background-color:black;" |
 |-
-|Движок Gocr || || ||style="background-color:black;" | ||
+|Движок Gocr || || ||style="background-color:black;" | || ||
 |-
-|Движок Ocrad || || ||style="background-color:black;" | ||
+|Движок Ocrad || || ||style="background-color:black;" | || ||
 |-
-|rowspan="2"|Импорт||Импорт изображений ||style="background-color:black;" | ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" |
+|rowspan="2"|Импорт||Импорт изображений ||style="background-color:black;" | ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" | ||
 |-
-|Импорт PDF || ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" |
+|Импорт PDF || ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" | || style="background-color:black;" |
 |-
-|rowspan="6"|Экспорт||Экспорт в txt ||style="background-color:black;" | ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" |
+|rowspan="6"|Экспорт||Экспорт в txt ||style="background-color:black;" | ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" | ||
 |-
-|Экспорт в html ||style="background-color:black;" | || ||style="background-color:black;" | ||
+|Экспорт в html ||style="background-color:black;" | || ||style="background-color:black;" | || ||
 |-
-|Экспорт в rtf ||style="background-color:black;" | || || ||
+|Экспорт в rtf ||style="background-color:black;" | || || || ||
 |-
-|Экспорт в tex ||style="background-color:black;" | || || ||
+|Экспорт в tex ||style="background-color:black;" | || || || ||
 |-
-|Экспорт в odt || || ||style="background-color:black;" | ||
+|Экспорт в odt || || ||style="background-color:black;" | || ||
 |-
-|Экспорт в pdf || || ||style="background-color:black;" | ||
+|Экспорт в pdf || || ||style="background-color:black;" | || || style="background-color:black;" |
 |-
-|rowspan="10"|Возможности||Возможность сканирования || ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" |
+|rowspan="10"|Возможности||Возможность сканирования || ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" | ||
 |-
-|Поворот изображения || ||style="background-color:black;" | || || style="background-color:black;" |
+|Поворот изображения || ||style="background-color:black;" | || || style="background-color:black;" | ||
 |-
-|Автоповорот изображения || || ||style="background-color:black;" | ||
+|Автоповорот изображения || || ||style="background-color:black;" | || ||
 |-
-|Настройка яркости-контраста || ||style="background-color:black;" | || || style="background-color:black;" |
+|Настройка яркости-контраста || ||style="background-color:black;" | || || style="background-color:black;" | ||
 |-
-|Выбор области || ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" |
+|Выбор области || ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" | ||
 |-
-|Автовыбор области || ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" |
+|Автовыбор области || ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" | ||
 |-
-|Unpaper || || ||style="background-color:black;" | ||
+|Unpaper || || ||style="background-color:black;" | || ||
 |-
-|Устранение перекосов || || ||style="background-color:black;" | || style="background-color:black;" |
+|Устранение перекосов || || ||style="background-color:black;" | || style="background-color:black;" | ||
 |-
-|Ручное удаление переносов || || || || style="background-color:black;" |
+|Ручное удаление переносов || || || || style="background-color:black;" | ||
 |-
-|Изменение регистра || || || || style="background-color:black;" |
+|Изменение регистра || || || || style="background-color:black;" | ||
 |}
@@ Строка 286: / Строка 282: @@
 {{Category navigation|title=Набор программ|category=SoftKits|sortkey={{SUBPAGENAME}}}}
 [[Категория:Софт-из-архивов]]
+[[Категория:Хорошо бы собрать пакет]]