OCR: различия между версиями
Нет описания правки |
|||
Строка 38: | Строка 38: | ||
==Программы для распознавания== | ==Программы для распознавания== | ||
===Cuneiform-qt=== | ===Стабильные=== | ||
====Cuneiform-qt==== | |||
{|class="wikitable" style="float: right; margin-left: 2em" | {|class="wikitable" style="float: right; margin-left: 2em" | ||
! colspan="2" | Cuneiform-qt | ! colspan="2" | Cuneiform-qt | ||
Строка 67: | Строка 68: | ||
# apt-get install cuneiform-qt | # apt-get install cuneiform-qt | ||
===gImageReader=== | ====gImageReader==== | ||
{|class="wikitable" style="float: right; margin-left: 2em" | {|class="wikitable" style="float: right; margin-left: 2em" | ||
! colspan="2" | gImageReader | ! colspan="2" | gImageReader | ||
Строка 101: | Строка 102: | ||
*режим hOCR, PDF - как и следует - больше подходит для PDF | *режим hOCR, PDF - как и следует - больше подходит для PDF | ||
===OCRFeeder=== | ====OCRFeeder==== | ||
{|class="wikitable" style="float: right; margin-left: 2em" | {|class="wikitable" style="float: right; margin-left: 2em" | ||
! colspan="2" | OCRFeeder | ! colspan="2" | OCRFeeder | ||
Строка 128: | Строка 129: | ||
# apt-get install ocrfeeder | # apt-get install ocrfeeder | ||
===VietOCR=== | ===Экспериментальные=== | ||
====VietOCR==== | |||
{|class="wikitable" style="float: right; margin-left: 2em" | {|class="wikitable" style="float: right; margin-left: 2em" | ||
! colspan="2" | VietOCR | ! colspan="2" | VietOCR | ||
Строка 169: | Строка 171: | ||
$ java -jar '/home/test/Загрузки/VietOCR3/VietOCR.jar' | $ java -jar '/home/test/Загрузки/VietOCR3/VietOCR.jar' | ||
====OCRmyPDF==== | |||
{{Внимание|Раздел в разработке}} | |||
{|class="wikitable" style="float: right; margin-left: 2em" | |||
! colspan="2" | OCRmyPDF | |||
|- | |||
| colspan="2" | [[Изображение:User-menu-OCRmyPDF.png|100px|center]] | |||
|- | |||
| '''Разработчик(и)''' | |||
| James R. Barlow | |||
|- | |||
| '''Первый выпуск''' | |||
| 2023 | |||
|- | |||
| '''Лицензия''' | |||
| MPL v2 | |||
|- | |||
| '''Сайт''' | |||
| [https://ocrmypdf.readthedocs.io ocrmypdf.readthedocs.io]<br>[https://github.com/ocrmypdf/OCRmyPDF github.com] | |||
|- | |||
| '''Репозиторий''' | |||
| нет | |||
|} | |||
{{Note|Проверялось на P10, с deb-пакетом ocrmypdf_14.0.1+dfsg1-1_all.deb от Debian 12}} | |||
=====Установка===== | |||
С портала https://pkgs.org/search/?q=ocrmypdf скачайте deb-пакет ocrmypdf. (RPM-пакеты криво перепаковываются) | |||
Установите с перепаковкой: | |||
# epm install --repack '/home/user/Загрузки/ocrmypdf_14.0.1+dfsg1-1_all.deb' | |||
Доустановим библиотеки: | |||
# apt-get install pip | |||
# pip3 install coloredlogs pipeline | |||
# apt-get install img2pdf pdfminersix python3-module-tqdm | |||
=====Использование===== | |||
$ ocrmypdf -l rus '/home/user/Загрузки/praktika dogovor.pdf' '/home/user/praktika dogovor_fix.pdf | |||
* -l - язык, в ISO-формате | |||
===Сравнение=== | ===Сравнение=== | ||
Версия от 22:14, 13 декабря 2024
Программы для подготовки изображений
Scan Tailor Advanced
Scan Tailor | |
---|---|
Разработчик(и) | Virgil Grigoras |
Первый выпуск | 2022 |
Лицензия | GNU GPL v3 |
Сайт | github.com |
Репозиторий | scantailor |
ScanTailor - программа для подготовки изображения к распознаванию.
Когда вы отсканировали изображение, оно:
- цветное
- может быть не достаточно контрастным
- с неправильной ориентацией
и пр.
ScanTailor пошагово поможет вам максимально подготовить изображение к тому, чтобы OCR как можно лучше распознал текст.
Установка:
# apt-get install scantailor
Программы для распознавания
Стабильные
Cuneiform-qt
Cuneiform-qt | |
---|---|
Разработчик(и) | Андрей Черепанов |
Первый выпуск | 2009 |
Лицензия | GNU GPL v3 |
Сайт | github.com |
Репозиторий | cuneiform-qt |
Для успешного распознавания подготовьте изображение с помощью Scan Tailor Advanced.
Установка:
# apt-get install cuneiform-qt
gImageReader
gImageReader | |
---|---|
Разработчик(и) | Sandro Mani |
Первый выпуск | 2009 |
Лицензия | GNU GPL v3 |
Сайт | github.com |
Репозиторий | gimagereader |
Установка:
# apt-get install gimagereader-qt5
или
# apt-get install gimagereader-gtk
- Программа корректно распознает скан книги в простой неформатированный текст, если выбрать:
- режим распознавания "простой текст"
- русский язык
- режим hOCR, PDF - как и следует - больше подходит для PDF
OCRFeeder
OCRFeeder | |
---|---|
Разработчик(и) | Joaquim Rocha (GNOME) |
Первый выпуск | 2009 |
Лицензия | GNU GPL |
Сайт | wiki.gnome.org |
Репозиторий | ocrfeeder |
Установка:
# apt-get install ocrfeeder
Экспериментальные
VietOCR
VietOCR | |
---|---|
Разработчик(и) | Quan Nguyen |
Первый выпуск | 2008 |
Лицензия | Apache v2.0 |
Сайт | vietocr.sf.net |
Репозиторий | нет |
VietOCR - GUI для OCR Tesseract. Имеет интерфейс на Java и .NET. Обе версии имеют схожий графический интерфейс пользователя и способны распознавать текст из изображений распространенных форматов.
Версия Java использует Tess4J - Java JNA wrapper для Tesseract OCR API.
Установка:
- Посмотрите версию tesseract в вашей платформе
- Посмотрите, какая версия Tess4J соответствует версии tesseract
- Посмотрите, какая версия VietOCR соответствует версии tesseract и tess4J
- Скачайте VietOCR с sourceforge под версию
- Пропишите в файле .bashrc, который находится в домашней папке:
export TESSDATA_PREFIX=/usr/share/tesseract
- В распакованном каталоге VietOCR3 запустите файл VietOCR.jar
$ java -jar '/home/test/Загрузки/VietOCR3/VietOCR.jar'
OCRmyPDF
OCRmyPDF | |
---|---|
Разработчик(и) | James R. Barlow |
Первый выпуск | 2023 |
Лицензия | MPL v2 |
Сайт | ocrmypdf.readthedocs.io github.com |
Репозиторий | нет |
Установка
С портала https://pkgs.org/search/?q=ocrmypdf скачайте deb-пакет ocrmypdf. (RPM-пакеты криво перепаковываются)
Установите с перепаковкой:
# epm install --repack '/home/user/Загрузки/ocrmypdf_14.0.1+dfsg1-1_all.deb'
Доустановим библиотеки:
# apt-get install pip # pip3 install coloredlogs pipeline # apt-get install img2pdf pdfminersix python3-module-tqdm
Использование
$ ocrmypdf -l rus '/home/user/Загрузки/praktika dogovor.pdf' '/home/user/praktika dogovor_fix.pdf
- -l - язык, в ISO-формате
Сравнение
Редакторы субтитров | |||||
---|---|---|---|---|---|
Параметры | Cuneiform-qt | gImageReader | OCRFeeder | VietOCR | |
Движки | Движок Cuneiform | ||||
Движок Tesseract | |||||
Движок Gocr | |||||
Движок Ocrad | |||||
Импорт | Импорт изображений | ||||
Импорт PDF | |||||
Экспорт | Экспорт в txt | ||||
Экспорт в html | |||||
Экспорт в rtf | |||||
Экспорт в tex | |||||
Экспорт в odt | |||||
Экспорт в pdf | |||||
Возможности | Возможность сканирования | ||||
Поворот изображения | |||||
Автоповорот изображения | |||||
Настройка яркости-контраста | |||||
Выбор области | |||||
Автовыбор области | |||||
Unpaper | |||||
Устранение перекосов | |||||
Ручное удаление переносов | |||||
Изменение регистра |