OCR: различия между версиями
(не показаны 22 промежуточные версии этого же участника) | |||
Строка 1: | Строка 1: | ||
<span style="font-size:95%">< [[Soft]]</span> | |||
==Программы для подготовки изображений== | ==Программы для подготовки изображений== | ||
===Scan Tailor Advanced=== | ===Scan Tailor Advanced=== | ||
Строка 38: | Строка 39: | ||
==Программы для распознавания== | ==Программы для распознавания== | ||
===Cuneiform-qt=== | ===Стабильные=== | ||
====Cuneiform-qt==== | |||
{|class="wikitable" style="float: right; margin-left: 2em" | {|class="wikitable" style="float: right; margin-left: 2em" | ||
! colspan="2" | Cuneiform-qt | ! colspan="2" | Cuneiform-qt | ||
Строка 67: | Строка 69: | ||
# apt-get install cuneiform-qt | # apt-get install cuneiform-qt | ||
===gImageReader=== | ====gImageReader==== | ||
{|class="wikitable" style="float: right; margin-left: 2em" | {|class="wikitable" style="float: right; margin-left: 2em" | ||
! colspan="2" | gImageReader | ! colspan="2" | gImageReader | ||
Строка 101: | Строка 103: | ||
*режим hOCR, PDF - как и следует - больше подходит для PDF | *режим hOCR, PDF - как и следует - больше подходит для PDF | ||
===OCRFeeder=== | ====OCRFeeder==== | ||
{|class="wikitable" style="float: right; margin-left: 2em" | {|class="wikitable" style="float: right; margin-left: 2em" | ||
! colspan="2" | OCRFeeder | ! colspan="2" | OCRFeeder | ||
Строка 127: | Строка 129: | ||
Установка: | Установка: | ||
# apt-get install ocrfeeder | # apt-get install ocrfeeder | ||
===Экспериментальные=== | |||
====VietOCR==== | |||
{|class="wikitable" style="float: right; margin-left: 2em" | |||
! colspan="2" | VietOCR | |||
|- | |||
| colspan="2" | [[Изображение:User-menu-VietOCR.png|100px|center]] | |||
|- | |||
| '''Разработчик(и)''' | |||
| Quan Nguyen | |||
|- | |||
| '''Первый выпуск''' | |||
| 2008 | |||
|- | |||
| '''Лицензия''' | |||
| Apache v2.0 | |||
|- | |||
| '''Сайт''' | |||
| [https://vietocr.sourceforge.net/ vietocr.sf.net] | |||
|- | |||
| '''Репозиторий''' | |||
| нет | |||
|} | |||
[[Файл:VietOCR.png|480px]] | |||
VietOCR - GUI для OCR Tesseract. Имеет интерфейс на Java и .NET. Обе версии имеют схожий графический интерфейс пользователя и способны распознавать текст из изображений распространенных форматов. | |||
Версия Java использует Tess4J - Java JNA wrapper для Tesseract OCR API. | |||
Установка: | |||
*Посмотрите версию [https://packages.altlinux.org/tesseract/ tesseract] в вашей платформе | |||
{{Note|Например, на 8.12.24, в платформе P10, доступен tesseract v5.2.0}} | |||
*Посмотрите, какая [https://tess4j.sourceforge.net/docs/index.html версия Tess4J] соответствует версии tesseract | |||
{{Note|Согласно странице выше, версии tesseract v5.2.0 соответствует версия tess4J 5.3}} | |||
*Посмотрите, какая [https://github.com/nguyenq/VietOCR3/blob/master/versionchanges.txt версия VietOCR] соответствует версии tesseract и tess4J | |||
{{Note|Согласно страницам выше, это Version 6.3.0 (7 July 2022)}} | |||
*Скачайте [https://sourceforge.net/projects/vietocr/files/vietocr/ VietOCR] с sourceforge под версию | |||
*Пропишите в файле {{cmd|.bashrc}}, который находится в домашней папке: | |||
export TESSDATA_PREFIX=/usr/share/tesseract | |||
*В распакованном каталоге VietOCR3 запустите файл {{cmd|VietOCR.jar}} | |||
$ java -jar '/home/test/Загрузки/VietOCR3/VietOCR.jar' | |||
====OCRmyPDF==== | |||
{|class="wikitable" style="float: right; margin-left: 2em" | |||
! colspan="2" | OCRmyPDF | |||
|- | |||
| colspan="2" | [[Изображение:User-menu-OCRmyPDF.png|100px|center]] | |||
|- | |||
| '''Разработчик(и)''' | |||
| James R. Barlow | |||
|- | |||
| '''Первый выпуск''' | |||
| 2023 | |||
|- | |||
| '''Лицензия''' | |||
| MPL v2 | |||
|- | |||
| '''Сайт''' | |||
| [https://ocrmypdf.readthedocs.io ocrmypdf.readthedocs.io]<br>[https://github.com/ocrmypdf/OCRmyPDF github.com] | |||
|- | |||
| '''Репозиторий''' | |||
| [http://packages.altlinux.org/ocrmypdf ocrmypdf] | |||
|} | |||
{{Note|D P10 программа отсутствует, пока есть только в Sisyphus.}} | |||
OCRmyPDF - консольная утилита, которая получает на вход "pdf с картинками", обрабатывает его с помощью Tesseract и формирует "pdf с текстом". Чем выше разрешение картинки/скана - тем выше точность распознавания. | |||
=====Установка===== | |||
Повторюсь, пока есть только в Сизифе! | |||
# apt-get install ocrmypdf | |||
=====Использование===== | |||
$ ocrmypdf -l rus '/home/user/Загрузки/praktika dogovor.pdf' '/home/user/praktika dogovor_fix.pdf | |||
* -l - язык, в ISO-формате | |||
*сначала указывается "входной файл", потом "выходной" | |||
<div class="toccolours mw-collapsible mw-collapsed"> | |||
Вывод команды: | |||
<div class="mw-collapsible-content"> | |||
<syntaxhighlight lang="bash"> | |||
$ ocrmypdf -l rus '/home/user/Загрузки/praktika dogovor.pdf' /home/user/text-test.pdf | |||
Scanning contents ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 7/7 0:00:00 | |||
Start processing 7 pages concurrently ocr.py:96 | |||
OCR ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 7/7 0:00:00 | |||
Postprocessing... ocr.py:144 | |||
PDF/A conversion ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 7/7 0:00:00 | |||
Linearizing ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 100/100 0:00:00 | |||
Recompressing JPEGs ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 0% 0/0 -:--:-- | |||
Deflating JPEGs ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 7/7 0:00:00 | |||
JBIG2 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 0% 0/0 -:--:-- | |||
Image optimization ratio: 1.02 savings: 1.6% _pipeline.py:994 | |||
Total file size ratio: 1.01 savings: 1.1% _pipeline.py:997 | |||
Output file is a PDF/A-2B (as expected) _common.py:474 | |||
</syntaxhighlight> | |||
</div> | |||
</div> | |||
===Сравнение=== | ===Сравнение=== | ||
{|class="wikitable" style="float:center; margin-left:2em" | {|class="wikitable" style="float:center; margin-left:2em" | ||
!colspan=" | !colspan="7"|OCR | ||
|- | |||
!colspan="2"|Параметры || Cuneiform-qt || gImageReader || OCRFeeder || VietOCR || OCRmyPDF | |||
|- | |||
|rowspan="4"|Движки||Движок Cuneiform ||style="background-color:black;" | || ||style="background-color:black;" | || || | |||
|- | |- | ||
|Движок Tesseract || ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" | || style="background-color:black;" | | |||
|- | |- | ||
| | |Движок Gocr || || ||style="background-color:black;" | || || | ||
|- | |- | ||
|Движок | |Движок Ocrad || || ||style="background-color:black;" | || || | ||
|- | |- | ||
| | |rowspan="2"|Импорт||Импорт изображений ||style="background-color:black;" | ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" | || | ||
|- | |- | ||
| | |Импорт PDF || ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" | || style="background-color:black;" | | ||
|- | |- | ||
|rowspan=" | |rowspan="6"|Экспорт||Экспорт в txt ||style="background-color:black;" | ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" | || | ||
|- | |- | ||
| | |Экспорт в html ||style="background-color:black;" | || ||style="background-color:black;" | || || | ||
|- | |- | ||
|Экспорт в rtf ||style="background-color:black;" | || || || || | |||
|- | |- | ||
|Экспорт в | |Экспорт в tex ||style="background-color:black;" | || || || || | ||
|- | |- | ||
|Экспорт в | |Экспорт в odt || || ||style="background-color:black;" | || || | ||
|- | |- | ||
|Экспорт в | |Экспорт в pdf || || ||style="background-color:black;" | || || style="background-color:black;" | | ||
|- | |- | ||
| | |rowspan="10"|Возможности||Возможность сканирования || ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" | || | ||
|- | |- | ||
| | |Поворот изображения || ||style="background-color:black;" | || || style="background-color:black;" | || | ||
|- | |- | ||
| | |Автоповорот изображения || || ||style="background-color:black;" | || || | ||
|- | |- | ||
| | |Настройка яркости-контраста || ||style="background-color:black;" | || || style="background-color:black;" | || | ||
|- | |- | ||
| | |Выбор области || ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" | || | ||
|- | |- | ||
| | |Автовыбор области || ||style="background-color:black;" | ||style="background-color:black;" | || style="background-color:black;" | || | ||
|- | |- | ||
| | |Unpaper || || ||style="background-color:black;" | || || | ||
|- | |- | ||
| | |Устранение перекосов || || ||style="background-color:black;" | || style="background-color:black;" | || | ||
|- | |- | ||
| | |Ручное удаление переносов || || || || style="background-color:black;" | || | ||
|- | |- | ||
| | |Изменение регистра || || || || style="background-color:black;" | || | ||
|} | |} | ||
{{Category navigation|title=Софт в ALT Linux|category=Soft|sortkey={{SUBPAGENAME}}}} | {{Category navigation|title=Софт в ALT Linux|category=Soft|sortkey={{SUBPAGENAME}}}} | ||
{{Category navigation|title=Набор программ|category=SoftKits|sortkey={{SUBPAGENAME}}}} | {{Category navigation|title=Набор программ|category=SoftKits|sortkey={{SUBPAGENAME}}}} | ||
[[Категория:Софт из | [[Категория:Софт-из-архивов]] | ||
[[Категория:Хорошо бы собрать пакет]] |
Текущая версия от 15:54, 9 января 2025
< Soft
Программы для подготовки изображений
Scan Tailor Advanced
Scan Tailor | |
---|---|
Разработчик(и) | Virgil Grigoras |
Первый выпуск | 2022 |
Лицензия | GNU GPL v3 |
Сайт | github.com |
Репозиторий | scantailor |
ScanTailor - программа для подготовки изображения к распознаванию.
Когда вы отсканировали изображение, оно:
- цветное
- может быть не достаточно контрастным
- с неправильной ориентацией
и пр.
ScanTailor пошагово поможет вам максимально подготовить изображение к тому, чтобы OCR как можно лучше распознал текст.
Установка:
# apt-get install scantailor
Программы для распознавания
Стабильные
Cuneiform-qt
Cuneiform-qt | |
---|---|
Разработчик(и) | Андрей Черепанов |
Первый выпуск | 2009 |
Лицензия | GNU GPL v3 |
Сайт | github.com |
Репозиторий | cuneiform-qt |
Для успешного распознавания подготовьте изображение с помощью Scan Tailor Advanced.
Установка:
# apt-get install cuneiform-qt
gImageReader
gImageReader | |
---|---|
Разработчик(и) | Sandro Mani |
Первый выпуск | 2009 |
Лицензия | GNU GPL v3 |
Сайт | github.com |
Репозиторий | gimagereader |
Установка:
# apt-get install gimagereader-qt5
или
# apt-get install gimagereader-gtk
- Программа корректно распознает скан книги в простой неформатированный текст, если выбрать:
- режим распознавания "простой текст"
- русский язык
- режим hOCR, PDF - как и следует - больше подходит для PDF
OCRFeeder
OCRFeeder | |
---|---|
Разработчик(и) | Joaquim Rocha (GNOME) |
Первый выпуск | 2009 |
Лицензия | GNU GPL |
Сайт | wiki.gnome.org |
Репозиторий | ocrfeeder |
Установка:
# apt-get install ocrfeeder
Экспериментальные
VietOCR
VietOCR | |
---|---|
Разработчик(и) | Quan Nguyen |
Первый выпуск | 2008 |
Лицензия | Apache v2.0 |
Сайт | vietocr.sf.net |
Репозиторий | нет |
VietOCR - GUI для OCR Tesseract. Имеет интерфейс на Java и .NET. Обе версии имеют схожий графический интерфейс пользователя и способны распознавать текст из изображений распространенных форматов.
Версия Java использует Tess4J - Java JNA wrapper для Tesseract OCR API.
Установка:
- Посмотрите версию tesseract в вашей платформе
- Посмотрите, какая версия Tess4J соответствует версии tesseract
- Посмотрите, какая версия VietOCR соответствует версии tesseract и tess4J
- Скачайте VietOCR с sourceforge под версию
- Пропишите в файле .bashrc, который находится в домашней папке:
export TESSDATA_PREFIX=/usr/share/tesseract
- В распакованном каталоге VietOCR3 запустите файл VietOCR.jar
$ java -jar '/home/test/Загрузки/VietOCR3/VietOCR.jar'
OCRmyPDF
OCRmyPDF | |
---|---|
Разработчик(и) | James R. Barlow |
Первый выпуск | 2023 |
Лицензия | MPL v2 |
Сайт | ocrmypdf.readthedocs.io github.com |
Репозиторий | ocrmypdf |
OCRmyPDF - консольная утилита, которая получает на вход "pdf с картинками", обрабатывает его с помощью Tesseract и формирует "pdf с текстом". Чем выше разрешение картинки/скана - тем выше точность распознавания.
Установка
Повторюсь, пока есть только в Сизифе!
# apt-get install ocrmypdf
Использование
$ ocrmypdf -l rus '/home/user/Загрузки/praktika dogovor.pdf' '/home/user/praktika dogovor_fix.pdf
- -l - язык, в ISO-формате
- сначала указывается "входной файл", потом "выходной"
Вывод команды:
$ ocrmypdf -l rus '/home/user/Загрузки/praktika dogovor.pdf' /home/user/text-test.pdf
Scanning contents ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 7/7 0:00:00
Start processing 7 pages concurrently ocr.py:96
OCR ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 7/7 0:00:00
Postprocessing... ocr.py:144
PDF/A conversion ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 7/7 0:00:00
Linearizing ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 100/100 0:00:00
Recompressing JPEGs ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 0% 0/0 -:--:--
Deflating JPEGs ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 7/7 0:00:00
JBIG2 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 0% 0/0 -:--:--
Image optimization ratio: 1.02 savings: 1.6% _pipeline.py:994
Total file size ratio: 1.01 savings: 1.1% _pipeline.py:997
Output file is a PDF/A-2B (as expected) _common.py:474
Сравнение
OCR | ||||||
---|---|---|---|---|---|---|
Параметры | Cuneiform-qt | gImageReader | OCRFeeder | VietOCR | OCRmyPDF | |
Движки | Движок Cuneiform | |||||
Движок Tesseract | ||||||
Движок Gocr | ||||||
Движок Ocrad | ||||||
Импорт | Импорт изображений | |||||
Импорт PDF | ||||||
Экспорт | Экспорт в txt | |||||
Экспорт в html | ||||||
Экспорт в rtf | ||||||
Экспорт в tex | ||||||
Экспорт в odt | ||||||
Экспорт в pdf | ||||||
Возможности | Возможность сканирования | |||||
Поворот изображения | ||||||
Автоповорот изображения | ||||||
Настройка яркости-контраста | ||||||
Выбор области | ||||||
Автовыбор области | ||||||
Unpaper | ||||||
Устранение перекосов | ||||||
Ручное удаление переносов | ||||||
Изменение регистра |