Методы работы с программой распознавания текста

СОДЕРЖАНИЕ

ВВЕДЕНИЕ		3
1 ПРИНЦИП РАБОТЫ ПРОГРАММ РАСПОЗНОВАНИЯ ТЕКСТА		4
1.1 Технология оптического распознавания символов		4
1.2 Использование OCR-программ		6
2 ОЦЕНКА ЭФФЕКТИВНОСТИ РАБОТЫ		7
2.1 Сравнение		7
2.2 Результат сравнения		7
ЗАКЛЮЧЕНИЕ		8
СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ		9

ВВЕДЕНИЕ

Несмотря на то, что в настоящее время большинство документов составляется на компьютерах, задача создания полностью электронного документооборота ещё далека до полной реализации. Как правило, существующие системы охватывают деятельность отдельных организаций, а обмен данными между организациями осуществляется с помощью традиционных бумажных документов.

Задача перевода информации с бумажных на электронные носители актуальна не только в рамках потребностей, возникающих в системах документооборота. Современные информационные технологии позволяют нам существенно упростить доступ к информационным ресурсам, накопленным человечеством, при условии, что они будут переведены в электронный вид.

Наиболее простым и быстрым является сканирование документов с помощью сканеров. Результат работы является цифровое изображение документа – графический файл. Более предпочтительным, по сравнению с графическим, является текстовое представление информации. Этот вариант позволяет существенно сократить затраты на хранение и передачу информации, а также позволяет реализовать все возможные сценарии использования и анализа электронных документов. Поэтому наибольший интерес с практической точки зрения представляет именно перевод бумажных носителей в текстовый электронный документ.

1 ПРИНЦИП РАБОТЫ ПРОГРАММ РАСПОЗНОВАНИЯ ТЕКСТА

На вход системы распознавания поступает растровое изображение страницы документа. Для работы алгоритмов распознавания желательно, чтобы поступающее на вход изображение было как можно более высокого качества. Если изображение зашумлено, нерезко, имеет низкую контрастность, то это усложнит задачу алгоритмов распознавания.

Поэтому перед обработкой изображения алгоритмами распознавания проводится его предварительная обработка, направленная на улучшение качества изображения. Она включает фильтрацию изображения от шумов, повышение резкости и контрастности изображения, выравнивание и преобразование в используемый системой формат.

Подготовленное изображение попадает на вход модуля сегментации. Задачей этого модуля является выявление структурных единиц текста – строк, слов и символов. Выделение фрагментов высоких уровней, таких как строки и слова, может быть осуществлено на основе анализа промежутков между тёмными областями.

К сожалению, такой подход не может быть применён для выделения отдельных букв, поскольку, в силу особенностей начертания или искажений, изображения соседних букв могут объединяться в одну компоненту связанности или наоборот — изображение одной буквы может распадаться на отдельные компоненты связанности. Во многих случаях для решения задачи сегментации на уровне букв используются сложные эвристические алгоритмы.

1.1 Технология оптического распознавания символов

Оптическое распознавание символов – это технология, которая позволяет преобразовывать различные типы документов, такие как отсканированные документы, PDF-файлы или фото с цифровой камеры, в редактируемые форматы с возможностью поиска.

Предположим, у вас есть бумажный документ, например, статья в журнале, брошюра или договор в формате PDF, присланный вам партнером по электронной почте. Очевидно, для того чтобы получить возможность редактировать документ, его недостаточно просто отсканировать. Единственное, что может сделать сканер, – это создать изображение документа, представляющее собой всего лишь совокупность черно-белых или цветных точек, то есть растровое изображение.

Для того чтобы копировать, извлекать и редактировать данные, вам понадобится программа для распознавания символов, которая сможет выделить в изображении буквы, составить их в слова, а затем объединить слова в предложения, что в дальнейшем позволит работать с содержимым исходного документа.

Наиболее совершенные системы распознавания символов, такие как ABBYY FineReader OCR, делают акцент на использовании механизмов, созданных природой. В основе этих механизмов лежат три фундаментальных принципа: целостность, целенаправленность и адаптивность (принципы IPA).

Изображение, согласно принципу целостности, будет интерпретировано как некий объект, только если на нем присутствуют все структурные части этого объекта и эти части находятся в соответствующих отношениях. Иначе говоря, ABBYY FineReader не пытается принимать решение, перебирая тысячи эталонов в поисках наиболее подходящего. Вместо этого выдвигается ряд гипотез относительно того, на что похоже обнаруженное изображение. Затем каждая гипотеза целенаправленно проверяется. И, допуская, что найденный объект может быть буквой А, FineReader будет искать именно те особенности, которые должны быть у изображения этой буквы. Как и следует поступать, исходя из принципа целенаправленности. Принцип адаптивности означает, что программа должна быть способна к самообучению, поэтому проверять, верна ли выдвинутая гипотеза, система будет, опираясь на накопленные ранее сведения о возможных начертаниях символа в данном конкретном документе.

Компания ABBYY, опираясь на результаты многолетних исследований, реализовала принципы IPA в компьютерной программе. Система оптического распознавания символов ABBYY FineReader – единственная в мире система OCR, действующая в соответствии с вышеописанными принципами на всех этапах обработки документа. Эти принципы делают программу максимально гибкой и интеллектуальной, предельно приближая ее работу к тому, как распознает символы человек. На первом этапе распознавания система постранично анализирует изображения, из которых состоит документ, определяет структуру страниц, выделяет текстовые блоки, таблицы. Кроме того, современные документы часто содержат всевозможные элементы дизайна: иллюстрации, колонтитулы, цветной фон или фоновые изображения.

Поэтому недостаточно просто найти и распознать обнаруженный текст, важно с самого начала определить, как устроен рассматриваемый документ: есть ли в нем разделы и подразделы, ссылки и сноски, таблицы и графики, оглавление, проставлены ли номера страниц и т. д. Затем в текстовых блоках выделяются строки, отдельные строки делятся на слова, слова на символы.

Важно отметить, что выделение символов и их распознавание также реализовано в виде составных частей единой процедуры. Это позволяет в полной мере использовать преимущества принципов IPA. Выделенные изображения символов поступают на рассмотрение механизмов распознавания букв, называемых классификаторами.

В системе ABBYY FineReader применяются классификаторы следующих типов: растровый, признаковый, контурный, структурный, признаково-дифференциальный и структурно-дифференциальный. Растровый и признаковый классификаторы анализируют изображение и выдвигают несколько гипотез о том, какой символ на нем представлен. В ходе анализа каждой гипотезе присваивается определенная оценка (так называемый вес). По итогам проверки мы получаем список гипотез, проранжированный по весу (то есть по степени уверенности в том, что перед нами именно такой символ). Можно сказать, что в данный момент система уже «догадывается», на что похож рассматриваемый символ.

После этого в соответствии с принципами IPA ABBYY FineReader проводит проверку выдвинутых гипотез. Это делается с помощью дифференциального признакового классификатора.

Кроме того, следует отметить, что ABBYY FineReader поддерживает 192 языка распознавания. Интеграция системы распознавания со словарями помогает программе при анализе документов: распознавание происходит более точно и упрощает дальнейшую проверку результата с учетом данных об основном языке документа и словарной проверки отдельных предположений. После подробной обработки огромного числа гипотез программа принимает решение и предоставляет пользователю распознанный текст.

1.2 Использование OCR-программ

Технология ABBYY FineReader OCR проста в использовании – процесс распознавания в целом состоит из трех этапов: открытие (или сканирование) документа, распознавание и сохранение в наиболее подходящем формате (DOC, RTF, XLS, PDF, HTML, TXT и т. д.) либо перенос данных напрямую в офисные программы, такие как Microsoft, Word, Excel или приложения для просмотра PDF.

Кроме того, последняя версия ABBYY FineReader позволяет автоматизировать задачи по распознаванию и конвертации документов с помощью приложения ABBYY Hot Folder. С помощью него можно настраивать однотипные или повторяющиеся задачи по обработке документов и увеличить производительность работы.

2 ОЦЕНКА ЭФФЕКТИВНОСТИ РАБОТЫ

К сожалению, для оценки эффективности работы систем распознавания, обычно используются наборы символов, подготовленных иностранными специалистами, либо наборы, собранные авторами и не опубликованные в открытом доступе. Так, например, оценивая эффективность работы алгоритмов ABBYY FineReader автор использовал базы данных CEDAR, NIST, CENPARMI, а также сканированные анкеты ЕГЭ. Поскольку данные базы содержат английские и/или рукописные символы, они не могут быть использованы для оценки эффективности выполнения НИР по теме «разработка алгоритма распознавания печатных кириллических символов».

2.1 Сравнение

Сравнение производилось на образцах с разрешением 96 dpi и 180 dpi. В сравнении участвовал текст, состоящий из 300 слов, набранных шрифтами Arial 14pt и Times New Roman 14 пт. Текст разрешением 96 dpi был создан на компьютере непосредственно в виде графического файла. Для теста с разрешением 180 dpi текст был распечатан на лазерном принтере, а затем сканирован с указанным разрешением.

2.2 Результат сравнения

Лучшие результаты распознавания для 96 dpi можно объяснить тем, что текущая конфигурация системы была обучена на шрифтах Times New Roman 14 пт и Arial 14 пт при разрешающей способности 96 dpi. Можно ожидать улучшения результатов для этого текста при добавлении в систему простых классификаторов, обученных распознавать шрифты такого размера.

Суммарно, из 1200 слов было распознано:

• разработанным алгоритмом: 1180 слов (98,33%);

• системой с открытыми кодами CuneiForm: 597 слов (49,75%);

• коммерческой системой ABBYY FineReader: 1200 слов (100%).

Стоит отметить, что при низком разрешении, наличии большого числа шума Cuneiform не справляется с распознаванием текста, в то время как предложенный алгоритм распознает текст в таком качестве.

ЗАКЛЮЧЕНИЕ

Распознавание текста на изображениях является важной задачей машинного обучения, так как это позволяет организовать удобное взаимодействие с данными: редактирование, анализ, поиск слов или фраз и т.д.

В целом, можно заключить, что хотя предложенный алгоритм уступает лучшему в данном классе коммерческому продукту фирмы Abbyy, он способен распознавать текст худшего качества, чем способна распознать система c открытыми исходными кодами CuneiForm, но и заплатить за стандартную подписку Abbyy придётся 8990 рублей, а за корпоративную и вовсе 48990 рублей.

Поэтому непривередливый пользователь может найти вариант по карману среди множества других, ну а на крайний случай можно воспользоваться любым браузерным распознавателем, да качество в разы хуже и итоговый продукт работы программы будет требовать много обработок, но зато кошелёк цел, а работа выполнена.

Также стоит учесть, что в случае массового пре образования из изображения в текст стоит всё же выбрать качество и потратится так-как обработка большого количества текста займёт очень много времени.

СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ

1. Квасников В.П., Дзюбаненко А.В. Улучшение визуального качества цифрового изображения путем поэлементного преобразования Авиационно-космическая техника и технология 2009 г., 8, стр. 200-204: http://www.irbis-nbuv.gov.ua

2. Арлазаров В.Л., Куратов П.А., Славин О.А. Распознавание строк печатных текстов Сб. трудов ИСА РАН «Методы и средства работы с документами». — М.: Эдиториал УРСС, 2000. — С. 31-51: https://www.dissercat.com

3. Проект СПбГУ Открытый код: распознавание текстовых изображений [Электронный ресурс] — Режим доступа: ocr.apmath.spbu.ru

Скачать материал

Скачать материал "Методы работы с программой распознавания текста"

Как учитель может зарабатывать на Инфоуроке?

Скачать материал

Найдите материал к любому уроку, указав свой предмет (категорию), класс, учебник и тему:

6 662 871 материал в базе

Найти материалы

Скачать материал

Другие материалы

docx

Методическая разработка ПМ.08 Разработка дизайна веб-приложений УП.08 Учебная практика Специальность 09.02.07 Информационные системы и программирование. Тема занятия: «Оптимизация веб-сайта под мобильную версию с применением media-запроса»

Учебник: «Инженерная графика. CAD», И.Е. Колошкина, В.А. Селезнов
Тема: Основные определения

13.05.2021
804
34

«Инженерная графика. CAD», И.Е. Колошкина, В.А. Селезнов

docx

Задания 4 Word 1-4 класс

Учебник: «Информатика (в 2 частях)», Могилев А.В., Могилева В.Н., Цветкова М.С.

13.05.2021
343
14

docx

Задания 3 Word 1-4 класс

Учебник: «Информатика (в 2 частях)», Могилев А.В., Могилева В.Н., Цветкова М.С.

13.05.2021
1282
42

docx

Задания 2 Word 1-4 класс

Учебник: «Информатика (в 2 частях)», Могилев А.В., Могилева В.Н., Цветкова М.С.

13.05.2021
166
5

docx

Задания Word 1-4 класс

Учебник: «Информатика (в 2 частях)», Могилев А.В., Могилева В.Н., Цветкова М.С.

13.05.2021
334
6

docx

Лекция: Основные сведения о цифровом представлении звуковой информации. Определение звука. Запись звука.

Учебник: «Информатика (базовый уровень) (в 2 частях)», Под ред. Макаровой Н.В.
Тема: Представление звуковой информации в компьютере

13.05.2021
4164
85

«Информатика (базовый уровень) (в 2 частях)», Под ред. Макаровой Н.В.

pptx

Презентация по информатике на тему "События"

Учебник: «Информатика (в 2 частях)», Павлов Д.И., Полежаева О.А., Коробкова Л.Н. и др./ Под ред. Горячева А.В.
Тема: 23. Что такое события?

13.05.2021
517
22

«Информатика (в 2 частях)», Павлов Д.И., Полежаева О.А., Коробкова Л.Н. и др./ Под ред. Горячева А.В.

pptx

Презентация по информатике "Сортируем предметы"

Учебник: «Информатика (в 2 частях)», Павлов Д.И., Полежаева О.А., Коробкова Л.Н. и др./ Под ред. Горячева А.В.
Тема: 21. Сортируем предметы

13.05.2021
403
19

Вам будут интересны эти курсы:

Оставьте свой комментарий

Авторизуйтесь, чтобы задавать вопросы.

Скачать материал
- 13.05.2021 1778
- DOCX 31.3 кбайт
- 12 скачиваний
- Оцените материал:
Настоящий материал опубликован пользователем Чернев Иван Игоревич. Инфоурок является информационным посредником и предоставляет пользователям возможность размещать на сайте методические материалы. Всю ответственность за опубликованные материалы, содержащиеся в них сведения, а также за соблюдение авторских прав несут пользователи, загрузившие материал на сайт

Если Вы считаете, что материал нарушает авторские права либо по каким-то другим причинам должен быть удален с сайта, Вы можете оставить жалобу на материал.
Удалить материал
Автор материала

Чернев Иван Игоревич
- На сайте: 2 года и 11 месяцев
- Подписчики: 0
- Всего просмотров: 3409
- Всего материалов: 5