Семинар "Системы распознования текста"

Семинар. Тема: «Системы распознавания текста».

Цели занятия:

· помочь обучающимся получить представление об OCR – программах распознавания текста, познакомиться с возможностями данных программы, научить распознавать отсканированный текст, передавать и редактировать его в Word.

· воспитание информационной культуры, внимательности, аккуратности, дисциплинированности, усидчивости.

· развитие познавательных интересов, навыков работы на компьютере, самоконтроля, умения конспектировать.

Ход занятия:

I. Орг. момент.

II. Актуализация знаний.

При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов.

На этом занятии мы научимся создавать преобразовывать отсканированное изображение в текст.

III. Теоретическая часть.

С помощью сканера достаточно просто получить изображение страницы текста в графическом файле. Однако работать с таким текстом невозможно: как любое сканированное изображение, страница с текстом представляет собой графический файл - обычную картинку. Текст можно будет читать и распечатывать, но нельзя будет его редактировать и форматировать. Для получения документа в формате текстового файла необходимо провести распознавание текста, то есть преобразовать элементы графического изображения в последовательности текстовых символов.

Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical Character Recognition - OCR).

Современная OCR должна уметь многое: распознавать тексты, набранные не только определенными шрифтами (именно так работали OCR первого поколения), но и самыми экзотическими, вплоть до рукописных. Уметь корректно работать с текстами, содержащими слова на нескольких языках, корректно распознавать таблицы. И самое главное — корректно распознавать не только четко набранные тексты, но и такие, качество которых, мягко говоря, далеко от идеала. Например, текст с пожелтевшей газетной вырезки или третьей машинописной копии. Само собой, распознать текст — это еще полдела. Не менее важно обеспечить возможность сохранения результата в файле популярного текстового (или табличного) формата — скажем, формата Microsoft Word.

Как видим, для того, чтобы получить электронную, готовую к редактированию копию любого печатного текста, программе OCR необходимо выполнить «цепочку» из множества отдельных операций.

Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и так далее. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст.

Наиболее распространенные системы оптического распознавания символов, например, ABBYY FineReader и CuneiForm от Cognitive, используют как растровый, так и структурный методы распознавания. Кроме того, эти системы являются «самообучающимися» (для каждого конкретного документа они создают соответствующий набор шаблонов символов) и поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.

Программы для распознавания текста вы можете приобрети отдельно или получить бесплатно вместе с купленным вами сканером или скачать из интернета.

Качество распознавания во многом зависит от того, насколько хорошее изображение получено при сканировании. Качество изображения регулируется установкой основных параметров сканирования: типа изображения, разрешения и яркости.

Сканирование в сером является оптимальным режимом для системы распознавания. В случае сканирования в сером режиме осуществляется автоматический подбор яркости. Если Вы хотите, чтобы содержащиеся в документе цветные элементы (картинки, цвет букв и фона) были переданы в электронный документ с сохранением цвета, необходимо выбрать цветной тип изображения. В других случаях используйте серый тип изображения.

Оптимальным разрешением для обычных текстов является - 300 dpi и 400-600 dpi для текстов, набранных мелким шрифтом (9 и менее пунктов).

Вопросы:

· Зачем нужны программы распознавания текста?

· Как происходит распознавание текста?

· Какие программы распознания текста вы знаете? Какими пользовались?

· Какое разрешение является оптимальным для сканирования текста, изображений?

III. Практическая часть.

1. Просмотр впдеоклипа по работе с CuneiFor.

2. Теперь потренируемся работать с программой CuneiForm.

Запускаем CuneiForm.

Окно CuneiForm

Программой можно полностью управлять благодаря кнопкам на панели инструментов. Рассмотрим их более детально:

Интерфейс CuneiForm

Программа может работать в режиме мастера, который активируется первой кнопкой. Следующая кнопка запускает процесс сканирования. На этой и следующих кнопках Вы можете заметить небольшие стрелочки. Нажав на них, мы получим доступ к некоторым дополнительным функциям.

Теперь давайте опробуем CuneiForm на практике. Первой кнопкой, которую следует нажать, будет «Получить изображение», или открыть уже готовый скан (поддерживаются форматы JPG, GIF, BMP, PNG (не всегда корректно), а также TIF (в полной мере)).

Открытие документа в CuneiForm

Теперь следует произвести разметку. Она помогает определить блоки, из которых состоит страница. Поддерживается распознавание блоков в виде текста (синяя рамка), рисунков (зеленая рамка) или таблиц (оранжевая рамка) (автоматическую разметку можно доработать вручную, используя контекстное меню блока).

Разметка документа

Блоки - это заключенные в рамку участки изображения. Блоки выделяют для того, чтобы указать системе, какие участки, отсканированной страницы, надо распознавать и в каком порядке. Также по ним воспроизводится исходное оформление страницы. Блоки разных типов имеют различные цвета рамок.

Текст - блок используется для обозначения текста. Он должен содержать только одноколоночный текст. Если внутри текста содержатся картинки, выделите их в отдельные блоки.

Таблица - этот блок используется для обозначения таблиц или текста, имеющего табличную структуру. При распознавании программа разбивает данный блок на строки и столбцы и формирует табличную структуру. В выходном тексте данный блок передается таблицей.

Картинка - этот блок используется для обозначения картинок. Он может содержать картинку или любую другую часть текста, которую Вы хотите передать в распознанный текст в качестве картинки.

Когда текст обозначен, самое время провести его распознавание. Для этого нажимаем следующую кнопку. По окончании процесса распознавания в рабочем окне отобразится текст, который можно редактировать в небольшом встроенном текстовом редакторе похожем на Microsoft Word. При этом Вы сразу сможете увидеть те слова, в которых программа «не уверена» (голубая подсветка) и в которых есть ошибка (сомнительная буква — розовая).

Распознавание и редактирование документа

И, наконец, после успешного редактирования можно сохранить результат нашей работы. Кликаем последнюю кнопку на панели инструментов и сохраняем текст как RTF, HTML или TXT-файл.

Сохранение документа в CuneiForm

Если же Вы желаете большего, то, нажав на стрелочку сбоку, Вы сможете выбрать опции экспорта в одну из предложенных программ (Microsoft Word, Excel или Евфрат).

Варианты сохранения документа в CuneiForm

Посмотрите на предыдущий скриншот. Наверняка вы обратили внимание, что в дополнительных меню кнопок, начиная с «Разметки» и заканчивая «Сохранением», есть в конце пункт «Автомат». Активирование этой опции освобождает Вас от нажатия выбранной кнопки. То есть можно автоматизировать процесс обработки скана до того, что Вы будете лишь открывать новый документ. Все остальное CuneiForm сделает сама!

IV. Вопросы.

Ответы на вопросы.

V. Итог.

На семинаре мы познакомились с программами OCR, научились распознавать отсканированное изображение с помощью программы CuneiForm.

Скачать материал

Скачать материал "Семинар "Системы распознования текста""

Как учитель может зарабатывать на Инфоуроке?

Скачать материал

Найдите материал к любому уроку, указав свой предмет (категорию), класс, учебник и тему:

6 663 508 материалов в базе

Найти материалы

Скачать материал

Другие материалы

docx

Урок "Обработка текстовой информации"

14.02.2016
578
0

pptx

Презентация по информатике на тему " Мәтінді теру ережесі. Мәтін бойымен жылжыту"

14.02.2016
2534
32

pptx

Урок по информатике "Мәтіндік процессоры жайлы жалпы мағлұмат, программа интерфейсі. Құжаттарды құру және сақтау"

14.02.2016
930
0

docx

Урок по информатике на тему "Мәтіндік процессор жайлы жалпы мағлұмат, программа интерфейсі, құжаттарды құру және сақтау, мәтінді пішімдеудің әдіс - тәсілдері"

14.02.2016
2952
1

zip

Практическая работа на тему: "Создание анимации в Lazarus"

14.02.2016
8524
70

docx

Сабақта қолданылатын әдіс-тәсілдер жинағы

13.02.2016
4960
12

docx

Қысқа мерзімді жоспар "Ақпараттың көлемі және өлшем бірлігі"

13.02.2016
408
0

Вам будут интересны эти курсы:

Оставьте свой комментарий

Авторизуйтесь, чтобы задавать вопросы.

Скачать материал
- 14.02.2016 909
- DOCX 112.5 кбайт
- Оцените материал:
Настоящий материал опубликован пользователем Грунтова Елена Григорьевна. Инфоурок является информационным посредником и предоставляет пользователям возможность размещать на сайте методические материалы. Всю ответственность за опубликованные материалы, содержащиеся в них сведения, а также за соблюдение авторских прав несут пользователи, загрузившие материал на сайт

Если Вы считаете, что материал нарушает авторские права либо по каким-то другим причинам должен быть удален с сайта, Вы можете оставить жалобу на материал.
Удалить материал
Автор материала

Грунтова Елена Григорьевна
- На сайте: 8 лет и 2 месяца
- Подписчики: 1
- Всего просмотров: 6216
- Всего материалов: 6