Добавить материал и получить бесплатное свидетельство о публикации в СМИ
Эл. №ФС77-60625 от 20.01.2015
Инфоурок / Информатика / Конспекты / Мәтінді танып алу технологиясы, мәтіндерді танып алу программасы 10 сынып

Мәтінді танып алу технологиясы, мәтіндерді танып алу программасы 10 сынып


  • Информатика

Поделитесь материалом с коллегами:

10 сынып

19.10.2015ж

Пән мұғалімі: Құлқараева Ж


Оқу ісінің меңгерушісі

_______Е. Л. Дайнашов


Сабақ тақырыбы:

Мәтінді танып алу технологиясы, мәтіндерді танып алу программасы

Жалпы мақсат пен міндеттері

Мәтіндік тану жүйелері мен мәтінді сканерлеу және олардың түрлерімен таныстыру.          

Оқушылардың ойлау қабілеті мен пәнге деген қызығушылығын арттыру.Іскерлікке, нақтылыққа, ынтымақтылыққа тәрбиелеу.


Сілтеме

10 сынып оқулығы

Сабақта қолданатын әдіс-тәсілдер:

АКТ – ны пайдалану

Құрал-жабдықтар:

проектор, мультимедиапрезентация (көзге арналған сергіту жаттығулары), ДК, дәптер, оқулық,

hello_html_m4447630b.jpg

Ұйымдастыру

Өткен сабақ бойынша білімдерін тексеру. Мұғалім оқушыларға сұрақтар қояды:

ABBYY Fine Reader программасының қызметі қандай?

Сәйкестендіріп тану үшін қандай программаларды білу керек?

ABBYY Fine Reader программа терезесінің құрылымын атаңдар?


Оқушылар сұрақтарға жауап береді:



Дәптерге сабақ тақырыбын жазады. Оқушылармен бірге сабақ мақсаты мен міндеттері анықталады

            Ғылыми зерттеулер мен практикалық жұмыстар бағыттарының бірі құжаттарды тану (түсіну) технологиясы болып табылады. Құжаттарды тану мақсат-міндеттері әрқилы және әр текті, өйткені құжаттардың өзі әр қилы және әр текті. Олардың шешуі сканер, видеокамера немесе басқа да сканерлейтін құрылғыдан алынған құжат бейнесінің талдауы негізінде құрылады. Құжат танудың жалпы мақсаты – ақпарат көрсетімі пішінін графикалықтан адам және программамен қабылданатын түріне өзгерту. Сканердің көмегімен мәтіннің бейнесін графикалық файл ретінде қабылдап алсақ жеткілікті. Әлпетте, мұндай мәтінмен жұмыс жасау мүмкін емес, кез келген сканерленген бейне сияқты, мәтіні бар бет графикалық файл – жай ғана бейне болып ұсынылады. Мәтінді оқуға және баспаға шығаруға болады, алайда өңдеуге және форматтауға болмайды. Құжатты мәтіндік файл түрінде алу үшін, мәтінді тану жұмысыны жүргізу қажет, яғни, бейненің графикалық элементтерін мәтіндік символдардың тізбегіне айналдыру қажет.     Графикалық бейнелерді мәтінге айналдыру үшін арнайы мәтінді тану программалары бар (Optical Character Recognition - OCR). Мәтінді тану бұл мақсаттың ең маыңызды процестерінің бірі болып табылады және мәтіннің графикалық бейнесінің символдық пішінге (мыалы, ASCII-код) өзгеруін белгілейді.  Қазіргі заманғы  OCR көп әрекет жасай білуі керек: тек ғана терілген мәтінді танымай, сонымен қатар, қолдан жазылған жазбаларды да тану білуі керек. Құрамында бірнеше тілде жазылған мәтінді дұрыс тани білу, кестелерді дұрыс тану да жатады. Және де ең бастысы – тек ғана терілген мәтінді ғана емес, шынайылықтан алыс жатқан мәтінді тани білуі керек. Мысалы, сарғайып қалған  газеттегі кеспелерді немесе үшінші машинажазбалардың көшірмесін тану сияқтылар. Сонымен қатар, алынған нәтижені ұтымды мәтіндік редаторда(ms word) да сақтау да аса маңызды болған жөн. Яғни, терілген мәтіннің электронды, өңдеуге дайын нұсқасын алу үшін, OCR  программасында жеке амалдардан тұратын тізбекті орындау керек.

Алдымен, беттегі мәтіннің орналасу құрылымын анықтау қажет: бағандарды, кестелерді, бейнелерді  ерекшелеу. Ары қарай ерекшеленген фрагменттерді мәтінге айналдыру қажет.  

Ең көп таралған оптикалық тану жүйелері ішінде мысалы, ABBYY FineReader и CuneiForm от Cognitive. 

            CuneiForm  құжаттарды тану жүйесі мәтіндік процессорлармен, электрондық кестелермен, деректер базаларын басқару жүйелерімен қабылданатын мәтіндегі, яғни редакцияланатын мәтіндегі құжаттың графикалық бейнеленуінің өзгеруін іске асырады. CuneiForm аралас мәтіндермен жұмыс істейді және мәтінді графиктерді пішімді бір құжатта сақтайды.

CuneiForm-мен жұмыс процесі мынадай кезеңдерге бөлінеді: сканерлеу, бейнені жазу, мәтінде тану, мәтінді қарау, мәтінді жазу.

Салық декларацияларын толтыруда, халықты тіркеуді жүргізуде, т.б. түрлі өрістері бар бланктер қолданылады. Қолжазбалалы мәтіндер осы оптикалық тану жүйелері арқылы танылып,  компьютер базасына енгізіледі.

Apple  фирмасымен 1990 жылы шығарылған алғаш қалта компьютерлерімен қатар, қолжазбаларды тану жүйелері құрыла бастады. Мұндай жүйелер қалта компьютерлері экранына арнайы қаламмен жазылған мәтінді мәтіндік компьютерлік құжатқа айналдырады.

Мәтінді тану программаларын сканерді сатып алу кезінде немесе бөлек сатып алуға болады.

Ең танымал программасы ABBYY компаниясымен ұсынылған  FineReader программасы.  FineReader – кез келген шрифтта терілген мәтінді тани алады. Прогрмма 176 тілдегі мәтінді дұрыс аудара алады. FineReader программасының барлық нұсқаларының интерфейстері қарапайым, қолдануға түсінікті. Тану процесін бастау үшін, құрал –саймандар тақтасынан,  Scan & Read батырмасына басу жеткілікті. Қалған амалдарды программа өзі автоматты түрде аяқтайды.  Қолданушыға тек сканерлеудің параметрлерін ғана таңдау қалады. FineReader  сканермен TWAIN-интерфейсі арқылы жұмыс істейді. Бұл бірегей халықаралық стандарт 1992 жылы компьютерге бейнені кірістіру үшін құрылғылармен байланыстыруды унификациялау мақсатында енгізілген.

Тану сапасы  көбінесе сканерлеу кезінде бейне қаншалықты жақсы алынғанына байланысты болады. Бейне сапасы сканерлеудің негізгі параметрлері арқылы орнатылады: бейне типі, кеңейтілімі және жарықтығы. Сүр түсті  сканерлеу тану жүйесі үшін оптималды режим болып табылады. Бұл режимде жарықтық автоматты түрге алынады. Егер сіз бейнедегі түрлі түсті элементтер электронды құжатқа сол күйінде берілсін десеңіз, онда сканерелеудің түсті типіне қою керек.  Оптималды кеңейтілімі ретінде жай мәтін үшін 300 dpi және ұсақ шрифтісі бар мәтін үшін -  400-600 dpi кеңейтілімдер алынады.

Тану процесі аяқталған соң, FineReader программасы қолданушыға келесі нұсқаларды ұсынады:арық қарай сканерлеу және тану(көпбетті құжат үшін),немесе алынған нәтижесі белгілі бір мәтіндік форматтарда сақтау үшін, мысалы Microsoft Office-тан  HTML-ге немесе PDF-ке. Немесе Word или Excel программасына өтіп, сол жерде өңдеу жұмыстарын жүргізу.

Құжаттарды сканерлеу құрылғысы

Құжаттарды сканерлеу құрылғысы  — шығуында құжаттың бір немесе бірнеше бетіндегі мәліметтерге сәйкес электрлік сигналдар пайда болатын құрылғы. Біршама кең тараған құрылғыда фотоэлемент немесе фотоэлементтер сызғылды жарықталған бетті әдістеме бойынша қарап шығады. Уақыттың әрбір сөтінде фотоэлемент кескін элементі деп аталатын беттің тым кіші бөлігінің жарықтығын тіркейді. Екілік формаға айналдыру үшін алынған сигналдарды, әдетте, өңдеу қолданылады. Одан кейін таңбаларды оптикалық танып білу, арнаның өткізу қабілеттілігін немесе сақтауыш құрылғының сыйымдылығын үнемді пайдалану мақсатымен қысу әдістері немесе кескіннің сапасын жақсартатын арнайы өңдеу әдісі қолданылуы мүмкін.


Барабанды сканерлер, жоғары класты планшеттік сканерлер немесе пленкалар/ диапозитивтер өңдейтін сканерлер;

Пленкалар / диапозитивтерді өңдейтін сканерлер;

Аралық класты планшеттік сканерлер;

Қарапайым модельдегі планшеттік сканерлер.


Сабақты бекіту сұрақтары

Құжаттарды танудың мақсаттары мен міндеттері?

Тану кезінде құжаттың қандай құрамы ескеріледі?

Құжатты танудың қандай жүйесін білесіңдер?

CuneiForm жұмысының процесі неден тұрады?

Сканерлеу процесі немен анықталады?

Сканерлер қалай жіктеледі?    


Оқушы әрекеті

Сұрақтарға жауап береді

Мәтінді танып алу технологиясы, мәтіндерді танып алу программасы Үй тапсырмасы

тақырыбын оқу. Өз бетінше ғаламтордан қосымша мәлімет іздеу


Үй тапсырмасын күнделіктеріне жазып алады. Сұрақтары болса сұрайды.





Автор
Дата добавления 06.11.2015
Раздел Информатика
Подраздел Конспекты
Просмотров1485
Номер материала ДВ-127684
Получить свидетельство о публикации

Похожие материалы

Включите уведомления прямо сейчас и мы сразу сообщим Вам о важных новостях. Не волнуйтесь, мы будем отправлять только самое главное.
Специальное предложение
Вверх