Инфоурок Другое СтатьиСтатья на тему: "Нейросетевая модель для исправления грамматических, орфографических и пунктуационных ошибок"

Статья на тему: "Нейросетевая модель для исправления грамматических, орфографических и пунктуационных ошибок"

Скачать материал

Нейросетевая модель для исправления грамматических, орфографических и пунктуационных ошибок

В современном мире стремительно развивается область обработки естественного языка. Оно изучает проблемы компьютерного анализа и синтеза текстов на естественных языках. Применительно к нейронной сети в области обработки естественного языка слово «анализ» означает понимание языка, а синтез – генерацию грамматически и орфографически правильного текста. Одним из примеров задач обработки естественного языка является автоматическое исправление ошибок в тексте [1]. Данная задача является одной из самых сложных задач в данной области, в настоящее время отсутствует универсальное решение [1]. Нейронная лингвистическая модель может быть разработана и использоваться автономно, например, для генерации новых последовательностей текста или быть основой многих других моделей [2].

Для реализации приложения по исправлению грамматических, орфографических и пунктуационных ошибок в тексте была выбрана нейронная сеть BERT, фреймворк для глубокого обучения Tensorflow в связке с библиотекой Keras, который предполагает использование языка программирования Python [3]. В целях выбора лингвистической модели для реализации приложения были рассмотрены предобученные лингвистические модели.

Весь процесс работы приложения поделён на три основных этапа каждый из которых может быть выполнено либо по отдельности, либо в совокупности один с другим:

  • нормализация входного текста;
  • исправление грамматических и орфографических ошибок;
  • исправление пунктуационных ошибок.

Исправление грамматических и орфографических ошибок поделено на 2 этапа:

  • генерация всех возможных исправлений для слова;
  • оценка сгенерированных слов в модели относительно контекста.

Для оценки качества реализованного приложения было подготовлено 2 датасета из новостных лент «Яндекс.Новости» и «РИА новости». Из данных новостных лент были взяты случайные статьи и были поделены на 1-4 предложения. В данных предложениях были заменены некоторые буквы в случайных словах, тем самым генерируя ошибочные предложения. Всего подготовлено по 350 текстов с ошибками на каждый датасет. Каждый текст передавался в приложение в качестве входного параметра и полученный результат сравнивался с оригинальным предложением.

Для оценки точности исправления использовалась следующая формула:

https://sibac.info/files/2021_06_24_Studencheskii/Tarabukin.files/image001.png                                                                        (1)

A – точность исправлений;

TP – правильно исправленные предложения;

FP – неправильно исправленные предложения.

В результате проведённой оценки точности для первого датасета было исправлено 294 предложения, для второго датасета было исправлено 271 предложения. Используя формулу 1, можно посчитать точность исправлений для каждого датасета, что составляет 84% и 77,4% соответственно. В среднем точность исправлений из двух датасетов составляет 80,4%.

Вывод. Обработка естественного языка является одной из актуальных задач, решаемых искусственными нейронными сетями. В этой области заинтересованы крупнейшие компании в IT, например, Google, IBM, Facebook. В статье описана работы модели нейронной сети для исправления грамматических, орфографических и пунктуационных ошибок. В качестве результата работы нейронной сети представлена точность исправлений для двух выбранных статей из новостных лент «Яндекс.Новости» и «РИА Новости».

 

Список литературы:

1.     Recent Trends in Deep Learning Based Natural Language Processing [Электронный ресурс] — Режим доступа. — URL: https://arxiv.org/pdf/1708.02709.pdf (дата обращения: 15.02.2021)

2.     Саймон Хайкин: Нейронные сети: полный курс, 2-е изд.: Пер. с англ. — М.: ООО «И.Д. Вильямс», 2016. — 1104 с. : ил. — Парал. тит. англ.

3.     Официальный сайт Keras [Электронный ресурс] — Режим доступа. — URL: https://keras.io (дата обращения 15.02.2021)

Просмотрено: 0%
Просмотрено: 0%
Скачать материал
Скачать материал "Статья на тему: "Нейросетевая модель для исправления грамматических, орфографических и пунктуационных ошибок""

Методические разработки к Вашему уроку:

Получите новую специальность за 3 месяца

Логопед

Получите профессию

Интернет-маркетолог

за 6 месяцев

Пройти курс

Рабочие листы
к вашим урокам

Скачать

Скачать материал

Найдите материал к любому уроку, указав свой предмет (категорию), класс, учебник и тему:

6 662 865 материалов в базе

Скачать материал

Другие материалы

Вам будут интересны эти курсы:

Оставьте свой комментарий

Авторизуйтесь, чтобы задавать вопросы.

  • Скачать материал
    • 02.03.2022 428
    • DOCX 16.4 кбайт
    • Оцените материал:
  • Настоящий материал опубликован пользователем Николаева Евгения Николаевна. Инфоурок является информационным посредником и предоставляет пользователям возможность размещать на сайте методические материалы. Всю ответственность за опубликованные материалы, содержащиеся в них сведения, а также за соблюдение авторских прав несут пользователи, загрузившие материал на сайт

    Если Вы считаете, что материал нарушает авторские права либо по каким-то другим причинам должен быть удален с сайта, Вы можете оставить жалобу на материал.

    Удалить материал
  • Автор материала

    Николаева Евгения Николаевна
    Николаева Евгения Николаевна
    • На сайте: 6 лет и 11 месяцев
    • Подписчики: 0
    • Всего просмотров: 727699
    • Всего материалов: 2120

Ваша скидка на курсы

40%
Скидка для нового слушателя. Войдите на сайт, чтобы применить скидку к любому курсу
Курсы со скидкой

Курс профессиональной переподготовки

HR-менеджер

Специалист по управлению персоналом (HR- менеджер)

500/1000 ч.

Подать заявку О курсе

Курс профессиональной переподготовки

Руководство электронной службой архивов, библиотек и информационно-библиотечных центров

Начальник отдела (заведующий отделом) архива

600 ч.

9840 руб. 5600 руб.
Подать заявку О курсе
  • Этот курс уже прошли 25 человек

Курс профессиональной переподготовки

Организация деятельности библиотекаря в профессиональном образовании

Библиотекарь

300/600 ч.

от 7900 руб. от 3650 руб.
Подать заявку О курсе
  • Сейчас обучается 282 человека из 66 регионов
  • Этот курс уже прошли 849 человек

Курс профессиональной переподготовки

Библиотечно-библиографические и информационные знания в педагогическом процессе

Педагог-библиотекарь

300/600 ч.

от 7900 руб. от 3650 руб.
Подать заявку О курсе
  • Сейчас обучается 483 человека из 70 регионов
  • Этот курс уже прошли 2 326 человек

Мини-курс

Психоаналитический подход: изучение определенных аспектов психологии личности

4 ч.

780 руб. 390 руб.
Подать заявку О курсе

Мини-курс

Figma: продвинутый дизайн

4 ч.

780 руб. 390 руб.
Подать заявку О курсе
  • Сейчас обучается 61 человек из 24 регионов

Мини-курс

Архитектурное творчество для подростков (обучение детей от 12 лет и старше)

6 ч.

780 руб. 390 руб.
Подать заявку О курсе