Инфоурок Другое СтатьиСтатья на тему: "Нейросетевая модель для исправления грамматических, орфографических и пунктуационных ошибок"

Статья на тему: "Нейросетевая модель для исправления грамматических, орфографических и пунктуационных ошибок"

Скачать материал

Нейросетевая модель для исправления грамматических, орфографических и пунктуационных ошибок

В современном мире стремительно развивается область обработки естественного языка. Оно изучает проблемы компьютерного анализа и синтеза текстов на естественных языках. Применительно к нейронной сети в области обработки естественного языка слово «анализ» означает понимание языка, а синтез – генерацию грамматически и орфографически правильного текста. Одним из примеров задач обработки естественного языка является автоматическое исправление ошибок в тексте [1]. Данная задача является одной из самых сложных задач в данной области, в настоящее время отсутствует универсальное решение [1]. Нейронная лингвистическая модель может быть разработана и использоваться автономно, например, для генерации новых последовательностей текста или быть основой многих других моделей [2].

Для реализации приложения по исправлению грамматических, орфографических и пунктуационных ошибок в тексте была выбрана нейронная сеть BERT, фреймворк для глубокого обучения Tensorflow в связке с библиотекой Keras, который предполагает использование языка программирования Python [3]. В целях выбора лингвистической модели для реализации приложения были рассмотрены предобученные лингвистические модели.

Весь процесс работы приложения поделён на три основных этапа каждый из которых может быть выполнено либо по отдельности, либо в совокупности один с другим:

  • нормализация входного текста;
  • исправление грамматических и орфографических ошибок;
  • исправление пунктуационных ошибок.

Исправление грамматических и орфографических ошибок поделено на 2 этапа:

  • генерация всех возможных исправлений для слова;
  • оценка сгенерированных слов в модели относительно контекста.

Для оценки качества реализованного приложения было подготовлено 2 датасета из новостных лент «Яндекс.Новости» и «РИА новости». Из данных новостных лент были взяты случайные статьи и были поделены на 1-4 предложения. В данных предложениях были заменены некоторые буквы в случайных словах, тем самым генерируя ошибочные предложения. Всего подготовлено по 350 текстов с ошибками на каждый датасет. Каждый текст передавался в приложение в качестве входного параметра и полученный результат сравнивался с оригинальным предложением.

Для оценки точности исправления использовалась следующая формула:

https://sibac.info/files/2021_06_24_Studencheskii/Tarabukin.files/image001.png                                                                        (1)

A – точность исправлений;

TP – правильно исправленные предложения;

FP – неправильно исправленные предложения.

В результате проведённой оценки точности для первого датасета было исправлено 294 предложения, для второго датасета было исправлено 271 предложения. Используя формулу 1, можно посчитать точность исправлений для каждого датасета, что составляет 84% и 77,4% соответственно. В среднем точность исправлений из двух датасетов составляет 80,4%.

Вывод. Обработка естественного языка является одной из актуальных задач, решаемых искусственными нейронными сетями. В этой области заинтересованы крупнейшие компании в IT, например, Google, IBM, Facebook. В статье описана работы модели нейронной сети для исправления грамматических, орфографических и пунктуационных ошибок. В качестве результата работы нейронной сети представлена точность исправлений для двух выбранных статей из новостных лент «Яндекс.Новости» и «РИА Новости».

 

Список литературы:

1.     Recent Trends in Deep Learning Based Natural Language Processing [Электронный ресурс] — Режим доступа. — URL: https://arxiv.org/pdf/1708.02709.pdf (дата обращения: 15.02.2021)

2.     Саймон Хайкин: Нейронные сети: полный курс, 2-е изд.: Пер. с англ. — М.: ООО «И.Д. Вильямс», 2016. — 1104 с. : ил. — Парал. тит. англ.

3.     Официальный сайт Keras [Электронный ресурс] — Режим доступа. — URL: https://keras.io (дата обращения 15.02.2021)

Просмотрено: 0%
Просмотрено: 0%
Скачать материал
Скачать материал
Скачать материал

Найдите материал к любому уроку, указав свой предмет (категорию), класс, учебник и тему:

5 938 555 материалов в базе

Скачать материал

Другие материалы

Вам будут интересны эти курсы:

Оставьте свой комментарий

Авторизуйтесь, чтобы задавать вопросы.

  • Скачать материал
    • 02.03.2022 80
    • DOCX 16.4 кбайт
    • Оцените материал:
  • Настоящий материал опубликован пользователем Николаева Евгения Николаевна. Инфоурок является информационным посредником и предоставляет пользователям возможность размещать на сайте методические материалы. Всю ответственность за опубликованные материалы, содержащиеся в них сведения, а также за соблюдение авторских прав несут пользователи, загрузившие материал на сайт

    Если Вы считаете, что материал нарушает авторские права либо по каким-то другим причинам должен быть удален с сайта, Вы можете оставить жалобу на материал.

    Удалить материал
  • Автор материала

    Николаева Евгения Николаевна
    Николаева Евгения Николаевна
    • На сайте: 5 лет и 5 месяцев
    • Подписчики: 0
    • Всего просмотров: 293832
    • Всего материалов: 2133

Ваша скидка на курсы

40%
Скидка для нового слушателя. Войдите на сайт, чтобы применить скидку к любому курсу
Курсы со скидкой