Инфоурок Другое ПрезентацииЯзыконезависимое определение авторства текста на базе языковых моделей символьного уровня

Языконезависимое определение авторства текста на базе языковых моделей символьного уровня

Скачать материал
Скачать материал "Языконезависимое определение авторства текста на базе языковых моделей символьного уровня"

Получите профессию

HR-менеджер

за 6 месяцев

Пройти курс

Рабочие листы
к вашим урокам

Скачать

Методические разработки к Вашему уроку:

Получите новую специальность за 2 месяца

Специалист по автотранспорту

Описание презентации по отдельным слайдам:

  • Языконезависимое определение авторства текста на базе языковых моделей символ...

    1 слайд

    Языконезависимое определение авторства текста на базе языковых моделей символьного уровня

  • Проблема определения авторства текстаНевыясненное авторство исторических доку...

    2 слайд

    Проблема определения авторства текста
    Невыясненное авторство исторических документов
    Категоризация коллекций документов
    Извлечение информации
    Вопросно-ответные системы

  • Принцип определения авторстваАвтор при составлении текста использует языковые...

    3 слайд

    Принцип определения авторства
    Автор при составлении текста использует языковые средства различных уровней:
    Семантические
    Синтаксические
    Лексикографические
    Орфографические
    Морфологические
    Особенности использованных в тексте языковых средств позволяют судить об авторстве текста.

  • Возможные подходы к решению проблемы определения авторстваСтилистический анал...

    4 слайд

    Возможные подходы к решению проблемы определения авторства
    Стилистический анализ
    Статистическое языковое моделирование

  • Стилистический анализПроводится в два этапа:
Извлечение стилевых маркеров
Пос...

    5 слайд

    Стилистический анализ
    Проводится в два этапа:
    Извлечение стилевых маркеров
    Построение классификатора

  • Недостатки методаПроцедуры извлечения стилевых маркеров почти всегда зависят...

    6 слайд

    Недостатки метода
    Процедуры извлечения стилевых маркеров почти всегда зависят от языка текста
    Выбор исследуемых свойств является нетривиальной задачей
    Анализ проводится только на уровне слов
    Неприменимость к восточноазиатским языкам, в которых отсутствует явное разделение слов

  • Статистическое языковое моделированиеЗаключается в выявлении закономерностей...

    7 слайд

    Статистическое языковое моделирование
    Заключается в выявлении закономерностей в естественном языке (семантических, лексикографических и морфологических шаблонов), на основе которых можно делать прогнозы
    Задача - предсказание вероятности появления в тексте последовательностей слов, которые действительно имеют место в тексте

  • Оценка качества модели
Perplexity = 


Entropy =

    8 слайд

    Оценка качества модели

    Perplexity =


    Entropy =

  • N-граммная модельВероятность появления цепочки слов:

N-граммная модель аппро...

    9 слайд

    N-граммная модель
    Вероятность появления цепочки слов:

    N-граммная модель аппроксимирует эту вероятность в предположении, что на вероятность появления слова влияют только последние n-1 слов:


  • N-граммная модельВ самом простом случае


Использование грамм длины n означае...

    10 слайд

    N-граммная модель
    В самом простом случае


    Использование грамм длины n означает вычисление вероятностей событий
    Вероятность появления новых n-грамм всегда ненулевая.

  • Сглаживание вероятностных оценок

    11 слайд

    Сглаживание вероятностных оценок




  • Принципы классификацииИспользуется Баесова теория принятия
решения: текст D о...

    12 слайд

    Принципы классификации
    Используется Баесова теория принятия
    решения: текст D относится к авторской
    категории если

    В соответствии с правилом Байеса:


  • Результаты классификацииГреческий корпус: две коллекции по 200 документов 10...

    13 слайд

    Результаты классификации
    Греческий корпус: две коллекции по 200 документов 10 различных авторов, F-мера 74% и 90%
    Английский корпус: Alex Catalogue of Electronic Texts, 8 авторов, наилучшая F-мера 98% при использовании 6-граммной модели с абсолютным сглаживанием
    8 авторов, F-мера 94% при использовании 3-граммной модели при использовании алгоритма сглаживания Виттена-Белла

Получите профессию

HR-менеджер

за 6 месяцев

Пройти курс

Рабочие листы
к вашим урокам

Скачать

Скачать материал

Найдите материал к любому уроку, указав свой предмет (категорию), класс, учебник и тему:

6 665 910 материалов в базе

Скачать материал

Другие материалы

Вам будут интересны эти курсы:

Оставьте свой комментарий

Авторизуйтесь, чтобы задавать вопросы.

  • Скачать материал
    • 11.08.2020 148
    • PPTX 199 кбайт
    • Оцените материал:
  • Настоящий материал опубликован пользователем Доржиева Людмила Юрьевна. Инфоурок является информационным посредником и предоставляет пользователям возможность размещать на сайте методические материалы. Всю ответственность за опубликованные материалы, содержащиеся в них сведения, а также за соблюдение авторских прав несут пользователи, загрузившие материал на сайт

    Если Вы считаете, что материал нарушает авторские права либо по каким-то другим причинам должен быть удален с сайта, Вы можете оставить жалобу на материал.

    Удалить материал
  • Автор материала

    Доржиева Людмила Юрьевна
    Доржиева Людмила Юрьевна
    • На сайте: 3 года и 4 месяца
    • Подписчики: 0
    • Всего просмотров: 96120
    • Всего материалов: 235

Ваша скидка на курсы

40%
Скидка для нового слушателя. Войдите на сайт, чтобы применить скидку к любому курсу
Курсы со скидкой

Курс профессиональной переподготовки

Интернет-маркетолог

Интернет-маркетолог

500/1000 ч.

Подать заявку О курсе

Курс профессиональной переподготовки

Руководство электронной службой архивов, библиотек и информационно-библиотечных центров

Начальник отдела (заведующий отделом) архива

600 ч.

9840 руб. 5600 руб.
Подать заявку О курсе
  • Этот курс уже прошли 25 человек

Курс повышения квалификации

Специалист в области охраны труда

72/180 ч.

от 1750 руб. от 1050 руб.
Подать заявку О курсе
  • Сейчас обучается 34 человека из 21 региона
  • Этот курс уже прошли 155 человек

Курс профессиональной переподготовки

Организация деятельности библиотекаря в профессиональном образовании

Библиотекарь

300/600 ч.

от 7900 руб. от 3650 руб.
Подать заявку О курсе
  • Сейчас обучается 283 человека из 66 регионов
  • Этот курс уже прошли 850 человек

Мини-курс

Мастерство PowerPoint: систематизация, интерактивность и эффективность

10 ч.

1180 руб. 590 руб.
Подать заявку О курсе
  • Сейчас обучается 1713 человек из 84 регионов
  • Этот курс уже прошли 166 человек

Мини-курс

Стимулирование интереса к обучению у детей дошкольного возраста

6 ч.

780 руб. 390 руб.
Подать заявку О курсе
  • Этот курс уже прошли 11 человек

Мини-курс

Особенности психологической коррекции детей с различными нарушениями психического развития

3 ч.

780 руб. 390 руб.
Подать заявку О курсе
  • Сейчас обучается 385 человек из 69 регионов
  • Этот курс уже прошли 291 человек