Рабочие листы
к вашим урокам
Скачать
1 слайд
Языконезависимое определение авторства текста на базе языковых моделей символьного уровня
2 слайд
Проблема определения авторства текста
Невыясненное авторство исторических документов
Категоризация коллекций документов
Извлечение информации
Вопросно-ответные системы
3 слайд
Принцип определения авторства
Автор при составлении текста использует языковые средства различных уровней:
Семантические
Синтаксические
Лексикографические
Орфографические
Морфологические
Особенности использованных в тексте языковых средств позволяют судить об авторстве текста.
4 слайд
Возможные подходы к решению проблемы определения авторства
Стилистический анализ
Статистическое языковое моделирование
5 слайд
Стилистический анализ
Проводится в два этапа:
Извлечение стилевых маркеров
Построение классификатора
6 слайд
Недостатки метода
Процедуры извлечения стилевых маркеров почти всегда зависят от языка текста
Выбор исследуемых свойств является нетривиальной задачей
Анализ проводится только на уровне слов
Неприменимость к восточноазиатским языкам, в которых отсутствует явное разделение слов
7 слайд
Статистическое языковое моделирование
Заключается в выявлении закономерностей в естественном языке (семантических, лексикографических и морфологических шаблонов), на основе которых можно делать прогнозы
Задача - предсказание вероятности появления в тексте последовательностей слов, которые действительно имеют место в тексте
8 слайд
Оценка качества модели
Perplexity =
Entropy =
9 слайд
N-граммная модель
Вероятность появления цепочки слов:
N-граммная модель аппроксимирует эту вероятность в предположении, что на вероятность появления слова влияют только последние n-1 слов:
10 слайд
N-граммная модель
В самом простом случае
Использование грамм длины n означает вычисление вероятностей событий
Вероятность появления новых n-грамм всегда ненулевая.
11 слайд
Сглаживание вероятностных оценок
12 слайд
Принципы классификации
Используется Баесова теория принятия
решения: текст D относится к авторской
категории если
В соответствии с правилом Байеса:
13 слайд
Результаты классификации
Греческий корпус: две коллекции по 200 документов 10 различных авторов, F-мера 74% и 90%
Английский корпус: Alex Catalogue of Electronic Texts, 8 авторов, наилучшая F-мера 98% при использовании 6-граммной модели с абсолютным сглаживанием
8 авторов, F-мера 94% при использовании 3-граммной модели при использовании алгоритма сглаживания Виттена-Белла
Рабочие листы
к вашим урокам
Скачать
6 665 910 материалов в базе
Настоящий материал опубликован пользователем Доржиева Людмила Юрьевна. Инфоурок является информационным посредником и предоставляет пользователям возможность размещать на сайте методические материалы. Всю ответственность за опубликованные материалы, содержащиеся в них сведения, а также за соблюдение авторских прав несут пользователи, загрузившие материал на сайт
Если Вы считаете, что материал нарушает авторские права либо по каким-то другим причинам должен быть удален с сайта, Вы можете оставить жалобу на материал.
Удалить материалВаша скидка на курсы
40%Курс профессиональной переподготовки
600 ч.
Курс повышения квалификации
72/180 ч.
Курс профессиональной переподготовки
300/600 ч.
Мини-курс
10 ч.
Мини-курс
6 ч.
Мини-курс
3 ч.
Оставьте свой комментарий
Авторизуйтесь, чтобы задавать вопросы.