Методы оценки авторства
реферативных работ школьников на основе программных средств
В данной работе будут
рассмотрены программные средства, с помощью которых учитель сможет проверить
работы учеников на оригинальность. Проверка реферативных и иных работ школьников
на авторство, несомненно, является очень важным моментом, на который стоит
обращать внимание при проверке работ школьников, ведь изобилие различной
информации в Интернет-просторах делает уровень притязаний школьников ниже, в
следствие чего под удар ставится как интеллектуальное, так и творческое
развитие школьников.
Слайд 1.
На иллюстрации представлена классификация
методов компьютерного обнаружения плагиата с технической точки зрения.
Методы
характеризуются по типу оценки сходства.
Глобальная
оценка использует большие части текста или документа для нахождения сходства в
целом, в то время как локальные методы на входе проверяют ограниченный сегмент
текста.
В настоящее время наиболее
распространённым подходом является Дактилоскопия:
Из
ряда документов выбирается набор из нескольких подстрок, которые и являются
«отпечатками». Рассматриваемый документ будет сравниваться с «отпечатками» для
всех документов коллекции. Найденные соответствия с другими документами
указывают на общие сегменты текста.
Проверка документа дословным перекрытием текста представляет собой
классическое сравнение строк.
Проверка
подозрительных документов в этой ситуации требует расчёта и хранения эффективно
сопоставимые представления всех документов в справочной коллекции, которые сравниваются
попарно. Как правило, используют модели, такие как суффиксное дерево или суффиксный массив, которые были
адаптированы для выполнения этой задачи в контексте компьютерного обнаружения
плагиата. Однако сопоставление подстроки является нежизнеспособным решением для
проверки больших коллекций документов (алгоритм отрабатывает в среднем 2h
сравнений, где h — длина строки, в которой ведётся поиск).
Анализ "множества слов" (англ.)русск. является упрощением представления,
используемого в обработке естественного языка и поиска информации. В этой
модели текст представлен как неупорядоченный набор слов. Документы представлены
в виде одного или нескольких векторов, которые используются для попарного вычисления
сходства.
Цитирование — компьютерный метод выявления
плагиата, предназначенный для использования в научных документах, позволяющий
использовать цитаты и справочный материал. Определяет общие цитаты двух научных
работ.
Шаблон
цитат представляет собой подпоследовательности,
содержащие не только общие цитаты для двух документов, но и подобный порядок и
близость цитат в тексте, являющихся основными критериями для определения
шаблона цитат.
Стилометрия или изучение языковых стилей — это
статистический метод для выявления авторства анонимных документов и для
компьютерной проверки на плагиат.
Строятся
стилометрические модели для различных фрагментов текста, отрывков, которые стилистически отличаются от других.
И путём сравнения моделей можно обнаружить плагиат.
Например, анализ на основе
последовательностей частей речи. Рассматривается
способ разбиения текста на фрагменты однородности. В качестве параметров
разбиения берутся различные последовательности частей речи. Далее проводится
анализ фрагментов. И в результате для текста находятся последовательности,
которые выделяли из текстов фрагменты, то есть алгоритм выделяет из текста
фрагменты неоднородности, имеющие разные частоты встречаемости выбранной
последовательности частей речи, что показывает на возможный плагиат в данном
месте
Слайд
2.
Слайд 3.
Предупреждение:
Advego Plagiatus находится
в стадии публичного бета-тестирования. Программа поставляется как есть.
Разработчики программы не несут ответственности за любые последствия установки
программы на ПЭВМ пользователя
Отзыв:
.. исходя уже из своего личного опыта могу сказать, что этой
программки недостаточно. Однажды были претензии по поводу моей статьи (якобы
низкая уникальность по другому антиплагиатусу). Тогда им деньги за статью не
вернули, объяснив, что для рерайта 90% уникальность - это достаточно. Теперь я
всегда свои статьи проверяю кроме Advego Plagiatus еще и другой программкой
(Etxt-антиплагиат). И практически всегда уникальность намного ниже, чем после
проверки программой Advego Plagiatus. Такая статья корректируется и только
после этого выставляется мной на продажу.
Теперь при написании статей как для продажи, так и для своего
сайта, я всегда пользуюсь программой Advego Plagiatus и контролирую еще и
программой для проверки текста на уникальность Etxt-антиплагиат. Иногда бывает,
что у Адвего уникальность ниже, чем после второго. Поэтому, советую тем, кто
выставляет свои статьи на продажу на сервисе Адвего пользоваться программой Advego
Plagiatusи ваши статьи будут без проблем проходить модерацию.
…Почему-то тексты величиной менее 1500 знаков программа проверяет
не так, как более длинные. Решила устроить ему проверку "на
вшивость". Вот результат.
Слайд 4.
API - набор готовых классов, процедур, функций,
структур и констант, предоставляемых приложением (библиотекой, сервисом) или
операционной системой для использования во внешних программных продуктах.
Используется программистами при написании всевозможных приложений.
Слайд 5.
Плагиата.НЕТ -
бесплатная программа для поиска в Интернете частичных или полных копий
текстовых документов. Программа показывает степень уникальности текста в
процентах и источники текста. Возможности программы включают проверку множества
url'ов и редактирование с одновременной проверкой на плагиат, а также замену
слов на синонимы. Встроенные инструменты позволяют получать все url'ы с
заданного сайта и таким образом проверять на плагиат сайты целиком.
Дополнительная функция "База пользователя" позволяет сверять
несколько документов или включить в сравнение источники, не опубликованные в
Интернете.
Основные особенности
и функции:
HOT! Поиск плагиата
на основе базы документов пользователя (возможность сверки с имеющимися
документами)
HOT! Выделение
найденного неоригинального текста в исходном тексте различным цветом (по
источникам)
HOT! Поддержка
форматов RTF, DOC, DOCX - возможность работы с документами Microsoft Word,
Microsoft WordPad и других редакторов**
HOT! Возможность
проверить на плагиат заданный сайт целиком
HOT! Возможность
замены слов на синонимы с учетом формы (падежа, рода, лица, числа и т.д.)
HOT! Многопоточность
вычислений и полноценное использование многоядерных процессоров для ускорения
работы
Поиск плагиата в
заданном тесте
Поиск плагиата на
странице сайта
Определение плагиата
на основе данных двух поисковых систем (Яндекс и Google)
Гибкая настройках
параметров поиска: раздельная настройка количества слов во фразе для
сопоставления при поиске (поисковой шингл) и при сравнении загруженных текстов
(локальный шингл)
Поиск плагиата на
нескольких страницах сайта за раз
Выделение найденного
неоригинального текста в источнике
Определение источника
статьи
Не требует установки
(также есть версия с инсталлятором)
Возможность печати
результата проверки
NEW! Видео уроки
работы с программой + полная документация
Тест
алгоритма определения плагиата 1 - определение 100% плагиата из нескольких
абзацев одного источника
Проверен как раз текст цитаты из Википедии, взятый из
нескольких мест текста, т.е. 100% плагиат по формальному признаку.
Вот результаты, считаем лучше, если ближе к 100%:
1. Advego
Plagiatus - быстро
проверила и объявила, что это 100% плагиат.) Жалко что в стандартных
настройках для ускорения программа показывает не все источники, поэтому
источником оказалась - Абсурдопедия
(http://absurdopedia.wikia.com/wiki/Плагиат). При изменении настроек
показывает и Википедию, но не в качестве самого первого сайта. Отличная
программа - твердая пятерка.
2. Etxt Антиплагиат - быстро проверила и объявила, что это
90% плагиат и показала основные источники. Программа не смогла определить слово
"Плагиат", т.к. в нем стоит ударение.
3. Double
Content Finder - не требует установки и это очень удобно. Бесплатно.
При проверке текста все просто и понятно. Но также как и сервис istio не
показал процент и дополнительную информацию. Поэтому может быть необъективен.
Зато источник определил правильно, да, это Википедия. Все таки вместо этой
программы лучше выбрать Advego Plagiatus (кому нужно - тот установит и
разберется с интерфейсом).
4. Модуль
Плагиат программы AllSubmitter -
т.к. поиск плагиата - это дополнительная функция программы, то и не стоит ждать
многого. Результат проверки - 13 фраз. Вроде бы это около 100% плагиата, но
такой результат не очень информативен. В качестве первого источника приведена
Википедия.
5. Плагиата
НЕТ - поскольку мы сами разрабатываем данную программу, мы
обеспечили прохождение данного теста. Результат - 100% плагиат и сайт Википедии
как один из главных источников плагиата. Вас порадует возможность перейти по
ссылке на сайт Википедии и посмотреть выделенные предложения, где этот плагиат
обнаружен.
В основном, все сервисы и программы работают по
вышеописанной схеме: разбиение статьи на фразы, поиск в поисковиках Гугл и
Яндекс фраз из статьи, после чего показывается доля неоригинальных фраз,
другими словами процент плагиата.
Действие рождает противодействие. И конечно существует
лекарство от таких умных программ как Advego Plagiatus и сервис antiplagiat.ru.
Методы обхода определения плагиата по формальному признаку - это специальные
действия по изменению текста, позволяющие значительно снизить долю
плагиата, определяемую специализированным программным обеспечением.
Перечислим эти методы:
·
замена слов на
синонимы;
·
замена букв на
сходные по написанию в другой раскладке;
·
изменение
построения предложения на близкое по смыслу (Человек шел по тротуару - Пешеход
двигался вдоль дороги);
·
смесь многих
источников (источники определятся, но это не будет вполне плагиатом);
·
написание
оригинального текста со знанием темы или написание текста по памяти как в
школьном изложении (текст будет оригинален не только с формальной точки
зрения);
·
другие.
В общем-то программы должны быть устойчивы хотя бы к
отдельным методам борьбы с проверкой на плагиат. Хотя конечно, если ни одного
слова не осталось от оригинального текста, то это сложно назвать плагиатом.
Практика показывает, что нормальный текст должен содержать значительную долю
устойчивых выражений, поэтому общая доля найденных фраз должна быть 20-30%.
Поэтому 10% фраз распознанных как плагиат может говорить о специальной
обработке текста или о слабой грамотности.
Тест
обхода алгоритма 1 - замена русской е на английскую e
По нашему мнению программа должна не столько показать
сколько плагиата, сколько уведомить о попытке обхода алгоритма, т.к. это явный
признак нарушения и особо проверять дальше нечего, пока не устранится причина
нарушения. Кроме того желательно показать долю нарушения, чтобы провести
различие между единичной ошибкой и попыткой обойти алгоритм. Для теста взят все
тот же текст.
1. Advego
Plagiatus - 5%,
программа не имеет защиты от обхода алгоритма.
2. Etxt Антиплагиат - 42%. Программа имеет защиту от
обхода алгоритма, хотя предупреждение не показано. Да и как-то работает эта
защита не очень.
3. Double
Content Finder -
программа показала предупреждение, доля плагиата не показано. На наш взгляд это
хороший вариант.
4. Модуль
Плагиат программы AllSubmitter -
программа обнаружила подмену, плагиата меньше не стало. Но предупреждения о
нарушении не было.
5. Плагиата
НЕТ. - программа определила наличие слов составленных из разных букв
разных алфавитов и предложила устранить такую замену (или не устранять). На наш взгляд, это наиболее гибкий
подход.
Тест
обхода алгоритма 2 - замена слов на синонимы
Мы
применили средство Синонимы программы Microsoft Word 2007 (похожий инструмент
включен и в программу Плагиата.НЕТ) и очень быстро составили текст.
После этого снова проверили на плагиат уже этот новый
текст.
1. Advego
Plagiatus - 44%,
результат средний.
2. Etxt Антиплагиат - 56%, результат средний.
3. Double
Content Finder -
данные невозможно сравнить, т.к. нет процентов плагиата.
4. Модуль
Плагиат программы AllSubmitter -
доля плагиата резко упала с 13 фраз до 5. Алгоритм явно не совершенен.
5. Плагиата
НЕТ - 81%, результат
неплохой.
Оставьте свой комментарий
Авторизуйтесь, чтобы задавать вопросы.