3.
Психометрические основы психолого-педагогической диагностики
Цель —
ознакомление с основными психометрическими требованиями к измерительным
диагностическим методикам.
Задачи:
— рассмотреть
основные типы измерительных шкал;
— определить необходимость
стандартизации и ознакомить с видами норм принятыми в диагностике;
— рассмотреть и
описать процедуру разработки и применения основных психометрических требований.
3.1. Типы
шкал измерения
Психометрия
—
базовая дисциплина, являющаяся фундаментом общей психодиагностики, связанная с
теорией и практикой измерения психических явлений. Понятие «психометрии» было
введено в 1734 г. Христианом Вольфом, который впервые указал на возможность
измерения в психологии.
Знание психометрии
дает диагносту необходимый материал для понимания ограниченности методик, тех
допущений, которые были сделаны авторами для целей исследования.
Психометрия
—
наука, обосновывающая и разрабатывающая измерительные диагностические методы.
Она научно обосновывает те требования, которым должны удовлетворять
измерительные психодиагностические методы, и описывает определенные процедуры
их разработки и применения.
Психометрические
требования касаются качества того инструмента (теста), посредством которого
собираются данные. Психологический тест может быть охарактеризован как
эффективный при условии, что он удовлетворяет следующим требованиям:
использование шкалы интервалов; наличие нормативных данных (либо критериев,
установленных экспертами); надежность; валидность; достоверность;
репрезентативность; дискриминативность.
Шкала — это
форма фиксации совокупности признаков изучаемого объекта с упорядочиванием их
в определенную числовую систему.
Значения признака
или переменной определяются (измеряются) при помощи специальных шкал измерения:
1) номинативная
(наименований);
2) порядковая;
3) интервальная;
4) равных
отношений.
Рассмотрим
особенности каждой из вышеперечисленных шкал.
Номинативная
(наименований) шкала. Это шкала, классифицирующая по названию.
Название не измеряется количественно, оно лишь позволяет отличить один объект
от другого. Это простейшая классификация испытуемых, например:
мужчина-женщина; имеет братьев и сестер — единственный ребенок в семье и т.п.
Данная шкала
позволяет подсчитывать частоты встречаемости разных «наименований», или
значений признака, и затем работать с этими частотами с помощью математических
методов.
Порядковая
(ранговая) шкала. Это шкала классифицирует по принципу «больше —
меньше». Субъекты ранжированы, например, по весу или росту. В порядковой шкале
должно быть не менее трех классов, например «положительная реакция — нейтральная
реакция — отрицательная реакция» или «подходит для занятия вакантной должности
— подходит с оговорками — не подходит».
В данной шкале не
известно истинное расстояния между классами, а известно лишь то, что они
образуют последовательность.
От классов
переходят к числам (низший класс получает ранг 1, средний класс 2, а высший —
ранг 3, или наоборот).
Интервальная
шкала. Это
шкала, классифицирующая по принципу «больше на определенное количество единиц
— меньше на определенное количество единиц». Шкала представляет собой полностью
упорядоченный ряд с измеренными интервалами между пунктами, причем отсчет
начинается с произвольно выбранной величины. Каждое из возможных значений
признака отстоит от другого на равном расстоянии.
Шкала
равных отношений. Это шкала, классифицирующая объекты или субъекты
пропорционально степени выраженности измеряемого свойства. В отличие от
интервальной шкалы она имеет значимую нулевую точку, которая не произвольна, а
указывает на полное отсутствие измеряемого свойства.
Наличие нулевой
точки — проблема для большинства психологических переменных, так как
возможности человеческой психики столь велики, что трудно представить абсолютный
нуль в какой-либо измеряемой психологической переменной.
3.2.
Понятие норм и стандарта в диагностике
Диагностическая
методика отличается от исследовательской тем, что она стандартизирована и
включает точные указания относительно используемого стимульного материала,
временных ограничений, устных инструкций испытуемому, пробных образцов заданий,
допустимых ответов на вопросы обследуемого и других тонкостей проведения
теста. На выполнение некоторых тестов может влиять множество других, не столь
очевидных факторов. Например, зачитывая вслух инструкцию или задание, нужно
принимать во внимание тон голоса, скорость речи, интонацию, паузы и выражение
лица.
Стандартизация
—
это единообразие процедуры проведения и оценки выполнения теста, которую
рассматривают в двух планах:
1. Стандартизация
процедуры, что подразумевает унификацию инструкций, бланков обследования,
способов регистрации результатов и условий проведения обследования.
2. Выбор критерия,
по которому следует проводить сравнение результатов диагностических испытаний.
Такой точкой отсчета являются нормы.
Нормы — это
множество показателей из четко определенных выборок. Психологические тесты не
имеют заранее определенных стандартов их успешного или неуспешного выполнения;
критерии выполнения каждого теста устанавливаются опытным путем. В большинстве
случаев тестовый показатель индивидуума выявляется на основе сравнения с
оценками, полученными по данному тесту другими людьми. Для обоснования вывода
о норме необходимо: 1) сравнить результаты с выборкой стандартизации, т.е.
выборкой испытуемых численностью не меньше 200 человек и совпадающих по полу,
возрасту, образованию, социальному положению и т.п.; 2) полученный результат
перевести в некую относительную меру. Всякая норма обычно со временем
изменяется вместе с естественными изменениями, которые с годами происходят в
психологии людей, поэтому есть правило, согласно которому нормы теста, особенно
интеллектуального, должны пересматриваться, как минимум один раз в пять лет.
Принято различать
два вида норм: статистические и социокультурные (социально-психологический
норматив).
Первый вид
применяется для оценки стилевых и мотивационных черт, второй — для оценки
способностей и достижений.
Статистическая
норма —
это уровень развития человека, который соответствует среднестатистическим
(количественным) показателям, полученным при обследовании представительной
группы людей того же возрастного диапазона, пола, культуры и т.п.; это близость
значения свойства к тому уровню, который характеризует статистически среднего
индивида.
Для вычисления
статистической нормы обратились к приемам математической статистики —
определение распределения.
Распределением
называется закономерность встречаемости разных значений измеряемого признака.
Форма распределения является обобщенной характеристикой выборки. Кривые
распределения бывают одновершинные и многовершинные.
В психологии
рассматривают нормальное распределение, или распределение по нормальному
закону, кривая распределения Гаусса, предложенная им в 1908 г.
Нормальное
распределение характеризуется тем, что крайние значения признака в нем
встречаются достаточно редко (16%), а значения, близкие к средней величине,
достаточно часто (68%).
Для описания
нормального распределения достаточно знать два показателя — среднее
арифметическое признака (Хср) и стандартное отклонение (σ). Границы
статистической нормы определяются по формуле Хср ± σ.
В диагностике
существует и другой подход к оценке результатов диагностических испытаний. В
нашей стране под руководством К.М. Гуревича были разработаны тесты, в которых в
качестве точки отсчета выступает не статистическая норма, а независимый от
результатов испытания, объективно заданный социально-психологический норматив.
Социокультурный
или социально-психологический норматив (СПН) — это уровень
свойства, который явно или неявно считается в обществе необходимым; это система
требований, которые общество предъявляет к психическому и личностному развитию
каждого из его членов.
Требования
закреплены в виде правил, норм, предписаний, они присутствуют в образовательных
программах, в профессиональных и квалификационных характеристиках, общественном
мнении.
СПН меняется
вместе с развитием общества.
Социально-психологический
норматив реализуется в совокупности заданий, составляющих тест.
Сам тест в полном
его объеме и является таким нормативом (100%). В качестве критерия оценки
выступает показатель, отражающий степень близости результатов к нормативу. 39
Для анализа данных
относительно их близости к социально-психологическому нормативу, условно
рассматриваемому как 100%-ное выполнение всего теста, все испытуемые
подразделяются по результатам тестирования на пять подгрупп (%):
1) наиболее
успешные — 90-100% (10%);
2) близкие к
успешным — 70-90% (20%);
3) средние по
успешности — 30-70% (40%);
4) малоуспешные —
10-30% (20%);
5) наименее
успешные — 0-10% (10%).
3.3. Надежность
как важное психометрическое требование к диагностической методике
Надежность
—
характеристика методики, отражающая точность психодиагностических измерений, а
также устойчивость результатов теста к действию посторонних случайных факторов.
Степень надежности
методик зависит от многих причин. Важной проблемой практической диагностики
является выяснение негативных факторов, влияющих на точность измерений. Многие
авторы пытались составить классификацию таких факторов, среди которых чаще
называют следующие:
1) состояние и
настроение обследуемых;
2) мотивация
испытуемых к тестированию;
3) эргономические
факторы: время дня, освещенность, температура в помещении, наличие шумов и
запахов и т.п.;
4) характеристика
деятельности (монотонность — динамичность и др.);
5) степень
обучаемости (или натренированности) испытуемых.
Разновидностей
надежности методик так же много, как и условий, влияющих на результаты
диагностических испытаний. Все виды надежности отражают степень согласованности
двух независимо полученных рядов показателей с помощью
математико-статистического приема, который и устанавливает надежность методики.
Надежность тем выше, чем больше полученный коэффициент корреляции приближается
к единице, и наоборот.
К.М. Гуревич
предложил толковать надежность как:
1) надежность
самого измерительного инструмента;
2) стабильность
изучаемого признака;
3) относительная
независимость результатов от личности экспериментатора.
Показатель,
характеризующий измерительный инструмент, предлагается называть коэффициентом
надежности; показатель, характеризующий стабильность измеряемого свойства,
— коэффициентом стабильности; а показатель оценки влияния личности
экспериментатора — коэффициентом константности.
Остановимся более
подробно на рассмотрении этих показателей, характеризующих с разных сторон
надежность психодиагностической методики.
1. Определение
надежности измерительного инструмента. Для проверки надежности измерительного
инструмента, говорящего о его однородности (или гомогенности), используют метод
расщепления.
Задания делятся на
четные и нечетные, отдельно обрабатываются, а затем результаты двух полученных
рядов коррелируются, сравниваются между собой.
Методика
признается надежной, когда полученный коэффициент не ниже 0,75—0,85. Лучшие по
надежности тесты дают коэффициенты порядка 0,90 и более.
2. Определение
стабильности изучаемого признака. Для проверки стабильности диагностируемого
признака, свойства используется прием тест—ретест. Он заключается в повторном
обследовании испытуемых с помощью той же методики. О стабильности признака
судят по коэффициенту корреляции между результатами первого и повторного
обследования (не ниже, чем 0,7).
При определении
стабильности признака большое значение имеет промежуток времени между первым и
повторным обследованием.
Используется
временной интервал в несколько месяцев, но не более полугода. У детей интервалы
могут быть порядка нескольких недель.
3. Определение
константности. Коэффициент константности определяется путем корреляции
результатов двух опытов, проведенных в относительно одинаковых условиях на
одной и той же выборке испытуемых, но разными экспериментаторами. Коэффициент
корреляции не должен быть ниже 0,80.
К.М. Гуревич
считает, что каждый в отдельности показатель никак не заменит других способов
проверки и, следовательно, не может рассматриваться в качестве необходимой и
достаточной характеристики надежности.
Методика,
располагающая полной характеристикой надежности, наиболее пригодна для
практического применения.
3.4.
Валидность диагностической методики
Вопрос о
валидности методик решается лишь после того, как установлена достаточная ее
надежность, поскольку ненадежная методика не может быть валидной. Но самая
надежная методика без знания ее валидности является практически бесполезной.
Валидность — обоснованность
методики.
А. Анастази: «Валидность
теста — понятие, указывающее нам на то, что тест измеряет и насколько
хорошо он это делает», т.е. она предусматривает прямую проверку того, насколько
хорошо тест выполняет свою функцию.
Характеристика
валидности методики включает в себя не только сведения о том, что данная
методика на самом деле измеряет, но и информирует об условиях, о сфере ее
применения. Существует несколько разновидностей валидности, каждую из которых
нужно рассматривать и оценивать отдельно, когда стоит вопрос о выяснении
валидности психодиагностической методики. Валидность может быть внутренней
(конструктной) и внешней (критериальной). Внутренняя валидность определяет,
насколько полно тестовые баллы отражают исследуемые психические свойства или
умения и знания, обозначает соответствие содержащихся в методике заданий,
суждений и тому подобное общей цели и замыслу методики в целом. Тестовая методика
считается внутренне невалидной или недостаточно внутренне валидной тогда, когда
все или часть включенных в нее вопросов и заданий измеряют не то, что требуется
от данной методики. Внешняя валидность определяет полезность тестового
измерения в качестве предсказателя поведения, насколько тестовые баллы связаны
с некоторой другой деятельностью. Речь идет о связи между показателями
методики и наиболее важными, ключевыми внешними признаками, относящимися к
поведению испытуемого.
Валидность — это
комплексная характеристика, включающая, с одной стороны, сведения о том,
пригодна ли методика для измерения того, для чего она была создана, а с другой
стороны, какова ее действенность, эффективность, практическая полезность.
Проверка
валидности методики называется валидизацией. Принято выделять:
1) теоретическую
валидизацию — проверка валидности измерительного инструмента;
2) прагматическую
валидизацию — валидность цели ее использования.
Основным элементом
проверки валидности тестов является критерий валидности. Это
независимый от теста, внешний по отношению к тесту источник информации об
измеряемом психическом свойстве.
В качестве
критерия могут выступать:
— успеваемость —
для тестов способностей к обучению, тестов достижений, тестов интеллекта;
— производственные
достижения — для методик профессиональной направленности;
— эффективность
реальной деятельности (рисования, моделирования и т.д.) — для тестов
специальных способностей;
— субъективные
оценки — для тестов личности.
Виды валидности,
обусловленные особенностями диагностических методик и временным статусом
внешнего критерия:
1. Валидность «по
содержанию» (логическая валидность) применяется для тестов достижений. Она
отвечает на вопрос: «Можно ли быть уверенным в том, что правильные ответы на
немногие вопросы свидетельствуют об усвоении всего материала?». Для этого проводится
сопоставление успешности по тесту с экспертными оценками учителей,
преподавателей по данному курсу, предмету, разделу.
2. Валидность «по
одновременности» (текущая валидность). Определяется с помощью внешнего
критерия, по которому информация собирается одновременно с экспериментами по
проверяемой методике.
3.
«Предсказывающая» валидность («прогностическая» валидность). Определяется
также по надежному внешнему критерию, но информация по нему собирается
некоторое время спустя после испытания.
4. «Ретроспективная»
валидность. Определяется на основе критерия отражающего события или состояние
качества в прошлом.
3.5.
Достоверность, репрезентативность и дискриминативность — психометрические
требования к диагностическим методикам
Достоверность
—
это способность теста защищать информацию от мотивационных искажений. Проблема
достоверности остро стоит в случае тест-опросников, которые допускают больше
свободы в выборе испытуемым любого варианта ответа.
Типичный прием
обеспечения достоверности — наличие шкалы лжи или контрольной шкалы. Они
основываются на феномене социальной желательности — стремлении
испытуемых давать в ходе тестирования социально одобряемую информацию. Если испытуемый
набрал по шкале лжи балл выше критического, то его протокол объявляется
недостоверным и ему предлагается либо выполнить данный тест еще раз более
откровенно, либо выполнить другой тест.
Репрезетативность
—
это соответствие тестовых норм выборки стандартизации тестовым нормам той
популяции, на которой применяется тест. Она определяется путем сопоставления
качественных и количественных характеристик исследуемой популяции с целью
определения их однородности.
Дискриминативность
—
это способность отдельных заданий и теста в целом дифференцировать обследуемых
относительно максимального и минимального результатов. Точность информации измеряется
тем, насколько дробной шкалой являются применяемые метрики. В оценке может быть
использовано около девяти градаций, а в опросах — наиболее эффективно
использовать три (или пять) градаций.
Оставьте свой комментарий
Авторизуйтесь, чтобы задавать вопросы.