Измерение остаточной дискриминации с
помощью -статистики Уилкса.
До
сих пор нас интересовало, сколько дискриминантных функций надо брать с точки
зрения математических ограничений и их действительной значимости. В наших
рассуждениях не учитывались выборочные свойства данных. Они равно справедливы
как для генеральных данных (данных о генеральной совокупности), так и для различных
видов отбора (выборок). Когда мы анализируем генеральные данные, то ответы на
вопросы о числе функций и их значимости даются с помощью относительного процентного
содержания и канонической корреляции. В пределах ошибок измерения эти
статистики полностью описывают различия между группами и дискриминантными
функциями.
Когда
же данные берутся из выборки (в противоположность данным, представляющим всю
генеральную совокупность), то возникают дополнительные вопросы. Какова
вероятность того, что данные о выборке покажут значительную степень различия,
тогда как в генеральной совокупности различий между группами нет? Это вопрос
статистической значимости, возникающей только в том случае, когда мы имеем дело
с выборками. Действительно, ответить на вопрос о статистической значимости
можно, если выборочныйпроцесс имеет вероятностную основу. Для многих статистик
тестызначимости применимы лишь к простым случайным выборкам ввиду сложности
получения тестов для других видов выборок. Таким образом, мы будем рассматривать
лишь простые случайные выборки. При использовании каких-либо других процедур
отбора,лучше всего к интерпретации тестов подходить консервативно и уделять
больше внимания реальной значимости результатов.
Чаще
всего статистическая значимость дискриминантных функций проверяется косвенным
путем. Вместо проверки самой функции рассматривается остаточная дискриминантная
способностьсистемы до определения этой функции. Под «остаточной дискриминантной
способностью» мы понимаем способность переменных различать классы, если
исключить информацию, полученную с помощью ранее вычисленных функций. Если
остаточная дискриминация очень мала, то нет смысла продолжать вычисление
очередных функций, даже если математически это возможно. Чтобы лучше усвоить
это понятие, рассмотрим «-статистику Уилкса»,
используемую для измерения дискриминации (так называемую -статистику). -статистика Уилкса – это
мера различий между классами по нескольким переменным (дискриминантным
переменным). Хотя существует несколько способов ее вычисления, мы воспользуемся
следующей формулой:
где – число уже вычисленных
функций.
Проверка
значимости с помощью -статистики Уилкса.
Мы
рассматривали -статистику Уилкса как
еще одну меру зависимости, но то, что она принимает значения, обратные
привычным, и оценивает остаточную дискриминантную способность, делает ее менее
полезной, чем относительное процентное содержание и каноническая корреляция.
Однако -статистика может быть
превращена в тест значимости. Таким образом, мы будем использовать ее скорее
как вспомогательную статистику, а не как искомый конечный продукт.
На
основе -статистики Уилкса можно
получить тест значимости, аппроксимируя распределение некоторой функции от нее
либо распределением хи-квадрат (), либо -распределением. В
дальнейшем можно пользоваться стандартными таблицами для этих распределений,
чтобы определить уровень значимости, а некоторые компьютерные программы
позволяют распечатать еготочные значения. Если воспользоваться формулой
то полученное
распределение и будет хи-квадрат распределением с степенями свободы.
Оставьте свой комментарий
Авторизуйтесь, чтобы задавать вопросы.