Определение зависимости между признаками: критерий Хи-квадрат. Распределение хи квадрат

Критерий независимости хи-квадрат используется для определения связи между двумя категориальными переменными. Примерами пар категориальных переменных являются: Семейное положение vs. Уровень занятости респондента; Порода собак vs. Профессия хозяина, Уровень з/п vs. Специализация инженера и др. При вычислении критерия независимости проверяется гипотеза о том, что между переменными связи нет. Вычисления будем производить с помощью функции MS EXCEL 2010 ХИ2.ТЕСТ() и обычными формулами.

Предположим у нас есть выборка данных, представляющая результат опроса 500 человек. Людям задавалось 2 вопроса: про их семейное положение (женаты, гражданский брак, не состоят в отношениях) и их уровень занятости (полный рабочий день, частичная занятость, временно не работает, на домохозяйстве, на пенсии, учеба). Все ответы поместили в таблицу:

Данная таблица называется таблицей сопряжённости признаков (или факторной таблицей, англ. Contingency table). Элементы на пересечении строк и столбцов таблицы обычно обозначают O ij (от англ. Observed, т.е. наблюденные, фактические частоты).

Нас интересует вопрос «Влияет ли Семейное положение на Занятость?», т.е. существует ли зависимость между двумя методами классификации выборки ?

При проверке гипотез такого вида обычно принимают, что нулевая гипотеза утверждает об отсутствии зависимости способов классификации.

Рассмотрим предельные случаи. Примером полной зависимости двух категориальных переменных является вот такой результат опроса:

В этом случае семейное положение однозначно определяет занятость (см. файл примера лист Пояснение ). И наоборот, примером полной независимости является другой результат опроса:

Обратите внимание, что процент занятости в этом случае не зависит от семейного положения (одинаков для женатых и не женатых). Это как раз совпадает с формулировкой нулевой гипотезы . Если нулевая гипотеза справедлива, то результаты опроса должны были бы так распределиться в таблице, что процент занятых был бы одинаковым независимо от семейного положения. Используя это, вычислим результаты опроса, которые соответствуют нулевой гипотезе (см. файл примера лист Пример ).

Сначала вычислим оценку вероятности, того, что элемент выборки будет иметь определенную занятость (см. столбец u i):

где с – количество столбцов (columns), равное количеству уровней переменной «Семейное положение».

Затем вычислим оценку вероятности, того, что элемент выборки будет иметь определенное семейное положение (см. строку v j).

где r – количество строк (rows), равное количеству уровней переменной «Занятость».

Теоретическая частота для каждой ячейки E ij (от англ. Expected, т.е. ожидаемая частота) в случае независимости переменных вычисляется по формуле:
E ij =n* u i * v j

Известно, что статистика Х 2 0 при больших n имеет приблизительно с (r-1)(c-1) степенями свободы (df – degrees of freedom):

Если вычисленное на основе выборки значение этой статистики «слишком большое» (больше порогового), то нулевая гипотеза отвергается. Пороговое значение вычисляется на основании , например с помощью формулы =ХИ2.ОБР.ПХ(0,05; df) .

Примечание : Уровень значимости обычно принимается равным 0,1; 0,05; 0,01.

При проверке гипотезы также удобно вычислять , которое мы сравниваем с уровнем значимости . p -значение рассчитывается с использованием с (r-1)*(c-1)=df степеней свободы.

Если вероятность, того что случайная величина имеющая с (r-1)(c-1) степенями свободы примет значение больше вычисленной статистики Х 2 0 , т.е. P{Х 2 (r-1)*(c-1) >Х 2 0 }, меньше уровня значимости , то нулевая гипотеза отклоняется.

В MS EXCEL p-значение можно вычислить с помощью формулы =ХИ2.РАСП.ПХ(Х 2 0 ;df) , конечно, вычислив непосредственно перед этим значение статистики Х 2 0 (это сделано в файле примера ). Однако, удобнее всего воспользоваться функцией ХИ2.ТЕСТ() . В качестве аргументов этой функции указываются ссылки на диапазоны содержащие фактические (Observed) и вычисленные теоретические частоты (Expected).

Если уровень значимости > p -значения , то означает это фактические и теоретические частоты, вычисленные из предположения справедливости нулевой гипотезы , серьезно отличаются. Поэтому, нулевую гипотезу нужно отклонить.

Использование функции ХИ2.ТЕСТ() позволяет ускорить процедуру проверки гипотез , т.к. не нужно вычислять значение статистики . Теперь достаточно сравнить результат функции ХИ2.ТЕСТ() с заданным уровнем значимости .

Примечание : Функция ХИ2.ТЕСТ() , английское название CHISQ.TEST, появилась в MS EXCEL 2010. Ее более ранняя версия ХИ2ТЕСТ() , доступная в MS EXCEL 2007 имеет тот же функционал. Но, как и для ХИ2.ТЕСТ() , теоретические частоты нужно вычислить самостоятельно.

​ Критерий χ 2 Пирсона – это непараметрический метод, который позволяет оценить значимость различий между фактическим (выявленным в результате исследования) количеством исходов или качественных характеристик выборки, попадающих в каждую категорию, и теоретическим количеством, которое можно ожидать в изучаемых группах при справедливости нулевой гипотезы. Выражаясь проще, метод позволяет оценить статистическую значимость различий двух или нескольких относительных показателей (частот, долей).

1. История разработки критерия χ 2

Критерий хи-квадрат для анализа таблиц сопряженности был разработан и предложен в 1900 году английским математиком, статистиком, биологом и философом, основателем математической статистики и одним из основоположников биометрики Карлом Пирсоном (1857-1936).

2. Для чего используется критерий χ 2 Пирсона?

Критерий хи-квадрат может применяться при анализе таблиц сопряженности , содержащих сведения о частоте исходов в зависимости от наличия фактора риска. Например, четырехпольная таблица сопряженности выглядит следующим образом:

Исход есть (1) Исхода нет (0) Всего
Фактор риска есть (1) A B A + B
Фактор риска отсутствует (0) C D C + D
Всего A + C B + D A + B + C + D

Как заполнить такую таблицу сопряженности? Рассмотрим небольшой пример.

Проводится исследование влияния курения на риск развития артериальной гипертонии. Для этого были отобраны две группы исследуемых - в первую вошли 70 человек, ежедневно выкуривающих не менее 1 пачки сигарет, во вторую - 80 некурящих такого же возраста. В первой группе у 40 человек отмечалось повышенное артериальное давление. Во второй - артериальная гипертония наблюдалась у 32 человек. Соответственно, нормальное артериальное давление в группе курильщиков было у 30 человек (70 - 40 = 30) а в группе некурящих - у 48 (80 - 32 = 48).

Заполняем исходными данными четырехпольную таблицу сопряженности:

В полученной таблице сопряженности каждая строчка соответствует определенной группе исследуемых. Столбцы - показывают число лиц с артериальной гипертонией или с нормальным артериальным давлением.

Задача, которая ставится перед исследователем: имеются ли статистически значимые различия между частотой лиц с артериальным давлением среди курящих и некурящих? Ответить на этот вопрос можно, рассчитав критерий хи-квадрат Пирсона и сравнив получившееся значение с критическим.

3. Условия и ограничения применения критерия хи-квадрат Пирсона

  1. Сопоставляемые показатели должны быть измерены в номинальной шкале (например, пол пациента - мужской или женский) или в порядковой (например, степень артериальной гипертензии, принимающая значения от 0 до 3).
  2. Данный метод позволяет проводить анализ не только четырехпольных таблиц, когда и фактор, и исход являются бинарными переменными, то есть имеют только два возможных значения (например, мужской или женский пол, наличие или отсутствие определенного заболевания в анамнезе...). Критерий хи-квадрат Пирсона может применяться и в случае анализа многопольных таблиц, когда фактор и (или) исход принимают три и более значений.
  3. Сопоставляемые группы должны быть независимыми, то есть критерий хи-квадрат не должен применяться при сравнении наблюдений "до-"после". В этих случаях проводится тест Мак-Немара (при сравнении двух связанных совокупностей) или рассчитывается Q-критерий Кохрена (в случае сравнения трех и более групп).
  4. При анализе четырехпольных таблиц ожидаемые значения в каждой из ячеек должны быть не менее 10. В том случае, если хотя бы в одной ячейке ожидаемое явление принимает значение от 5 до 9, критерий хи-квадрат должен рассчитываться с поправкой Йейтса . Если хотя бы в одной ячейке ожидаемое явление меньше 5, то для анализа должен использоваться точный критерий Фишера .
  5. В случае анализа многопольных таблиц ожидаемое число наблюдений не должно принимать значения менее 5 более чем в 20% ячеек.

4. Как рассчитать критерий хи-квадрат Пирсона?

Для расчета критерия хи-квадрат необходимо:

Данный алгоритм применим как для четырехпольных, так и для многопольных таблиц.

5. Как интерпретировать значение критерия хи-квадрат Пирсона?

В том случае, если полученное значение критерия χ 2 больше критического, делаем вывод о наличии статистической взаимосвязи между изучаемым фактором риска и исходом при соответствующем уровне значимости.

6. Пример расчета критерия хи-квадрат Пирсона

Определим статистическую значимость влияния фактора курения на частоту случаев артериальной гипертонии по рассмотренной выше таблице:

  1. Рассчитываем ожидаемые значения для каждой ячейки:
  2. Находим значение критерия хи-квадрат Пирсона:

    χ 2 = (40-33.6) 2 /33.6 + (30-36.4) 2 /36.4 + (32-38.4) 2 /38.4 + (48-41.6) 2 /41.6 = 4.396.

  3. Число степеней свободы f = (2-1)*(2-1) = 1. Находим по таблице критическое значение критерия хи-квадрат Пирсона, которое при уровне значимости p=0.05 и числе степеней свободы 1 составляет 3.841.
  4. Сравниваем полученное значение критерия хи-квадрат с критическим: 4.396 > 3.841, следовательно зависимость частоты случаев артериальной гипертонии от наличия курения - статистически значима. Уровень значимости данной взаимосвязи соответствует p<0.05.

Хи-квадрат критерий – универсальный метод проверки согласия результатов эксперимента и используемой статистической модели.

Расстояние Пирсона X 2

Пятницкий А.М.

Российский Государственный Медицинский Университет

В 1900 году Карл Пирсон предложил простой, универсальный и эффективный способ проверки согласия между предсказаниями модели и опытными данными. Предложенный им “хи-квадрат критерий” – это самый важный и наиболее часто используемыйстатистический критерий. Большинство задач, связанных с оценкой неизвестных параметров модели и проверки согласия модели и опытных данных, можно решить с его помощью.

Пусть имеется априорная (“до опытная”) модельизучаемого объекта или процесса (в статистике говорят о “нулевой гипотезе” H 0), и результаты опыта с этим объектом. Следует решить, адекватна ли модель (соответствует ли она реальности)? Не противоречат ли результаты опыта нашим представлениям о том, как устроена реальность, или иными словами - следует ли отвергнуть H 0 ? Часто эту задачу можно свести к сравнению наблюдаемых (O i = Observed )и ожидаемых согласно модели (E i =Expected ) средних частот появления неких событий. Считается, что наблюдаемые частоты получены в серии N независимых (!) наблюдений, производимых в постоянных (!) условиях. В результате каждого наблюдения регистрируется одно из M событий. Эти события не могут происходить одновременно (попарно несовместны) и одно из них обязательно происходит (их объединение образует достоверное событие). Совокупность всех наблюдений сводится к таблице (вектору) частот {O i }=(O 1 ,… O M ), которая полностью описывает результаты опыта. Значение O 2 =4 означает, что событие номер 2 произошло 4 раза. Сумма частот O 1 +… O M =N . Важно различать два случая: N – фиксировано, неслучайно, N – случайная величина. При фиксированном общем числе опытов N частоты имеют полиномиальное распределение. Поясним эту общую схему простым примером.

Применение хи-квадрат критерия для проверки простых гипотез.

Пусть модель (нулевая гипотеза H 0) заключается в том, что игральная кость является правильной - все грани выпадают одинаково часто с вероятностью p i =1/6, i =, M=6. Проведен опыт, который состоял в том, что кость бросили 60 раз (провели N =60 независимых испытаний). Согласно модели мы ожидаем, что все наблюдаемые частоты O i появления 1,2,... 6 очков должны быть близки к своим средним значениям E i =Np i =60∙(1/6)=10. Согласно H 0 вектор средних частот {E i }={Np i }=(10, 10, 10, 10, 10, 10). (Гипотезы, в которых средние частоты полностью известны до начала опыта, называются простыми.) Если бы наблюдаемый вектор {O i } был равен (34,0,0,0,0,26) , то сразу ясно, что модель неверна – кость не может быть правильной, так как60 раз выпадали только 1 и 6. Вероятность такого события для правильной игральной кости ничтожна: P = (2/6) 60 =2.4*10 -29 . Однако появление столь явных расхождений между моделью и опытом исключение. Пусть вектор наблюдаемых частот {O i } равен (5, 15, 6, 14, 4, 16). Согласуется ли это с H 0 ? Итак, нам надо сравнить два вектора частот {E i } и {O i }. При этом вектор ожидаемых частот {E i } не случаен, а вектор наблюдаемых {O i } случаен – при следующем опыте (в новой серии из 60 бросков) он окажется другим. Полезно ввести геометрическую интерпретацию задачи и считать, что в пространстве частот (в данном случае 6 мерном) даны две точки с координатами(5, 15, 6, 14, 4, 16) и (10, 10, 10, 10, 10, 10). Достаточно ли далеко они удалены друг от друга, чтобы счесть это несовместным сH 0 ? Иными словами нам надо:

  1. научиться измерять расстояния между частотами (точками пространства частот),
  2. иметь критерий того, какое расстояние следует считать слишком (“неправдоподобно”) большим, то есть несовместным с H 0 .

Квадрат обычного евклидова расстояниябыл бы равен:

X 2 Euclid = S (O i -E i) 2 = (5-10) 2 +(15-10) 2 + (6-10) 2 +(14-10) 2 +(4-10) 2 +(16-10) 2

При этом поверхности X 2 Euclid = const всегда являются сферами, если мы фиксируем значения E i и меняем O i . Карл Пирсон заметил, что использовать евклидово расстояние в пространстве частот не следует. Так, неправильно считать, что точки (O =1030 и E =1000) и (O =40 и E =10) находятся на равном расстоянии друг от друга, хотя в обоих случаях разность O -E =30. Ведь чем больше ожидаемая частота, тем большие отклонения от нее следует считать возможными. Поэтому точки (O =1030 и E =1000) должны считаться “близкими”, а точки (O =40 и E =10) “далекими” друг от друга. Можно показать, что если верна гипотеза H 0 , то флуктуации частоты O i относительно E i имеют величину порядка квадратного корня(!) из E i . Поэтому Пирсон предложил при вычислении расстояния возводить в квадраты не разности (O i -E i ), а нормированные разности (O i -E i )/E i 1/2 . Итак, вот формула, по которой вычисляется расстояние Пирсона (фактически это квадрат расстояния):

X 2 Pearson = S ((O i -E i )/E i 1/2) 2 =S (O i -E i ) 2 /E i

В нашем примере:

X 2 Pearson = (5-10) 2 /10+(15-10) 2 /10 +(6-10) 2 /10+(14-10) 2 /10+(4-10) 2 /10+(16-10) 2 /10=15.4

Для правильной игральной кости все ожидаемые частоты E i одинаковы, но обычно они различны, поэтому поверхности, на которых расстояние Пирсона постоянно (X 2 Pearson =const) оказываются уже эллипсоидами, а не сферами.

Теперь после того, как выбрана формула для подсчета расстояний, необходимо выяснить, какие расстояния следует считать “не слишком большими” (согласующимися с H 0).Так, например, что можно сказать по поводу вычисленного нами расстояния 15.4? В каком проценте случаев (или с какой вероятностью), проводя опыты с правильной игральной костью, мы получали бы расстояние большее, чем 15.4? Если этот процент будет мал (<0.05), то H 0 надо отвергнуть. Иными словами требуется найти распределение длярасстояния Пирсона. Если все ожидаемые частоты E i не слишком малы (≥5), и верна H 0 , то нормированные разности (O i - E i )/E i 1/2 приближенно эквивалентны стандартным гауссовским случайным величинам: (O i - E i )/E i 1/2 ≈N (0,1). Это, например, означает, что в 95% случаев| (O i - E i )/E i 1/2 | < 1.96 ≈ 2 (правило “двух сигм”).

Пояснение . Число измерений O i , попадающих в ячейку таблицы с номером i , имеет биномиальное распределение с параметрами: m =Np i =E i ,σ =(Np i (1-p i )) 1/2 , где N - число измерений (N »1), p i – вероятность для одного измерения попасть в данную ячейку (напомним, что измерения независимы и производятся в постоянных условиях). Если p i мало, то: σ≈(Np i ) 1/2 =E i и биномиальное распределение близко к пуассоновскому, в котором среднее число наблюдений E i =λ, а среднее квадратичное отклонение σ=λ 1/2 = E i 1/2 . Для λ≥5пуассоновскоераспределение близко к нормальному N (m =E i =λ, σ=E i 1/2 =λ 1/2), а нормированная величина (O i - E i )/E i 1/2 ≈ N (0,1).

Пирсон определил случайную величину χ 2 n – “хи-квадрат с n степенями свободы”, как сумму квадратов n независимых стандартных нормальных с.в.:

χ 2 n = T 1 2 + T 2 2 + …+ T n 2 , гдевсе T i = N(0,1) - н. о. р. с. в.

Попытаемся наглядно понять смысл этой важнейшей в статистике случайной величины. Для этого на плоскости (при n =2) или в пространстве (при n =3) представим облако точек, координаты которых независимы и имеют стандартное нормальное распределениеf T (x ) ~exp (-x 2 /2). На плоскости согласно правилу “двух сигм”, которое независимо применяется к обеим координатам, 90% (0.95*0.95≈0.90) точек заключены внутри квадрата(-2

f χ 2 2 (a) = Сexp(-a/2) = 0.5exp(-a/2).

При достаточно большом числе степеней свободы n (n >30) хи-квадрат распределение приближается к нормальному: N (m = n ; σ = (2n ) ½). Это следствие “центральной предельной теоремы”: сумма одинаково распределенных величин имеющих конечную дисперсию приближается к нормальному закону с ростом числа слагаемых.

Практически надо запомнить, что средний квадрат расстояния равен m (χ 2 n )=n , а его дисперсия σ 2 (χ 2 n )=2n . Отсюда легко заключить какие значения хи-квадрат следует считать слишком малыми и слишком большими:большая часть распределения заключена в пределахот n -2∙(2n ) ½ до n +2∙(2n ) ½ .

Итак, расстояния Пирсона существенно превышающие n +2∙ (2n ) ½ , следует считать неправдоподобно большими (не согласующимися с H 0) . Если результат близок к n +2∙(2n ) ½ , то следует воспользоваться таблицами, в которых можно точно узнать в какой доле случаев могут появляться такие и большие значения хи-квадрат.

Важно знать, как правильно выбирать значение числа степеней свободы (number degrees of freedom , сокращенно n .d .f .). Казалось естественным считать, что n просто равно числу разрядов: n =M . В своей статье Пирсон так и предположил. В примере с игральной костью это означало бы, что n =6. Однако спустя несколько лет было показано, что Пирсон ошибся. Число степеней свободы всегда меньше числа разрядов, если между случайными величинами O i есть связи. Для примера с игральной костью сумма O i равна 60, и независимо менять можно лишь 5 частот, так что правильное значение n =6-1=5. Для этого значения n получаем n +2∙(2n ) ½ =5+2∙(10) ½ =11.3. Так как15.4>11.3, то гипотезу H 0 - игральная кость правильная, следует отвергнуть.

После выяснения ошибки, существовавшие таблицы χ 2 пришлось дополнить, так как исходно в них не было случая n =1, так как наименьшее число разрядов =2. Теперь же оказалось, что могут быть случаи, когда расстояние Пирсона имеет распределение χ 2 n =1 .

Пример . При 100 бросаниях монеты число гербов равно O 1 = 65, а решек O 2 = 35. Число разрядов M =2. Если монета симметрична, то ожидаемые частотыE 1 =50, E 2 =50.

X 2 Pearson = S (O i -E i) 2 /E i = (65-50) 2 /50 + (35-50) 2 /50 = 2*225/50 = 9.

Полученное значение следует сравнивать с теми, которые может принимать случайная величина χ 2 n =1 , определенная как квадрат стандартной нормальной величины χ 2 n =1 =T 1 2 ≥ 9 ó T 1 ≥3 или T 1 ≤-3. Вероятность такого события весьма мала P (χ 2 n =1 ≥9) = 0.006. Поэтому монету нельзя считать симметричной: H 0 следует отвергнуть. То, что число степеней свободы не может быть равно числу разрядов видно из того, что сумма наблюдаемых частот всегда равна сумме ожидаемых, например O 1 +O 2 =65+35 = E 1 +E 2 =50+50=100. Поэтому случайные точки с координатами O 1 и O 2 располагаются на прямой: O 1 +O 2 =E 1 +E 2 =100 и расстояние до центра оказывается меньше, чем, если бы этого ограничения не было, и они располагались на всей плоскости. Действительно для двух независимые случайных величин с математическими ожиданиями E 1 =50, E 2 =50, сумма их реализаций не должна быть всегда равной 100 – допустимыми были бы, например, значения O 1 =60, O 2 =55.

Пояснение . Сравним результат, критерия Пирсона при M =2 с тем, что дает формула Муавра Лапласа при оценке случайных колебаний частоты появления события ν =K /N имеющего вероятность p в серии N независимых испытаний Бернулли (K -число успехов):

χ 2 n =1 =S (O i -E i ) 2 /E i = (O 1 -E 1) 2 /E 1 + (O 2 -E 2) 2 /E 2 = (Nν -Np ) 2 /(Np ) + (N (1-ν )-N (1-p )) 2 /(N (1-p ))=

=(Nν-Np) 2 (1/p + 1/(1-p))/N=(Nν-Np) 2 /(Np(1-p))=((K-Np)/(Npq) ½) 2 = T 2

Величина T =(K -Np )/(Npq ) ½ = (K -m (K ))/σ(K ) ≈N (0,1) при σ(K )=(Npq ) ½ ≥3. Мы видим, что в этом случае результат Пирсона в точности совпадает с тем, что дает применение нормальной аппроксимации для биномиального распределения.

До сих пор мы рассматривали простые гипотезы, для которых ожидаемые средние частоты E i полностью известны заранее. О том, как правильно выбирать число степеней свободы для сложных гипотез см. ниже.

Применение хи-квадрат критерия для проверки сложных гипотез

В примерах с правильной игральной костью и монетой ожидаемые частоты можно было определить до(!) проведения опыта. Подобные гипотезы называются “простыми”. На практике чаще встречаются “сложные гипотезы”. При этом для того, чтобы найти ожидаемые частоты E i надо предварительно оценить одну или несколько величин (параметры модели), и сделать это можно только, воспользовавшись данными опыта. В результате для “сложных гипотез” ожидаемые частоты E i оказываются зависящими от наблюдаемых частот O i и потому сами становятся случайными величинами, меняющимися в зависимости от результатов опыта. В процессе подбора параметров расстояние Пирсона уменьшается – параметры подбираются так, чтобы улучшить согласие модели и опыта. Поэтому число степеней свободы должно уменьшаться.

Как оценить параметры модели? Есть много разных способов оценки – “метод максимального правдоподобия”, “метод моментов”, “метод подстановки”. Однако можно не привлекать никаких дополнительных средств и найти оценки параметров минимизируя расстояние Пирсона. В докомпьютерную эпоху такой подход использовался редко: приручных расчетах он неудобен и, как правило, не поддается аналитическому решению. При расчетах на компьютере численная минимизация обычно легко осуществляется, а преимуществом такого способа является его универсальность. Итак, согласно “методу минимизации хи-квадрат”, мы подбираем значения неизвестных параметров так, чтобы расстояние Пирсона стало наименьшим. (Кстати, изучая изменения этого расстояния при небольших смещениях относительно найденного минимума можно оценить меру точности оценки: построить доверительные интервалы.) После того как параметры и само это минимальное расстояние найдено опять требуется ответить на вопрос достаточно ли оно мало.

Общая последовательность действий такова:

  1. Выбор модели (гипотезы H 0).
  2. Выбор разрядов и определение вектора наблюдаемых частот O i .
  3. Оценка неизвестных параметров модели и построение для них доверительных интервалов (например, через поиск минимума расстояния Пирсона).
  4. Вычисление ожидаемых частот E i .
  5. Сравнение найденной величины расстояния Пирсона X 2 с критическим значением хи-квадрат χ 2 крит - наибольшим, которое еще рассматривается как правдоподобное, совместимое с H 0 . Величину, χ 2 крит мы находим из таблиц, решая уравнение

P (χ 2 n > χ 2 крит)=1-α,

где α – “уровень значимости” или ”размер критерия” или “величина ошибки первого рода” (типичное значение α=0.05).

Обычно число степеней свободы n вычисляют по формуле

n = (число разрядов) – 1 – (число оцениваемых параметров)

Если X 2 > χ 2 крит, то гипотеза H 0 отвергается, в противном случае принимается. В α∙100% случаев (то есть достаточно редко) такой способ проверки H 0 приведет к “ошибке первого рода”: гипотеза H 0 будет отвергнута ошибочно.

Пример. При исследовании 10 серий из 100 семян подсчитывалось число зараженных мухой-зеленоглазкой. Получены данные: O i =(16, 18, 11, 18, 21, 10, 20, 18, 17, 21);

Здесь неизвестен заранее вектор ожидаемых частот. Если данные однородны и получены для биномиального распределения, то неизвестен один параметр доля p зараженных семян. Заметим, что в исходной таблице фактически имеется не 10 а 20 частот, удовлетворяющих 10 связям: 16+84=100, … 21+79=100.

X 2 = (16-100p) 2 /100p +(84-100(1-p)) 2 /(100(1-p))+…+

(21-100p) 2 /100p +(79-100(1-p)) 2 /(100(1-p))

Объединяя слагаемые в пары (как в примере с монетой), получаем ту форму записи критерия Пирсона, которую обычно пишут сразу:

X 2 = (16-100p) 2 /(100p(1-p))+…+ (21-100p) 2 /(100p(1-p)).

Теперь если в качестве метода оценки р использовать минимум расстояния Пирсона, то необходимо найти такое p , при котором X 2 =min . (Модель старается по возможности “подстроиться” под данные эксперимента.)

Критерий Пирсона - это наиболее универсальный из всех используемых в статистике. Его можно применять к одномерным и многомерным данным, количественным и качественным признакам. Однако именно в силу универсальности следует быть осторожным, чтобы не совершить ошибки.

Важные моменты

1.Выбор разрядов.

  • Если распределение дискретно, то произвола в выборе разрядов обычно нет.
  • Если распределение непрерывно, то произвол неизбежен. Можно использовать статистически эквивалентные блоки (все O одинаковы, например =10). При этом длины интервалов разные. При ручных вычислениях стремились делать интервалы одинаковыми. Должны ли интервалы при изучении распределения одномерного признака быть равными? Нет.
  • Объединять разряды нужно так, чтобы не слишком малыми (≥5) оказывались именно ожидаемые (а не наблюдаемые!) частоты. Напомним, что именно они {E i } стоят в знаменателях при вычислении X 2 ! При анализе одномерных признаков допускается нарушать это правило в двух крайних разрядах E 1 =E max =1. Если число разрядов велико, и ожидаемые частоты близки, то X 2 хорошо приближается χ 2 даже для E i =2.

Оценка параметров . Использование “самодельных”, неэффективных методов оценки может привести к завышенным значениям расстояния Пирсона.

Выбор правильного числа степеней свободы . Если оценки параметров делаются не по частотам, а непосредственно по данным (например, в качестве оценки среднего берется среднее арифметическое), то точное число степеней свободы n неизвестно. Известно лишь, что оно удовлетворяет неравенству:

(число разрядов – 1 – число оцениваемых параметров) < n < (число разрядов – 1)

Поэтому необходимо сравнить X 2 с критическими значениями χ 2 крит вычисленными во всем этом диапазоне n .

Как интерпретировать неправдоподобно малые значения хи-квадрат? Следует ли считать монету симметричной, если при 10000 бросаний, она 5000 раз выпала гербом? Ранее многие статистики считали, что H 0 при этом также следует отвергнуть. Теперь предлагается другой подход: принять H 0 , но подвергнуть данные и методику их анализа дополнительной проверке. Есть две возможности: либо слишком малое расстояние Пирсона означает, что увеличение числа параметров модели не сопровождалось должным уменьшением числа степеней свободы, или сами данные были сфальсифицированы (возможно ненамеренно подогнаны под ожидаемый результат).

Пример. Два исследователя А и B подсчитывали долю рецессивных гомозигот aa во втором поколении при моногибридном скрещивании AA * aa . Согласно законам Менделя эта доля равна 0.25. Каждый исследователь провел по 5 опытов, и в каждом опыте изучалось 100 организмов.

Результаты А: 25, 24, 26, 25, 24. Вывод исследователя: закон Менделя справедлив(?).

Результаты B : 29, 21, 23, 30, 19. Вывод исследователя: закон Менделя не справедлив(?).

Однако закон Менделя имеет статистическую природу, и количественный анализ результатов меняет выводы на обратные! Объединив пять опытов в один, мы приходим к хи-квадрат распределению с 5 степенями свободы (проверяется простая гипотеза):

X 2 A = ((25-25) 2 +(24-25) 2 +(26-25) 2 +(25-25) 2 +(24-25) 2)/(100∙0.25∙0.75)=0.16

X 2 B = ((29-25) 2 +(21-25) 2 +(23-25) 2 +(30-25) 2 +(19-25) 2)/(100∙0.25∙0.75)=5.17

Среднее значение m [χ 2 n =5 ]=5, среднеквадратичное отклонение σ[χ 2 n =5 ]=(2∙5) 1/2 =3.2.

Поэтому без обращения к таблицам ясно, что значение X 2 B типично, а значение X 2 A неправдоподобно мало. Согласно таблицам P (χ 2 n =5 <0.16)<0.0001.

Этот пример – адаптированный вариант реального случая, произошедшего в 1930-е годы (см. работу Колмогорова “Об еще одном доказательстве законов Менделя”). Любопытно, что исследователь A был сторонником генетики, а исследователь B – ее противником.

Путаница в обозначениях. Следует различать расстояние Пирсона, которое при своем вычислении требует дополнительных соглашений,от математического понятия случайной величины хи-квадрат. Расстояние Пирсона при определенных условиях имеет распределение близкое к хи-квадрат с n степенями свободы. Поэтому желательно НЕ обозначать расстояние Пирсона символом χ 2 n , а использовать похожее, но другое обозначение X 2. .

Критерий Пирсона не всесилен. Существует бесконечное множество альтернатив для H 0 , которые он не в состоянии учесть. Пусть вы проверяете гипотезу о том, что признак имел равномерное распределение, у вас имеется 10 разрядов и вектор наблюдаемых частот равен (130,125,121,118,116,115,114,113,111,110). Критерий Пирсона не c может “заметить” того, что частоты монотонно уменьшаются и H 0 не будет отклонена. Если бы его дополнить критерием серий то да!

    Распределение. Распределение Пирсона Плотность вероятности … Википедия

    распределение «хи-квадрат» - распределение «хи квадрат» — Тематики защита информации EN chi square distribution … Справочник технического переводчика

    распределение хи-квадрат - Распределение вероятностей непрерывной случайной величины с значениями от 0 до, плотность которого задается формулой, где 0 при параметре =1,2,...; – гамма функция. Примеры. 1) Сумма квадратов независимых нормированных нормальных случайных… … Словарь социологической статистики

    РАСПРЕДЕЛЕНИЕ ХИ-КВАДРАТ (хи2) - Распределение случайной переменной хи2., если случайные выборки размера 1 взяты из нормального распределения со средним (и вариансой q2, то хи2 = (X1 u)2/q2, где X отобранное значение. Если объем выборки увеличивается произвольно до N, то хи2 =… …

    Плотность вероятности … Википедия

    - (Распределение Снедекора) Плотность вероятности … Википедия

    Распределение Фишера Плотность вероятности Функция распределения Параметры числа с … Википедия

    Одно из основных понятий вероятностей теории и математической статистики. При современном подходе в качестве математич. модели изучаемого случайного явления берется соответствующее вероятностное пространство{W, S, Р}, где W множество элементарных … Математическая энциклопедия

    Гамма распределение Плотность вероятности Функция распределения Параметры … Википедия

    РАСПРЕДЕЛЕНИЕ F - Теоретическое вероятностное распределение случайной переменной F. Если случайные выборки размера N отобраны независимо из нормальной популяции, каждая из них генерирует распределение хи квадрат со степенью свободы = N. Отношение двух таких… … Толковый словарь по психологии

Книги

  • Теория вероятностей и математическая статистика в задачах: Более 360 задач и упражнений , Борзых Д.. В предлагаемом пособии содержатся задачи различного уровня сложности. Однако основной акцент сделан на задачах средней сложности. Это сделано намеренно с тем, чтобы побудить студентов к…
  • Теория вероятностей и математическая статистика в задачах. Более 360 задач и упражнений , Борзых Д.А.. В предлагаемом пособии содержатся задачи различного уровня сложности. Однако основной акцент сделан на задачах средней сложности. Это сделано намеренно с тем, чтобы побудить студентов к…

В настоящей заметке χ 2 -распределение используется для проверки согласованности набора данных с фиксированным распределением вероятностей. В критерии согласия часто ты, принадлежащие определенной категории, сравниваются с частотами, которые являются теоретически ожидаемыми, если бы данные действительно имели указанное распределение.

Проверка с помощью критерия согласия χ 2 выполняется в несколько этапов. Во-первых, определяется конкретное распределение вероятностей, которое сравнивается с исходными данными. Во-вторых, выдвигается гипотеза о параметрах выбранного распределения вероятностей (например, о ее математическом ожидании) или проводится их оценка. В-третьих, на основе теоретического распределения определяется теоретическая вероятность, соответствующая каждой категории. В заключение, для проверки согласованности данных и распределения применяется тестовая χ 2 -статистика:

где f 0 - наблюдаемая частота, f е - теоретическая, или ожидаемая частота, k - количество категорий, оставшихся после объединения, р - количество оцениваемых параметров.

Скачать заметку в формате или , примеры в формате

Использование χ 2 -критерия согласия для распределения Пуассона

Для расчета по этой формуле в Excel удобно воспользоваться функцией =СУММПРОИЗВ() (рис. 1).

Для оценки параметра λ можно воспользоваться оценкой . Теоретическую частоту X успехов (Х = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 и более), соответствующую параметру λ = 2,9 можно определить с помощью функции =ПУАССОН.РАСП(Х;;ЛОЖЬ). Умножив пуассоновскую вероятность на объем выборки n , получим теоретическую частоту f e (рис. 2).

Рис. 2. Фактические и теоретические частоты прибытий в минуту

Как следует из рис. 2, теоретическая частота девяти и более прибытий не превосходит 1,0. Для того чтобы каждая категория содержала частоту, равную 1,0 или большему числу, категорию «9 и более» следует объединить с категорией «8». То есть, остается девять категорий (0, 1, 2, 3, 4, 5, 6, 7, 8 и более). Поскольку математическое ожидание распределения Пуассона определяется на основе выборочных данных, количество степеней свободы равно k – р – 1 = 9 – 1 – 1 = 7. Используя уровень значимости, равный 0,05 находим критическое значение χ 2 -статистики, имеющей 7 степеней свободы по формуле =ХИ2.ОБР(1-0,05;7) = 14,067. Решающее правило формулируется следующим образом: гипотеза Н 0 отклоняется, если χ 2 > 14,067, в противном случае гипотеза Н 0 не отклоняется.

Для расчета χ 2 воспользуемся формулой (1) (рис. 3).

Рис. 3. Расчет χ 2 -критерия согласия для распределения Пуассона

Так как χ 2 = 2,277 < 14,067, следует, что гипотезу Н 0 отклонять нельзя. Иначе говоря, у нас нет оснований утверждать, что прибытие клиентов в банк не подчиняется распределению Пуассона.

Применение χ 2 -критерия согласия для нормального распределения

В предыдущих заметках при проверке гипотез о числовых переменных использовалось предположение о том, что исследуемая генеральная совокупность имеет нормальное распределение. Для проверки этого предположения можно применять графические средства, например, блочную диаграмму или график нормального распределения (подробнее см. ). При больших объемах выборок для проверки этих предположений можно использовать χ 2 -критерий согласия для нормального распределения.

Рассмотрим в качестве примера данные о 5-летней доходности 158 инвестиционных фондов (рис. 4). Предположим, требуется поверить, имеют ли эти данные нормальное распределение. Нулевая и альтернативная гипотезы формулируются следующим образом: Н 0 : 5-летняя доходность подчиняется нормальному распределению, Н 1 : 5-летняя доходность не подчиняется нормальному распределению. Нормальное распределение имеет два параметра - математическое ожидание μ и стандартное отклонение σ, которые можно оценить на основе выборочных данных. В данном случае = 10,149 и S = 4,773.

Рис. 4. Упорядоченный массив, содержащий данные о пятилетней среднегодовой доходности 158 фондов

Данные о доходности фондов можно сгруппировать, разбив, например на классы (интервалы) шириной 5% (рис. 5).

Рис. 5. Распределение частот для пятилетней среднегодовой доходности 158 фондов

Поскольку нормальное распределение является непрерывным, необходимо определить площадь фигур, ограниченных кривой нормального распределения и границами каждого интервала. Кроме того, поскольку нормальное распределение теоретически изменяется от –∞ до +∞, необходимо учитывать площадь фигур, выходящих за пределы классов. Итак, площадь, лежащая под нормальной кривой слева от точки –10, равна площади фигуры, лежащей под стандартизованной нормальной кривой слева от величины Z, равной

Z = (–10 – 10,149) / 4,773 = –4,22

Площадь фигуры, лежащей под стандартизованной нормальной кривой слева от величины Z = –4,22 определяется по формуле =НОРМ.РАСП(-10;10,149;4,773;ИСТИНА) и приближенно равна 0,00001. Для того чтобы вычислить площадь фигуры, лежащей под нормальной кривой между точками –10 и –5, сначала необходимо вычислить площадь фигуры, лежащей слева от точки –5: =НОРМ.РАСП(-5;10,149;4,773;ИСТИНА) = 0,00075. Итак, площадь фигуры, лежащей под нормальной кривой между точками –10 и –5, равна 0,00075 – 0,00001 = 0,00074. Аналогично можно вычислить площадь фигуры, ограниченной границами каждого класса (рис. 6).

Рис. 6. Площади и ожидаемые частоты для каждого класса 5-летней доходности

Видно, что теоретические частоты в четырех крайних классах (два минимальных и два максимальных) меньше 1, поэтому проведем объединение классов, как показано на рис 7.

Рис. 7. Вычисления, связанные с применением χ 2 -критерия согласия для нормального распределения

Используем χ 2 -критерий согласия данных с нормальным распределением с помощью формулы (1). В нашем примере после объединения остаются шесть классов. Поскольку математическое ожидание и стандартное отклонение оцениваются на основе выборочных данных, количество степеней свободы равно k p – 1 = 6 – 2 – 1 = 3. Используя уровень значимости, равный 0,05, находим, что критическое значение χ 2 -статистики, имеющее три степени свободы =ХИ2.ОБР(1-0,05;F3) = 7,815. Вычисления, связанные с применением χ 2 -критерия согласия, приведены на рис. 7.

Видно, что χ 2 -статистика = 3,964 < χ U 2 7,815, следовательно гипотезу Н 0 отклонять нельзя. Иначе говоря, у нас нет оснований утверждать, что 5-летняя доходность инвестиционных фондов, ориентированных на быстрый рост, не подчиняется нормальному распределению.

В нескольких последних заметках рассмотрены разные подходы к анализу категорийных данных. Описаны методы проверки гипотез о категорийных данных, полученных на основе анализа двух или нескольких независимых выборок. Кроме критериев «хи-квадрат», рассмотрены непараметрические процедуры. Описан ранговый критерий Уилкоксона, который используется в ситуациях, когда не выполняются условия применения t -критерия для поверки гипотезы о равенстве математических ожиданий двух независимых групп, а также критерий Крускала-Уоллиса, который является альтернативой однофакторному дисперсионному анализу (рис. 8).

Рис. 8. Структурная схема методов проверки гипотез о категорийных данных

Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 763–769




Top