Электромонтаж Ремонт и отделка Укладка напольных покрытий, теплые полы Тепловодоснабжение

Критерий Краскела — Уоллиса

12.06.2022

Критерий Краскела — Уоллиса предназначен для проверки равенства медиан нескольких выборок. Данный критерий является многомерным обобщением критерия Уилкоксона — Манна — Уитни. Критерий Краскела — Уоллиса является ранговым, поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения.

Известен также под названиями: H-критерий Краскела — Уоллиса, однофакторный дисперсионный анализ Краскела — Уоллиса (англ. Kruskal — Wallis one-way analysis of variance), тест Крускала — Уоллиса (англ. Kruskal — Wallis test). Назван в честь американских математиков Уильяма Краскела и Аллена Уоллиса.

Примеры задач

Проходит чемпионат мира по футболу. Первая выборка — опрос болельщиков с вопросом «Каковы шансы на победу сборной России?» до начала чемпионата. Вторая выборка —- после первой игры, третья — после второго матча и т. д. Значения в выборках — шансы России на победу по десятибалльной шкале (1 —- «никаких перспектив», 10 — «отвезти в Россию кубок —- дело времени»). Требуется проверить, зависят ли результаты опросов от хода чемпионата.

Описание критерия

Заданы k {displaystyle k} выборок:

x 1 n 1 = { x 11 , … , x 1 n 1 } , … , x k n k = { x k 1 , … , x k n k } {displaystyle x_{1}^{n_{1}}={x_{11},;ldots ,;x_{1n_{1}}},;ldots ,;x_{k}^{n_{k}}={x_{k1},;ldots ,;x_{kn_{k}}}} .

Объединённая выборка будет иметь вид:

x = x 1 n 1 ∪ x 2 n 2 ∪ … ∪ x k n k . {displaystyle x=x_{1}^{n_{1}}cup x_{2}^{n_{2}}cup ldots cup x_{k}^{n_{k}}.}

Дополнительные предположения:

  • все выборки простые, объединённая выборка независима;
  • выборки взяты из неизвестных непрерывных распределений F 1 ( x ) , … , F k ( x ) {displaystyle F_{1}(x),;ldots ,;F_{k}(x)} .
  • Проверяется нулевая гипотеза H 0 : F 1 ( x ) = … = F k ( x ) {displaystyle H_{0}colon F_{1}(x)=ldots =F_{k}(x)} при альтернативе H 1 : F 1 ( x ) = F 2 ( x − Δ 1 ) = … = F k ( x − Δ k − 1 ) {displaystyle H_{1}colon F_{1}(x)=F_{2}(x-Delta _{1})=ldots =F_{k}(x-Delta _{k-1})} .

    Упорядочим все N = ∑ i = 1 k n i {displaystyle N=sum _{i=1}^{k}n_{i}} элементов выборок по возрастанию и обозначим R i j {displaystyle R_{ij}} ранг j {displaystyle j} -го элемента i {displaystyle i} -й выборки в полученном вариационном ряду.

    Статистика критерия Краскела — Уоллиса для проверки гипотезы о наличии сдвига в параметрах положения двух сравниваемых выборок имеет вид:

    H = ∑ i = 1 k ( 1 − n i N ) { R ¯ i − N + 1 2 ( N − n i ) ( N + 1 ) 12 n i } 2 = 12 N ( N + 1 ) ∑ i = 1 k n i ( R ¯ i − N + 1 2 ) 2 = {displaystyle H=sum _{i=1}^{k}left(1-{frac {n_{i}}{N}} ight)left{{frac {{ar {R}}_{i}-{dfrac {N+1}{2}}}{sqrt {dfrac {(N-n_{i})(N+1)}{12n_{i}}}}} ight}^{2}={frac {12}{N(N+1)}}sum _{i=1}^{k}n_{i}left({ar {R}}_{i}-{frac {N+1}{2}} ight)^{2}=} = 12 N ( N + 1 ) ∑ i = 1 k R i 2 n i − 3 ( N + 1 ) {displaystyle ={frac {12}{N(N+1)}}sum _{i=1}^{k}{frac {R_{i}^{2}}{n_{i}}}-3(N+1)} ,

    где

    R i = ∑ j = 1 n i R i j {displaystyle R_{i}=sum _{j=1}^{n_{i}}R_{ij}} ; R ¯ i = 1 n i R i {displaystyle {ar {R}}_{i}={frac {1}{n_{i}}}R_{i}} .

    Гипотеза сдвига отклоняется на уровне значимости α {displaystyle alpha } , если H ⩾ H α {displaystyle Hgeqslant H_{alpha }} , где H α {displaystyle H_{alpha }} — критическое значение, при k ⩽ 5 {displaystyle kleqslant 5} и n i ⩽ 8 {displaystyle n_{i}leqslant 8} вычисляемое по таблицам. При больших значениях применимы различные аппроксимации.

    Аппроксимация Краскела — Уоллиса

    Пусть

    M = N 3 − ∑ i = 1 k n i 3 N ( N + 1 ) {displaystyle M={frac {N^{3}-displaystyle {sum _{i=1}^{k}n_{i}^{3}}}{N(N+1)}}} ; ν 1 = ( k − 1 ) ( k − 1 ) ( M − k + 1 ) − V 1 2 M V {displaystyle u _{1}=(k-1){frac {(k-1)(M-k+1)-V}{{dfrac {1}{2}}MV}}} ; ν 2 = M − k + 1 k − 1 ν 1 {displaystyle u _{2}={frac {M-k+1}{k-1}} u _{1}} ; V = 2 ( k − 1 ) − 2 { 3 k 2 − 6 k + N ( 2 k 2 − 6 k + 1 ) } 5 N ( N + 1 ) − 6 5 ∑ i = 1 k 1 n i {displaystyle V=2(k-1)-{frac {2left{3k^{2}-6k+N(2k^{2}-6k+1) ight}}{5N(N+1)}}-{frac {6}{5}}sum _{i=1}^{k}{frac {1}{n_{i}}}} .

    Тогда статистика F = H ( M − k + 1 ) ( k − 1 ) ( M − H ) {displaystyle F={frac {H(M-k+1)}{(k-1)(M-H)}}} будет иметь при отсутствии сдвига F {displaystyle F} -распределение с ν 1 {displaystyle u _{1}} и ν 2 {displaystyle u _{2}} степенями свободы. Таким образом, нулевая гипотеза отклоняется на уровне значимости α {displaystyle alpha } , если F > F α ( ν 1 , ν 2 ) {displaystyle F>F_{alpha }( u _{1},; u _{2})} .

    Аппроксимация Имана — Давенпорта

    В соответствии с ней нулевая гипотеза сдвига отклоняется с достоверностью α {displaystyle alpha } , если J ⩾ J α {displaystyle Jgeqslant J_{alpha }} , где J = H 2 ( 1 + N − k N − 1 − H ) {displaystyle J={frac {H}{2}}left(1+{frac {N-k}{N-1-H}} ight)} ; J α = { ( k − 1 ) F α ( k − 1 ; N − k ) + χ α 2 ( k − 1 ) } {displaystyle J_{alpha }=left{(k-1)F_{alpha }(k-1;;N-k)+chi _{alpha }^{2}(k-1) ight}} , F α ( f 1 ; f 2 ) {displaystyle F_{alpha }(f_{1};;f_{2})} и χ α 2 ( a ) {displaystyle chi _{alpha }^{2}(a)} — соответственно критические значения статистик Фишера и хи-квадрат с соответствующими степенями свободы.

    Это более точная аппроксимация, чем аппроксимация Краскела — Уоллиса. При наличии связанных рангов (то есть когда совпадают значения величин из разных выборок и им присваиваются одинаковые средние ранги) необходимо использовать модифицированную статистику H ∗ = H { 1 − ( ∑ j = 1 q T j N 3 − N ) } − 1 {displaystyle H^{*}=Hleft{1-left(sum _{j=1}^{q}{frac {T_{j}}{N^{3}-N}} ight) ight}^{-1}} , где T j = t j 3 − t j {displaystyle T_{j}=t_{j}^{3}-t_{j}} ; t j {displaystyle t_{j}} — размер j {displaystyle j} -й группы одинаковых элементов; q {displaystyle q} — количество групп одинаковых элементов. При n i ⩾ 20 {displaystyle n_{i}geqslant 20} справедлива аппроксимация распределения статистики H {displaystyle H} ; χ 2 {displaystyle chi ^{2}} -распределением с f = k − 1 {displaystyle f=k-1} степенями свободы, то есть нулевая гипотеза отклоняется, если H ⩾ χ α 2 ( k − 1 ) {displaystyle Hgeqslant chi _{alpha }^{2}(k-1)} .


    Имя:*
    E-Mail:
    Комментарий: