💳 🥦 🙏🏼 Statistisch belastbare Datenanalyse: Mann-Whitney-Wilcoxon-Test und Score-Funktionen ❕ 🥄 💃

Dieser Artikel baut auf den Ideen auf und erweitert die in der vorherigen Veröffentlichung beschriebenen Methoden. Statistisch robuste Datenanalyse: Der Wilcoxon-Test für zwei Proben. Dies ist ein einfaches, aber weit verbreitetes Modell, da Ziele auch in komplexeren Situationen häufig auf zwei Ebenen verglichen werden.

Die Analyse des Modells über die Verschiebung der Parameter der Position zweier allgemeiner Populationen beginnt mit einer Beschreibung des verteilungsfreien Mann-Whitney-Wilcoxon (MWW) -Rangverfahrens, hier sind Punkt- und Intervallschätzungen für die Größe der Verschiebung gebaut. Ferner wird die auf der Verwendung von Bewertungsfunktionen basierende Analysemethode kurz beschrieben und mit ihrer Hilfe auch die Nullhypothese über die Größe des Verschiebungsparameters getestet. Zusammenfassend wird das Modell für den Positionsparameter als Regressionsproblem formuliert, dessen Lösung es auch ermöglicht, Punkt- und Intervallschätzungen für den Verschiebungsparameter zu erstellen.

Alle im Artikel beschriebenen Methoden werden anhand eines End-to-End-Beispiels veranschaulicht, das in Form von Algorithmen in der R-Sprache implementiert ist.

1. Sei und sei zwei kontinuierliche Zufallsvariablen: F (t) und f (t) bezeichne die Funktion (cdf) und Dichte (pdf) der Verteilung der Zufallsvariablen und G (t) und g (t) bezeichne die Funktion (cdf) bzw. Dichte (pdf) der Zufallsvariablen . Wir sagen das und folgen dem Modell des Positionsparameters (Standortmodell), falls für einen Parameter $\ Delta$ , $- \ infty <\ Delta <\ infty$ haben

$G (t) = F (t- \ Delta), ~~~~ g (t) = f (t- \ Delta).$

Ein Parameter $\ Delta$ ist eine Verschiebung des Positionsparameters von Zufallsvariablen und kann beispielsweise die Differenz zwischen Medianen oder Durchschnittswerten sein (wenn Durchschnittswerte vorhanden sind). Beachten Sie, dass das vorgeschlagene Modell die Gleichheit der Parameter der Skala der Zufallsvariablen und voraussetzt .

2. , . $X_1, \ ldots, X_ {n_1}$ – ( cdf pdf F (t) f (t) ), $Y_1, \ ldots, Y_ {n_2}$ – ( cdf pdf $F (t- \ Delta)$ $f (t- \ Delta)$ ). n = n_1 + n_2 – $X_1, \ ldots, X_ {n_1}, Y_1, \ ldots, Y_ {n_2}$ .

$H_0: \ Delta = 0, ~~~ H_a: \ Delta \ neq0.$

( ) , $\ Delta$ : .

3. , . – . , , . . .

> z <- c(12, 18, 11, 5, 11, 5, 11, 11)
> rank(z)

[1] 7.0 8.0 4.5 1.5 4.5 1.5 4.5 4.5

R (Y_i) Y_i , $X_1, \ ldots, X_ {n_1}, Y_1, \ ldots, Y_ {n_2}$ .

$T = \ sum_ {i = 1} ^ {n_2} R (Y_i)$

-- (Mann-Whitney-Wilcoxon, MWW). $n_1 \ cdot n_2$ $\ left \ {Y_j-X_i \ right \}$ T ^ + – ,

$T ^ + = \ #_ {i, j} \ {Y_j-X_i> 0 \}.$

$T ^ + = T- \ frac {n_2 (n_2 + 1)} {2}.$

, H_0 . $H_0: \ Delta = 0$ , (, , n_2 $1 / C_n ^ {n_2}$ ). , H_0 () p-value ( ).

4. $\ Delta$ -- , $N_d = n_1 \ cdot n_2$ ( - (Hodges-Lehmann))

$\ hat {\ Delta} _W = \ mbox {med} _ {i, j} \ {Y_j-X_i \}.$

$D _ {(1)} <D _ {(2)} <\ cdots <D _ {(N_d)}$ . $1- \ alpha$ – $\ alpha / 2$ T ^ + , $\ alpha / 2 = P_ {H_0} [T ^ + \ leq c]$ , $\ left (D _ {(c + 1)}, D _ {(N_d-c)} \ right)$ $(1- \ alpha) 100 \%$ $\ Delta$ .

$c = \ frac {n_1n_2-1} {2} -z _ {\ alpha / 2} \ sqrt {\ frac {n_1n_2 (n + 1)} {12},}$

5. -- t- c fünf $\ Delta = 8$ .

> x <- round(rt(11, 5) * 10 + 42, 1)
> y <- round(rt(9, 5) * 10 + 50, 1)
> x
 [1] 76.6 41.0 59.3 34.9 29.1 45.0 42.6 31.1 32.4 52.5 47.9
> y
 [1] 58.3 47.2 40.1 45.8 62.0 58.7 64.8 48.1 49.5

> wilcox.test(y, x, exact = TRUE, conf.int = TRUE, conf.level = 0.95)

	Wilcoxon rank sum exact test

data:  y and x
W = 72, p-value = 0.09518
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
 -1.0 18.4
sample estimates:
difference in location 
                  10.4

: T ^ + = 72 p-value 0,09518 (-1,18,4) $\ Delta = 8$ , $\ hat {\ Delta} _W = 10.4$ , $95 \%$ . p-value T ^ + (n <50) «». exact = FALSE

correct = FALSE

( ) , . p-value 0,08738 .

> wilcox.test(y, x, exact = FALSE, correct = FALSE)

	Wilcoxon rank sum test

data:  y and x
W = 72, p-value = 0.08738
alternative hypothesis: true location shift is not equal to 0

6. $a_ \ varphi (i) = \ varphi (i / (n + 1))$ , $\ varphi (u)$ (score ) (0,1)

$\ int_0 ^ 1 \ varphi (u) du = 0, ~~~ \ int_0 ^ 1 \ varphi ^ 2 (u) du = 1.$

, $\ varphi_ {Ns} (u) = \ Phi ^ {- 1} (u)$ , $\ Phi ^ {- 1} (u)$ – , cdf N (0,1) . $a_ {Ns}$ $\ varphi_ {Ns}$ (Normal score function) , , . , normal score rankit, standard score z-score. normal score, score , $\ varphi_W (u) = \ sqrt {12} [u- (1/2)]$ score .

$\ Delta$ :

$S_ \ varphi (\ Delta) = \ sum_ {j = 1} ^ {n_2} a \ varphi [R (Y_j- \ Delta)],$

$a_ \ varphi$ – score , $R (Y_j- \ Delta)$ – $Y_j- \ Delta$ $X_1, \ ldots, X_ {n_1}$ $Y_1- \ Delta, \ ldots, Y_ {n_2} - \ Delta$ . , $S_ \ varphi = S_ \ varphi (0)$ :

$H_0: \ Delta = 0, ~~~ H_a: \ Delta> 0.$

H_0 , , , $S_ \ varphi$ () .

$S_ \ varphi$ , . H_0 $S_ \ varphi (0)$ , :

$E_ {H_0} [S \ varphi (0)] = 0, ~~~ \ sigma ^ 2_ \ varphi = Var_ {H_0} [S_ \ varphi (0)] = \ frac {n_1n_2} {n (n-1) } \ sum_ {i = 1} ^ na_ \ varphi ^ 2 (i).$

$z_ \ varphi = S_ \ varphi (0) / \ sigma_ \ varphi$ H_0 $\ alpha$ , $z_ \ varphi \ geq z_ \ alpha$ , $z_ \ alpha$ – $(1- \ alpha)$ . .

7. R $z_ \ varphi$ p-value score ( Rfit

).

> x <- c(76.6, 41.0, 59.3, 34.9, 29.1, 45.0, 42.6, 31.1, 32.4, 52.5, 47.9)
> y <- c(58.3, 47.2, 40.1, 45.8, 62.0, 58.7, 64.8, 48.1, 49.5)
> #   x  y
>   z = c(x, y)
>   n1 = length(x)
>   n2 = length(y)
>   n = n1 + n2

> #    score   
>   scores = Rfit::wscores 

> #   score     z 
>   rs = rank(z)/(n + 1)
>   asg = Rfit::getScores(scores, rs)

> #    Sphi     
>   Sphi = sum(asg[(n1 + 1):n])

> #   Sphi
>   asc = Rfit::getScores(scores, 1:n/(n + 1))
>   varphi = ((n1 * n2)/(n * (n - 1))) * sum(asc^2)

> #   zphi  p-value 
>   zphi = Sphi/sqrt(varphi)
>   alternative = "two.sided"
>   pvalue <-
+     switch(
+     alternative,
+     two.sided = 2 * (1 - pnorm(abs(zphi))),
+     less = pnorm(zphi),
+     greater = 1 - pnorm(zphi)
+   )

> #  
>   res <- list(Sphi = Sphi, statistic = zphi, p.value = pvalue)
>   with(res, cat("statistic = ", statistic, ", p-value = ", p.value, "\n"))

statistic =  1.709409 , p-value =  0.08737528

, T ^ + = 72 p-value 0,0952 z_W = 1,71 p-value 0,0874 : $fünf\%$ $zehn\%$ .

8. C . $\ bar {Z} = (X_1, \ ldots, X_ {n_1}, Y_1, \ ldots, Y_ {n_2}) ^ T.$ , $\ bar {c}$ – $n \ times1$ ich - $1 \ leq i \ leq n_1$ einer $n_1 + 1 \ leq i \ leq n = n_1 + n_2$ .

$Z_i = \ alpha + c_i \ Delta + e_i,$

$e_1, \ ldots, e_n$ – , f (t) . , $\ Delta$ . - $\ Delta$ $\ bar {Y} - \ bar {X}$ . , score , $\ Delta$ - – .

R .

> z = c(x, y)
> ci <- c(rep(0, n1), rep(1, n2))
> fit <- Rfit::rfit(z ~ ci, scores = Rfit::wscores)
> coef(summary(fit))

            Estimate Std. Error  t.value      p.value
(Intercept)     41.8   4.400895 9.498068 1.960951e-08
ci              10.4   5.720594 1.817993 8.574801e-02

, 10.4 5.72 . , , , $95 \%$ $\ Delta$ , 1-0.05 / 2 t- n-2 :

> conf.level <- 0.95
> estse <- coef(summary(fit))[2, 1:2]
> alpha <- 1 - conf.level
> alternative = "two.sided"
> tcvs <- switch(
+   alternative,
+   two.sided = qt(1 - alpha / 2, n - 2) * c(-1, 1),
+   less = c(-Inf, qt(1 - alpha, n - 2)),
+   greater = c(qt(alpha, n - 2), Inf)
+ )
> conf.int <- estse[1] + tcvs * estse[2]
> cat(100 * conf.level, " percent confidence interval:\n", conf.int)

95  percent confidence interval:
 -1.618522 22.41852

(-1,62,22,42) (-1,18,4) , .

( -- score ) . .

Statistisch belastbare Datenanalyse: Mann-Whitney-Wilcoxon-Test und Score-Funktionen

More articles: