Hvad er Wilcoxon- og Mann-Whitney-tests
Mann-Whitney- og Wilcoxon-testen er ikke-parametriske procedurer til at sammenligne to grupper. De besvarer det samme spørgsmål som t-testen — adskiller de to grupper sig? — men uden at kræve, at data følger en normalfordeling.
Ordet "ikke-parametrisk" betyder, at testen ikke afhænger af parametre som gennemsnit og standardafvigelse i en normalkurve. I stedet for at arbejde med de oprindelige værdier arbejder disse tests med rækkefølgen af værdierne — de såkaldte rangordener (eller ranks). Det er nøgleidéen: hvis du sorterer alle data fra mindst til størst, og én gruppe systematisk ligger på de højeste pladser, er der evidens for, at den gruppe har en tendens til at have større værdier.
Fordi de arbejder med pladser, ikke med selve målingerne, er disse tests robuste over for ekstreme værdier og fungerer godt selv med små stikprøver eller med ordinale data (karakterer fra 1 til 5, tilfredshedsgrader, smerteskalaer). De er i praksis de mest brugte alternativer til t-testen, når dens antagelser ikke holder.
Denne beregner dækker begge scenarier: Mann-Whitney testen til to uafhængige grupper og Wilcoxons test af fortegnsrangordener til parrede stikprøver (de samme enheder målt to gange).
Navnene forklaret
Navngivningen af disse tests forvirrer mange, fordi navnet "Wilcoxon" optræder flere steder. Det er værd at gennemgå roligt:
- Mann-Whitney testen (eller Mann-Whitneys U): sammenligner to uafhængige grupper. Den blev foreslået af Henry Mann og Donald Whitney i 1947 som en generalisering af en tidligere idé fra Frank Wilcoxon. Derfor kaldes den også Wilcoxons rangsumstest — de to navne betegner præcis samme test og giver samme p-værdi.
- Wilcoxons test af fortegnsrangordener: sammenligner to parrede målinger på de samme individer. Den er det ikke-parametriske svar på den parrede t-test. "Fortegns" kommer af, at testen tager højde for fortegnet af hver forskel (om den steg eller faldt).
Kort sagt: "rangsum" er testen for uafhængige grupper (Mann-Whitney); "fortegnsrangordener" er testen for parrede data (parret Wilcoxon). At vælge mellem dem er samme valg som mellem t-testen for to stikprøver og den parrede t-test — det afhænger af, om data er målt på samme enheder eller ej.
Hvornår skal de bruges
Wilcoxon og Mann-Whitney er det ikke-parametriske alternativ til t-testen. Overvej at bruge dem, når:
- Data ikke er normalfordelte. Skæve fordelinger, lange haler eller flere toppunkter bryder t-testens antagelse om normalitet. Rangtests gør ikke den antagelse.
- Der er ekstreme værdier (outliers). Da beregningen bruger pladser og ikke selve værdierne, forvrænger et meget stort eller meget lille tal ikke resultatet i samme grad, som det ville forvrænge et gennemsnit.
- Stikprøven er lille. Med få data er det svært at tjekke normalitet, og t-testen bliver sårbar. Rangtests er et mere sikkert valg.
- Data er ordinale. Når variablen er en orden eller en skala (tilfredshed, grad af enighed, smerteniveau), giver det mening at sammenligne pladser, ikke gennemsnit.
Når t-testens antagelser er rimelige, så foretræk t-testen: den har en smule mere styrke til at opdage reelle forskelle. Rangtests brillerer netop, når disse antagelser brydes — og selv her mister de oftest meget lidt styrke.
Hvis du skal sammenligne tre eller flere grupper uden antagelse om normalfordeling, er vejen Kruskal-Wallis testen, der findes i k-stikprøver beregneren.
Sådan fungerer de
Mekanikken i de to tests starter med samme idé: erstat værdierne med deres rangordener. Rangordener er datas pladser, når alt er sorteret fra mindst til størst — den mindste værdi får rang 1, den næste rang 2, og så videre. Når der er ens værdier (ties), får de alle den gennemsnitlige rang for de pladser, de ville have indtaget.
I Mann-Whitney testen (uafhængige grupper) lægges de to grupper sammen, alt sorteres, og rangordenerne fra hver gruppe summeres. Ud fra denne sum beregnes U-teststørrelsen, som måler graden af overlap mellem grupperne:
I den parrede Wilcoxon-test beregnes forskellen for hvert par, disse forskelle sorteres efter den absolutte værdi, og rangordenerne for henholdsvis de positive og negative forskelle summeres separat. W-teststørrelsen er den mindste af de to summer. Forskelle, der er præcis nul, fjernes.
For at finde p-værdien konverterer denne beregner til sidst U eller W til en z-score ved hjælp af normalapproksimationen — gyldig fordi fordelingen af U og W med rimelig stikprøvestørrelse nærmer sig normalfordelingen:
Z-scoren oversættes derefter til en p-værdi via normalkurven. En lille p-værdi viser, at det observerede overlap mellem grupperne ville være usandsynligt, hvis de to kom fra samme fordeling.
Sådan tolker du resultatet
Beregneren returnerer et kort med konklusionen og nogle nøgletal. De vigtigste:
- U- eller W-teststørrelse — det numeriske resumé af overlappet mellem grupperne (U for uafhængige stikprøver, W for parrede). Alene siger den lidt; den skal sammenlignes med fordelingen.
- Z-teststørrelse — den standardiserede teststørrelse, der bruges i normalapproksimationen.
- P-værdi — sandsynligheden for at observere en så stor forskel ved et tilfælde, hvis de to grupper kom fra samme fordeling. Hvis den er mindre end signifikansniveauet (normalt 0,05), er resultatet signifikant.
- Medianer (uafhængig tilstand) — medianen for hver gruppe hjælper med at se retningen af forskellen: hvilken gruppe der har en tendens til større værdier.
- Stikprøvestørrelser — antallet af observationer brugt i testen.
Konklusionen er direkte: hvis p-værdien er under signifikansniveauet, er der en statistisk signifikant forskel mellem grupperne — de kommer sandsynligvis fra forskellige fordelinger. Ellers er der ikke tilstrækkelig evidens til at sige, at de adskiller sig.
Strengt taget sammenligner disse tests de to gruppers fordelinger. Kun når fordelingerne har samme form, kan konklusionen læses som en sammenligning af medianer. Derfor viser beregneren medianerne: de giver den mest almindelige praktiske aflæsning. Husk også, at p-værdien her bruger normalapproksimationen — med meget små stikprøver skal resultatet behandles som vejledende.
Gennemregnet eksempel
En forsker sammenligner tilfredshedsscoren hos kunder i to butikker. Butik A fik karaktererne 12, 15, 14, 18, 11, 16; Butik B fik 20, 22, 19, 25, 21, 23. Da det er forskellige kunder, er den rette test Mann-Whitney. Adskiller karaktererne sig mellem butikkerne?
- Sortér og tildel rangordener: ved at sammenlægge de 12 værdier og sortere ligger karaktererne fra Butik A (11 til 18) på de laveste pladser, og dem fra Butik B (19 til 25) på de højeste. Summen af rangordener for Butik A er 1+2+3+4+5+6 = 21; for Butik B er det 7+8+9+10+11+12 = 57.
- U-teststørrelse: U₁ = 21 − 6·7÷2 = 0 og U₂ = 6·6 − 0 = 36. Testen bruger U = 0 — der er intet overlap mellem grupperne.
- Normalapproksimation: med n₁ = n₂ = 6 er den forventede middelværdi for U 18, og standardfejlen ≈ 6,24, hvilket giver en z-score ≈ −2,88.
- P-værdi: for z ≈ −2,88 er den tosidede p-værdi ≈ 0,004.
Da 0,004 < 0,05, er forskellen statistisk signifikant: tilfredsheden adskiller sig mellem butikkerne, hvor Butik B systematisk viser højere karakterer (median 21,5 mod 14,5 for Butik A). Brug knappen "Brug eksempeldata" for at se beregningen i beregneren.
Ofte stillede spørgsmål
Hvad er forskellen på Wilcoxon- og Mann-Whitney-testen?
Mann-Whitney testen sammenligner to uafhængige grupper — forskellige personer i hver gruppe. Wilcoxons test af fortegnsrangordener sammenligner to målinger på de samme individer, fx før og efter en intervention. Det er det samme valg, som man har mellem t-testen for to stikprøver og den parrede t-test.
Hvornår skal jeg bruge en ikke-parametrisk test?
Når data ikke følger en normalfordeling, når der er ekstreme værdier, når stikprøven er lille, eller når variablen er ordinal. I de tilfælde er Wilcoxon og Mann-Whitney mere pålidelige end t-testen.
Hvad er Mann-Whitneys U-teststørrelse?
Det er et tal, der måler, hvor meget rangordenerne fra én gruppe overlapper dem fra den anden. Når de to grupper blander sig meget, ligger U tæt på den forventede værdi; når én gruppe dominerer de høje pladser, ligger U yderst — et tegn på forskel mellem grupperne.
Sammenligner disse tests gennemsnit eller medianer?
Teknisk set sammenligner de hele fordelingerne via rangordener. Når de to fordelinger har samme form, kan resultatet tolkes som en sammenligning af medianer — den mest almindelige praktiske aflæsning.
Skal jeg antage normalfordeling?
Nej. Det er hovedfordelen ved ikke-parametriske tests: de arbejder med værdiernes rækkefølge (rangordener) og ikke med selve målingerne, så de kræver ikke, at data følger en normalkurve.
Hvor mange data skal der til?
Denne beregner kræver mindst 2 værdier pr. gruppe. Da p-værdien bruger normalapproksimationen, gør stikprøver med omkring 8 til 10 observationer eller flere resultatet mere pålideligt. Med meget små stikprøver bør p-værdien tolkes som vejledende.