ANOVA og k-stikprøver beregner

Sammenlign tre eller flere grupper på én gang og find ud af, om et af gennemsnittene skiller sig ud — med envejs-ANOVA (parametrisk) eller Kruskal-Wallis testen (ikke-parametrisk).

Beregn sammenligningen af k grupper

Vælg analysetype, indsæt værdierne for hver gruppe og se, om forskellene mellem gennemsnittene er statistisk signifikante.

Analysetype
Dine grupper

Indsæt værdierne for hver gruppe adskilt af mellemrum, komma eller linjeskift.

Indstillinger

Hvad vil det sige at sammenligne k stikprøver

Mange forskningsspørgsmål involverer mere end to grupper. Giver tre undervisningsmetoder forskellige karakterer? Giver fire gødninger forskellige høstudbytter? Har fem versioner af en salgsside forskellige opholdstider? I alle disse tilfælde vil du sammenligne k grupper — hvor k er tre, fire, fem eller flere — og finde ud af, om gennemsnittene faktisk er forskellige, eller om den observerede variation bare er tilfældig stikprøveudsving.

T-testen håndterer fint sammenligningen af to grupper. Men fra tre og opefter holder den op med at være det rigtige værktøj — og grunden er mere alvorlig, end den lyder. Denne beregner tilbyder de to korrekte tests til k-stikprøveproblemet: envejs-ANOVA, der er parametrisk, og Kruskal-Wallis testen, der er ikke-parametrisk. Begge arbejder på præcis de samme data — du skal blot skifte analysetype øverst i beregneren.

Spørgsmålet, de begge svarer på, er det samme: findes der mindst én gruppe, hvis fordeling adskiller sig fra de andre? Forskellen ligger i de antagelser, hver test kræver, som vi ser længere nede.

Hvorfor ikke køre flere t-tests

Fristelsen er naturlig: med tre grupper A, B og C — hvorfor ikke køre tre t-tests, A mod B, A mod C, B mod C, og kigge på resultaterne? Problemet har et fagligt navn: inflation af type I-fejlen.

Hver hypotesetest bærer en risiko for falsk positiv: chancen for at erklære en forskel, der i virkeligheden ikke findes. Med det sædvanlige signifikansniveau på 5% er den risiko 0,05 pr. test. Når du laver flere tests, hober risiciene sig op.

Risikoen for falsk positiv vokser hurtigt

Med 3 grupper er der 3 parsammenligninger; med 4 grupper, 6; med 5 grupper, 10. Hvis hver test har 5% risiko for falsk positiv, stiger sandsynligheden for at lave mindst én fejl hurtigt: allerede med 3 uafhængige tests når den omkring 14%, og med 10 tests over 40%. "Signifikansniveau på 5%" gælder ikke længere for konklusionen som helhed.

ANOVA løser det elegant: den laver én samlet sammenligning, med én p-værdi, og holder type I-fejlen på det valgte niveau (fx 5%). Først bagefter — og kun hvis den samlede sammenligning er signifikant — undersøger man hvilke par der adskiller sig, med egne teknikker, som beskrives i afsnittet om post hoc-tests. Gem t-testen til, når der faktisk kun er to grupper at sammenligne.

Envejs-ANOVA

Navnet variansanalyse virker mærkeligt — vi vil jo gerne sammenligne gennemsnit, ikke varianser. Geniet i metoden ligger lige præcis der: ANOVA finder ud af, om gennemsnittene adskiller sig, ved at analysere to kilder til variation i data.

Den første er variationen mellem grupperne: hvor meget gruppegennemsnittene afviger fra det samlede gennemsnit. Den anden er variationen indenfor grupperne: hvor meget de enkelte værdier svinger omkring deres egen gruppes gennemsnit — det er den naturlige "støj" i data. Teststørrelsen, kaldet F, er ganske enkelt forholdet mellem de to:

F = varians mellem grupperne ÷ varians indenfor grupperne Hvis alle gennemsnit er ens, estimerer de to varianser det samme, og F ligger tæt på 1. Jo mere gennemsnittene adskiller sig, jo større bliver F.

Mere formelt er variationen mellem grupperne kvadratsummen mellem (SS mellem) divideret med dens frihedsgrader; det samme gælder variationen indenfor. Disse forhold er de gennemsnitlige kvadratsummer (MS):

F = MSmellem ÷ MSindenfor,   hvor MS = SS ÷ frihedsgrader

Frihedsgraderne har to dele. Frihedsgrader mellem grupper er k − 1 (antal grupper minus 1). Frihedsgrader indenfor grupperne er N − k (samlet antal observationer minus antal grupper). Med F og dette par af frihedsgrader slår beregneren op i F-fordelingen og finder p-værdien: sandsynligheden for at observere et så stort F, hvis alle gennemsnit i virkeligheden var ens.

Kruskal-Wallis: det ikke-parametriske alternativ

ANOVA er stærk, men har en pris: den antager, at data i hver gruppe nogenlunde følger en normalfordeling, og at varianserne er ens. Når disse antagelser ikke holder — meget skæve data, ekstreme værdier, små stikprøver — eller når variablen kun er ordinal (fx tilfredshedskarakterer fra 1 til 5), kan ANOVA give skrøbelige konklusioner.

Kruskal-Wallis testen er det ikke-parametriske alternativ. I stedet for at arbejde med de oprindelige værdier konverterer den dem til rangordener: alle observationer fra alle grupper samles, sorteres fra mindste til største, og hver værdi erstattes af sin position (1, 2, 3, …). Analysen sker derefter på disse rangordener.

Logikken er intuitiv. Hvis grupperne er ens, bør høje og lave rangordener fordele sig nogenlunde ens mellem dem — summen af rangordener i hver gruppe vil være proportional med dens størrelse. Hvis én gruppe samler de højeste værdier (store rangordener) og en anden de laveste, vokser teststørrelsen, kaldet H. Under antagelsen om ens grupper følger H tilnærmelsesvis en chi-i-anden fordeling med k − 1 frihedsgrader, og deraf kommer p-værdien.

Fordi den kun bruger datas rækkefølge, er Kruskal-Wallis robust over for ekstreme værdier og kræver ikke normalitet. For tre eller flere grupper er den det samme som Mann-Whitney testen er for to grupper. Prisen er et beskedent tab i statistisk styrke, når data faktisk er normalfordelte — i det tilfælde opdager ANOVA forskelle lidt mere følsomt.

ANOVA's antagelser

For at p-værdien fra ANOVA er pålidelig, skal tre betingelser være rimeligt opfyldt:

  • Normalitet — indenfor hver gruppe følger data (mere præcist residualerne) nogenlunde en normalfordeling. Med større stikprøver er små afvigelser ikke længere et problem, takket være den centrale grænseværdisætning.
  • Variansens homogenitet — også kaldet homoskedasticitet: grupperne har lignende varianser. Tests som Levenes test hjælper med at tjekke det. Når antagelsen tydeligt brydes, findes der varianter som Welch's ANOVA.
  • Uafhængighed — hver observation er uafhængig af de andre, både indenfor og mellem grupperne. Det er den vigtigste antagelse og den sværeste at rette bagefter: den afhænger af et godt studiedesign.
Når antagelserne ikke holder

Hvis data er meget skæve, har indflydelsesrige ekstreme værdier eller er ordinale, så skift til Kruskal-Wallis testen øverst i beregneren. Den svarer på det samme spørgsmål uden at kræve normalitet eller ens varianser — det er kun ét klik på de samme data.

Og bagefter? Post hoc-tests

Et signifikant resultat fra ANOVA eller Kruskal-Wallis giver en vigtig, men ufuldstændig konklusion: den fortæller, at mindst én gruppe afviger — uden at sige hvilken. Med fire grupper kan forskellen ligge i ét enkelt par eller i flere.

For at finde præcis hvor forskellene ligger, bruger man post hoc-tests (eller multiple sammenligninger). De sammenligner par af grupper, men — og det er pointen — justerer signifikansniveauet, så type I-fejlsinflationen ikke vender tilbage. De mest kendte er:

  • Tukeys test (HSD) — den mest almindelige efter en signifikant ANOVA. Den sammenligner alle par af gennemsnit og kontrollerer den samlede fejl.
  • Bonferroni-korrektion — simpel og generel: signifikansniveauet divideres med antallet af sammenligninger. Den er konservativ.
  • Dunns test — den sædvanlige post hoc-test efter en signifikant Kruskal-Wallis, som arbejder på rangordenerne.

Tommelfingerreglen er rækkefølgen: først den samlede test (ANOVA eller Kruskal-Wallis); kun hvis den er signifikant, går man videre til post hoc. Uden den indgangsdør vender vi tilbage til problemet med ukontrollerede multiple sammenligninger.

Sådan tolker du resultatet

Beregneren returnerer et kort med konklusionen og et sæt nøgletal. I ANOVA er det:

  • F-teststørrelse — forholdet mellem variansen mellem grupperne og variansen indenfor dem. Værdier tæt på 1 antyder ens gennemsnit; høje værdier, forskellige gennemsnit.
  • Frihedsgrader mellem grupper — er k − 1 og definerer sammen med dem indenfor F-fordelingen.
  • Frihedsgrader indenfor grupperne — er N − k.
  • P-værdi — sandsynligheden for at se et så stort F ved et tilfælde. Hvis den er mindre end signifikansniveauet (normalt 0,05), så afviger mindst én gruppe.
  • Eta-i-anden (η²) — effektstørrelsen: den andel af den samlede variation, som forklares af grupperne. Omkring 0,01 er småt, 0,06 er mellem, og 0,14 eller mere er stort.
  • Antal grupper — hvor mange grupper der indgik i analysen.

I Kruskal-Wallis er nøgletallene H-teststørrelsen, frihedsgraderne (k − 1), p-værdien, antallet af grupper og det samlede antal observationer. Aflæsningen af p-værdien er den samme: under signifikansniveauet er der forskel mellem grupperne — men her handler konklusionen om rangordener (tendensen til at en gruppe systematisk har større eller mindre værdier).

Signifikant betyder ikke "alle forskellige"

En lille p-værdi viser, at mindst én gruppe skiller sig ud — ikke at alle grupper adskiller sig fra hinanden. For at vide præcis hvilke par der er forskellige, kræves en post hoc-test. Og husk at kigge på effektstørrelsen: med store stikprøver bliver trivielle forskelle "signifikante".

Gennemregnet eksempel

En skole sammenlignede tre studiemetoder i tre klasser med fem elever hver og noterede slutkarakteren for hver elev. Spørgsmålet: påvirker studiemetoden den gennemsnitlige karakter?

MetodeKaraktererGennemsnit
Gruppe 185, 88, 82, 90, 8786,4
Gruppe 278, 75, 80, 82, 7978,8
Gruppe 392, 95, 90, 94, 9192,4
  1. Gennemsnit og samlet gennemsnit: gruppegennemsnittene er 86,4, 78,8 og 92,4; det samlede gennemsnit af de 15 karakterer er 85,87.
  2. Variation mellem grupper: gruppegennemsnittene ligger langt fra det samlede gennemsnit, hvilket giver en stor kvadratsum mellem — et tegn på at metoderne kan adskille sig.
  3. Variation indenfor grupperne: indenfor hver klasse svinger karaktererne kun lidt, så kvadratsummen indenfor er lille.
  4. F-teststørrelse: med en variansen mellem grupperne meget større end variansen indenfor, bliver F højt, og p-værdien ryger godt under 0,001.

Da p-værdien er meget mindre end 0,05, er konklusionen, at mindst én metode afviger fra de andre: studiemetoden hænger sammen med karakteren. Eta-i-anden, tæt på 0,9, viser en stor effekt — en stor del af variationen i karaktererne forklares af gruppen. ANOVA siger dog ikke, om alle tre metoder adskiller sig fra hinanden, eller om kun én skiller sig ud; det kræver en post hoc-test. Brug knappen "Brug eksempeldata" for at se hele udregningen i beregneren.

Ofte stillede spørgsmål

Hvad er ANOVA?

Envejs-ANOVA (variansanalyse) er en hypotesetest, der sammenligner gennemsnit fra tre eller flere grupper på én gang. Den tjekker, om mindst én gruppe afviger fra de andre, ved at sammenligne variationen mellem grupperne med variationen indenfor dem.

Hvorfor ikke køre flere t-tests i stedet for ANOVA?

Fordi hver t-test bærer en risiko for falsk positiv, og disse risici hober sig op, når du laver mange tests. At sammenligne alle par af tre grupper hæver chancen for type I-fejl til omkring 14% — langt over de tilstræbte 5%. ANOVA laver én samlet sammenligning og holder fejlen under kontrol. Se t-testen, hvis det kun er to grupper.

Hvad er forskellen på ANOVA og Kruskal-Wallis?

ANOVA er parametrisk: den antager nogenlunde normalfordelte data og lignende varianser. Kruskal-Wallis er det ikke-parametriske alternativ, baseret på rangordener, og er velegnet når disse antagelser ikke holder, eller når data er ordinale. Den svarer for k grupper til Mann-Whitney testen.

Hvad betyder et signifikant resultat?

En p-værdi under signifikansniveauet viser, at mindst én gruppe afviger fra de andre. Hverken ANOVA eller Kruskal-Wallis siger hvilken gruppe der afviger — til det bruges post hoc-tests som Tukeys eller Dunns test.

Hvad er eta-i-anden?

Eta-i-anden (η²) er et mål for effektstørrelsen: den andel af den samlede variation i data, der forklares af forskellen mellem grupperne. Værdier omkring 0,01 er små, 0,06 er mellem og 0,14 eller mere er store. Den supplerer p-værdien, som alene ikke afslører styrken af effekten.

Kan jeg bruge ANOVA med kun to grupper?

Ja — og resultatet svarer matematisk til t-testen for to stikprøver (F er lig med t i anden). Men med kun to grupper er t-testen mere direkte og giver desuden konfidensintervallet for forskellen. ANOVA brillerer først rigtigt fra tre grupper og opefter.

I tvivl om hvilken test du skal bruge?

Se guiden, der hjælper dig med at vælge den rette statistiske test til din datatype.

Åbn guiden til valg af test