Skal jeg bruge z-test eller t-test for at sammenligne med en referenceværdi?

Brug z-test, når populationens standardafvigelse er kendt — hvilket er sjældent i praksis. Brug t-test, når standardafvigelsen estimeres ud fra selve stikprøven, hvilket næsten altid er tilfældet. Derfor er enkeltstikprøve-t-testen det rigtige valg i de fleste virkelige undersøgelser.

Sådan vælger du den rigtige statistiske test

Q: Hvad er forskellen på en parametrisk og en ikke-parametrisk test?

Parametriske test som t-test og ANOVA antager, at data følger en omtrent normalfordeling, og sammenligner gennemsnit. Ikke-parametriske test som Wilcoxon, Mann-Whitney og Kruskal-Wallis kræver ikke normalitet og arbejder med rangordenen af værdierne. Brug den ikke-parametriske version, når stikprøven er lille, der er ekstreme værdier, eller fordelingen tydeligt er skæv.

Hvorfor det er vigtigt at vælge den rigtige test

Enhver statistisk analyse ender med et tal — næsten altid p-værdien — der understøtter en konklusion: "der er en forskel", "der er ingen forskel", "variablerne hænger sammen". Men tallet er kun pålideligt, hvis testen, der producerede det, er den rigtige for datatypen og undersøgelsens design. Bruger du den forkerte test, kommer der ingen fejlmeddelelse: du får en p-værdi, der ser helt normal ud — og er fuldstændig vildledende.

Konsekvenserne er konkrete. En upassende test kan erklære en forskel signifikant, som ikke findes, og få dig til at ændre en procedure, lancere et produkt eller publicere en konklusion uden reelt grundlag. Eller den kan skjule en reel forskel, så man kasserer en behandling, der faktisk virker. I et bachelorprojekt eller en artikel er den forkerte test en af de hyppigste grunde til, at vejleder eller reviewer kræver rettelser.

Den gode nyhed er, at valg af test hverken handler om hukommelse eller held. Det er resultatet af en kort række objektive spørgsmål om dine data. Svar på dem i den rigtige rækkefølge, så vælger testen sig selv. Denne guide går gennem spørgsmålene og slutter med en oversigtstabel, der kobler hver situation til den tilsvarende beregner.

Spørgsmålene, der afgør testen

Før du tænker på en formel, så svar på fem spørgsmål. De fungerer som en huskeliste: hvert svar fjerner muligheder og indsnævrer vejen til én test.

1. Hvilken type data har du? Det er det vigtigste spørgsmål. Kategoriske (eller kvalitative) data repræsenterer kategorier, som du tæller: køn, region, "købte eller købte ikke", "blev rask eller ej". Det rå resultat er en optælling eller en proportion. Numeriske (eller kvantitative) data er værdier, du måler: højde, tid, tilfredshedsscore, omsætning, blodtryk. Det rå resultat er et gennemsnit. At bruge en middelværditest på kategoriske data — eller omvendt — invaliderer analysen fra start.

2. Hvad vil du gøre med dataene? Der findes tre typiske formål. Estimere en populationsværdi — fx "hvad er kundernes gennemsnitlige tilfredshed?" — kræver et konfidensinterval, ikke en test. Sammenligne med en referenceværdi — "afviger min proces' gennemsnit fra målet på 100?" — kræver en enkeltstikprøvetest. Sammenligne grupper indbyrdes — "adskiller gruppe A sig fra gruppe B?" — kræver en test for to eller flere stikprøver.

3. Hvor mange grupper sammenligner du? Hvis svaret er at sammenligne grupper, så tæl dem. Én gruppe mod en fast værdi, to grupper mod hinanden, eller tre eller flere grupper på én gang. Antallet af grupper ændrer testen: at sammenligne to grupper er en opgave for t-testen; at sammenligne tre eller flere er en opgave for ANOVA. Man bør ikke sammenligne mange grupper parvis med flere t-test, for det pumper risikoen for en falsk positiv op.

4. Er grupperne uafhængige eller parrede? Uafhængige grupper består af forskellige personer uden forbindelse mellem målingerne — fx patienter i gruppe A og patienter i gruppe B. Parrede (eller afhængige) grupper har sammenkædede målinger: den samme person målt før og efter en behandling, eller par dannet med vilje. Parrede data har en egen test, der udnytter forbindelsen mellem målingerne og er mere følsom.

5. Holder de parametriske forudsætninger? De klassiske parametriske test — t-test, ANOVA — antager, at de numeriske data omtrent følger en normalfordeling, og når man sammenligner grupper, at varianserne er nogenlunde ens. Når disse forudsætninger holder, er de parametriske test de stærkeste. Når de ikke holder — lille stikprøve, skæv fordeling, ekstreme værdier — findes der ikke-parametriske versioner, der ikke afhænger af normalitet.

Huskelisten i én sætning

Datatype → formål → antal grupper → uafhængige eller parrede → forudsætninger. Svar i den rækkefølge, så halverer hvert spørgsmål mulighederne. Når du når det sidste, står der typisk én test tilbage — og den findes i oversigtstabellen sidst i guiden.

Kategoriske data: proportioner og chi²

Når dataene er en kategori, du tæller, og ikke et tal, du måler, ændrer testuniverset sig helt. Her er der ingen gennemsnit eller standardafvigelser: der er optællinger og proportioner. To test på sitet dækker de fleste af disse situationer, og valget mellem dem afhænger af, hvad du vil finde ud af.

Brug proportionstesten, når fokus er på en proportion i sig selv. Den løser to tilfælde. Det første er at sammenligne to proportioner: adskiller konverteringsraten på side A sig fra side B? Adskiller andelen af patienter, der følger behandlingen, sig mellem to protokoller? Det andet er at sammenligne en proportion med en referenceværdi: er fejlraten i min proces på 3 % anderledes end den kontraktlige målsætning på 2 %?

Brug chi², når fokus er på sammenhængen mellem to kategoriske variable i en kontingenstabel. Det typiske spørgsmål er "hænger region sammen med foretrukket mærke?" eller "hænger behandlingstype sammen med det kliniske udfald?". Chi² er stærk, når der er mere end to kategorier i mindst én af variablerne — noget proportionstesten ikke dækker.

De to giver samme konklusion i 2x2

Når du kun sammenligner to proportioner, vil en 2x2-tabel kørt gennem chi² give præcis samme p-værdi som proportionstesten — i en 2x2-tabel er de to test matematisk ækvivalente. Vælg proportionstesten, hvis du også vil have effektstørrelsen mellem de to rater; vælg chi², når der er tre kategorier eller flere.

Et særligt og meget almindeligt tilfælde af sammenligning mellem to proportioner er A/B-testen i marketing og produktudvikling. Til netop det scenarie — to versioner, én konverteringsmetrik — har sitet et dedikeret værktøj, A/B-test-beregneren, som leverer uplift og konfidens i resultatet på det sprog, eksperimenterne taler.

Numeriske data: sammenligne med en referenceværdi

Lad os gå til de numeriske data. Det første mulige formål er ikke at sammenligne to grupper, men at konfrontere gennemsnittet i én enkelt gruppe med en fast, kendt værdi — et mål, en standard, en historisk reference. Eksempler: er gennemsnitsvægten af pakker fra linjen anderledes end de erklærede 500 g? Adskiller call-centrets gennemsnitlige svartid sig fra målet på 4 minutter?

Der findes to værktøjer til det, og valget mellem dem afhænger af ét spørgsmål: kender du populationens standardafvigelse?

Populationens standardafvigelse er kendt → z-test. Det er tilfældet, når en proces er så veldokumenteret, at populationens variabilitet (σ) regnes som en fast, kendt størrelse. I praksis er det sjældent.
Standardafvigelse estimeret fra stikprøven selv → enkeltstikprøve-t-test. Det er det næsten universelle tilfælde: du kender ikke populationens σ og udregner den fra de indsamlede data. T-testen indregner den ekstra usikkerhed ved estimatet.

I langt de fleste virkelige undersøgelser er populationens standardafvigelse ukendt — så enkeltstikprøve-t-testen er standardvalget. Z-testen er forbeholdt meget kontrollerede industrielle sammenhænge eller didaktiske øvelser. I store stikprøver er resultaterne praktisk talt ens, men i små stikprøver er t-testen den eneste korrekte.

Numeriske data: sammenligne to grupper

Det er langt det hyppigste scenarie: du har en numerisk variabel og vil vide, om dens gennemsnit adskiller sig mellem to grupper. Er den gennemsnitlige smerte lavere med forbinding A eller B? Er tiden på sitet højere i den nye version eller den gamle? Ændrede den gennemsnitlige butiksomsætning sig efter træningen?

To beslutninger afgør testen. Den første er, om grupperne er uafhængige eller parrede; den anden er, om de parametriske forudsætninger holder.

Uafhængige grupper. Det er forskellige personer i hver gruppe uden forbindelse mellem målingerne. Hvis de numeriske data er omtrent normalfordelte, så brug t-test for uafhængige stikprøver. Den sammenligner de to gennemsnit og leverer p-værdi og konfidensinterval for forskellen.

Parrede grupper. Målingerne er sammenkædede: den samme person før og efter, eller par dannet med vilje. Her er den korrekte test parret t-test, som analyserer forskellene inden for hvert par. At behandle parrede data som uafhængige spilder den største styrke ved det parrede design og skjuler ofte en reel effekt.

Når normaliteten svigter. Hvis stikprøven er lille, der er ekstreme værdier, eller fordelingen tydeligt er skæv, så skift t-testen ud med det ikke-parametriske alternativ, samlet på sitet under Wilcoxon og Mann-Whitney-beregneren. For to uafhængige grupper er testen Mann-Whitney; for to parrede grupper er det Wilcoxon signed-rank. Begge arbejder med rangordenen af værdierne i stedet for gennemsnit og kræver ikke normalfordeling.

Ignorer ikke parringen

Den dyreste fejl her er at forveksle parrede data med uafhængige. "Før og efter" på samme person er altid parret. At bruge testen for uafhængige grupper i det tilfælde smider informationen væk om, at hvert par starter fra forskellige udgangspunkter — og det sænker typisk testens følsomhed og kan maskere en reel forskel.

Numeriske data: sammenligne tre eller flere grupper

Når der er en numerisk variabel og tre eller flere grupper at sammenligne, dukker en farlig fristelse op: at køre flere t-test parvis. Lad være. Hver t-test bærer en risiko for en falsk positiv; lægger man dem sammen, hober risikoen sig op, og sandsynligheden for at "finde" en ikke-eksisterende forskel skyder i vejret. Løsningen er en enkelt test, der vurderer alle grupperne på én gang.

Denne test er ANOVA (variansanalyse), tilgængelig under ANOVA og k-stikprøver-beregneren. ANOVA besvarer et globalt spørgsmål: "er der nogen forskel mellem gennemsnittene i disse grupper?". Den er den naturlige udvidelse af t-testen til tre eller flere grupper og antager, ligesom den, at data omtrent er normalfordelte, og at gruppevarianserne ligner hinanden.

Når disse forudsætninger ikke holder — skæv fordeling, små stikprøver, ekstreme værdier — er alternativet Kruskal-Wallis, også tilgængelig i samme k-stikprøver-beregner. Kruskal-Wallis er den ikke-parametriske pendant til ANOVA: arbejder med værdiernes rangorden og kræver ikke normalitet. Det er i praksis generaliseringen af Mann-Whitney-testen til tre grupper eller flere.

Det er værd at bemærke, hvad disse test ikke siger: både ANOVA og Kruskal-Wallis fortæller kun, at der findes en eller anden forskel mellem grupperne, uden at pege på hvilke par der adskiller sig. At identificere de specifikke par er opgaven for de såkaldte multiple sammenligninger (post hoc-test), et trin der kommer bagefter og kun giver mening, når den globale test allerede har vist signifikans.

Parametrisk eller ikke-parametrisk?

Valget mellem den parametriske og den ikke-parametriske version af en test er dukket op i alle de tidligere afsnit. Det er værd at samle det ét sted, fordi det er en af de beslutninger, der skaber mest tvivl.

Parametriske test — z-test, t-test, ANOVA — sammenligner gennemsnit og hviler på antagelser om datafordelingen, især normalitet. Når man sammenligner grupper, forventer de også, at varianserne er ens (homogenitet). Når disse forudsætninger holder, er de parametriske test de mest styrkefulde: de opdager reelle forskelle med mindre stikprøver.

Ikke-parametriske test — Mann-Whitney, Wilcoxon, Kruskal-Wallis — kræver ikke normalitet. I stedet for at bruge de rå værdier ordner de dem og arbejder med rangene (positionen for hver værdi i den ordnede række). Derfor er de robuste over for ekstreme værdier og fungerer fint med skæve fordelinger, men på bekostning af lidt mindre styrke, når data ville have været normale.

Hvornår skal man bruge rangtest

Foretræk den ikke-parametriske version når: stikprøven er lille (få dusin observationer), og du ikke kan bekræfte normaliteten; der er ekstreme værdier, der trækker gennemsnittet; fordelingen er tydeligt skæv (indkomster, ventetider, optællinger); eller dataene er ordinale — en skala af positioner som "dårlig, middel, god, fremragende", uden garanteret numerisk afstand mellem niveauerne. Med store stikprøver og en rimelig symmetrisk fordeling er den parametriske test sikker og mere følsom.

Parrene er lette at huske: Mann-Whitney erstatter t-testen for uafhængige grupper; Wilcoxon signed-rank erstatter den parrede t-test; Kruskal-Wallis erstatter ANOVA. I alle tilfælde er nulhypotesen ikke længere "gennemsnittene er ens", men i essensen "fordelingerne er ens" — en subtil forskel i fortolkning, der er værd at notere i rapporten.

Estimere i stedet for at teste

Ikke alle statistiske spørgsmål er hypotesetest. Ofte vil du slet ikke sammenligne noget — du vil bare estimere en værdi i populationen med en usikkerhedsmargin. "Hvad er kundernes gennemsnitlige tilfredshed?" "Hvad er prævalensen af et problem?" Til de spørgsmål er instrumentet konfidensintervallet, ikke en p-værdi.

Konfidensintervallet leverer et interval af plausible værdier for populationens reelle parameter, i stedet for et "ja eller nej"-svar. Det er mere informativt end testen selv: det viser samtidig effektstørrelsen og estimatets præcision. Et smalt interval betyder et præcist estimat; et bredt interval betyder stor usikkerhed — typisk på grund af en lille stikprøve.

Og der er et tidspunkt, hvor statistik skal ind før dataindsamlingen: planlægningen af stikprøvestørrelsen. For lidt indsamling giver et studie uden styrke til at opdage effekten; for meget indsamling spilder tid og ressourcer. For at dimensionere stikprøven korrekt har sitet en stikprøvestørrelse-beregner til generelle studier og en stikprøveberegner til A/B-test, specifikt rettet mod konverteringseksperimenter.

Oversigtstabel: hvilken test bruger du

Tabellen nedenfor samler hele guiden. Find rækken, der beskriver din situation, tjek datatypen, og gå videre til den anbefalede test — navnet på hver beregner er et direkte link til værktøjet.

Situation	Datatype	Anbefalet test	Beregner
Sammenligne to proportioner (fx konvertering A vs. B)	Kategorisk	z-test for to proportioner	Proportionstest
Sammenligne en proportion med en referenceværdi	Kategorisk	Enkeltstikprøve-proportionstest	Proportionstest
Sammenhæng mellem to kategoriske variable	Kategorisk	Chi² uafhængighedstest	Chi²
Sammenligne et gennemsnit med en referenceværdi (σ kendt)	Numerisk	Enkeltstikprøve-z-test	Z-test
Sammenligne et gennemsnit med en referenceværdi (σ ukendt)	Numerisk	Enkeltstikprøve-t-test	t-test (Student)
Sammenligne to gennemsnit fra uafhængige grupper	Numerisk	t-test for uafhængige stikprøver	t-test (Student)
Sammenligne to parrede gennemsnit (før og efter)	Numerisk	Parret t-test	t-test (Student)
Sammenligne to grupper uden normalitet	Numerisk eller ordinal	Mann-Whitney (uafhængige) eller Wilcoxon (parrede)	Wilcoxon og Mann-Whitney
Sammenligne tre eller flere grupper (normale data)	Numerisk	Enkeltfaktor-ANOVA	ANOVA og k-stikprøver
Sammenligne tre eller flere grupper uden normalitet	Numerisk eller ordinal	Kruskal-Wallis	ANOVA og k-stikprøver
Estimere et gennemsnit eller en proportion i populationen	Numerisk eller kategorisk	Konfidensinterval	Konfidensinterval

Almindelige fejl, når man vælger test

Selv med huskelisten ved hånden går nogle fejltrin igen. At kende dem på forhånd beskytter din analyse:

At bruge en middelværditest på kategoriske data. Grundfejlen. "Købte eller købte ikke" er kategorisk og kræver proportionstest eller chi², aldrig t-test. Fastlæg variabeltypen før alt andet.
At ignorere parringen i dataene. Målinger "før og efter" på samme person er parrede. At behandle dem som uafhængige spilder information og skjuler typisk effekten. Det samme gælder par dannet med vilje.
At sammenligne tre eller flere grupper med flere t-test. Hver ekstra t-test øger risikoen for en falsk positiv. Til tre eller flere grupper, brug ANOVA eller Kruskal-Wallis, der vurderer det hele på én gang.
At fastholde den parametriske test, når forudsætningerne er brudt. En lille skæv stikprøve med ekstreme værdier er ikke terræn for t-testen. Når normaliteten ikke holder, så skift til rangversionen.
At bruge z-test, når standardafvigelsen er ukendt. Hvis du estimerede standardafvigelsen ud fra selve stikprøven, er den korrekte test t, ikke z — især med små stikprøver.
At forveksle signifikans med effektstørrelse. At vælge den rigtige test giver en pålidelig p-værdi, men p-værdien siger ikke, om forskellen er stor. Kig altid på effektstørrelsen eller konfidensintervallet for at vurdere den praktiske relevans.
At vælge testen efter at have set dataene. At beslutte testen først efter at have kigget på, hvilken der "giver signifikans", skævvrider resultatet. Fastlæg testen ud fra datatypen og undersøgelsens design, helst før indsamlingen.

Ofte stillede spørgsmål

Hvordan ved jeg, hvilken statistisk test jeg skal bruge?

Svar på fire spørgsmål i rækkefølge: hvilken type data har du (kategorisk eller numerisk), hvad vil du gøre (estimere eller sammenligne), hvor mange grupper sammenligner du (1, 2 eller 3+) og om grupperne er uafhængige eller parrede. Svarene fører direkte til en test. Hvis du er i tvivl om forudsætningerne, så slå op i oversigtstabellen i guiden.

Hvad er forskellen på en parametrisk og en ikke-parametrisk test?

Parametriske test som t-testen og ANOVA antager, at data følger en omtrent normalfordeling, og sammenligner gennemsnit. Ikke-parametriske test som Wilcoxon og Mann-Whitney og Kruskal-Wallis kræver ikke normalitet og arbejder med rangordenen af værdierne. Brug den ikke-parametriske version, når stikprøven er lille, der er ekstreme værdier, eller fordelingen tydeligt er skæv.

Hvornår bruger man chi² og hvornår proportionstest?

Brug proportionstesten, når du vil sammenligne to proportioner direkte eller sammenligne en proportion med en referenceværdi. Brug chi², når du vil tjekke sammenhængen mellem to kategoriske variable i en kontingenstabel, især med mere end to kategorier. I en 2x2-tabel giver de to test den samme konklusion.

Skal jeg bruge z-test eller t-test til at sammenligne med en referenceværdi?

Brug z-test, når populationens standardafvigelse er kendt — hvilket er sjældent i praksis. Brug t-test, når standardafvigelsen estimeres ud fra stikprøven, hvilket næsten altid er tilfældet. Derfor er enkeltstikprøve-t-testen det rigtige valg i de fleste virkelige undersøgelser.

Hvad er forskellen på uafhængige og parrede grupper?

Uafhængige grupper består af forskellige personer uden forbindelse mellem målingerne. Parrede grupper er forbundne målinger, fx den samme person målt før og efter, eller par matchet på egenskaber. Parrede data kræver parret t-test eller Wilcoxon signed-rank; bruger man testen for uafhængige grupper, smider man information væk og kan komme til en forkert konklusion.

Hvad sker der, hvis jeg vælger den forkerte test?

Den forkerte test kan give en forkert p-værdi og dermed en forkert konklusion: at erklære en forskel, der ikke findes, eller at overse en reel forskel. De hyppigste fejl er at bruge en middelværditest på kategoriske data, at ignorere parring og at fastholde en parametrisk test, når forudsætningerne er brudt. At fastlægge datatypen og undersøgelsens design før beregning undgår de fleste af disse fejl.