Denne artikel er den fortolkningsguide, du gerne ville have haft på statistikkurset: en gennemgang af hvad p-værdien faktisk betyder, de fem fejl man oftest ser i danske medier og undersøgelser, og hvordan du selv kan rapportere dit resultat på en måde, der står sig over for både censor og journalist. Vi bruger eksempler fra Danmarks Statistik, danske politiske målinger og kliniske studier fra Statens Serum Institut.
Hvad er p-værdien (og hvorfor bliver den så ofte misforstået)
Hver gang du ser en overskrift som "Ny undersøgelse: danskerne spiser markant mere grønt — p < 0,05" eller en valgmåling fra Voxmeter, hvor "forskellen mellem partierne er statistisk signifikant", står p-værdien diskret i baggrunden. Den er kort, den er talstor, og den giver et indtryk af videnskabelig sikkerhed. Men netop derfor er den blevet en af de mest misbrugte størrelser i moderne statistik.
Hvis du har siddet med et SPSS-output på dit kandidatprojekt eller en R-tabel fra et speciale, har du sandsynligvis kigget på en p-værdi og spurgt dig selv: "Hvad skal jeg nu egentlig skrive om det her?" Mange ender med at parafrasere det, vejlederen har sagt, uden at have en intuition for, hvad tallet virkelig fortæller. Andre — særligt i den brede presse — oversætter "p < 0,05" til "vi har bevist, at hypotesen er sand", hvilket er en betydningsforstyrrende fejl.
Det er værd at huske, at den amerikanske statistikforening (ASA) i 2016 udgav en sjælden officiel udtalelse, hvor de advarede mod den nuværende brug af p-værdier i forskning. Hovedbudskabet var enkelt: p-værdien måler ikke sandsynligheden for, at en hypotese er sand. Den måler heller ikke effektens størrelse eller den praktiske vigtighed af et resultat. Og dog er det præcis sådan, den ofte præsenteres — også i Danmark.
I denne guide skal vi gennemgå definitionen i klart sprog, vise dig fem konkrete fejl du kan undgå, og pege på de værktøjer — som vores egen t-test-beregner eller proportionstesten — der giver dig p-værdien sammen med den fortolkning, du har brug for.
Den formelle definition: sandsynligheden under H₀
Den korte, præcise definition er denne:
Lad os pille det fra hinanden. Når du laver en statistisk test, opstiller du to konkurrerende fortællinger. Nulhypotesen H₀ er den kedelige fortælling: "der er ingen reel forskel", "intervention og placebo virker ens", "kvinder og mænd har samme gennemsnitlige indkomst i denne stikprøve". Den alternative hypotese H₁ er den interessante: "der ER en forskel". Du indsamler data, beregner en teststørrelse — det kan være t, z, χ² eller noget andet — og spørger: hvor sandsynligt er det at få et sådant tal, hvis den kedelige fortælling faktisk er sand?
Lægger man dette ned i tegninger, er p-værdien arealet under sandsynlighedsfordelingen for teststørrelsen, regnet fra din observerede værdi og ud i halen (eller ud i begge haler, hvis testen er tosidet). Den figur ser sådan her ud:
Vigtig konsekvens: p-værdien antager, at H₀ er sand. Den udtaler sig ikke om, hvor sandsynligt det er, at H₀ rent faktisk er sand. Den slags udsagn kræver bayesiansk statistik og en a priori tro, som de fleste klassiske test ikke arbejder med.
De 5 mest almindelige fortolkningsfejl i Danmark
I årenes løb har vi gennemgået utallige bachelor- og kandidatprojekter, og det er stort set de samme fem fejl, der vender tilbage. Du finder også flere af dem i populærpressen og i pressemeddelelser fra både ministerier og institutter.
1. "P = 0,03 betyder, at der er 3 % sandsynlighed for, at vores resultat skyldes tilfældighed"
Det er den klassiske inversionsfejl. P-værdien er sandsynligheden for data givet H₀ — ikke sandsynligheden for H₀ givet data. En p-værdi på 0,03 fortæller dig kun, at hvis der ikke er nogen reel effekt, så er sandsynligheden for at se en så ekstrem stikprøve cirka 3 %. Det er ikke det samme som at sige, at der er 97 % sandsynlighed for, at din hypotese er sand. Den slags udsagn ses regelmæssigt i Voxmeter- og Megafon-analyser, hvor det skrives "der er kun X % sandsynlighed for at forskellen er tilfældig" — det er teknisk forkert.
2. "P > 0,05 betyder, at der ikke er nogen forskel"
Måske den farligste fejl i klinisk forskning. Hvis Statens Serum Institut publicerer et studie, der ikke finder signifikant forskel mellem to behandlinger, bør det rapporteres som "vi fandt ikke evidens for en forskel" — ikke som "vi har vist, at der ingen forskel er". En p-værdi over 0,05 kan skyldes, at effekten er lille, at stikprøven er for lille, eller at variationen er for stor. Manglende evidens er ikke evidens for fravær, som biostatistikere ynder at sige. Brug vores stikprøvestørrelse-beregner, hvis du vil tjekke, om din undersøgelse overhovedet havde styrke til at opdage forskellen.
3. "P = 0,049 er signifikant, P = 0,051 er ikke"
Det er en mekanisk tolkning, der ignorerer fortolkningens kontekst. Forskellen mellem 0,049 og 0,051 er praktisk talt nul — det er kun den vilkårligt valgte tærskel på 0,05, der får dem til at falde på hver sin side. Når du laver et speciale eller et hospitalsstudie, er det mere ærligt at rapportere p-værdien sammen med konfidensintervallet og lade læseren bedømme. Brug vores konfidensinterval-beregner til at supplere fortolkningen.
4. "Hvis p er lille, så er effekten stor"
Det er den fejl, der gør, at sundhedsoverskrifter ofte virker mere imponerende, end de er. Danmarks Statistik publicerer rutinemæssigt undersøgelser med titusinder af respondenter, og med så stor en stikprøve kan selv en lillebitte forskel — fx 0,2 procentpoint mellem to grupper — give p-værdier under 0,001. Det betyder ikke, at forskellen er praktisk relevant. P-værdien måler, hvor godt belagt resultatet er, ikke hvor vigtigt det er. Vi tager det op igen i afsnittet om effektstørrelse.
5. "Vi tester bare alle variabler og rapporterer dem, der er signifikante"
Den såkaldte p-hacking er udbredt i både erhvervsanalyser og afslutningsopgaver. Hvis du tester 20 hypoteser uafhængigt på et 5 %-niveau, vil du i gennemsnit få én "signifikant" effekt rent ved tilfældighed, selv om der ikke er nogen reel sammenhæng. I dansk klinisk forskning er det normalt at justere for multiple test (fx Bonferroni eller Holm), og det bør du også gøre i din rapport. Hvis du arbejder med kategoriske variabler og sammenhænge mellem dem, så brug chi-i-anden-testen som primær test og vær eksplicit omkring, hvor mange test du har lavet.
Anvendt eksempel: en meningsmåling om Folketingsvalg
Lad os tage et konkret dansk eksempel. Antag at et meningsmålingsinstitut i Aarhus offentliggør en måling med n = 1 200 vælgere, hvor parti A får 32,5 % og parti B får 30,0 %. Forskellen er 2,5 procentpoint. Er den statistisk signifikant?
Vi tester nulhypotesen, at de to partier har lige stor opbakning i populationen. Standardfejlen på forskellen i to proportioner er omkring:
Teststørrelsen bliver z = 0,025 / 0,0188 ≈ 1,33. Slår vi det op i en normalfordelingstabel (eller bruger vores z-test-beregner), giver det en tosidet p-værdi på cirka 0,18. Med andre ord: forskellen er ikke statistisk signifikant på 5 %-niveau. Det betyder ikke, at parti A og B er lige store i virkeligheden — det betyder, at vi ikke har nok data til at sige det med sikkerhed.
I praksis er det den slags forskelle, som danske aviser ofte fremstiller som "parti A er foran parti B". Statistisk set er det inden for usikkerhedsmarginen. En konfidensintervalsberegning ville vise, at forskellen ligger et sted mellem -1,2 og +6,2 procentpoint — altså vi kan ikke engang udelukke, at parti B faktisk er foran. Det er præcis den slags nuance, som forsvinder, når man kun ser overskriften.
P-værdi er ikke effektstørrelse
En af de helt centrale lektier fra de seneste tyve års metodelitteratur er denne: p-værdien og effektstørrelsen er to forskellige ting. P-værdien fortæller dig, om effekten er "større end støj"; effektstørrelsen fortæller dig, hvor stor effekten faktisk er.
For at gøre det konkret: i et dansk klinisk studie kunne du teste, om en ny smertestillende medicin sænker smerteniveauet hos patienter med kronisk rygsmerte. Hvis du har 5 000 patienter, kan du nemt få en p-værdi under 0,001 ved en gennemsnitlig reduktion på 0,2 point på en 10-points VAS-skala. Det er statistisk signifikant — men det er ikke klinisk relevant. Patienterne mærker ikke 0,2 point. Den slags forskel mellem statistisk signifikans og klinisk signifikans er noget af det vigtigste, en kandidatprojekt eller ph.d.-afhandling skal forholde sig til.
Eksempler på effektstørrelser, som dansk forskningstradition i stigende grad rapporterer:
- Cohens d — standardiseret forskel mellem to gennemsnit. Tommelfingerregel: 0,2 lille, 0,5 middel, 0,8 stor.
- Risk ratio og odds ratio — bruges i medicinske studier og epidemiologi. Statens Serum Institut rapporterer typisk relative risici.
- Pearsons r — korrelationskoefficient, der måler styrken af lineær sammenhæng. Du kan beregne den i vores korrelationsberegnere og de tilhørende t-tests.
- η² (eta-i-anden) — andelen af variansen, som forklares af gruppen i en ANOVA.
En god rapport indeholder altid både p-værdi og en effektstørrelse — eller et konfidensinterval, der dækker effektstørrelsen.
Forskellen mellem p-værdi og signifikansniveau (α)
Et af de mest forvirrende punkter for studerende er forskellen mellem p-værdien og signifikansniveauet α. De ligner hinanden — begge er tal mellem 0 og 1 — men de spiller meget forskellige roller.
Signifikansniveauet α er din på forhånd valgte beslutningsregel. Du beslutter dig for, hvor stor en risiko du er villig til at acceptere for at forkaste H₀, selv om den er sand (det er Type I-fejl). Konventionen i de fleste danske studier er α = 0,05, hvilket svarer til at acceptere en falsk alarm i 5 % af tilfældene på lang sigt.
P-værdien er resultatet af din konkrete test. Den udregnes ud fra dine data og fortæller dig, hvor langt ude i halen af fordelingen din teststørrelse ligger. Den eneste mekaniske kobling er: hvis p < α, så forkastes H₀; hvis p ≥ α, så forkastes H₀ ikke.
I et dansk speciale skal du angive α på forhånd og fastholde det. At vælge α = 0,10, fordi din p-værdi tilfældigvis blev 0,08, er en form for p-hacking og er fagligt set ikke acceptabelt.
Sådan rapporteres p-værdi efter dansk forskningstradition
Måden, p-værdier rapporteres på i danske tidsskrifter, følger nogle uskrevne (og nogle skrevne) regler, der adskiller sig en smule fra den angelsaksiske tradition:
- Skriv aldrig p = 0,000. En p-værdi kan teoretisk være meget tæt på nul, men aldrig præcis nul. Skriv i stedet p < 0,001. Det er konventionen i Ugeskrift for Læger, Dansk Sociologi og de fleste danske universitetspublikationer.
- Brug komma som decimalseparator — det er dansk standard. p = 0,034, ikke p = 0.034. Det virker som en lille detalje, men censorer reagerer på det.
- Tre decimaler er normen. Skriv p = 0,034, ikke p = 0,03. Hvis værdien er meget lille, brug grænser: p < 0,001.
- Angiv altid teststørrelsen og frihedsgrader. En komplet sætning kunne være: "Forskellen var statistisk signifikant (t(38) = 3,16; p = 0,003)". Det giver læseren mulighed for at reproducere din analyse.
- Angiv om testen er ensidet eller tosidet. Hvis ikke andet er nævnt, antager læseren tosidet. Hvis du har valgt ensidet, skal du begrunde det — typisk fordi den teoretiske ramme forudsiger en bestemt retning.
- Rapporter konfidensinterval ved siden af p-værdien. Det er stærkt anbefalet både af Statens Serum Institut og af Det Frie Forskningsråd: konfidensintervallet supplerer p-værdien med en effektstørrelse.
En modeltabel fra et dansk klinisk studie kunne se således ud: "Gennemsnitlig blodtrykssænkning: 8,2 mmHg (95 % KI: 4,1 til 12,3); t(39) = 3,16; p = 0,003". Den slags fuldstændig rapportering er det, censorer og reviewere kigger efter.
Ud over p-værdien: konfidensinterval og effektstørrelse
Hvis du tager én ting med fra denne artikel, så lad det være dette: p-værdien bør aldrig stå alene. Den fortæller dig kun, om dit resultat er foreneligt med nulhypotesen — ikke hvor stor effekten er, hvor sikker du kan være på den, og hvilke værdier der ellers er forenelige med dine data.
Konfidensintervallet (KI) er det stærkeste supplement. Det giver dig et interval af værdier, der er forenelige med dine data. Et 95 % KI på fx [4,1; 12,3] mmHg betyder, at populationens sande gennemsnitlige blodtrykssænkning sandsynligvis ligger et sted mellem disse to tal. Det er mere informativt end blot at sige "p = 0,003". Beregn det selv med vores konfidensinterval-beregner.
Effektstørrelsen (Cohens d, odds ratio osv.) giver dig en standardiseret målestok, der lader dig sammenligne på tværs af studier — det er afgørende, hvis du laver en meta-analyse eller en systematisk litteraturgennemgang.
Endelig er det værd at planlægge stikprøvestørrelsen på forhånd. Et studie med 30 patienter har sjældent styrke nok til at opdage en moderat klinisk effekt med 80 % sandsynlighed. Brug vores beregner til stikprøvestørrelse eller en post-hoc styrkeanalyse for at vurdere, om dit studie var realistisk dimensioneret.
Hvis du arbejder med proportioner — for eksempel andelen af danskere, der støtter en politik — er den korrekte test ofte en proportionstest eller en chi-i-anden-test. Hvis du har kontinuerte målinger og to grupper, er en t-test det rigtige valg. For tre eller flere grupper bør du bruge ANOVA. Det er først, når du har valgt den korrekte test, at p-værdien overhovedet giver mening.
Ofte stillede spørgsmål
Kan jeg sige at H₀ er sand fordi p > 0,05?
Nej. En p-værdi over 0,05 betyder kun, at dine data ikke giver tilstrækkelig evidens til at forkaste nulhypotesen. Det er ikke det samme som at bevise, at H₀ er sand. Det kan også skyldes for lille stikprøve eller for stor variation. I dansk forskningstradition skriver man derfor "der blev ikke fundet signifikant forskel" og ikke "der er ingen forskel".
Hvad er forskellen mellem ensidet og tosidet p-værdi?
En tosidet p-værdi måler sandsynligheden for en lige så ekstrem afvigelse i begge retninger. En ensidet p-værdi måler kun afvigelser i én retning, og er typisk halvdelen af den tosidede. I langt de fleste danske publikationer bruges tosidet test som standard, fordi det er den mest konservative og ærlige måde at rapportere på.
Hvis p = 0,04, kan jeg så sige at chancen for et tilfældigt resultat er 4 %?
Nej. P-værdien er sandsynligheden for at observere data så ekstreme eller mere ekstreme, GIVET at nulhypotesen er sand. Den udtaler sig ikke om sandsynligheden for, at hypotesen i sig selv er sand eller falsk. Den fejlfortolkning kaldes "inversionsfejlen" og er en af de mest udbredte fejl i populærpresse og afslutningsopgaver.
Hvorfor p < 0,05 og ikke p < 0,01?
Tærsklen 0,05 er en konvention, der stammer fra Ronald Fisher i 1920'erne, og ikke en naturlov. I medicinske studier ses ofte strengere niveauer som 0,01 eller 0,001 ved multiple test, mens man i samfundsvidenskab og marketing typisk holder sig til 0,05. Du bør altid vælge niveauet på forhånd og forklare hvorfor.
Er p-værdi det samme for alle test?
Definitionen er den samme — sandsynligheden for data så ekstreme eller mere, hvis H₀ er sand — men teststørrelsen og fordelingen ændrer sig fra test til test. T-test bruger t-fordelingen, chi-i-anden bruger χ²-fordelingen, og en proportionstest bruger normalfordelingen. Værktøjer som vores beregnere håndterer den tekniske side for dig.
Hvordan påvirker stikprøvestørrelsen p-værdien?
Med en meget stor stikprøve kan selv en triviel forskel give en lille p-værdi, fordi standardfejlen krymper. Omvendt kan en meget lille stikprøve overse en reel og vigtig forskel. Det er derfor p-værdien aldrig bør stå alene — du bør rapportere effektstørrelse og konfidensinterval ved siden af, og planlægge din stikprøvestørrelse på forhånd.
Referencer
- Wasserstein, R. L. & Lazar, N. A. (2016). "The ASA Statement on p-Values: Context, Process, and Purpose". The American Statistician, 70(2), 129-133.
- Ioannidis, J. P. A. (2005). "Why Most Published Research Findings Are False". PLoS Medicine, 2(8), e124.
- Andersen, P. K. & Skovgaard, L. T. (2010). Regression with Linear Predictors. Springer Statistics for Biology and Health.
- Spliid, H. Erhvervsøkonomisk Statistik. DTU/Samfundslitteratur.
- Robson, C. (2011). Real World Research, 3. udgave. Wiley.