Type I- og type II-fejl i klinisk praksis

Når en læge skal beslutte, om en ny behandling virker, beror beslutningen sjældent på sikkerhed — den beror på sandsynlighed. Statistikken giver os to slags fejl, vi kan begå: at sige, at noget virker, når det ikke gør (type I), eller at sige, at det ikke virker, når det faktisk gør (type II). Denne artikel forklarer, hvornår man bør afvise nulhypotesen, hvornår man bør beholde den, og hvordan styrke og stikprøvestørrelse afgør, hvilken fejl der bliver den dyreste.

Hvorfor det betyder noget: medicin der virker × patient der lider

I 2023 godkendte Lægemiddelstyrelsen en opdateret HPV-vaccine til danske unge, baseret på et stort fase-3-studie, der viste signifikant reduktion i forekomsten af cervikale forstadier. Bag det "signifikant" lå en konkret statistisk beslutning: forskerne afviste nulhypotesen om, at vaccinen ikke gjorde nogen forskel i forhold til placebo. Den beslutning var ikke binær eller tilfældig — den var styret af to talværdier, som protokollen havde fastlagt på forhånd: et signifikansniveau α på 5 % og en statistisk styrke på 90 %.

Hvorfor netop disse tal? Fordi de hver især repræsenterer en risiko. α på 5 % betyder, at hvis vaccinen i virkeligheden ikke virkede, ville studiet alligevel konkludere "den virker" i højst 5 % af tilfældene. Styrke på 90 % betyder, at hvis vaccinen virkede med den forventede effekt, ville studiet rigtigt opdage det 90 % af gangene. De resterende 10 % er β-risikoen — chancen for, at en reel effekt forsvinder i støjen.

Sundhedsdatastyrelsens registre over hospitalsindlæggelser, Cancerregisteret og Det Centrale Personregister giver danske forskere adgang til nogle af verdens største og mest komplette kohorter. Det er en gave til styrken: store n betyder lille β. Men selv med disse data står hver eneste kliniske beslutning over for det samme grundlæggende problem — at fortolke en p-værdi uden at glemme, hvad den ikke siger.

Nulhypotesen (H₀) og den alternative hypotese (H₁): oversat til klinisk kontekst

Al hypoteseafprøvning starter med to udsagn, der gensidigt udelukker hinanden. Nulhypotesen (H₀) er udgangspunktet — det skeptiske standpunkt, som vi forsøger at overbevise os væk fra. I et klinisk forsøg lyder den typisk: "den nye behandling har samme effekt som placebo (eller standardbehandlingen)". Den alternative hypotese (H₁) er den, vi gerne vil vise er sandsynlig: "den nye behandling har en anden effekt".

At vælge nulhypotesen som "ingen forskel" er ikke neutralt — det er et bevidst konservativt valg. Vi giver bevisbyrden til den nye behandling. Den må præsentere så stærke data, at chancen for at se det resultat ved tilfældighed er meget lille. På den måde minder klinisk statistik om en retssag: tiltalte (her: den nye behandling) er uskyldig (uden effekt), indtil det modsatte er bevist ud over rimelig tvivl.

I praksis kan H₁ være ensidet eller tosidet. Tosidet betyder, at vi er interesserede i, om behandlingen er bedre eller dårligere end placebo — dette er standarden i konfirmatoriske studier. Ensidet bruges kun, når en effekt i den uventede retning ville være klinisk meningsløs. Brug af ensidet test for at "spare på α" er en kendt kilde til metodologisk kritik fra Lægemiddelstyrelsen, og du bør bruge en t-test-beregner til at tjekke begge retninger, før du fastlægger designet.

2×2 beslutningsmatricen

Den enkleste måde at se de to fejl på er gennem en matrix. På den ene akse: sandheden (virker behandlingen i virkeligheden eller ej?). På den anden: beslutningen (siger vi, at den virker eller ej?). Det giver fire mulige udfald — to korrekte og to fejlagtige:

Sandheden H₀ sand (virker ikke) H₁ sand (virker) Beslutning Afvis H₀ Behold H₀ Falsk positiv (Type I-fejl, α) Godkend uvirksom behandling Sand positiv (Styrke, 1−β) Korrekt: opdager effekt Sand negativ (1−α) Korrekt: ingen effekt Falsk negativ (Type II-fejl, β) Overse virksom behandling

De to grønne felter er hjørnerne, hvor vi har truffet den rigtige beslutning. De to farvede felter er fejlene. Bemærk asymmetrien: den røde (type I) får mest opmærksomhed, fordi den er den, vi direkte kontrollerer med α. Den gule (type II) er sværere at se — den lurer som en konsekvens af for lidt data, for stor støj eller for små forventede effekter.

Type I-fejl (α): "behandlingen ser ud til at virke, men gør det ikke"

En type I-fejl er, når vi afviser en sand nulhypotese. Klinisk oversat: vi konkluderer, at en behandling virker, selv om den i virkeligheden ikke gør en forskel. Konsekvenserne er konkrete — patienter får en behandling, der ikke gavner dem, men måske skader; sundhedsvæsenet bruger ressourcer på en intervention uden værdi; senere studier bygger videre på et falsk fundament.

α er sandsynligheden for præcis denne fejl, og den fastsættes på forhånd. Konventionen er 5 % (α = 0,05), men det er ikke en naturlov. I særligt risikable interventioner — onkologiske behandlinger med svære bivirkninger, kardiologiske intervention med direkte dødelighedseffekt — anvender mange protokoller α = 0,01 eller endda 0,001. Lavere α betyder mindre risiko for at godkende noget uvirksomt, men prisen er højere risiko for at overse noget, der faktisk virker (β stiger).

P-værdien er det værktøj, vi bruger til at afgøre, om type I-fejlen overskrides. Hvis p < α, afviser vi H₀. Hvis p ≥ α, beholder vi H₀ — men kun fordi vi ikke har bevis nok, ikke fordi vi har bevis for det modsatte. Denne forskel er det, mange begynderfortolkninger overser, og det fører os til den næste fejl.

Type II-fejl (β): "behandlingen virker, men vi siger den ikke gør"

Type II-fejlen er det modsatte: vi beholder en falsk nulhypotese. Klinisk: vi konkluderer, at den nye behandling ikke virker, selv om den i virkeligheden gør. Konsekvenserne kan være lige så alvorlige — patienter får ikke en effektiv behandling, lovende lægemidler skrottes for tidligt, og forskningsindsatsen flytter sig væk fra et område, der burde være udforsket videre.

Den klassiske formulering kommer fra Carl Sagan og er central i kritisk fortolkning af kliniske studier: "Absence of evidence is not evidence of absence". At vi ikke har fundet en signifikant effekt, betyder ikke, at der ikke er en. Det betyder, at vores data — med den stikprøvestørrelse, den variabilitet og den effektstørrelse, vi havde — ikke kunne adskille en reel effekt fra støjen.

β kvantificerer denne risiko. Hvis β = 0,20, betyder det, at hvis behandlingen i virkeligheden har den effekt, vi har antaget i designet, vil studiet kun lykkes med at vise det 80 % af gangene. De resterende 20 % vil ende som "ikke signifikant" — selv om sandheden er, at behandlingen virker. β kontrolleres ikke direkte af forsøget; det styres indirekte gennem stikprøvestørrelsen, effektstørrelsen og det valgte α. Det er hele grunden til, at en seriøs stikprøvestørrelse-beregner er uundværlig i designfasen.

Statistisk styrke (1−β): den glemte metrik i danske kliniske studier

Styrke er det positive modstykke til β. Hvor β er sandsynligheden for at overse en reel effekt, er styrke (1−β) sandsynligheden for at finde den. Med β = 0,20 har vi en styrke på 0,80 — eller 80 %. Det er den uskrevne minimumsstandard for kliniske forsøg, og det er den værdi, etikkomiteer normalt forventer at se begrundet i protokollen.

Styrke afhænger af fire ting: signifikansniveauet α (lavere α → lavere styrke), effektstørrelsen (større effekt → højere styrke), variabiliteten (mere støj → lavere styrke) og stikprøvestørrelsen (større n → højere styrke). Det er en pakke, og man kan ikke ændre én ting uden konsekvens for de andre. Designfasen handler i bund og grund om at finde balancen, der er etisk forsvarlig og logistisk gennemførlig.

Effektstørrelse (Cohen's d) Statistisk styrke (1−β) 0,0 0,5 1,0 1,5 0,0 0,5 1,0 0,8 styrke = 0,80 d ≈ 0,77

Kurven viser, hvordan styrken stiger med effektstørrelsen for en typisk to-stikprøve t-test med n = 30 per gruppe og α = 0,05. For at nå 80 % styrke har vi brug for en effektstørrelse på omtrent d = 0,77 — det er en "stor" effekt efter Cohens konvention. Hvis den reelle effekt er mindre (sige d = 0,3, "lille"), har vi en miserabel styrke på under 25 %, og forsøget vil tre gange ud af fire ende inkonklusivt. Dette er ikke et hypotetisk problem: en omfattende analyse af publicerede kliniske studier viser, at gennemsnitlig styrke til at opdage små effekter ligger godt under 50 %.

Trade-off mellem α og β: hvorfor mindske den ene øger den anden (medmindre…)

α og β er forbundet. Hvis vi fastholder stikprøvestørrelsen og kun ændrer signifikansniveauet, vil ethvert forsøg på at mindske α (sætte tærsklen højere for at afvise H₀) uundgåeligt øge β (vi overser flere reelle effekter). Det er en gummibåndseffekt: man kan ikke trykke det ene sted uden at det popper ud det andet sted. Den eneste måde at mindske begge på samtidigt er at øge n.

Teststatistik kritisk værdi H₀ (ingen effekt) H₁ (effekt) α β α = afvisningsområde under H₀ β = ikke-afvisning under H₁

Den blå klokke til venstre er den fordeling, teststatistikken ville have, hvis nulhypotesen var sand. Den rosa klokke til højre er den fordeling, vi ville se, hvis den alternative hypotese (med en bestemt effektstørrelse) var sand. Den lodrette røde linje er den kritiske værdi — den tærskel, hvor vi afviser H₀. Det røde område til højre for tærsklen, under den blå klokke, er α: chancen for at se en så ekstrem værdi ved tilfældighed, selv om H₀ er sand. Det gule område til venstre for tærsklen, under den rosa klokke, er β: chancen for at se en så lav værdi, selv om der er en reel effekt.

Ryk den røde linje til højre, og α skrumper — men β vokser, fordi mere af den rosa kurve nu havner i "ikke afvis"-zonen. Ryk den til venstre, og det modsatte sker. Den eneste måde at mindske begge områder samtidigt er at rykke de to klokker længere fra hinanden (større effekt) eller gøre dem smallere (mindre standardfejl — altså større n).

Sådan beregnes n for at sikre 80 % styrke

Lad os tage et konkret eksempel. Et dansk forsøg vil teste, om et nyt blodtrykssænkende lægemiddel reducerer det systoliske blodtryk i forhold til standardbehandling. Tidligere studier antyder, at en klinisk relevant forskel er på 5 mmHg, og standardafvigelsen inden for hver gruppe forventes at være 12 mmHg. Vi vil have α = 0,05 (tosidet) og styrke på 80 %.

For en to-stikprøve t-test med lige store grupper er formlen for stikprøvestørrelsen per gruppe:

n = 2 · ((zα/2 + zβ) · σ / δ)² hvor δ er den mindste klinisk relevante forskel og σ den fælles standardafvigelse.

Med α = 0,05 (tosidet) er zα/2 = 1,96. Med styrke 80 % er zβ = 0,84. Indsætter vi δ = 5 og σ = 12: n = 2 · ((1,96 + 0,84) · 12 / 5)² ≈ 2 · (6,72)² ≈ 90 personer per gruppe. Studiet skal altså rekruttere mindst 180 patienter for at have realistisk chance for at vise den ønskede effekt. Hvis vi havde sat styrken til 90 %, ville zβ = 1,28 og n blive ca. 121 per gruppe — 240 patienter i alt. Brug vores stikprøvestørrelse-beregner til at lave denne udregning for andre kombinationer, eller en proportionstest-beregner, hvis udfaldet er binært (recidiv/ikke-recidiv).

Hvorfor 5 % og 80 %? Og hvornår justere (Bonferroni, sekventielt, ækvivalens)

Tærsklen α = 0,05 stammer fra Ronald Fishers tidlige skrifter i 1920'erne og har overlevet, fordi den giver en rimelig balance mellem skepsis og åbenhed. 80 % styrke kommer fra Jacob Cohens lærebog fra 1988, hvor han argumenterede for, at 4:1-forholdet mellem β og α svarer til den relative omkostning af de to fejl i de fleste forskningssammenhænge. Begge tal er konvention, ikke fysik — og de bør justeres, når konteksten kræver det.

I tre situationer fraviger man typisk konventionen. Først: multiple sammenligninger, hvor man tester flere endpoints eller flere subgrupper. Her stiger den samlede risiko for falsk positiv, og man bruger Bonferroni, Holm eller FDR-justering (mere om dette nedenfor). Anden: sekventielle analyser, hvor man kigger på data flere gange undervejs (f.eks. i adaptive forsøg). Her bruger O'Brien-Fleming- eller Pocock-grænser, der korrigerer for de gentagne kig. Tredje: ækvivalens- og non-inferiority-design, hvor nulhypotesen er "behandlingerne er forskellige med mindst Δ", og målet er at afvise den hypotese. Her er logikken vendt, og konfidensintervaller får hovedrollen.

Lægemiddelstyrelsen og det europæiske EMA accepterer alle disse afvigelser, så længe de er præspecificeret i protokollen og statistisk analyseplan. At ændre α eller justeringsmetode efter at data er set, er en kardinalsynd — det kaldes p-hacking, og det er en af de mest dokumenterede kilder til ikke-replikerbar klinisk forskning.

Multiple sammenligninger: den akkumulerede type I-fejl

Antag et fase-3-onkologisk studie tester 10 sekundære endpoints — overlevelse, livskvalitet, biomarkører, hospitalsindlæggelser osv. Hver test bruger α = 0,05. Hvad er chancen for, at mindst én ender med p < 0,05 ved ren tilfældighed, selv om behandlingen ikke virker på noget? Hvis testene er uafhængige, er svaret 1 − (0,95)¹⁰ ≈ 0,40 — 40 %. Det er meget langt fra de 5 %, vi troede vi havde.

Bonferroni-korrektionen er den mest direkte løsning: dividér α med antallet af test. For 10 endpoints bliver tærsklen 0,005 per test. Det holder den samlede risiko (familywise error rate) under 5 %, men det er konservativt — det øger β tilsvarende, og forsøg med stor batteri af endpoints risikerer at miste styrke. Holm-Bonferroni er en stepwise variant, der er mindre konservativ. Benjamini-Hochberg-proceduren (FDR-kontrol) accepterer en defineret andel falske positive blandt de positive fund og er populær i højdimensionelle analyser som genekspression.

I praksis for kliniske RCT'er vil protokollen pege ét primært endpoint ud og lade det bære den centrale konfirmatoriske test ved α = 0,05. Sekundære endpoints rapporteres med eksplicit korrektion eller som hypoteseskabende, ikke konfirmerende. En chi-i-anden-beregner bruges f.eks. ofte til kategoriske sekundære endpoints — men kun med en eksplicit forståelse af, at hver ekstra test øger inflationen af type I-fejl.

God praksis i danske kliniske studier

Den internationale ramme for klinisk statistik er ICH E9 ("Statistical Principles for Clinical Trials"), som danske forsøg skal følge for at få Lægemiddelstyrelsens godkendelse. ICH E9 fastlægger en række principper, der direkte håndterer type I- og type II-risici: præspecificering af alle analyser, beskyttelse af det primære endpoint, hierarkisk testning, sensitivitetsanalyser og håndtering af manglende data.

På publikationssiden er CONSORT 2010 (Schulz, Altman & Moher) den retningslinje, alle peer-reviewede tidsskrifter forventer. CONSORT kræver, at man rapporterer den planlagte stikprøvestørrelse med begrundelse for styrkeberegningen, præspecificering af primært endpoint, og hvordan multiple sammenligninger blev håndteret. Et studie uden styrkeberegning er nu meget svært at få offentliggjort i et større tidsskrift.

Konkret for danske forskere betyder det fire ting: (1) registrér forsøget hos clinicaltrialsregister.eu eller et tilsvarende offentligt register før rekruttering starter; (2) indsend protokol og statistisk analyseplan til den Videnskabsetiske Komité — de gennemgår styrkeberegningen kritisk; (3) hold dig til den præspecificerede analyse, selv hvis post-hoc-analyser frister; (4) blinding på alle niveauer, hvor det er muligt, for at fjerne den menneskelige tendens til at se det, man håber at finde.

For analyser med en kontrolarm og en behandlingsarm — den klassiske RCT-struktur — er en t-test-beregner ofte det rette værktøj til kontinuerlige endpoints. For binære udfald som "responder/non-responder" passer en A/B-test-beregner (matematisk identisk med kliniske proportionstest) eller en dedikeret proportionstest-beregner. Vælg testen før data høstes, ikke efter — det er den enkleste regel for at undgå type I-inflation.

Ofte stillede spørgsmål

Hvad er værst: type I eller type II fejl?

Det afhænger af konteksten. I konfirmatoriske kliniske forsøg for godkendelse af et nyt lægemiddel er en type I-fejl typisk mest alvorlig: man godkender en behandling, der ikke virker, og udsætter patienter for bivirkninger uden gavn. I screeningsforsøg eller tidlige fase-2-studier kan en type II-fejl være værre, fordi man kasserer en lovende behandling. Derfor sætter ICH E9 α lavt (5 %), men kræver også høj styrke (typisk 80-90 %).

Hvorfor beregner kliniske studier styrke før de starter?

Fordi styrke (1−β) bestemmer chancen for at opdage en reel effekt, og styrken afhænger direkte af stikprøvestørrelsen. Hvis n er for lille, vil studiet sandsynligvis konkludere "ikke-signifikant" selv om behandlingen virker — det er spild af patienter, ressourcer og tid. Videnskabsetisk Komité kræver en realistisk styrkeberegning, før et forsøg godkendes. Brug vores stikprøvestørrelse-beregner til denne beregning.

Hvordan korrigerer Bonferroni for type I-fejl ved multiple endpoints?

Bonferroni dividerer signifikansniveauet med antallet af test. Hvis du tester 5 endpoints og vil bevare en samlet α på 5 %, sammenligner du hver p-værdi med 0,01 i stedet for 0,05. Det er konservativt: det beskytter mod falske positive, men kan øge type II-fejlen. Mindre konservative alternativer er Holm-Bonferroni eller Benjamini-Hochberg (FDR-kontrol).

Hvis p > 0,05, kan jeg så konkludere at behandlingen ikke virker?

Nej. P > 0,05 betyder kun, at dine data ikke giver tilstrækkeligt belæg for at afvise nulhypotesen. Det kan være, fordi der ikke er en effekt — eller fordi stikprøven var for lille til at opdage den. For at konkludere at behandlingen ikke virker, har du brug for et ækvivalens- eller non-inferiority-design, eller et konfidensinterval, der udelukker klinisk relevante effekter.

Hvad er minimum acceptabel styrke i et dansk klinisk forsøg?

Konventionen er 80 % styrke, og det er den nedre grænse, de fleste danske etikkomiteer og Lægemiddelstyrelsen vil acceptere uden særlig begrundelse. Konfirmatoriske fase-3-studier sigter typisk efter 90 %. Høj styrke betyder større n, så der er en praktisk og økonomisk balance, der skal forsvares i protokollen.

Hvordan påvirker stikprøvestørrelsen type II-fejl?

Direkte. Større n giver mindre standardfejl, hvilket gør det lettere at opdage små effekter. Hvis du fordobler n og holder α fast, falder β hurtigt. Det er derfor protokollerne skal angive den mindste klinisk relevante forskel: den fastlægger, hvor mange patienter studiet skal rekruttere for at nå 80 % styrke. Tjek t-test-beregneren og stikprøvestørrelse-beregneren for praktiske eksempler.

Er konfidensinterval bedre end p-værdi til klinisk fortolkning?

I mange tilfælde ja. Et 95 % konfidensinterval viser ikke kun, om effekten er "signifikant" eller ej, men også hvor stor effekten kan være med rimelighed. Et interval der inkluderer nul, svarer til p ≥ 0,05; men intervallets bredde fortæller om præcisionen, hvilket en p-værdi alene aldrig gør. CONSORT anbefaler at rapportere begge.

Referencer

  • Schulz KF, Altman DG, Moher D. CONSORT 2010 Statement: updated guidelines for reporting parallel group randomised trials. BMJ 2010;340:c332.
  • Cohen J. Statistical Power Analysis for the Behavioral Sciences. 2. udgave. Lawrence Erlbaum Associates, 1988.
  • International Council for Harmonisation. ICH E9: Statistical Principles for Clinical Trials. 1998 (med E9(R1)-addendum 2019 om estimands).
  • Lægemiddelstyrelsen. Vejledning om kliniske forsøg med lægemidler på mennesker. Tilgængelig via laegemiddelstyrelsen.dk.
  • Andersen PK, Skovgaard LT. Regression with Linear Predictors. Springer, 2010 — dansk reference på regression og hypoteseprøvning.
  • Spliid H. Statistical Analysis with Applications. DTU Compute, lærebog brugt på danske universiteter.
  • Ioannidis JPA. Why most published research findings are false. PLoS Med 2005;2(8):e124 — klassisk om type I-inflation i klinisk litteratur.