Korrelation er ikke kausalitet: 7 fælder med danske data
Et signifikant r beviser ingenting alene. Her er de syv mest almindelige fælder, der får korrelationer til at lyve — illustreret med danske eksempler, hverdagsdata og to håndtegnede grafer.
Hvorfor denne sætning gentages så ofte (og hvorfor den fortsat er vigtig)
Forestil dig en overskrift i en dansk avis: "Byer med flere isbutikker har flere drukneulykker". Tallene passer. Korrelationen er pæn, p-værdien er imponerende lille, og en eftermiddagsredaktør har allerede en grafik klar. Skal vi så lukke isbutikkerne for at redde liv? Selvfølgelig ikke. Det er sommer, der forklarer begge dele: når temperaturen stiger, åbner isbutikkerne flere timer, og flere mennesker bader i havet ved Amager Strand, ved Bellevue eller i Vesterhavet. Temperaturen er den skjulte tredje variabel — det, statistikere kalder en forveksler.
Denne fælde virker indlysende på papir. Men i hverdagen — i forskningsartikler, politiske notater, marketingrapporter — dukker varianter af samme fejl op igen og igen. Derfor gentages sætningen "korrelation er ikke kausalitet" i hver introduktionsbog i statistik: ikke fordi læseren ikke har hørt den før, men fordi den er svær at huske præcis i det øjeblik, et stort r blinker på skærmen.
Denne artikel går igennem syv konkrete fælder, illustreret med danske eksempler: SU, optagelse på KU og AU, regionale forskelle, kommunale paneldata. Du behøver ikke statistikuddannelse — kun lyst til at blive lidt mere kritisk over for den næste r, du ser.
Hvad korrelation virkelig er (og ikke er)
Pearsons korrelationskoefficient r er et tal mellem -1 og +1, der måler, hvor godt to variabler følger en lige linje. Den er +1, hvis de stiger perfekt sammen, -1 hvis den ene falder, mens den anden stiger, og 0, hvis der ikke er nogen lineær sammenhæng. Den måler ikke styrken af en kausal forbindelse. Den måler ikke en kurvet sammenhæng. Og den siger intet om, hvilken vej årsagspilen peger.
Hvis du vil beregne r for dine egne data — med p-værdi, konfidensinterval og fortolkning på dansk — kan du bruge vores korrelationsberegner. Den giver dig tallet på få sekunder. Det svære arbejde begynder bagefter: at finde ud af, hvad det tal faktisk betyder.
De 7 fælder der dukker op i dansk forskning
1. Forveksler: den skjulte tredje variabel
Isbutik–drukneulykke-eksemplet er det klassiske. Men forveksleren behøver ikke være temperatur. Det kan være alder (ældre tager flere præparater og har flere kroniske sygdomme), indkomst (rige spiser mere økologisk og har bedre sundhed), eller geografi (kommuner med flere cykelstier har færre overvægtige — men er også yngre og mere veluddannede).
En forveksler — confounder — er en variabel, der påvirker både X og Y. Den efterlader et fingeraftryk, der ligner kausalitet, men som faktisk er en fælles årsag. Den eneste reelle modgift er at tænke før du tester: tegn en kausalmodel (DAG) på papir, og spørg, hvilke variabler kunne påvirke begge sider. Måler du dem, kan du justere for dem. Ellers må du være ydmyg i din konklusion.
2. Omvendt kausalitet: hvem forårsager hvad?
Du finder en positiv korrelation mellem uddannelseslængde og indkomst. Det er nærliggende at konkludere, at mere uddannelse fører til højere løn. Men det kunne også være, at mennesker fra velhavende familier både kan tillade sig at studere længere og har bedre adgang til velbetalte stillinger via netværk. Pilen peger i to retninger samtidigt.
Et andet eksempel: rygning og angst er positivt korreleret. I årtier antog man, at nikotin lindrede angst, og at angstpatienter derfor tyede til cigaretter. Nyere forskning peger på, at det modsatte også sker: vedvarende nikotinforbrug øger angstniveauet via biokemiske mekanismer. Pilen peger sandsynligvis begge veje — det er ikke et "enten-eller", men et "både-og". Når du står med en korrelation, så stop og spørg: Hvilken kausalretning giver biologisk, økonomisk eller psykologisk mening her? Hvis svaret er "begge dele", bør du være meget forsigtig med at tale om "effekter".
3. Restriktion af range: "omvendt teleskop"
Forestil dig, at du undersøger sammenhængen mellem studentereksamen og senere indkomst — men kun blandt KU-studerende på medicin. Du finder et meget lavt r, måske 0,05, og konkluderer, at karakterer ikke betyder noget for indkomsten. Men din stikprøve er truncated på begge variabler: alle har ekstremt høje karakterer, alle ender med høje lægelønninger. Du har set på en lille bid af himlen og udtalt dig om hele universet.
Det modsatte sker også: måler du sammenhængen mellem IQ og jobpræstation kun blandt folk, der allerede er ansat (selekteret på IQ via tests), falder r dramatisk. Range restriction er en underkendt fælde, fordi den ser ud som et lille, ærligt resultat. Når du planlægger et observationsstudie, så brug vores beregner for stikprøvestørrelse til at sikre, at din stikprøve dækker hele variationen i populationen.
4. Outliers der oppumper (eller dæmper) r
Et enkelt observationspunkt langt fra resten kan flytte r dramatisk. Se selv:
Outliers kan stamme fra dataindtastningsfejl, målefejl eller et reelt men ekstremt tilfælde. Inden du tager en r for gode varer: plot altid dine data. Et scatterplot afslører øjeblikkeligt, om sammenhængen er ægte og udbredt, eller om den hviler på en enkelt observation. Robuste alternativer (Spearmans rang-korrelation, Kendalls tau) er mindre følsomme over for outliers.
5. Simpsons paradoks: tegnet der skifter ved aggregering
Det klassiske eksempel kommer fra UC Berkeley i 1973: optagelsesdataene viste, at mænd blev optaget oftere end kvinder, og man mistænkte kønsdiskrimination. Da forskerne dykkede ned i de enkelte fakulteter, fandt de imidlertid, at kvinder blev optaget i en højere takst end mænd inden for de fleste fag. Hvordan kan begge dele være sande? Fordi kvinder søgte oftere ind på fag med lavere optagelsesrater (humaniora), mens mænd søgte ind på fag med højere rater (ingeniørvidenskab). Det aggregerede tal viste det modsatte af, hvad der skete inden for hvert fag.
Samme mønster kan i princippet opstå med danske data: hvis du analyserer optagelsesrater på KU og AU efter køn uden at justere for studieretning, kan du få en konklusion, der vender, så snart du stratificerer. Simpsons paradoks dukker op overalt — i hospitalsdata, i sportstal, i karakterer. Hver gang du ser et aggregeret tal, så spørg: Ville tegnet vende, hvis jeg delte dataene op? Hvis svaret er ja, må du fortælle begge historier.
6. Cherry-picking af variabler: "fiskeri" efter korrelationer
Hvis du tester 20 uafhængige hypoteser med et signifikansniveau på 5 %, vil du i gennemsnit finde én "signifikant" sammenhæng selv om alle nullhypoteser er sande. Det er ren statistisk støj. Når en forsker stiller 100 spørgsmål til samme datasæt og kun rapporterer de fem mest spændende, er resultatet sandsynligvis falsk. Dette fænomen — kendt som p-hacking eller data dredging — har bidraget massivt til replikationskrisen i både psykologi og biomedicin.
Korrektioner findes. Bonferroni-korrektion deler signifikansniveauet med antallet af tests (ved 20 tests bliver alpha 0,0025 i stedet for 0,05). Det er konservativt. Mere moderne metoder som Benjamini-Hochbergs FDR (false discovery rate) tillader en kontrolleret andel falske positive blandt de signifikante fund. Begge tilgange er bedre end at ignorere problemet. Når du arbejder med kategoriske variabler og laver mange krydstabeller, så brug vores chi-i-anden test og husk at korrigere, hvis du har testet mange hypoteser.
7. Spuriøs korrelation: variabler uden reel sammenhæng
To variabler kan se stærkt korrelerede ud, simpelthen fordi de begge stiger over tid — uden at have nogen som helst forbindelse:
Tyler Vigens hjemmeside Spurious Correlations samler hundredvis af absurde eksempler: skilsmisseraten i Maine korrelerer 0,99 med margarineforbrug pr. indbygger. Pointen er alvorlig: når to tidsserier begge bevæger sig op (eller ned) over tid, kan du næsten altid finde en høj korrelation. Det skyldes fælles tidsudvikling — befolkningsvækst, inflation, teknologi — ikke en kausal forbindelse. Modgiften er at differensere serierne (se på ændringer år for år), modellere autokorrelation, eller bedst af alt: insistere på en plausibel teori, før du tager korrelationen alvorligt.
Sådan undgår du fælderne: hvad du skal spørge før du tror på et r
Tag denne korte tjekliste med dig næste gang du støder på en korrelation — i en artikel, en rapport, en præsentation eller dine egne analyser:
- Findes der en plausibel tredje variabel? Tænk på alder, indkomst, geografi, tid, sæson, sundhedsstatus. Er der noget, der kunne påvirke både X og Y?
- Giver kausalretningen mening? Eller kunne pilen lige så godt pege den anden vej? Tjek tidsforløb: kommer årsagen før virkningen?
- Er rangen repræsentativ? Eller har vi kun set en smal skive af populationen? En analyse begrænset til KU-studerende, ph.d.-studerende eller eliteatleter siger lidt om resten.
- Er resultatet testet på undergrupper? Holder sammenhængen for mænd og kvinder, for unge og ældre, for Jylland og Hovedstaden? Eller dukker Simpsons paradoks op?
- Hvad er teorien bag? Findes der en plausibel mekanisme — biologisk, økonomisk, psykologisk — der kan forklare sammenhængen? En DAG, tegnet på papir, er et af de stærkeste værktøjer i værktøjskassen.
- Hvor mange tests blev der lavet, før denne dukkede op? Hvis svaret er "mange", skal du have et meget højere bevisniveau.
- Hvad sagde et plot? Aldrig stol på en korrelationskoefficient uden at have set scatterplottet.
Når du har stillet disse spørgsmål, har du allerede ydet mere kritisk arbejde end de fleste rapporter, du læser. Vil du gå et skridt videre og kvantificere usikkerheden om dit r, kan du bruge vores konfidensinterval-beregner til at omsætte korrelationen til et interval via Fishers z-transformation. Et bredt interval er en advarsel: estimatet er upræcist, uanset hvor flot punktværdien ser ud.
Hvornår kan vi udlede kausalitet?
Den korte version: kun når designet er stærkt nok til det. Den længere version består af tre lag.
Randomiserede kontrollerede forsøg (RCT'er) er guldstandarden. Når deltagerne tildeles tilfældigt til behandling eller kontrol, bliver grupperne i gennemsnit ens på alle observerede og uobserverede variabler. Forskellen i udfald kan så tilskrives behandlingen. Sådan godkendes nye lægemidler, og det er grunden til, at A/B-test giver klarere svar end korrelationsstudier i samme felt. Når du sammenligner gennemsnit mellem to eksperimentelle grupper, kan du bruge vores t-test-beregner.
Kvasi-eksperimenter efterligner randomisering uden at have den. Difference-in-differences sammenligner ændringer over tid mellem en behandlet og en ikke-behandlet gruppe. Regression discontinuity udnytter skarpe grænseværdier — fx en karaktergrænse for SU — til at sammenligne folk lige over og under tærsklen. Instrumentvariabler (IV) bruger en tredje variabel, der påvirker X men ikke Y direkte. Svære at gøre rigtigt, men når de virker, kan de give kausale konklusioner fra observationsdata.
Bradford Hill-kriterierne fra 1965 er en epidemiologisk tjekliste til at vurdere, hvor sandsynligt det er, at en korrelation afspejler en kausal sammenhæng. De ni kriterier dækker styrke, konsistens, specifik, tidsmæssighed (årsag før virkning), dosis-respons, plausibilitet, koherens, eksperiment og analogi. Ingen enkelt er nødvendigt eller tilstrækkeligt, men tilsammen giver de en kvalificeret bedømmelse.
Case: "korrelationen" mellem BNP og SU-pris
Lad os arbejde et fiktivt men plausibelt eksempel igennem. Antag, at en analytiker hævder følgende: "Der er en stærk positiv korrelation (r = 0,68) mellem en kommunes BNP pr. indbygger og det gennemsnitlige beløb, kommunens unge modtager i SU. Konklusion: rige kommuner får mere SU." Lad os ikke købe det med det samme.
Forveksler: Rige kommuner er typisk bymæssige (København, Aarhus, Aalborg), og byer huser universiteterne. Unge, der flytter til disse byer, får udeboendesatsen — som er højere. Befolkningsstruktur er en gigantisk forveksler.
Omvendt kausalitet: Får kommuner mere SU, fordi de er rige? Næppe — tildelingen er central. Men flytter unge til velhavende kommuner, fordi uddannelsesinstitutionerne ligger der? Ja. Pilen peger fra "kommunen har universitet" til både BNP og SU-modtagere.
Range: Hvis analysen kun dækker kommuner over 50.000 indbyggere, smalner variationen ind, og konklusionen gælder ikke små kommuner. Outliers: København er en outlier på næsten alle danske kommunemål. Simpsons paradoks: Stratificeret efter "har/har ikke universitet" kan sammenhængen forsvinde inden for hver gruppe.
Når alle forbehold er taget, ender overskriften "rige kommuner får mere SU" som en næsten meningsløs udtalelse. Det er ikke, at korrelationen er forkert beregnet — det er, at fortolkningen ikke holder. Vil du sammenligne grupper mere kontrolleret, kan du bruge vores t-test eller korrelationsberegner sammen med en god teoretisk model. Statistikken er aldrig stærkere end argumenterne bag.
Ofte stillede spørgsmål
Hvis r er statistisk signifikant, kan jeg så konkludere kausalitet?
Nej. Statistisk signifikans betyder kun, at korrelationen sandsynligvis ikke er nul i populationen — den siger intet om årsag. Selv et stort og højsignifikant r kan skyldes en forveksler, omvendt kausalitet eller ren tilfældighed i en stor stikprøve. Kausalitet kræver et eksperimentelt design eller en stærk identifikationsstrategi.
Hvordan ved jeg om der er en forveksler?
Tegn en simpel kausalmodel (DAG) på papir, og spørg: findes der en variabel, der både påvirker X og Y? Hvis svaret er ja — fx temperatur, alder, indkomst eller geografi — har du sandsynligvis en forveksler. Domæneviden er afgørende; ingen statistisk test alene kan afsløre en uobserveret forveksler.
Kan jeg "kontrollere" for forveksleren med regression?
Ja, hvis forveksleren er målt og inkluderet korrekt i modellen. Men du kan ikke kontrollere for noget, du ikke har målt, og at tilføje en mediator som kovariat kan skabe nye bias. Regression hjælper, men erstatter ikke et godt design.
Hvilket r er allerede "stærk" i samfundsvidenskab?
Tommelfingerregler varierer, men i samfundsvidenskab regnes |r| omkring 0,1 som svag, 0,3 som moderat og 0,5 som stærk. I psykologi og økonomi er r > 0,4 sjældent. Husk at r måler lineær sammenhæng — et lille r udelukker ikke en stærk ikke-lineær relation.
Hvordan optræder Simpsons paradoks i danske sundhedsdata?
Et klassisk eksempel: en hospitalsbehandling kan se ud til at have højere dødelighed end en anden, fordi det modtager de sygeste patienter. Når man stratificerer efter sygdomsstadie, vender billedet. Det samme kan gælde optagelsesrater på KU/AU efter køn, hvis kønnene søger forskellige uddannelser.
Hvad er forskellen på et eksperiment og et observationsstudie?
I et eksperiment kontrollerer forskeren tildelingen af behandling — typisk ved randomisering — så grupperne bliver sammenlignelige i gennemsnit. I et observationsstudie observerer man bare, hvad der allerede sker, og grupperne adskiller sig systematisk. Det er forskellen, der gør, at eksperimenter giver kausal evidens, mens observation kun giver korrelation.
Referencer
- Pearl, J. & Mackenzie, D. (2018). The Book of Why: The New Science of Cause and Effect. Basic Books.
- Hill, A. B. (1965). "The Environment and Disease: Association or Causation?" Proceedings of the Royal Society of Medicine, 58(5), 295–300.
- Imbens, G. W. & Rubin, D. B. (2015). Causal Inference for Statistics, Social, and Biomedical Sciences. Cambridge University Press.
- Angrist, J. D. & Pischke, J.-S. (2009). Mostly Harmless Econometrics: An Empiricist's Companion. Princeton University Press.
- Andersen, P. K. & Skovgaard, L. T. (2010). Regression with Linear Predictors. Springer.
- Spliid, H. (2013). Anvendt Statistik. DTU Compute.