Hvad er Pearsons korrelation
Pearsons korrelation (r) er et mål, der i et enkelt tal mellem −1 og +1 opsummerer styrken og retningen af den lineære sammenhæng mellem to numeriske variable. Det er nok den mest kendte deskriptive statistik uden for den akademiske verden — og netop derfor en af de hyppigst misforståede. At forstå hvad den faktisk måler, ændrer den måde du læser dashboards, artikler og forskningsresultater på.
Intuitionen er ligetil: når r er tæt på +1, stiger de to variable sammen i et næsten retlinet mønster; når r er tæt på −1, stiger den ene mens den anden falder, også på en linje; når r er tæt på 0, er der ingen tydelig lineær sammenhæng mellem dem. Ordet "lineær" er den vigtige del — og den del, der oftest bliver overset i praksis. Der kan eksistere en meget stærk sammenhæng mellem X og Y i form af et U eller en eksponentiel kurve, og r kan stadig ligge tæt på nul, fordi den bedst tilpassede ret linje er vandret.
Konkret måler r, hvor meget parrene (x, y) flugter langs en skrå ret linje. Den måler ikke: ikke-lineære sammenhænge (parabolske, sinusformede, trappetrins-formede), monotone men krumme sammenhænge (brug Spearman til dem), associationer mellem kategoriske variable (brug chi-i-anden testen), og frem for alt ikke kausalitet. At to serier følges ad, siger intet om hvad der får den ene til at bevæge den anden — og det er præcis dér, mange analyser kører af sporet.
Skalaen fra −1 til +1 er ikke tilfældig: den fastlægges af selve den matematiske konstruktion (se afsnittet om beregning). Et r på 0 betyder ingen lineær sammenhæng — ikke "ingen sammenhæng" overhovedet. Og fortegnet siger kun, hvad der sker med Y, når X vokser: positiv (stiger sammen) eller negativ (modsat retning).
Hvornår bruges Pearson, Spearman eller Kendall
Der findes tre korrelationskoefficienter, der dukker op i praksis, og valget afhænger af dataenes natur og af hvilken type sammenhæng du vil indfange. Tabellen herunder opsummerer forskellene:
| Koefficient | Hvad den måler | Variabeltype | Hvornår bruges den |
|---|---|---|---|
| Pearson (r) | Lineær sammenhæng | Interval eller ratio | Kontinuerte numeriske data, uden kraftige outliers, og nogenlunde lineær sammenhæng. |
| Spearman (ρ) | Monoton sammenhæng (via rangordener) | Ordinal, interval eller ratio | Ordinale data (Likert-skalaer, rangordener), skæv fordeling eller tilstedeværelse af outliers. |
| Kendall (τ) | Overensstemmelse par for par | Ordinal, interval eller ratio | Små stikprøver, mange ens værdier (ties), eller når du vil have et mere robust mål end Spearman. |
Tommelfingerreglen: hvis begge variable er kvantitative, sammenhængen ligner en "aflang sky" af punkter, og der ikke er absurde ekstreme værdier, så er Pearson det naturlige valg. Hvis sammenhængen er monoton men krum — fx jo mere erfaring, jo højere løn, men med aftagende tempo — eller hvis data er rangordener eller Likert-skalaer, så vælg Spearman. Kendall er et mere konservativt og robust alternativ, særligt nyttigt i små stikprøver med mange ens værdier, men det er mindre udbredt uden for anvendt statistik. Antagelsesforskellen er enkel: Pearson kræver linearitet og nogenlunde normalitet for inferens, mens Spearman og Kendall kun kræver, at variablen er ordnet.
Sådan beregnes den
Pearson-koefficienten har en kompakt formel, der — læst i ro og mag — afslører hele sin mekanik:
Tælleren er summen af produkterne af afvigelserne fra gennemsnittet. Når x for de fleste punkter ligger over gennemsnittet af X og y også ligger over gennemsnittet af Y (eller begge ligger under), bliver produkterne positive, og tælleren vokser — et tegn på at variablene "følges ad". Når den ene ligger over og den anden under, bliver produktet negativt, og tælleren falder. Denne tæller, divideret med n − 1, er den empiriske kovarians: den fortæller allerede sammenhængens retning, men har den ulempe, at den afhænger af enhederne (m, kg, kr.).
Nævneren er produktet af standardafvigelserne for X og Y (kvadratsummerne under en rod). Den standardiserer kovariansen og "renser" enhederne ud. Det er denne division, der sikrer koefficientens mest elegante matematiske egenskab: ifølge Cauchy-Schwarz' ulighed kan tælleren aldrig — i absolut værdi — overstige nævneren. Derfor er r låst til intervallet [−1, +1], og fortegnet kommer direkte fra tælleren.
For at teste, om r er forskelligt fra nul i populationen, bruger vi t-statistikken med n − 2 frihedsgrader:
Dette t sammenlignes med Students t-fordeling for at få p-værdien — præcis samme logik som i t-testen. Til konfidensintervallet anvender beregneren Fishers z-transformation (z = atanh(r)), som tilnærmer fordelingen af r til en normalfordeling, beregner intervallet på den skala og konverterer tilbage med tanh. Det er et klassisk trick, der giver pålidelige intervaller for enhver stikprøvestørrelse n ≥ 4.
Antagelser
Pearson-koefficienten kan beregnes på næsten ethvert par af numeriske variable, men for at det resulterende tal og p-værdien er gyldige som inferens, skal nogle få antagelser mindst være nogenlunde opfyldt.
Begge variable er interval eller ratio. De to variable skal være kvantitative, og enhederne skal være sammenlignelige langs hele skalaen — forskellen mellem 10 og 20 skal betyde det samme som mellem 80 og 90. Karakterer, højder, priser og tider opfylder det. Rangordener, klassifikationer og korte Likert-skalaer gør ikke. Sådan tjekker du: spørg dig selv, om det giver mening at sige "X er det dobbelte af Y" eller at lægge to observationer sammen. Hvis det ikke gør, så overvej Spearman.
Lineær sammenhæng. Pearson måler kun den lineære del af associationen. Hvis sammenhængen er U-formet, trappetrins-formet eller tydeligt krum, vil r undervurdere den reelle styrke. Sådan tjekker du: kig altid på spredningsdiagrammet, før du stoler på r. Hvis punktskyen har en synlig bue, så transformér en af variablene (logaritme, kvadratrod) eller skift til en anden koefficient.
Ingen ekstreme outliers. Fordi Pearson bruger kvadrater og produkter, er den meget følsom over for værdier langt fra resten. Et enkelt punkt langt fra mængden kan vende fortegnet eller kunstigt oppuste r. Sådan tjekker du: brug boxplots for hver variabel, og identificér i spredningsdiagrammet de punkter, der visuelt dominerer tilpasningen. Genberegn r uden dem for at måle deres indflydelse.
Tilnærmelsesvis bivariat normalitet (til inferens). For at p-værdien og konfidensintervallet er præcise, bør data ideelt set følge en bivariat normalfordeling. I større stikprøver (n ≥ 30) redder den centrale grænseværdisætning proceduren, selv med moderate afvigelser fra normalitet. Sådan tjekker du: histogrammer og Q-Q-plot for hver variabel; ved alvorlig tvivl, brug Shapiro-Wilks test.
Observationer uafhængige. Hvert par (xᵢ, yᵢ) skal repræsentere en uafhængig observation. Tidsseriedata, gentagne målinger på den samme person eller stikprøver med klyngestruktur (elever fra samme skole) overtræder dette og oppuster risikoen for falske positive. Sådan tjekker du: spørg hvordan data er indsamlet — hvis der er gentagelser, hierarki eller tidsmæssig rækkefølge, så kræves en model, der anerkender den struktur.
Sådan fortolkes resultatet
Beregneren returnerer en række tal — r, r², n, t, p-værdi og konfidensinterval — og hvert af dem fortæller en del af historien. Det er værd at forstå rollen for hver enkelt.
Størrelsen af r. Den klassiske rettesnor til at klassificere korrelationens styrke kommer fra Cohen (1988) og er den dominerende referenceramme i samfundsvidenskab og sundhedsforskning:
| |r| | Cohens fortolkning | Praktisk læsning |
|---|---|---|
| ≈ 0,10 | Lille | Svag effekt, kun synlig i store stikprøver. |
| ≈ 0,30 | Moderat | Sammenhæng tydeligt synlig i et spredningsdiagram. |
| ≈ 0,50 | Stor | Klart mønster med en tydelig lineær tendens. |
| ≥ 0,70 | Meget stor | Punkter næsten på linje; et højt r kræver tjek af outliers og linearitet. |
Disse grænser er retningslinjer, ikke regler. I eksperimentel fysik kan et r på 0,5 være et tegn på, at noget er galt. I adfærdsforskning kan et r på 0,3 allerede være et relevant fund.
R² som forklaret varians. Determinationskoefficienten (R² = r²) er måske det mest nyttige tal til at kommunikere resultatet: den repræsenterer den andel af variationen i Y, der kan forklares af en ret linje som funktion af X. Et r = 0,5 giver R² = 0,25 — altså er 25% af variationen i Y forenelig med en lineær sammenhæng med X, mens de øvrige 75% kommer fra andre kilder. R² er mere ærlig end r, når man vil tale om "hvor meget X forklarer af Y", fordi den visuelt nedtoner moderate korrelationer, der har tendens til at virke mere imponerende end fortjent.
P-værdien. P-værdien tester nulhypotesen om, at den sande korrelation i populationen er nul. En p-værdi under 0,05 (den konventionelle tærskel) indikerer, at det ville være usandsynligt at observere et r så ekstremt som dette ved et tilfælde, hvis den sande korrelation var nul, givet stikprøven. Statistisk signifikans er ikke det samme som effektstørrelse: med meget store stikprøver bliver minimale korrelationer "signifikante"; med små stikprøver kan stærke korrelationer falde igennem. Kig altid på r, R² og p-værdien samtidig.
Konfidensinterval for r. Konfidensintervallet, beregnet via Fishers z-transformation, angiver det interval, hvor populationens sande korrelation sandsynligvis ligger. Et 95%-KI på [0,12; 0,68] siger, at den plausible effekt går fra "lille" til "stor" — et tegn på, at stikprøven er for lille til præcision. Et KI på [0,42; 0,52] giver et stramt og pålideligt estimat. Se også vores konfidensinterval-beregner for mere om princippet.
Eksempel
Et gymnasium i Aarhus vil undersøge sammenhængen mellem ugentlige studietimer og karakteren ved den mundtlige eksamen (skala 0–12) hos 8 elever i 3.g. Data ser sådan ud:
| Elev | Timer (X) | Karakter (Y) | x − x̄ | y − ȳ | (x − x̄)(y − ȳ) |
|---|---|---|---|---|---|
| A | 4 | 4 | −7,5 | −4,0 | +30,00 |
| B | 6 | 4 | −5,5 | −4,0 | +22,00 |
| C | 8 | 7 | −3,5 | −1,0 | +3,50 |
| D | 10 | 7 | −1,5 | −1,0 | +1,50 |
| E | 12 | 10 | +0,5 | +2,0 | +1,00 |
| F | 14 | 10 | +2,5 | +2,0 | +5,00 |
| G | 17 | 10 | +5,5 | +2,0 | +11,00 |
| H | 21 | 12 | +9,5 | +4,0 | +38,00 |
Gennemsnit: x̄ = 11,5 timer og ȳ = 8,0 i karakter.
- Tæller (sum af produkterne af afvigelserne): Σ(xᵢ − x̄)(yᵢ − ȳ) = 30,00 + 22,00 + 3,50 + 1,50 + 1,00 + 5,00 + 11,00 + 38,00 = 112,00.
- Kvadratsum for X: Σ(xᵢ − x̄)² = 56,25 + 30,25 + 12,25 + 2,25 + 0,25 + 6,25 + 30,25 + 90,25 = 228,00.
- Kvadratsum for Y: Σ(yᵢ − ȳ)² = 16 + 16 + 1 + 1 + 4 + 4 + 4 + 16 = 62,00.
- Nævner: √(228 · 62) = √14.136 ≈ 118,89.
- r = 112,00 ÷ 118,89 ≈ 0,942.
- R² ≈ 0,887 — omkring 89% af variationen i karaktererne er forenelig med en lineær sammenhæng med antallet af studietimer i denne gruppe.
- Signifikanstest: t = 0,942 · √6 ÷ √(1 − 0,887) ≈ 6,86, med df = 6 → p-værdi ≈ 0,0005.
Korrelationen er meget stærk og statistisk signifikant. Men bemærk: resultatet gælder for denne stikprøve. Før du konkluderer, at "mere studie giver bedre karakter", så husk, at der kan være en oplagt confounder — elever, der er mere motiverede, studerer mere og får højere karakterer af andre grunde (familiebaggrund, lærertillid, koncentrationsevne). Korrelationen peger på et spor; den kausale forklaring kræver et andet studiedesign.
Almindelige fejl
Selv erfarne analytikere falder i de samme fælder, når de arbejder med Pearson. Det er værd at kende dem, før du publicerer et tal.
- Forveksle korrelation med årsag. Den ældste og hyppigste fejl. At to variable følges ad, siger ikke hvilken der forårsager hvilken, eller om nogen overhovedet forårsager den anden. Der kan ligge en tredje faktor (confounder) og trække i begge.
- Outliers, der oppuster r. En enkelt ekstrem værdi i det "rigtige" hjørne af grafen kan løfte r fra 0 til 0,8. Kig altid på spredningsdiagrammet, og genberegn r uden mistænkelige punkter for at vurdere effekten.
- Range-restriktion. Når du kun vælger en smal del af X (kun elever med høje karakterer, kun lønninger over 50.000 kr.), falder r mellem X og Y kunstigt, selv om den reelle sammenhæng i populationen er stærk. Løsningen er at indsamle data i hele det relevante spektrum.
- Simpsons paradoks. En positiv korrelation i samlede data kan vende til negativ inden for hver undergruppe (eller omvendt). Hvis der er relevante delpopulationer (køn, region, skole), så beregn korrelationen inden for hver, før du rapporterer den samlede.
- Aggregering på forkerte niveauer. At beregne korrelationen mellem kommunegennemsnit og bruge det som om det var korrelationen mellem personer er den klassiske økologiske fejlslutning. r mellem gennemsnits-BNP og forventet levealder pr. land siger næsten intet om enkeltindivider.
En stærk korrelation siger kun, at de to variable varierer sammen — ikke hvorfor. Der kan være en tredje variabel, der forårsager begge, sammenhængen kan være omvendt, eller det kan være rent tilfælde. Jo flere tidsserier du sammenligner, jo lettere er det at finde stærke fuldstændigt spuriøse korrelationer.
Ofte stillede spørgsmål
Hvad er forskellen mellem r og r²?
r måler både styrken og retningen af den lineære sammenhæng og går fra −1 til +1. r² er kvadratet på r, ligger altid mellem 0 og 1, og angiver den andel af variansen i Y, som en ret linje i X forklarer. Et r på −0,8 og et r på +0,8 giver det samme r² på 0,64 — altså 64% delt varians.
Kan jeg bruge Pearson på ordinale data?
Det anbefales ikke. Pearson kræver numeriske variable med sammenlignelige intervaller (interval- eller ratioskala). Til ordinale data — rangordener, Likert-skalaer, klassifikationer — brug Spearmans rho eller Kendalls tau, som arbejder på rækkefølgen af værdierne i stedet for selve værdierne.
Hvor mange observationer skal jeg have?
Teknisk virker beregningen med tre par, men resultatet bliver ustabilt. Til et pålideligt estimat og en informativ p-værdi bør du have mindst 30 par. For at opdage små korrelationer (r ≈ 0,1) med 80% statistisk styrke kræves ofte mere end 700 observationer.
Er r på 0,3 signifikant?
Det afhænger af stikprøvestørrelsen. Med n = 20 er r = 0,3 ikke statistisk signifikant (p ≈ 0,2). Med n = 100 bliver det samme r = 0,3 signifikant (p < 0,005). Statistisk signifikans og effektstørrelse er to forskellige ting — kig altid på begge dele samtidig med konfidensintervallet.
Implicerer høj korrelation kausalitet?
Nej. Selv et r tæt på 1 siger kun, at de to variable varierer sammen. Årsagsretningen kan være omvendt, der kan være en tredje variabel (confounder), der forklarer begge, eller det kan være rent tilfælde. For at slutte kausalitet kræves eksperimentelt design — randomisering, kontrol, tidsforskudte serier — eller værktøjer fra kausal statistik.
Hvordan fortolker jeg negativ korrelation?
En negativ korrelation betyder, at når den ene variabel stiger, har den anden tendens til at falde — og omvendt. Styrken aflæses af den absolutte værdi: r = −0,8 er lige så stærk som r = +0,8, blot med modsat retning. Klassiske eksempler: pris × efterspurgt mængde, eller motion × kropsfedtprocent.
Det klassiske eksempel: osteforbruget pr. indbygger i USA og antallet af mennesker, der døde indviklet i lagner, har en korrelation på 0,95 mellem 2000 og 2009. Snart kommer en dansk version i projektet Data Folia.
Referencer
- Cohen J. Statistical Power Analysis for the Behavioral Sciences. 2. udg. Hillsdale: Lawrence Erlbaum; 1988.
- Field A. Discovering Statistics Using IBM SPSS Statistics. 5. udg. London: SAGE; 2018.
- Fisher RA. On the "probable error" of a coefficient of correlation deduced from a small sample. Metron. 1921;1:3–32.
- Agresti A, Finlay B. Statistical Methods for the Social Sciences. 5. udg. Boston: Pearson; 2018.