Hvorfor rammer meningsmålinger ved siden af (og hvorfor det er forventet)
Hver gang et folketingsvalg nærmer sig, lander der nye meningsmålinger i de danske medier næsten dagligt. Voxmeter for Ritzau, Megafon for Politiken og TV 2, YouGov for Berlingske, Norstat for Altinget, Epinion for DR — fem store institutter, og lige så mange ugentlige tabeller, hvor partierne flytter sig en halv eller hel procent op og ned. Og hver gang står der med småt nederst: "Den statistiske usikkerhed er cirka 2 procentpoint."
For en utrænet læser virker det mærkeligt på to måder. For det første: hvordan kan så lille en gruppe — typisk 1.000 til 1.500 personer — afbilde en hel vælgerkorps på næsten 4,3 millioner stemmeberettigede? For det andet: hvorfor er det altid præcis to procentpoint? Er det en regneregel, en konvention eller noget mere fundamentalt?
Det korte svar er: det er matematik, ikke konvention. Tallet to procentpoint er ikke valgt, det falder ud af formlen for stikprøvestørrelse ved en velkendt kombination af antagelser. Det lange svar handler om sandsynlighedsregning, om hvad en "tilfældig stikprøve" egentlig betyder, og om de mange måder, den enkle formel kan vise sig at være for optimistisk i en moderne dansk virkelighed med mobiltelefoner, dyrebare panelmedlemmer og en stigende mængde uafklarede vælgere.
Denne artikel går trin for trin gennem den klassiske formel, viser hvorfor 95% konfidens er blevet branchestandard, forklarer hvorfor stratificerede stikprøver og "design effect" gør virkeligheden lidt mere kompleks, og runder af med en pragmatisk huskeliste til, hvad man bør se efter, når man læser eller selv vil bestille en måling. Vil du regne videre selv, har vi en simpel stikprøvestørrelse-beregner, der lader dig prøve scenarier af i din browser.
Den klassiske formel for stikprøvestørrelse ved andele
Udgangspunktet er forbavsende simpelt. Hvis vi vil estimere en sand andel p i en population — fx andelen af vælgere, der vil stemme på Socialdemokratiet — og vi tager en simpel tilfældig stikprøve af størrelsen n, så er stikprøveandelen p̂ et udgangspunkt for at gætte på p. Centralgrænsesætningen siger, at hvis n er stor nok, fordeler p̂ sig tilnærmelsesvis normalfordelt omkring den sande p, med en standardafvigelse (standardfejl) på:
For et givet konfidensniveau er fejlmarginen E så det halve af konfidensintervallets bredde, dvs. en kritisk værdi z gange standardfejlen:
Vender vi ligningen om og isolerer n, får vi den klassiske udregning af nødvendig stikprøvestørrelse:
Intuitionen er værd at hænge fast i. Standardfejlen falder med kvadratroden af n: vil du halvere fejlmarginen, skal du firdoble stikprøven. Det er præcis derfor, en kerneindsigt er, at gevinsten ved at gå fra 1.500 til 3.000 interviews er mindre end mange tror — du sparer omtrent 30% af fejlen, men fordobler omkostningen. Vil du derimod gå fra 4 til 2 procentpoint fejlmargin, skal du firdoble — fra 600 til 2.400 interviews. Det er en hård kurve.
Eksempel: 1.500 interviews og 2,5 pp fejlmargin
Lad os regne et konkret dansk scenarie igennem. Et institut interviewer n = 1.500 vælgere, bruger 95% konfidens (z = 1,96) og antager worst case p = 0,5. Indsætter vi:
Det er hele forklaringen på "cirka to procentpoint". For et lidt mindre populært parti, fx p̂ omkring 0,10 (10%), bliver fejlmarginen:
Det viser, at fejlmarginen i meningsmålingstabeller faktisk er partispecifik. Når Voxmeter eller Megafon rapporterer "±2 pp" for hele tabellen, er det en konservativ tommelfingerregel, der gælder for de største partier omkring 25-30%. For et lille parti omkring 5% er den nominelle stikprøvefejl tættere på 1,1 procentpoint, mens den for Socialdemokratiet på en god dag (28%) er omkring 2,3 procentpoint. Nedenfor er kurven for fejlmargin som funktion af stikprøvestørrelse — bemærk hvor hurtigt udbyttet aftager, når man passerer n = 1.000.
Vil du selv eksperimentere — fx finde ud af, hvor mange interviews der skal til for en 1 pp fejlmargin (svar: omkring 9.600) — er stikprøvestørrelse-beregneren nem at åbne. Og hvis du står med en konkret måling og vil bygge intervallet om punktestimatet, hjælper konfidensinterval-beregneren.
Hvorfor 95% konfidens? Og hvornår bruge 99%?
Tallet 95% er ikke en naturlov, men en konvention. Den blev i praksis kanoniseret af R. A. Fisher i 1920'erne og er forblevet branchestandard i sociologi, sundhedsforskning og — siden — opinionsmåling. Bag valget ligger en pragmatisk afvejning: jo højere konfidens, jo bredere interval, jo mindre nyttig præcision. 95% er tilstrækkelig sikkerhed til de fleste hverdagsbeslutninger uden at gøre intervallerne så brede, at de holder op med at sige noget.
Forholdet mellem konfidensniveauet og stikprøvestørrelsen er direkte. Ved samme ønskede fejlmargin og samme p kræver 99% konfidens (z = 2,576) en stikprøve, der er (2,576/1,96)² ≈ 1,73 gange større end ved 95%. Skal du for eksempel have 2,5 pp fejlmargin på 99%-niveau, skal du gå fra 1.500 til omkring 2.600 interviews. Det er en betydelig omkostningsforskel for en relativt lille gevinst i tryghed.
I praksis bruger man 99% i to typer situationer: når konsekvenserne ved en fejl er meget store (medicinsk diagnostik, sikkerhed), eller når man laver mange parallelle tests og vil tage højde for multipel testning. For en daglig politisk meningsmåling, hvor mediefolk og kommentatorer skal kunne diskutere bevægelser, er 95% en god balance. Skal du teste forskelle mellem to versioner i en kontrolleret kampagne, kan du bruge stikprøve til A/B-test-beregneren for at planlægge en realistisk stikprøve på forhånd.
Stratificeret stikprøve og "design effect"
Den klassiske formel forudsætter simpel tilfældig udvælgelse: hver person i populationen har samme sandsynlighed for at blive ringet op, og udvælgelsen sker uafhængigt. Det er sjældent virkelighed. Voxmeter, Megafon og YouGov bruger blandinger af telefoninterviews og online-paneler, kvotering på alder, køn, geografi og uddannelse, og oversamplingstrategier for at sikre tilstrækkeligt mange respondenter i underrepræsenterede grupper.
Når man afviger fra simpel tilfældig udvælgelse, opstår der typisk en design effect, ofte forkortet DE eller deff. Begrebet stammer fra Leslie Kishs arbejde i 1965 og defineres som forholdet mellem variansen i det faktiske design og variansen i en simpel tilfældig stikprøve af samme størrelse. Hvis DE = 1, er designet effektivt som SRS. Hvis DE = 1,5, opfører din stikprøve på 1.500 sig variansmæssigt som en SRS-stikprøve på 1.000. Det er den såkaldte effektive stikprøvestørrelse:
For typiske danske politiske målinger ligger DE et sted mellem 1,3 og 1,8, afhængigt af hvor aggressivt instituttet vægter for at korrigere skævheder. Det betyder, at en nominel stikprøve på 1.500 reelt har en effektiv størrelse på 830 til 1.150. Indsætter vi det i formlen, vokser den effektive fejlmargin fra de nominelle 2,5 procentpoint til mellem 2,9 og 3,4 procentpoint. Det er en af grundene til, at man ikke skal regne for skarpt på en enkelt målings forskel fra ugen før.
Stratificering kan også reducere variansen — DE < 1 — hvis stratifikationen er meget effektiv og man stratificerer efter en variabel, der er stærkt korreleret med svaret. I praksis er stratificering efter region eller alder ikke nær så stærk, og det meste af designeffekten i meningsmålinger kommer fra vægtningen og fra cluster-strukturer i panelet.
Problemet med uafklarede vælgere og ikke-stikprøvefejl
Indtil nu har vi kun talt om den tilfældige usikkerhed, der følger af, at man har spurgt et begrænset antal mennesker. Det er det, fejlmarginen i en meningsmåling rapporterer. Men der findes en hel familie af fejl, som formlen ikke fanger, og som ofte er større end stikprøvefejlen. Samlet kaldes de ikke-stikprøvefejl.
Den tydeligste i dansk sammenhæng er uafklarede vælgere. I månederne mellem valg svinger andelen, der svarer "ved ikke", mellem 10 og 25 procent. De fleste institutter rapporterer kun fordelingen blandt dem, der har afgivet et parti — men de uafklarede er ikke en tilfældig undergruppe. Forskning fra valgforskningsprojekter ved Aarhus Universitet og Københavns Universitet viser, at uafklarede oftere er kvinder, yngre, har lavere indkomst og typisk er mindre tilbøjelige til at stemme. Hvis du antager, de fordeler sig som de afklarede, indfører du en systematisk skævhed, som ingen fejlmargin afslører.
Andre ikke-stikprøvefejl omfatter:
- Dækningsfejl — telefoninterviews rammer ikke borgere uden mobil eller fast nummer, og online-paneler rammer overhovedet ikke borgere uden internet eller med svag digital integration.
- Frafald (non-response) — typisk svarer 5-15% af de kontaktede. Hvis frafaldet er systematisk korreleret med partivalg, vægter vægtningen ikke det op.
- Spørgsmålsformulering — rækkefølgen af partierne, hvorvidt der spørges åbent eller med vist liste, om man bliver bedt om at vælge et parti eller en kandidat.
- Social ønskværdighed — respondenter, der støtter partier med stigma, kan systematisk underrapportere. Dette har historisk været diskuteret i forbindelse med højrenationalistiske partier i flere lande, inklusive Danmark.
- Vægtningsmodel — hvordan instituttet vægter mod befolkningsregisteret og mod historisk valgadfærd. To institutter med samme rådata kan publicere forskellige tal alene på grund af forskellige vægtningsmetoder.
Den nationale Pewundersøgelse fra 2017 og en metastudie af European Survey Research Association fra 2019 fandt, at samlede ikke-stikprøvefejl for politiske målinger typisk er i størrelsesordenen 1-2 procentpoint, hvilket effektivt fordobler den reelle usikkerhed sammenlignet med den nominelle fejlmargin. Det er den pragmatiske grund til at læse en enkelt måling med tilpas skepsis.
Når p er tæt på 50% × tæt på 5%
Formlen n = z²·p·(1−p)/E² rummer en lille men vigtig pointe: udtrykket p·(1−p) er en parabel, der topper ved p = 0,5 med en maksimal værdi på 0,25. Det vil sige, at standardfejlen — for en given n — er størst, når den sande andel er omkring halvtreds procent, og mindst, når andelen er tæt på 0 eller 1.
Konsekvensen er praktisk. Når et institut planlægger en stikprøve, og der ikke findes et pålideligt forhåndsbud på p, vælger de p = 0,5 som worst case. Det giver det mest konservative — det vil sige største — krav til n. Skal du for eksempel have 3 pp fejlmargin og bruger p = 0,5, kræver det 1.067 interviews. Vidste du derimod på forhånd, at p var omkring 0,1, ville samme præcision kun kræve omkring 384 interviews. Den ekstra omkostning ved at antage 0,5 er prisen for at sikre sig mod ubehagelige overraskelser i de partier, hvor man rammer 50/50-området — typisk omkring "blok mod blok"-spørgsmål eller folkeafstemninger.
Vil du sammenligne to specifikke andele, fx forskellen mellem to partier eller mellem to ja-andele i en folkeafstemning, så brug proportionstest-beregneren. Den tager højde for, at standardfejlen for forskellen er anderledes end summen af de to individuelle fejlmarginer.
Historisk vignet: berømte danske meningsmålinger der ramte forkert
Lad os se på tre folketingsvalg, der hver illustrerer en del af forskellen mellem nominel fejlmargin og virkelig præcision. Dette er metodologisk diskussion, ikke partipolitik — pointen er at vise, hvordan stikprøvefejl, ikke-stikprøvefejl og sen-svingere tilsammen kan forklare afvigelser.
Valget 2015
Op til valget den 18. juni 2015 viste de fleste institutter rød blok foran med 3-5 procentpoints margin i de sidste uger. Det endelige resultat blev en sejr til blå blok med 90 mod 89 mandater. Fejlen kom fra to kanter: en undervurdering af Dansk Folkepartis opbakning på 2-3 procentpoint i forhold til faktisk afgivne stemmer, og en sen drejning hos uafklarede, som målingerne ikke fangede. Den nominelle fejlmargin på cirka 2 procentpoint på de største partier var i sig selv ikke nok til at forklare hele afvigelsen — det krævede en kombination med systematisk skævhed.
Valget 2019
Et af de mere præcise valg i nyere dansk historie. Voxmeters sidste måling før valget den 5. juni 2019 lå inden for 1-2 procentpoint på alle store partier, og blokkens flertal blev korrekt forudsagt. Det illustrerede, at når både stikprøvedesign, vægtning og uafklarede-modellering er på plads, kan en meningsmåling med 1.500 respondenter give meget høj præcision. Det er værd at bemærke som et bevis på, at "2 procentpoints fejlmargin" reelt holder, når metodikken er solid.
Valget 2022
Folketingsvalget den 1. november 2022 udfordrede måleinstitutterne på en ny måde. Moderaterne, et nyt parti dannet året før, lå i de første prognoser med 9-11%, men endte med 9,3% — relativt tæt på. Den større udfordring var at indfange de skift, der skete i de sidste par dage før valget, samt at vurdere de partier, der lå tæt på spærregrænsen på 2%. For et parti omkring spærregrænsen er stikprøvefejlen relativt set enorm: med p̂ = 0,02 og n = 1.500 er fejlmarginen omkring 0,7 procentpoint, men det svarer til en relativ usikkerhed på over 35%. Det er derfor, ingen seriøs analytiker turde udtale sig skarpt om mindre partiers fremtid på basis af én måling alene.
God praksis ved læsning eller bestilling af meningsmåling
Hvad enten du er journalist, kampagnemedarbejder, studerende eller engageret borger, hjælper en kort tjekliste til at læse en måling kritisk. Når den næste tabel fra Voxmeter, Megafon, YouGov, Norstat eller Epinion lander, så kig efter følgende seks punkter:
- Felt-dato — hvilke dage er interviewene foretaget? Politiske begivenheder mellem feltdato og publicering er ikke fanget. En måling fra mandag, der trykkes om torsdag, har ikke set onsdagens debat.
- Institut og metode — Voxmeter (telefon/web), Megafon (telefon/web), YouGov (online-panel), Norstat (telefon/web), Epinion (online-panel). Telefon-baserede målinger har historisk haft lavere DE end rene online-paneler, men har højere omkostning.
- Stikprøvestørrelse — er det 1.000, 1.500 eller 2.500? Husk: gevinsten ved at gå fra 1.500 til 2.500 er beskeden i forhold til omkostningen.
- Konfidensniveau og fejlmargin — næsten altid 95%. Tjek, om fejlmarginen er rapporteret per parti eller som worst case for hele tabellen.
- Antal uafklarede — hvor stor en andel af de adspurgte gav ikke et partivalg? Jo større andel, jo større potentielt udsving når kampagnen rammer dem.
- Finansieringskilde — hvem har bestilt og betalt målingen? Et seriøst institut publicerer samme metodik, uanset hvem der har betalt, men en partifinansieret intern måling skal ikke sammenlignes en-til-en med en uafhængig medie-måling.
Skal du selv bestille en måling — fx til et speciale, en NGO-rapport eller en kampagneevaluering — er en god startsekvens: definer det ønskede præcisionsniveau (typisk 3-5 pp er rigeligt), antag p = 0,5 hvis du ikke ved bedre, vælg 95% konfidens, og beregn n med formlen ovenfor. Læg derefter 30-50% oveni for at kompensere for design effect og frafald. Det giver realistiske budgettal.
Ofte stillede spørgsmål
Hvorfor er fejlmarginen symmetrisk?
Fejlmarginen i en typisk meningsmåling er symmetrisk, fordi den bygger på en normaltilnærmelse til binomialfordelingen. Når n er stor nok, og p ikke er ekstremt tæt på 0 eller 1, er fordelingen af stikprøveandelen tilnærmelsesvis klokkeformet og symmetrisk omkring den sande andel. Derfor lægges samme afstand til begge sider af punktestimatet. For meget små andele, fx 1-2%, bryder symmetrien sammen, og man skal i stedet bruge Wilson- eller Clopper-Pearson-intervaller, som vi anvender i vores konfidensinterval-beregner.
Hvad er forskellen mellem stikprøvefejl og ikke-stikprøvefejl?
Stikprøvefejl er den tilfældige usikkerhed, der opstår, fordi man kun har spurgt et udsnit af befolkningen. Den falder med størrelsen af stikprøven og kan kvantificeres med en fejlmargin. Ikke-stikprøvefejl dækker alt det andet: dårligt formulerede spørgsmål, frafald, vægtning, social ønskværdighed og ufuldstændige rammer. Ikke-stikprøvefejl kan være større end stikprøvefejlen og forsvinder ikke ved at spørge flere mennesker.
Kan jeg bruge samme stikprøve til flere partier?
Ja, men hver andel har sin egen fejlmargin, og når man sammenligner to partiers andele i samme måling, er deres estimater korrelerede. Det betyder, at usikkerheden på differencen mellem to partier ikke er summen af de to fejlmarginer; den er mindre, men kræver et andet udtryk for varians. Til en sammenligning brug proportionstest-beregneren.
Følger online-målinger samme formel?
Den matematiske formel er den samme, men den hviler på en antagelse om tilfældig udvælgelse. Online-paneler er typisk ikke tilfældige stikprøver, så formel-fejlmarginen undervurderer den reelle usikkerhed. Seriøse institutter rapporterer en bredere effektiv fejlmargin og bruger vægtning og kvotering for at korrigere skævheder.
Hvordan vælger et seriøst institut antallet af interviews?
Det er en afvejning mellem ønsket præcision, omkostning og tid. For en landsdækkende dansk måling lander de fleste institutter på 1.000-1.500 interviews, fordi det giver omkring 2-3 procentpoints fejlmargin på de største partier — et niveau, som både medier og politiske aktører kan arbejde med. Vil du afprøve det selv, kan du regne forskellige scenarier igennem i vores stikprøvestørrelse-beregner.
Hvis forskellen er mindre end fejlmarginen, er det altid statistisk lige?
Som tommelfingerregel ja, men det er en forenkling. Den korrekte test bruger standardfejlen på differencen mellem to andele, hvilket kan give andre resultater end at sammenligne to overlappende konfidensintervaller. Brug en proportionstest, hvis forskellen ligger tæt på fejlmarginen.
Referencer
- Cochran, W. G. (1977). Sampling Techniques, 3. udgave. John Wiley & Sons. Den klassiske reference for stikprøvedesign, herunder kapitler om stratificering og varianstilnærmelser.
- Cox, D. R. & Donnelly, C. A. (2011). Principles of Applied Statistics. Cambridge University Press. Diskuterer praktiske aspekter af stikprøveundersøgelser og inferens.
- Kish, L. (1965). Survey Sampling. Wiley. Den oprindelige formulering af design effect-konceptet.
- Andersen, P. K. & Skovgaard, L. T. (2010). Regression with Linear Predictors. Springer. Dansk lærebogsstandard for statistisk modellering.
- Voxmeter A/S, metodebeskrivelse for politiske meningsmålinger (offentligt tilgængelig på voxmeter.dk).
- Megafon, årsrapport og metodebilag fra publicerede politiske målinger (megafon.dk).
- Danmarks Statistik, metodologi for stikprøveundersøgelser (dst.dk/da/Statistik/dokumentation).
- European Survey Research Association (2019). Metastudie af ikke-stikprøvefejl i europæiske politiske målinger.