Konfidensinterval beregner

Hvad er et konfidensinterval

Når du måler noget i en stikprøve — gennemsnitshøjden for 30 personer, andelen af tilfredse kunder blandt 600 adspurgte — får du et tal. Men det tal er kun et estimat af populationens sande værdi, og estimater indeholder usikkerhed: en anden stikprøve ville give et lidt andet resultat.

Det konfidensinterval løser det. I stedet for et enkelt tal giver det et interval af plausible værdier for den parameter, du vil kende. I stedet for at sige "gennemsnittet er 72" siger det "gennemsnittet ligger sandsynligvis mellem 69,0 og 75,0". Det interval kommunikerer ærligt, hvor meget din stikprøve tillader dig at sige — og hvor meget der stadig er usikkerhed.

Ethvert konfidensinterval har tre ingredienser: punktestimatet (den centrale værdi, beregnet ud fra stikprøven), fejlmarginen (hvor meget der lægges til og trækkes fra) og konfidensniveauet (90%, 95% eller 99%, som definerer strengheden). Resultatet er altid på formen estimat ± fejlmargin.

En vigtig bemærkning fra start: et konfidensinterval er ikke en hypotesetest. Det giver ingen dom om "signifikant" eller "ikke-signifikant" — det estimerer kun et interval. For en beslutningsdom, se t-testen eller proportionstesten. De to begreber taler sammen, men har forskellige formål.

Hvad betyder konfidensniveauet

Konfidensniveauet er den mest misforståede del af statistik. Det svarer på et spørgsmål om metoden, ikke om et bestemt interval.

Forestil dig at gentage dit studie tusindvis af gange, hver gang med en ny tilfældig stikprøve, og beregne et 95%-interval i hver. Den korrekte fortolkning er: omkring 95% af disse intervaller ville indeholde populationens sande værdi, og omkring 5% ville ikke indeholde den. "95%" er metodens succesrate på lang sigt.

De tre sædvanlige niveauer repræsenterer en balance mellem garanti og præcision:

Konfidens	Betyder	Effekt på intervallet
90%	Rammer rigtigt i 9 ud af 10 stikprøver.	Smallere, mindre garanti.
95%	Rammer rigtigt i 19 ud af 20 stikprøver.	Standard i de fleste områder.
99%	Rammer rigtigt i 99 ud af 100 stikprøver.	Bredere, større garanti.

Der er en uundgåelig afvejning: jo større konfidens, der kræves, jo bredere bliver intervallet. Et 99%-interval er mere forsigtigt, men også vagere. For de fleste arbejder er 95% den etablerede ligevægt.

Konfidensinterval for et gennemsnit — Students t eller normal

For at estimere gennemsnittet af en kvantitativ variabel (vægt, karakter, tid, omsætning) tager intervallet udgangspunkt i stikprøvegennemsnittet og lægger fejlmarginen til/trækker den fra:

KI = x̄ ± (kritisk værdi) × (standardfejl) x̄ er stikprøvens gennemsnit; standardfejlen er SF = s ÷ √n.

Standardfejlen måler, hvor meget stikprøvens gennemsnit varierer fra stikprøve til stikprøve. Den krymper, når n vokser — derfor giver større stikprøver smallere intervaller.

Nøglespørgsmålet er, hvilken fordeling der bruges til den kritiske værdi:

Students t-fordeling — brug den, når standardafvigelsen er estimeret fra selve stikprøven. Det er næsten altid tilfældet i praksis. T-fordelingen har lidt bredere haler end normalfordelingen for at kompensere for den ekstra usikkerhed ved ikke at kende den sande standardafvigelse. Den kritiske værdi afhænger af frihedsgraderne (df = n − 1).
Normalfordelingen (z) — brug den kun, når populationens standardafvigelse faktisk er kendt, hvilket sjældent forekommer uden for didaktiske øvelser. I denne beregner er det indstillingen "Populationens".

I tvivl skal du vælge "Stikprøvens" (t-fordelingen): det er det korrekte og sikre valg i langt de fleste tilfælde. Med store stikprøver (over ~30 observationer) er t og normal praktisk talt identiske, og valget mister praktisk betydning.

Konfidensinterval for en proportion — Wilsons metode

Når det, du måler, er en proportion — andelen af folk, der godkender noget, succesraten for en procedure — er punktestimatet ganske enkelt antallet af succeser delt med totalen (p̂ = x ÷ n). Spørgsmålet er, hvordan man konstruerer intervallet omkring den.

Den klassiske lærebogsmetode er Wald-intervallet: p̂ ± z × √[p̂(1−p̂)/n]. Det er enkelt, men har en alvorlig fejl: det fungerer dårligt, når proportionen er tæt på 0% eller 100%, eller når stikprøven er lille. I de tilfælde kan det endda producere umulige grænser under 0% eller over 100%, og dets reelle succesrate ligger godt under det annoncerede niveau.

Derfor bruger denne beregner Wilson-intervallet (også kaldet score-intervallet). Det er lidt mere kompliceret, men meget mere præcist: det holder dækningsgraden tæt på det nominelle niveau selv med små stikprøver eller ekstreme proportioner og overskrider aldrig 0% og 100%.

centrum = (p̂ + z²/2n) ÷ (1 + z²/n) Wilson-intervallet forskyder centrum lidt og justerer bredden — derfor er det asymmetrisk og mere pålideligt end Wald.

I praksis behøver du ikke huske formlen: indtast succeser og stikprøvestørrelse, og beregneren bruger Wilson-metoden automatisk.

Fejlmarginen

Fejlmarginen er halvdelen af intervallets bredde — "±" i estimatet. Når en meningsmåling siger "40%, med en fejlmargin på 2 procentpoint", beskriver den et konfidensinterval på [38%; 42%].

Tre faktorer styrer størrelsen på fejlmarginen:

Stikprøvestørrelsen (n). Det er den stærkeste faktor. Marginen krymper med kvadratroden af n: for at halvere den skal stikprøven firdobles. At fordoble n fordobler ikke præcisionen.
Konfidensniveauet. At kræve 99% i stedet for 95% udvider marginen; at acceptere 90% gør den smallere.
Datas variabilitet. Jo større standardafvigelse (i gennemsnitstilfældet), jo større margin. Meget spredte data kræver større stikprøver for samme præcision.

Hvis du stadig planlægger dataindsamlingen og vil ramme en bestemt fejlmargin, beregn antallet af observationer, du har brug for, inden du starter, med stikprøvestørrelse beregneren.

Den rigtige fortolkning — og den forkerte

Dette er sidens vigtigste afsnit. Konfidensintervallet er omgærdet af misforståelser, og at bruge det rigtigt afhænger af at tolke det præcist.

Antag, at du har beregnet et 95%-interval for gennemsnittet lig med [69,0; 75,0]. Den korrekte aflæsning er:

"Den metode, jeg brugte, rammer den sande værdi i 95% af de mulige stikprøver; baseret på denne stikprøve går det plausible interval for populationsgennemsnittet fra 69,0 til 75,0."

Den mest almindelige fortolkningsfejl

Det er forkert at sige "der er 95% sandsynlighed for, at gennemsnittet ligger mellem 69,0 og 75,0". Populationens sande værdi er et fast tal: det er allerede indenfor dette bestemte interval eller udenfor — der er ingen lodtrækning. De 95% sandsynlighed beskriver proceduren på lang sigt, ikke dette isolerede interval efter beregningen.

Andre hyppige misforståelser, det er værd at undgå:

"95% af data ligger indenfor intervallet." Falsk. Intervallet handler om populationens parameter (gennemsnit eller proportion), ikke om stikprøvens individuelle værdier.
"Værdier uden for intervallet er umulige." Falsk. De er blot mindre forenelige med dine data; intervallet markerer det plausible interval, ikke en absolut grænse.
"Et smallere interval er altid bedre." Ikke altid. Et smalt interval opnået med lav konfidens kan ramme sjældnere. Præcision og garanti skal læses sammen.

Den mest solide måde at kommunikere et resultat er at beskrive intervallet og niveauet: "med 95% konfidens estimerer vi gennemsnittet mellem 69,0 og 75,0". Enkelt, præcist og uden faldgruber.

Gennemregnet eksempel

En skole vil estimere elevernes gennemsnitlige karakter ved en prøve. En stikprøve på 30 prøver er udtrukket, med gennemsnit på 72 point og standardafvigelse (stikprøvens) på 8 point. Hvad er 95%-konfidensintervallet for hele skolens gennemsnitskarakter?

Standardfejl: SF = 8 ÷ √30 ≈ 1,461.
Fordeling: standardafvigelsen kom fra stikprøven, så vi bruger Students t med df = 30 − 1 = 29.
Kritisk værdi: for 95% konfidens og 29 frihedsgrader er t ≈ 2,045.
Fejlmargin: FM = 2,045 × 1,461 ≈ 2,99.
Interval: 72 ± 2,99, dvs. ca. [69,0; 75,0].

Konklusion: med 95% konfidens ligger hele skolens gennemsnitskarakter sandsynligvis mellem 69,0 og 75,0 point. Brug knappen "Brug eksempeldata" ovenfor for at se beregningen i beregneren.

Ofte stillede spørgsmål

Hvad er et konfidensinterval?

Det er et interval af værdier, beregnet ud fra en stikprøve, som sandsynligvis indeholder den sande værdi af en populationsparameter — som et gennemsnit eller en proportion. I stedet for et enkelt tal viser det estimatets usikkerhed.

Hvad betyder 95% konfidens?

Det betyder, at den anvendte metode rammer den sande værdi i 95% af de mulige stikprøver. Det betyder ikke, at der er 95% sandsynlighed for, at den rigtige værdi ligger i netop dette interval: det indeholder allerede eller indeholder ikke den sande værdi.

Er et konfidensinterval en hypotesetest?

Nej. Intervallet estimerer kun det sandsynlige interval for en parameter; det giver ikke en dom om "signifikant" eller "ikke-signifikant". Til det skal du bruge en hypotesetest som t-testen eller proportionstesten.

Skal jeg bruge t- eller normalfordelingen?

Til gennemsnittet skal du bruge Students t, når standardafvigelsen kommer fra selve stikprøven (det mest almindelige). Brug kun normalfordelingen (z), når populationens standardafvigelse faktisk er kendt. Med store stikprøver er de to praktisk talt identiske.

Hvordan gør jeg konfidensintervallet smallere?

Øg stikprøvestørrelsen: fejlmarginen falder med kvadratroden af n. At reducere konfidensniveauet (fx fra 99% til 95%) gør også intervallet smallere, men på bekostning af en mindre garanti.

Hvorfor bruger beregneren Wilson-metoden til proportioner?

Fordi den klassiske Wald-metode mister præcision med små stikprøver eller proportioner tæt på 0% og 100% og endda kan generere umulige grænser. Wilson-intervallet holder dækningen tæt på det annoncerede niveau i de tilfælde og overskrider aldrig 0% eller 100%.

Konfidensinterval beregner

Beregn konfidensintervallet

Hvad er et konfidensinterval

Hvad betyder konfidensniveauet

Konfidensinterval for et gennemsnit — Students t eller normal

Konfidensinterval for en proportion — Wilsons metode

Fejlmarginen

Den rigtige fortolkning — og den forkerte

Gennemregnet eksempel

Ofte stillede spørgsmål

Brug for statistik til dit område?

Konfidensinterval beregner

Beregn konfidensintervallet

Hvad er et konfidensinterval

Hvad betyder konfidensniveauet

Konfidensinterval for et gennemsnit — Students t eller normal

Konfidensinterval for en proportion — Wilsons metode

Fejlmarginen

Den rigtige fortolkning — og den forkerte

Gennemregnet eksempel

Ofte stillede spørgsmål

Relaterede beregnere

Students t-test

Stikprøvestørrelse

Proportionstest

Brug for statistik til dit område?