Hvorfor beregne stikprøvestørrelsen før A/B-testen?

Fordi du uden et fast mål ikke ved, hvornår du skal stoppe. At fastlægge stikprøven på forhånd forhindrer både at stoppe for tidligt (falsk positiv) og for sent og gør resultatet pålideligt.

Hvad er den mindste detekterbare effekt (MDE)?

Det er den mindste forbedring, der er værd at opdage. Jo mindre effekt du vil fange, jo større stikprøve skal du bruge.

Hvor længe skal en A/B-test køre?

Lang tid nok til at nå den beregnede stikprøvestørrelse, og som minimum én til to hele uger, så den dækker variationen mellem ugedage.

Stikprøvestørrelsesberegner til A/B-test

Har du allerede indsamlet data? Se, om forskellen er signifikant, i A/B-test-beregneren.

Hvorfor beregne stikprøven før testen

Den mest almindelige fejl i A/B-tests ligger ikke i regnestykket — den ligger i at gå i gang uden en plan. Den, der starter en test uden at fastlægge stikprøvestørrelsen, ender altid i en af to fælder. Enten kigger man på dashboardet hver dag og stopper i det første øjeblik, hvor der står "signifikant", hvilket pumper risikoen for en falsk positiv enormt op. Eller også lader man den køre i det uendelige og spilder trafik på en test, der aldrig bliver afsluttet.

At beregne stikprøvestørrelsen på forhånd løser begge dele. Du fastlægger et mål — "jeg skal bruge 12.000 besøgende pr. variant" — og træffer først beslutningen, når du har nået det tal. Resultatet bliver pålideligt, fordi stopkriteriet blev defineret før, du så et eneste datapunkt.

Sådan virker beregneren

Stikprøvestørrelsen til en A/B-test afhænger af fire ingredienser. Ændrer du på én af dem, ændrer tallet sig:

Nuværende konverteringsrate — udgangspunktet. Meget lave rater kræver større stikprøver.
Mindste detekterbare effekt (MDE) — den mindste forbedring, du vil kunne få øje på. Jo mindre, jo større stikprøve.
Konfidensniveau — styrer risikoen for falsk positiv. 95% er standarden.
Statistisk styrke — styrer risikoen for falsk negativ. 80% er standarden.

Beregneren kombinerer disse værdier i den klassiske formel for sammenligning af to proportioner (baseret på normaltilnærmelsen), idet den antager de to grupper er lige store:

n pr. variant = [ z_α·√(2·p̄·q̄) + z_β·√(p₁·q₁ + p₂·q₂) ]² ÷ (p₂ − p₁)² p₁ er den nuværende rate, p₂ målraten, q = 1 − p, p̄ gennemsnittet af de to; z_α og z_β kommer fra konfidens og styrke.

Hvad er statistisk styrke

Hvis konfidensniveauet beskytter mod at "se" en effekt, der ikke findes, så beskytter statistisk styrke mod det modsatte: ikke at se en effekt, der findes. Styrken er sandsynligheden for, at testen opdager en reel forbedring.

Standarden er 80%. Det betyder, at hvis din variant virkelig er bedre i den størrelsesorden, du har defineret, så vil testen opdage det i 80% af tilfældene — og fejle (falsk negativ) i 20%. At gå op til 90% styrke giver mere sikkerhed, men kræver en del større stikprøve. For de fleste teams er 80% den rette balance.

Konfidens og styrke

95% konfidens og 80% styrke er udgangsindstillingerne for stort set enhver A/B-test. Du bør kun ændre dem, hvis du har en klar grund: mere konfidens, når en fejl koster dyrt, mere styrke, når det er uacceptabelt at gå glip af en reel gevinst.

Sådan vælger du den mindste detekterbare effekt

MDE er den mest strategiske beslutning — og den, der oftest forvirrer. Den svarer på: "hvad er den mindste forbedring, der stadig er værd at have for min forretning?"

Du kan angive den på to måder:

Relativ: en procentvis stigning oven på den nuværende rate. En relativ MDE på 10% af en konvertering på 5% sigter på 5,5%.
Absolut: en stigning målt i procentpoint. En absolut MDE på 1 point af 5% sigter på 6%.

Fristelsen er at vælge en lille MDE for "ikke at gå glip af noget". Problemet er, at det er dyrt at opdage små forbedringer: at halvere MDE'en firdobler den nødvendige stikprøve. Vær realistisk — sigt efter den mindste forbedring, der faktisk ville retfærdiggøre at implementere ændringen.

Hvor længe testen skal køre

Stikprøvestørrelsen svarer på "hvor mange personer". Varigheden svarer på "hvor mange dage" — du dividerer bare den samlede stikprøve med den daglige trafik. Men der er en ekstra regel: enhver test bør køre i mindst én til to hele uger, selv hvis stikprøven nås før.

Grunden er, at adfærden ændrer sig hen over ugen. Den, der besøger et site mandag morgen, er ikke det samme publikum som fredag aften. At afslutte en test efter tre løbende dage kan kun fange én "type" besøgende og skævvride resultatet. Luk altid testen ved afslutningen af hele uger.

Løst eksempel

En butik konverterer i dag 5% af de besøgende og vil opdage en relativ forbedring på 10% (altså komme op på 5,5%), med 95% konfidens og 80% styrke, i en tosidet test.

Nuværende rate p₁ = 0,05; målrate p₂ = 0,05 × 1,10 = 0,055.
Med z_α ≈ 1,96 (95%, tosidet) og z_β ≈ 0,84 (80% styrke) giver formlen omkring 31.234 besøgende pr. variant.
Samlet stikprøve ≈ 62.468 besøgende (A og B lagt sammen).
Med 800 besøgende pr. dag skal testen køre ≈ 79 dage — cirka 11 uger.

Det tal plejer at overraske, og det er netop derfor, det er en god idé at beregne det først: små forbedringer i lave rater kræver meget trafik. Brug knappen "Brug eksempeldata" for at se beregningen i beregneren.

Ofte stillede spørgsmål

Hvorfor skal jeg beregne stikprøven før testen?

Fordi du uden et fast mål ikke ved, hvornår du skal stoppe. At fastlægge stikprøven på forhånd forhindrer "peeking" — at stoppe ved det første gunstige resultat — som gør en 5%-falsk-positiv-test til noget langt mindre pålideligt.

Hvad sker der, hvis konverteringsraten er meget lav?

Jo lavere rate, jo større stikprøve skal du bruge. Konverteringer på 1-2% kræver typisk titusinder eller hundredetusinder af besøgende for at opdage moderate forbedringer.

Skal jeg bruge relativ eller absolut MDE?

Den relative er mest intuitiv for de fleste teams ("jeg vil vokse 10%"). Den absolutte er nyttig, når du tænker i procentpoint. Beregneren accepterer begge — vælg den, der falder dig mest naturligt.

Kan jeg stoppe, før jeg har nået den beregnede stikprøve?

Nej, hvis du vil have et pålideligt resultat. At stoppe tidligt er hovedårsagen til falske positive i A/B-tests. Vent, til du har nået stikprøven, og kør mindst én til to hele uger.

Stikprøvestørrelsesberegner til A/B-test

Planlæg A/B-testen

Hvorfor beregne stikprøven før testen

Sådan virker beregneren

Hvad er statistisk styrke

Sådan vælger du den mindste detekterbare effekt

Hvor længe testen skal køre

Løst eksempel

Ofte stillede spørgsmål

Testen er planlagt — nu skal der måles

Stikprøvestørrelsesberegner til A/B-test

Planlæg A/B-testen

Hvorfor beregne stikprøven før testen

Sådan virker beregneren

Hvad er statistisk styrke

Sådan vælger du den mindste detekterbare effekt

Hvor længe testen skal køre

Løst eksempel

Ofte stillede spørgsmål

Relaterede beregnere

A/B-test

Stikprøvestørrelse

Proportionstest

Testen er planlagt — nu skal der måles