A/B-test-beregner

Sammenlign to versioner og find ud af på få sekunder, om forskellen mellem dem er statistisk signifikant — eller om det bare kan være tilfældighed.

Beregn signifikans af testen

Indtast besøgende og konverteringer for hver variant. En konvertering er den handling, du måler: køb, tilmelding, klik osv.

Variant A — Kontrol
Variant B — Variation
Indstillinger

Vil du planlægge testen, før du går i gang? Brug beregneren til stikprøvestørrelse for A/B-tests og find ud af, hvor mange besøgende du har brug for.

Hvad er en A/B-test

En A/B-test er et kontrolleret eksperiment, der sammenligner to versioner af noget for at finde ud af, hvilken der klarer sig bedst. Version A er kontrollen — typisk det, der allerede findes. Version B er variationen — den ændring, du vil teste. Du fordeler publikum tilfældigt mellem de to og måler en bestemt metrik, næsten altid konverteringsraten.

Det klassiske eksempel kommer fra digital marketing: to versioner af en salgsside, to e-mail-emnelinjer, to knapper i forskellige farver. Men den samme logik gælder alle områder. Et hospital kan sammenligne to vejledningsprotokoller; en app kan sammenligne to tilmeldingsflows; en skole kan sammenligne to undervisningsmetoder. Hver gang der er to grupper og en succesrate, er der en mulig A/B-test.

Problemet er, at når du kigger på to tal — lad os sige 11% konvertering mod 12% — er det umuligt at se med det blotte øje, om forskellen er reel, eller om det var held. Hvis du kaster to ærlige mønter 100 gange hver, vil den ene næsten altid give flere "krone" end den anden; det betyder ikke, at den er "bedre". A/B-testen bruger statistik netop til at skelne signal (en virkelig forskel) fra støj (tilfældig variation).

Hvad er statistisk signifikans

Statistisk signifikans er det kriterium, der adskiller en pålidelig forskel fra en forskel, der kan være opstået ved en tilfældighed. For at nå dertil tager enhver hypotesetest udgangspunkt i en pessimistisk antagelse, der hedder nulhypotesen: at der ingen forskel er mellem A og B, og at enhver observeret afstand er ren stikprøvestøj.

Beregneren måler så, hvor meget dine data "er uenige" med den hypotese, og opsummerer det i ét tal, p-værdien. P-værdien svarer på et meget specifikt spørgsmål:

Hvad p-værdien måler

"Hvis A og B virkelig var ens, hvad ville så sandsynligheden være for at observere en forskel så stor som den, jeg har målt — eller endnu større — bare ved tilfældighed?"

En lille p-værdi betyder, at dit resultat ville være meget sjældent i en verden, hvor A og B er ens. Så er det mere sandsynligt, at de ikke er ens. Du sammenligner p-værdien med en grænse, der er fastlagt før testen, signifikansniveauet (repræsenteret med det græske bogstav α, alfa). Standarden er α = 5% (0,05):

  • p-værdi < 0,05statistisk signifikant resultat. Forskellen er sandsynligvis reel.
  • p-værdi ≥ 0,05ikke signifikant resultat. Der er ikke tilstrækkelige belæg for at sige, at A og B er forskellige.
Pas på fortolkningen

P-værdien er ikke sandsynligheden for, at din variant er bedre, og "ikke signifikant" beviser ikke, at A og B er ens — det betyder bare, at der mangler data. Statistisk signifikans er heller ikke det samme som praktisk betydning: med en kæmpe stikprøve kan selv en lillebitte og ligegyldig forskel blive "signifikant".

Sådan regner beregneren

Under motorhjelmen bruger denne beregner en z-test for to proportioner. Det er standardproceduren til at sammenligne to konverteringsrater. Der er fire trin:

1. Konverteringsrate for hver variant. Du dividerer simpelthen konverteringerne med besøgende:

pA = konverteringerA ÷ besøgendeA  og  pB = konverteringerB ÷ besøgendeB

2. Samlet proportion. Under nulhypotesen kommer A og B fra samme population. Derfor samler vi det hele i én rate, den såkaldte poolede proportion:

p̄ = (konverteringerA + konverteringerB) ÷ (besøgendeA + besøgendeB)

3. Standardfejl og z-statistik. Standardfejlen måler, hvor meget tilfældig variation der kan forventes i forskellen mellem de to rater. Z-statistikken dividerer den observerede forskel med standardfejlen — altså måler forskellen i "antal standardfejl":

SF = √[ p̄ · (1 − p̄) · (1/nA + 1/nB) ]
z = (pB − pA) ÷ SF nA og nB er antallet af besøgende i hver variant.

4. P-værdi. Jo større |z|, jo længere er du fra scenariet "ingen forskel". Beregneren omdanner z til p-værdi ved hjælp af standardnormalfordelingen (Φ er dens fordelingsfunktion):

p-værdi (tosidet) = 2 · [ 1 − Φ(|z|) ]

Ud over dommen giver beregneren også konfidensintervallet for forskellen — det interval af plausible værdier for den reelle gevinst i konvertering. Det interval er mere informativt end "ja eller nej"-signifikansen, fordi det viser størrelsen af den sandsynlige effekt.

Lær mere

A/B-testen er din indgang til anvendt statistik. For at få styr på emnet inden for dit område:

Links ovenfor fører til indhold her på siden. Hvis vi senere tilføjer partnerhenvisninger, vil dette afsnit gøre opmærksom på samarbejdet.

Sådan fortolker du resultatet fra beregneren

Når du har beregnet, ser du et farvet kort med konklusionen og seks nøgletal. Her er, hvad hvert af dem fortæller:

  • Konverteringsrate A og B — den rå performance for hver version, i procent.
  • Relativ forskel (uplift) — hvor meget variant B er steget (eller faldet) i forhold til A. En uplift på +10% betyder, at B konverterer 10% bedre end A i relative tal.
  • P-værdi — sandsynligheden for at se denne forskel ved tilfældighed. Jo mindre, jo stærkere belæg.
  • Z-statistik — forskellen målt i standardfejl. I en tosidet test ved 95% indikerer |z| over 1,96 allerede signifikans.
  • Konfidens i resultatet — det er simpelthen 1 − p-værdi. En p-værdi på 0,02 bliver til "98% konfidens". Bemærk: det er ikke sandsynligheden for, at B vinder; det er kun komplementet til p-værdien.
  • Konfidensinterval for forskellen — det sandsynlige interval for den reelle gevinst. Hvis intervallet krydser nul, er fordelen stadig usikker.
Den gyldne regel

Beslut, hvem der vinder, ud fra det samlede billede: signifikansdommen, upliftens størrelse og konfidensintervallet. Et signifikant resultat med en lillebitte uplift er måske ikke værd at implementere. Et ikke-signifikant resultat med lovende uplift kan bare have brug for flere data.

Tosidet, ensidet og konfidensniveau

To indstillinger ændrer testens stringens. Den første er typen af test:

  • Tosidet — tester, om B er forskellig fra A, enten i opadgående eller nedadgående retning. Det er den sikreste mulighed og anbefales i de fleste tilfælde, fordi en A/B-test også kan forværre konverteringen.
  • Ensidet — tester kun, om B er bedre end A. Den opdager forskelle lettere, men er kun gyldig, hvis du har fastlagt den retning før dataindsamlingen og accepterer at se bort fra muligheden for forværring.

Den anden indstilling er konfidensniveauet, komplementet til signifikansniveauet:

KonfidensSignifikans (α)Hvornår bruges det
90%0,10Eksplorative tests, lav omkostning ved fejl.
95%0,05Standarden. Brug det, når du er i tvivl.
99%0,01Dyre eller højrisiko-beslutninger.

Jo højere konfidens du kræver, jo sværere er det at opnå signifikans — og jo større stikprøve skal du bruge. Højere konfidens reducerer risikoen for falsk positiv (type I-fejl: at udråbe en vinder, der ikke er en vinder), men øger risikoen for falsk negativ (type II-fejl: at overse en forbedring, der faktisk findes).

Eksempel trin for trin

En webshop testede en ny produktside. Her er tallene fra to ugers indsamling:

VariantBesøgendeKonverteringerRate
A — nuværende side16.4501.84011,19%
B — ny side16.3202.01012,32%
  1. Rater: pA = 1840 ÷ 16450 = 0,1119 (11,19%); pB = 2010 ÷ 16320 = 0,1232 (12,32%).
  2. Samlet proportion: p̄ = (1840 + 2010) ÷ (16450 + 16320) = 3850 ÷ 32770 = 0,1175.
  3. Standardfejl: SF = √[0,1175 · 0,8825 · (1/16450 + 1/16320)] ≈ 0,00356.
  4. Z-statistik: z = (0,1232 − 0,1119) ÷ 0,00356 ≈ 3,18.
  5. P-værdi: for z = 3,18 er den tosidede p-værdi ≈ 0,0015 — langt under 0,05.

Konklusion: forskellen er statistisk signifikant ved 95% konfidens. Variant B konverterer omkring 10% bedre (relativ uplift), og resultatet er næppe en tilfældighed. Brug knappen "Brug eksempeldata" ovenfor for at se beregningen i beregneren.

7 fejl der ødelægger en A/B-test

Mere farligt end ikke at lave en test er at lave en dårlig test — den giver en falsk følelse af sikkerhed. Undgå disse fælder:

  1. Stoppe testen ved det første gunstige øjeblik (peeking). At kigge på resultatet hele tiden og afslutte, så snart der står "signifikant", puster den falske positive rate op fra 5% til 20%, 30% eller mere. Fastlæg stikprøvestørrelsen på forhånd, og beslut først, når du har nået den.
  2. Ikke beregne stikprøvestørrelsen. Uden at vide hvor mange besøgende du skal bruge, bliver testen til lotteri. Brug stikprøveberegneren, før du går i gang.
  3. Køre testen for kort tid. En test skal dække komplette cyklusser — inklusive weekender og lønningsdage. Det bedste er at lade den køre i mindst én til to hele uger.
  4. Teste flere variationer uden justering. Jo flere versioner du sammenligner samtidig, jo større er chancen for, at én "vinder" af held. Med mange varianter skal signifikansniveauet korrigeres.
  5. Ændre testen undervejs. At ændre siden, trafikken eller publikum midt under eksperimentet forurener dataene. Frys alt indtil slut.
  6. Forveksle signifikans med relevans. En uplift på 0,1% kan være "signifikant" med en enorm stikprøve og stadig ikke betale omkostningen ved ændringen. Kig altid på effektstørrelsen.
  7. Ignorere segmenteringen. En variant kan vinde på mobil og tabe på computer. Et samlet gennemsnit kan skjule det — analyser segmenterne, når det giver mening.

A/B-test ud over marketing

Selvom A/B-testen er blevet synonym med konverteringsoptimering (CRO), er den i bund og grund en sammenligning af to proportioner — og det dukker op overalt:

  • Sundhed og sygepleje: sammenligne andelen, der følger en behandling, mellem to grupper, eller komplikationsraten mellem to protokoller. Se guiden til statistik for sygepleje.
  • Psykologi og forskning: sammenligne andelen af deltagere, der udviser en bestemt adfærd, i to eksperimentelle betingelser. Se guiden til statistik for psykologi.
  • Produkt og teknologi: sammenligne retention-, aktiverings- eller fejlraten mellem to versioner af en app.

Når det, du sammenligner, ikke er rater, men gennemsnit — tid, karakter, blodtryk, omsætning pr. kunde — er den rigtige test i stedet t-testen (Student). Og hvis du vil sammenligne én enkelt proportion med en referenceværdi, så brug proportionstesten.

Ofte stillede spørgsmål

Hvad er en A/B-test?

Det er et eksperiment, der fordeler publikum tilfældigt mellem to versioner — A (kontrol) og B (variation) — og måler, hvilken der giver flest konverteringer. Statistikken sikrer, at den observerede forskel er reel og ikke tilfældighed.

Hvad betyder "statistisk signifikant"?

Det betyder, at p-værdien er under det valgte signifikansniveau (typisk 5%). Det er usandsynligt, at forskellen mellem varianterne er opstået ved ren tilfældighed — der er belæg for en reel effekt.

Hvilket konfidensniveau skal jeg bruge?

95% er standarden og fungerer i de fleste tilfælde. Brug 99%, når en forkert beslutning bliver dyr, og 90% kun i eksplorative tests, hvor en falsk positiv har små konsekvenser.

Hvor mange besøgende skal jeg bruge til en A/B-test?

Det afhænger af din nuværende konverteringsrate og af, hvor stor en effekt du vil opdage. Jo mindre forbedring du forventer, jo større stikprøve. Beregn det først i beregneren til stikprøvestørrelse.

Kan jeg afslutte testen, så snart den bliver signifikant?

Nej. At tjekke resultatet gentagne gange og stoppe i det første gunstige øjeblik (peeking) puster falsk-positiv-raten kraftigt op. Fastlæg stikprøvestørrelsen fra starten, og træf først beslutningen, når du har nået den.

Resultatet blev ikke signifikant. Hvad nu?

Ikke signifikant beviser ikke, at versionerne er ens — det betyder typisk, at der mangler data. Tjek, om du har nået den planlagte stikprøvestørrelse. Hvis ja, har ændringen sandsynligvis haft for lille en effekt til at være indsatsen værd.

Planlæg næste test med sikkerhed

Før du indsamler data, så find ud af, hvor mange besøgende og hvor mange dage din A/B-test kræver.

Beregn stikprøvestørrelse