A / B-test: Sådan beregnes prøvestørrelse, før du starter din test

Antag, at du har kørt en A / B-test i en uge nu, og hver dag bliver du spurgt af dine forretningsinteressenter, ”Hvor længe planlægger vi at køre testen? Har vi en betydning endnu? ”. Dette er ikke en usædvanlig situation. Faktisk løber alle produktledere ind i dette problem. Bortset fra at vi mange gange ikke har nogen idé om, hvor længe vi skal køre testen, så vi ser på resultaterne i et håb om, at vi når betydning. Problemet forbindes, hvis du kører en test, men du forventer ingen løftning - Dette kan enten skyldes æstetiske årsager eller indtægter opad. Hvor længe skal du køre det? Tricket er det ikke?

Vi bør ideelt set aldrig starte en test uden at vide, hvor mange prøver vi vil indsamle. Hvorfor? Ellers ser du på data, og du ender med at gøre 'Data Peeking', som stopper testen, så snart du får betydning. Her er et eksempel - Antag, at du har en mønt, og din hypotese er, at den er fair. Hvordan beviser du det? Simpelt - smid det 100 gange. Men hvad nu hvis du kastede det 10 gange og så halerne 10 gange. Det forekommer statistisk signifikant at stoppe testen på dette tidspunkt og afvise Null-hypotesen - at mønten er fair. Hvad gik galt? Du stoppede testen lidt for tidligt. Du havde ingen idé om at begynde med hvor længe du skulle have kørt testen. Det andet problem, du muligvis støder på, hvis du ikke har beregnet prøvestørrelsen, er, at du ikke vil være i stand til at sige med sikkerhed, hvor længe du vil køre testen for.

Så hvordan nærmer vi os dette?

Følg den første regel om produktstyring - Omfavne tvetydigheden, men undgå usikkerheden.

Sådan kan vi nærme os beregningen af ​​prøvestørrelsen: Antag, at vi kører en A / B-test, hvor: Vores aktuelle konverteringsfrekvens for en begivenhed såsom% af brugerne, der tilmelder sig e-mail er 10%, og vi forventer en 10% løftning i konvertering, hvis behandlingen vinder. Derefter,

Baseline-konvertering: P1 = 20%

Uplift i konvertering: 10% (Dette er, hvad du estimerede som den forventede effekt af din ændring). Som en del af vækstholdet stræber vi normalt efter 20% løft, men endda 10% kan være store, afhængigt af hvor modnet dit produkt er. Jo højere løft, jo før du får betydning.

Forventet omdannelse af behandlingsgruppen: P2 = 20% * (1 + 10%) = 22%

Betydningsniveau: Dette er chancen for en falsk positiv, dvs. på 5% signifikansniveau, hvad er chancen for, at vi afviser nulhypotesen, da den var i virkeligheden (som du aldrig ville vide), var sandt. Selvfølgelig vil vi minimere denne fejl, så vi vælger 5%. Hvis du har mindre trafik, kan du øge dette til 10% eller endda 20%.

Falsk positiv: Type I-fejl - Afvisning af nulhypotesen, når den er sand

Statistisk kraft: Dette er sandsynligheden for, at du får en falsk negativ. Pyha! Strøm (= 1 - Type II-fejl) er sandsynligheden for at undgå en type II-fejl, eller med andre ord Strøm er sandsynligheden for, at testen registrerer et afvigelse fra nulhypotesen, hvis en sådan afvigelse eksisterer. Vi indstiller det typisk til 80%.

Falsk negativ: Type II-fejl - Undladelse af at afvise nullhypotesen, når den er falsk

Nu har vi alt, hvad vi faktisk kan gå videre med og beregne den nødvendige prøvestørrelse. Vi kan enten bruge en online regnemaskine, G-elværktøj eller R. Afhængigt af hvilket værktøj du bruger kan du se lidt forskellige numre, men det er okay.

Lad os se hver enkelt af dem én efter én:

a) Online-regnemaskine som denne her

b) Brug G * El-værktøj: Download værktøjet herfra. Gå til Testfamilien 'Z-tests', Statistiske prøver som 'Proportioner: Forskel mellem to uafhængige proportioner', og tilføj P1, P2, Alpha (statistisk signifikans), Power = 0,8.

Forventet output:

c) R: Den funktion, vi skal bruge, er power.prop.test (man-side).

power.prop.test (n = NULL, p1 = NULL, p2 = NULL, sig.level = 0,05, power = NULL, alternativ = c ("two.sided", "one.sided"), streng = FALSE)

Gå til en hvilken som helst online R-kompilator som denne her, og skriv følgende kommando med n indstillet til NULL.

power.prop.test (n = NULL, p1 = 0.2, p2 = 0.22, power = 0.8, alternativ = 'two.sided', sig.level = 0.05)

Dette er output, som du får i R

To-prøvesammenligning af beregninger af effektforhold 
             n = 6509.467 p1 = 0.2 p2 = 0.22 sig. niveau = 0,05 effekt = 0,8 alternativ = to sidet
BEMÆRK: n er nummer i * hver * gruppe

Dette betyder, at vi har brug for ca. 6510 prøver i hver gruppe. Hvilket betyder, at vi har brug for 13020 trafik.

Antag nu, at du historisk ved, at din webstedstrafik er 2000 besøgende, så ved du, at du er nødt til at køre din hypotesetest i 6,51 dage eller 7 dage.

Bonuspoint: Det er altid en god ide at dække alle ugedage, da de fleste af virksomhederne har 'weeklikality' i deres efterspørgsel.

Næste gang du nu skal køre A / B-testen, skal du forudberegne den nødvendige prøvestørrelse, så du kan indstille de rigtige forventninger med dine forretningsinteressenter.

Bare i tilfælde af at du har fundet prøvestørrelsen meget større, som du ikke tror, ​​du vil få betydning i betragtning af den trafik, som dit websted har, skal du ikke bekymre dig, i et andet indlæg deler jeg nogle seje tricks om, hvordan du kører A / B test, når du ikke har nok trafik. Indtil da glad A / B-test.