Statistical Significance Demystified: Co growth manažer potřebuje vědět

Statistical Significance Demystified: Co growth manažer potřebuje vědět

Statistical Significance Demystified: Co growth manažer potřebuje vědět

Statistika A/B testů nemusí být noční můra. Tento průvodce vysvětluje klíčové koncepty bez složité matematiky — jen to, co skutečně potřebujete pro správná rozhodnutí.

Proč na statistice záleží

Představte si, že váš A/B test ukazuje +5% conversion rate pro variantu B. Super, ne? Ale co když je to jen náhoda? Co když příští týden bude výsledek opačný?

Statistická signifikance vám říká: Jak moc si můžeme být jistí, že výsledek není náhoda?

Bez správné statistiky:

  • ❌ Implementujete změny, které nefungují
  • ❌ Zamítáte změny, které fungují
  • ❌ Plýtváte časem a resources
  • ❌ Ztrácíte důvěru v data

Základní koncepty (bez matiky)

P-value: Pravděpodobnost náhody

Co to je: P-value říká, jaká je pravděpodobnost, že byste viděli takový (nebo větší) rozdíl čistě náhodou, kdyby ve skutečnosti žádný rozdíl neexistoval.

Intuitivní vysvětlení:

  • p = 0.05 znamená: "Je 5% šance, že tento výsledek je náhoda"
  • p = 0.01 znamená: "Je 1% šance, že tento výsledek je náhoda"

Thresholds:

P-valueInterpretaceDoporučení
p < 0.01Vysoce signifikantníVelmi jistý výsledek
p < 0.05SignifikantníStandardní threshold
p < 0.10Marginálně signifikantníOpatrnost
p ≥ 0.10NesignifikantníNelze udělat závěr

Confidence Interval: Rozsah možných hodnot

Co to je: Rozsah, ve kterém se skutečná hodnota pravděpodobně nachází.

Příklad:

  • Výsledek: +5% conversion, 95% CI: [2%, 8%]
  • Znamená: "Jsme si 95% jistí, že skutečný efekt je mezi +2% a +8%"

Proč je důležitý:

  • Pokud CI obsahuje 0, výsledek není signifikantní
  • Úzký CI = přesnější odhad
  • Široký CI = potřebujete více dat

Statistical Power: Schopnost detekovat efekt

Co to je: Pravděpodobnost, že test detekuje skutečný efekt, pokud existuje.

Proč 80% power je standard:

  • 80% power = 80% šance detekovat skutečný efekt
  • 20% šance, že efekt přehlédnete (false negative)

Trade-off:

PowerSample sizeRisk
70%Menší30% false negatives
80%Střední20% false negatives (standard)
90%Větší10% false negatives

Sample Size: Kolik uživatelů potřebujete

Hlavní faktory:

  1. Baseline conversion rate — nižší = potřeba více dat
  2. Minimum detectable effect (MDE) — menší efekt = potřeba více dat
  3. Desired power — vyšší power = potřeba více dat
  4. Significance level — nižší p-value = potřeba více dat

Praktická tabulka (80% power, p<0.05):

Baseline CRMDE 10% relativeMDE 5% relative
1%~30,000/varianta~120,000/varianta
5%~6,000/varianta~25,000/varianta
10%~3,000/varianta~12,000/varianta
20%~1,500/varianta~6,000/varianta

Praktické aplikace

Kdy ukončit test?

Nikdy neukončujte test předčasně jen proto, že vidíte signifikantní výsledek!

Decision framework:

1. Dosáhl test plánovaného sample size?
   → NE: Počkejte (i když je výsledek signifikantní)
   → ANO: Pokračujte ke kroku 2

2. Je výsledek statisticky signifikantní (p < 0.05)?
   → ANO: Implementujte vítěze
   → NE: Pokračujte ke kroku 3

3. Je test prakticky významný?
   → CI je úzký a blízko 0: Pravděpodobně žádný efekt
   → CI je široký: Potřebujete více dat nebo větší MDE

Jak interpretovat výsledky

Scénář 1: Signifikantní pozitivní výsledek

  • Výsledek: +8%, p=0.02, CI [3%, 13%]
  • Interpretace: ✅ Implementujte změnu

Scénář 2: Nesignifikantní výsledek, úzký CI

  • Výsledek: +1%, p=0.45, CI [-2%, 4%]
  • Interpretace: Pravděpodobně žádný významný efekt, můžete zamítnout

Scénář 3: Nesignifikantní výsledek, široký CI

  • Výsledek: +5%, p=0.15, CI [-2%, 12%]
  • Interpretace: Inconclusive — potřebujete více dat

5 nejčastějších chyb

❌ Chyba 1: Peeking problem

Problém: Kontrolujete výsledky každý den a ukončíte, jakmile vidíte signifikanci. Důsledek: Až 30% false positives! Řešení: Předem definujte sample size a neměňte ho.

❌ Chyba 2: Multiple comparisons

Problém: Testujete 10 variant a slavíte tu jednu signifikantní. Důsledek: S 10 variantami máte ~40% šanci na false positive. Řešení: Bonferroni korekce nebo jeden primary metric.

❌ Chyba 3: Underpowered tests

Problém: Test s příliš malým sample size. Důsledek: Většina skutečných efektů zůstane nedetekována. Řešení: Sample size kalkulace předem.

❌ Chyba 4: Ignorování effect size

Problém: Fokus jen na p-value, ne na velikost efektu. Důsledek: +0.1% může být "signifikantní" s dostatkem dat. Řešení: Vždy se dívejte na CI a praktickou významnost.

❌ Chyba 5: P-hacking

Problém: Zkoušíte různé segmenty a metriky, dokud nenajdete signifikanci. Důsledek: False discoveries. Řešení: Pre-registration hypotéz, transparentní reporting.

Nástroje a kalkulátory

NástrojÚčelLink
Evan Miller CalculatorSample sizeevanmiller.org
AB Test GuideDurationabtestguide.com
VWO CalculatorSignificancevwo.com
Optimizely Stats EngineSequential testingOptimizely docs

Závěr

Statistická signifikance není o perfektní matematice — je o snížení rizika špatných rozhodnutí. Zapamatujte si:

  1. p < 0.05 je standard, ne absolutní pravda
  2. Sample size vypočítejte předem
  3. Nikdy nepodvádějte — peeking a p-hacking znehodnotí vaše testy
  4. Effect size matters — i statisticky signifikantní výsledek může být prakticky bezvýznamný

Akční kroky:

  1. Nastavte pre-registration proces pro experimenty
  2. Používejte sample size kalkulátor před každým testem
  3. Definujte stopping rules předem
  4. Reportujte vždy CI, ne jen p-value

Mohlo by vás zajímat