Statistical Significance Demystified: Co growth manažer potřebuje vědět
Statistical Significance Demystified: Co growth manažer potřebuje vědět
Statistika A/B testů nemusí být noční můra. Tento průvodce vysvětluje klíčové koncepty bez složité matematiky — jen to, co skutečně potřebujete pro správná rozhodnutí.
Proč na statistice záleží
Představte si, že váš A/B test ukazuje +5% conversion rate pro variantu B. Super, ne? Ale co když je to jen náhoda? Co když příští týden bude výsledek opačný?
Statistická signifikance vám říká: Jak moc si můžeme být jistí, že výsledek není náhoda?
Bez správné statistiky:
- ❌ Implementujete změny, které nefungují
- ❌ Zamítáte změny, které fungují
- ❌ Plýtváte časem a resources
- ❌ Ztrácíte důvěru v data
Základní koncepty (bez matiky)
P-value: Pravděpodobnost náhody
Co to je: P-value říká, jaká je pravděpodobnost, že byste viděli takový (nebo větší) rozdíl čistě náhodou, kdyby ve skutečnosti žádný rozdíl neexistoval.
Intuitivní vysvětlení:
- p = 0.05 znamená: "Je 5% šance, že tento výsledek je náhoda"
- p = 0.01 znamená: "Je 1% šance, že tento výsledek je náhoda"
Thresholds:
| P-value | Interpretace | Doporučení |
|---|---|---|
| p < 0.01 | Vysoce signifikantní | Velmi jistý výsledek |
| p < 0.05 | Signifikantní | Standardní threshold |
| p < 0.10 | Marginálně signifikantní | Opatrnost |
| p ≥ 0.10 | Nesignifikantní | Nelze udělat závěr |
Confidence Interval: Rozsah možných hodnot
Co to je: Rozsah, ve kterém se skutečná hodnota pravděpodobně nachází.
Příklad:
- Výsledek: +5% conversion, 95% CI: [2%, 8%]
- Znamená: "Jsme si 95% jistí, že skutečný efekt je mezi +2% a +8%"
Proč je důležitý:
- Pokud CI obsahuje 0, výsledek není signifikantní
- Úzký CI = přesnější odhad
- Široký CI = potřebujete více dat
Statistical Power: Schopnost detekovat efekt
Co to je: Pravděpodobnost, že test detekuje skutečný efekt, pokud existuje.
Proč 80% power je standard:
- 80% power = 80% šance detekovat skutečný efekt
- 20% šance, že efekt přehlédnete (false negative)
Trade-off:
| Power | Sample size | Risk |
|---|---|---|
| 70% | Menší | 30% false negatives |
| 80% | Střední | 20% false negatives (standard) |
| 90% | Větší | 10% false negatives |
Sample Size: Kolik uživatelů potřebujete
Hlavní faktory:
- Baseline conversion rate — nižší = potřeba více dat
- Minimum detectable effect (MDE) — menší efekt = potřeba více dat
- Desired power — vyšší power = potřeba více dat
- Significance level — nižší p-value = potřeba více dat
Praktická tabulka (80% power, p<0.05):
| Baseline CR | MDE 10% relative | MDE 5% relative |
|---|---|---|
| 1% | ~30,000/varianta | ~120,000/varianta |
| 5% | ~6,000/varianta | ~25,000/varianta |
| 10% | ~3,000/varianta | ~12,000/varianta |
| 20% | ~1,500/varianta | ~6,000/varianta |
Praktické aplikace
Kdy ukončit test?
Nikdy neukončujte test předčasně jen proto, že vidíte signifikantní výsledek!
Decision framework:
1. Dosáhl test plánovaného sample size?
→ NE: Počkejte (i když je výsledek signifikantní)
→ ANO: Pokračujte ke kroku 2
2. Je výsledek statisticky signifikantní (p < 0.05)?
→ ANO: Implementujte vítěze
→ NE: Pokračujte ke kroku 3
3. Je test prakticky významný?
→ CI je úzký a blízko 0: Pravděpodobně žádný efekt
→ CI je široký: Potřebujete více dat nebo větší MDE
Jak interpretovat výsledky
Scénář 1: Signifikantní pozitivní výsledek
- Výsledek: +8%, p=0.02, CI [3%, 13%]
- Interpretace: ✅ Implementujte změnu
Scénář 2: Nesignifikantní výsledek, úzký CI
- Výsledek: +1%, p=0.45, CI [-2%, 4%]
- Interpretace: Pravděpodobně žádný významný efekt, můžete zamítnout
Scénář 3: Nesignifikantní výsledek, široký CI
- Výsledek: +5%, p=0.15, CI [-2%, 12%]
- Interpretace: Inconclusive — potřebujete více dat
5 nejčastějších chyb
❌ Chyba 1: Peeking problem
Problém: Kontrolujete výsledky každý den a ukončíte, jakmile vidíte signifikanci. Důsledek: Až 30% false positives! Řešení: Předem definujte sample size a neměňte ho.
❌ Chyba 2: Multiple comparisons
Problém: Testujete 10 variant a slavíte tu jednu signifikantní. Důsledek: S 10 variantami máte ~40% šanci na false positive. Řešení: Bonferroni korekce nebo jeden primary metric.
❌ Chyba 3: Underpowered tests
Problém: Test s příliš malým sample size. Důsledek: Většina skutečných efektů zůstane nedetekována. Řešení: Sample size kalkulace předem.
❌ Chyba 4: Ignorování effect size
Problém: Fokus jen na p-value, ne na velikost efektu. Důsledek: +0.1% může být "signifikantní" s dostatkem dat. Řešení: Vždy se dívejte na CI a praktickou významnost.
❌ Chyba 5: P-hacking
Problém: Zkoušíte různé segmenty a metriky, dokud nenajdete signifikanci. Důsledek: False discoveries. Řešení: Pre-registration hypotéz, transparentní reporting.
Nástroje a kalkulátory
| Nástroj | Účel | Link |
|---|---|---|
| Evan Miller Calculator | Sample size | evanmiller.org |
| AB Test Guide | Duration | abtestguide.com |
| VWO Calculator | Significance | vwo.com |
| Optimizely Stats Engine | Sequential testing | Optimizely docs |
Závěr
Statistická signifikance není o perfektní matematice — je o snížení rizika špatných rozhodnutí. Zapamatujte si:
- p < 0.05 je standard, ne absolutní pravda
- Sample size vypočítejte předem
- Nikdy nepodvádějte — peeking a p-hacking znehodnotí vaše testy
- Effect size matters — i statisticky signifikantní výsledek může být prakticky bezvýznamný
Akční kroky:
- Nastavte pre-registration proces pro experimenty
- Používejte sample size kalkulátor před každým testem
- Definujte stopping rules předem
- Reportujte vždy CI, ne jen p-value