Statistical Significance Demystified: Co growth manažer potřebuje vědět

Statistika A/B testů nemusí být noční můra. Tento průvodce vysvětluje klíčové koncepty bez složité matematiky — jen to, co skutečně potřebujete pro správná rozhodnutí.

Proč na statistice záleží

Představte si, že váš A/B test ukazuje +5% conversion rate pro variantu B. Super, ne? Ale co když je to jen náhoda? Co když příští týden bude výsledek opačný?

Statistická signifikance vám říká: Jak moc si můžeme být jistí, že výsledek není náhoda?

Bez správné statistiky:

❌ Implementujete změny, které nefungují
❌ Zamítáte změny, které fungují
❌ Plýtváte časem a resources
❌ Ztrácíte důvěru v data

Základní koncepty (bez matiky)

P-value: Pravděpodobnost náhody

Co to je: P-value říká, jaká je pravděpodobnost, že byste viděli takový (nebo větší) rozdíl čistě náhodou, kdyby ve skutečnosti žádný rozdíl neexistoval.

Intuitivní vysvětlení:

p = 0.05 znamená: "Je 5% šance, že tento výsledek je náhoda"
p = 0.01 znamená: "Je 1% šance, že tento výsledek je náhoda"

Thresholds:

P-value	Interpretace	Doporučení
p < 0.01	Vysoce signifikantní	Velmi jistý výsledek
p < 0.05	Signifikantní	Standardní threshold
p < 0.10	Marginálně signifikantní	Opatrnost
p ≥ 0.10	Nesignifikantní	Nelze udělat závěr

Confidence Interval: Rozsah možných hodnot

Co to je: Rozsah, ve kterém se skutečná hodnota pravděpodobně nachází.

Příklad:

Výsledek: +5% conversion, 95% CI: [2%, 8%]
Znamená: "Jsme si 95% jistí, že skutečný efekt je mezi +2% a +8%"

Proč je důležitý:

Pokud CI obsahuje 0, výsledek není signifikantní
Úzký CI = přesnější odhad
Široký CI = potřebujete více dat

Statistical Power: Schopnost detekovat efekt

Co to je: Pravděpodobnost, že test detekuje skutečný efekt, pokud existuje.

Proč 80% power je standard:

80% power = 80% šance detekovat skutečný efekt
20% šance, že efekt přehlédnete (false negative)

Trade-off:

Power	Sample size	Risk
70%	Menší	30% false negatives
80%	Střední	20% false negatives (standard)
90%	Větší	10% false negatives

Sample Size: Kolik uživatelů potřebujete

Hlavní faktory:

Baseline conversion rate — nižší = potřeba více dat
Minimum detectable effect (MDE) — menší efekt = potřeba více dat
Desired power — vyšší power = potřeba více dat
Significance level — nižší p-value = potřeba více dat

Praktická tabulka (80% power, p<0.05):

Baseline CR	MDE 10% relative	MDE 5% relative
1%	~30,000/varianta	~120,000/varianta
5%	~6,000/varianta	~25,000/varianta
10%	~3,000/varianta	~12,000/varianta
20%	~1,500/varianta	~6,000/varianta

Praktické aplikace

Kdy ukončit test?

Nikdy neukončujte test předčasně jen proto, že vidíte signifikantní výsledek!

Decision framework:

1. Dosáhl test plánovaného sample size?
   → NE: Počkejte (i když je výsledek signifikantní)
   → ANO: Pokračujte ke kroku 2

2. Je výsledek statisticky signifikantní (p < 0.05)?
   → ANO: Implementujte vítěze
   → NE: Pokračujte ke kroku 3

3. Je test prakticky významný?
   → CI je úzký a blízko 0: Pravděpodobně žádný efekt
   → CI je široký: Potřebujete více dat nebo větší MDE

Jak interpretovat výsledky

Scénář 1: Signifikantní pozitivní výsledek

Výsledek: +8%, p=0.02, CI [3%, 13%]
Interpretace: ✅ Implementujte změnu

Scénář 2: Nesignifikantní výsledek, úzký CI

Výsledek: +1%, p=0.45, CI [-2%, 4%]
Interpretace: Pravděpodobně žádný významný efekt, můžete zamítnout

Scénář 3: Nesignifikantní výsledek, široký CI

Výsledek: +5%, p=0.15, CI [-2%, 12%]
Interpretace: Inconclusive — potřebujete více dat

5 nejčastějších chyb

❌ Chyba 1: Peeking problem

Problém: Kontrolujete výsledky každý den a ukončíte, jakmile vidíte signifikanci. Důsledek: Až 30% false positives! Řešení: Předem definujte sample size a neměňte ho.

❌ Chyba 2: Multiple comparisons

Problém: Testujete 10 variant a slavíte tu jednu signifikantní. Důsledek: S 10 variantami máte ~40% šanci na false positive. Řešení: Bonferroni korekce nebo jeden primary metric.

❌ Chyba 3: Underpowered tests

Problém: Test s příliš malým sample size. Důsledek: Většina skutečných efektů zůstane nedetekována. Řešení: Sample size kalkulace předem.

❌ Chyba 4: Ignorování effect size

Problém: Fokus jen na p-value, ne na velikost efektu. Důsledek: +0.1% může být "signifikantní" s dostatkem dat. Řešení: Vždy se dívejte na CI a praktickou významnost.

❌ Chyba 5: P-hacking

Problém: Zkoušíte různé segmenty a metriky, dokud nenajdete signifikanci. Důsledek: False discoveries. Řešení: Pre-registration hypotéz, transparentní reporting.

Nástroje a kalkulátory

Nástroj	Účel	Link
Evan Miller Calculator	Sample size	evanmiller.org
AB Test Guide	Duration	abtestguide.com
VWO Calculator	Significance	vwo.com
Optimizely Stats Engine	Sequential testing	Optimizely docs

Závěr

Statistická signifikance není o perfektní matematice — je o snížení rizika špatných rozhodnutí. Zapamatujte si:

p < 0.05 je standard, ne absolutní pravda
Sample size vypočítejte předem
Nikdy nepodvádějte — peeking a p-hacking znehodnotí vaše testy
Effect size matters — i statisticky signifikantní výsledek může být prakticky bezvýznamný

Akční kroky:

Nastavte pre-registration proces pro experimenty
Používejte sample size kalkulátor před každým testem
Definujte stopping rules předem
Reportujte vždy CI, ne jen p-value

Statistical Significance Demystified: Co growth manažer potřebuje vědět

Statistical Significance Demystified: Co growth manažer potřebuje vědět

Proč na statistice záleží

Základní koncepty (bez matiky)

P-value: Pravděpodobnost náhody

Confidence Interval: Rozsah možných hodnot

Statistical Power: Schopnost detekovat efekt

Sample Size: Kolik uživatelů potřebujete

Praktické aplikace

Kdy ukončit test?

Jak interpretovat výsledky

5 nejčastějších chyb

❌ Chyba 1: Peeking problem

❌ Chyba 2: Multiple comparisons

❌ Chyba 3: Underpowered tests

❌ Chyba 4: Ignorování effect size

❌ Chyba 5: P-hacking

Nástroje a kalkulátory

Závěr

Mohlo by vás zajímat

Experimentation Velocity: Jak běžet 100+ experimentů měsíčně

Behavioral Economics pro Growth: Iracionální rozhodování zákazníků

6 principů přesvědčování: Cialdini pro growth marketing