Hlavní navigace

Názor k článku Jak pomocí A/B testování zvýšit výnosnost webu od Jiri Stepan / Et netera - Dobrý den, dovolím si reagovat obsáhleji, neboť se problematickou...

  • Článek je starý, nové názory již nelze přidávat.
  • 18. 12. 2009 9:35

    Jiri Stepan / Et netera (neregistrovaný) ---.etnetera.cz
    Dobrý den,

    dovolím si reagovat obsáhleji, neboť se problematickou A/B testování zabývám a ve vašem článku je přítomná poměrně závažná chyba. Konkrétně se budu věnovat kapitole "Výsledky experimentu" a uvedené tabulce.

    Obecně jste zvolili správný postup, nicméně ve vyhodnocení zcela chybí statistické ověření výsledků, takže nevíte zda zlepšení oproti kontrolnímu vzorku je prkazatelné nebo náhodné. Dovolím si ukázat, že dle Vámi uvedených čísel v tabulce nelze zlepšení boucerate prokázat. Je nutné v experimentu pokračovat, neboť zlepšení je vzhledem k velikosti vzorků příliš malé a vejde se do statistické chyby (zjednodušuji, statistici prosím nekamenujte). Budu se dále zabývat jen varintou 4 - tedy viteznou. U ostatnich je to analogicke.

    A/B test je statistickým testem, kdy zamítáme nulovou hypotézu, které zní "VARINTA č.4 udrží méně uživatelů než kontrolní vzorek". Pokud si tedy nazveme veličinu NONBOUNCE = POCET_VISITS_KTERI_ZUSTANOU / POCET_VISITS (tedy 1-BOUNCERATE), lze nulovou hypotézy formulovat jako H_0: NONBOUNCE_CONTROL >= NONBOUNCE_VARINTA4. Abychom mohli tvrdit, ze VARINTA4 je lepsi musime zamitnout nulovou hypotezu se spolehlivosti typicky 0.05. Vagne receno - mame pouze 5% pravdepodobnost, ze vysledek je nahoda.

    K porovnání použijeme test proporcí dvou binomických rozdělení. Nebudu zatěžovat jak se počítá - pokud by to někoho zajímalo, rád vysvětlím, ale omezené možnosti formátování v komentáři mne k tomu nelákají. Co dostaneme? Dostaneme, ze pro CONTROL nám z 307visits zůstalo 229 a pro varintu 4 z 276 zůstalo 213. Výslená p-value testu proporcí je tedy 0.23 a což je podstaně více než 0.05. Tedy nemůžeme zamítnout nulovou hypotézu na 0.05 a tedy lepší výsledek varnaty 4 nemůžeme považovat za prokázaný. Je nutné v testu pokračovat. Odhadem do nasbírání nad 600 visits u každé varinty.

    Jiným způsobem s trouchou nepřesnosti lze říci, že NONBOUNCE_CONTROL = 74.59+-4.9 [%] a NONBOUNCE_VARINTA4 = 77.17 +- 4.95 [%]. Tedy intervaly se překrývají. Pokud používáte například Google Website Optimizer, tak tento tuto spolehlivost počítá za vás (a výše uvedeným způsobem). Pokud ale počítáte výsledky sami na základě tabulky počet vzorků versus počet úspěchů, pak je nutné si toto ověřit zde uvedeným způsobem.

    Závěr: pokračujte prosím v experimentu, výběrem varinty 4 jste zvolili varintu, které je možné lepší jen náhodou a dočasně. Doporučuji ponechat například 10% uživatelů jako kontrolní vzorek a na delším časovém období ověřit, zda se opravdu potvrdí lepší vlastmosti této verze.

    Pro případné otázky jsem k dispozici na jiri.stepan(at)etnetera.cz . Díky za pozornost a držím palce při optimalizaci webu.