Názory k článku
Jak pomocí A/B testování zvýšit výnosnost webu
Vy nepouzivate Google?
celé vláknoDoplnění a upozornění na chybu
celé vláknodovolím si reagovat obsáhleji, neboť se problematickou A/B testování zabývám a ve vašem článku je přítomná poměrně závažná chyba. Konkrétně se budu věnovat kapitole "Výsledky experimentu" a uvedené tabulce.
Obecně jste zvolili správný postup, nicméně ve vyhodnocení zcela chybí statistické ověření výsledků, takže nevíte zda zlepšení oproti kontrolnímu vzorku je prkazatelné nebo náhodné. Dovolím si ukázat, že dle Vámi uvedených čísel v tabulce nelze zlepšení boucerate prokázat. Je nutné v experimentu pokračovat, neboť zlepšení je vzhledem k velikosti vzorků příliš malé a vejde se do statistické chyby (zjednodušuji, statistici prosím nekamenujte). Budu se dále zabývat jen varintou 4 - tedy viteznou. U ostatnich je to analogicke.
A/B test je statistickým testem, kdy zamítáme nulovou hypotézu, které zní "VARINTA č.4 udrží méně uživatelů než kontrolní vzorek". Pokud si tedy nazveme veličinu NONBOUNCE = POCET_VISITS_KTERI_ZUSTANOU / POCET_VISITS (tedy 1-BOUNCERATE), lze nulovou hypotézy formulovat jako H_0: NONBOUNCE_CONTROL >= NONBOUNCE_VARINTA4. Abychom mohli tvrdit, ze VARINTA4 je lepsi musime zamitnout nulovou hypotezu se spolehlivosti typicky 0.05. Vagne receno - mame pouze 5% pravdepodobnost, ze vysledek je nahoda.
K porovnání použijeme test proporcí dvou binomických rozdělení. Nebudu zatěžovat jak se počítá - pokud by to někoho zajímalo, rád vysvětlím, ale omezené možnosti formátování v komentáři mne k tomu nelákají. Co dostaneme? Dostaneme, ze pro CONTROL nám z 307visits zůstalo 229 a pro varintu 4 z 276 zůstalo 213. Výslená p-value testu proporcí je tedy 0.23 a což je podstaně více než 0.05. Tedy nemůžeme zamítnout nulovou hypotézu na 0.05 a tedy lepší výsledek varnaty 4 nemůžeme považovat za prokázaný. Je nutné v testu pokračovat. Odhadem do nasbírání nad 600 visits u každé varinty.
Jiným způsobem s trouchou nepřesnosti lze říci, že NONBOUNCE_CONTROL = 74.59+-4.9 [%] a NONBOUNCE_VARINTA4 = 77.17 +- 4.95 [%]. Tedy intervaly se překrývají. Pokud používáte například Google Website Optimizer, tak tento tuto spolehlivost počítá za vás (a výše uvedeným způsobem). Pokud ale počítáte výsledky sami na základě tabulky počet vzorků versus počet úspěchů, pak je nutné si toto ověřit zde uvedeným způsobem.
Závěr: pokračujte prosím v experimentu, výběrem varinty 4 jste zvolili varintu, které je možné lepší jen náhodou a dočasně. Doporučuji ponechat například 10% uživatelů jako kontrolní vzorek a na delším časovém období ověřit, zda se opravdu potvrdí lepší vlastmosti této verze.
Pro případné otázky jsem k dispozici na jiri.stepan(at)etnetera.cz . Díky za pozornost a držím palce při optimalizaci webu.
Re: Doplnění a upozornění na chybu
celé vláknoDobrý den,
plně s vámi souhlasím (nemusel jste to ani tak rozepisovat, nicméně děkuji).
Toho, že nemůžeme zamítnout nulovou hypotézu jsme si byli vědomi, nicméně klient potřeboval udělat test rychle (a to jsme jej ještě prodloužili o několik dní), i za cenu možné statistické chyby.
Proto jsme také psali, že se jednalo o "velmi jednoduché" a "miniaturní" testování (jak co do přípravy, tak průběhu).
Prosím o pochopení, jedná se spíše o příklad pro širokou veřejnost, která se s testováním spíše seznamuje.
Re: Doplnění a upozornění na chybu
celé vláknoKlient se z tohoto testu bohuzel nic nedozvedel. Zjitil, ze nektere varinty jsou lepsi, ale zadna vyrazne. To je jako kdybyste pro zrychlení ukončili maratonský běh na 25km a vyhlásili vítěze. Ten první na 25km asi bude dobrý, ale zda je to opravdový vítěz maratonu prostě nevíte ;-)
Zkuste prosím to co píši nakonci - tedy ponechat malý kontrolní vzorek, zbytku pustit třeba tu varintu 4 a za 14dnů napsat jak to dopadlo. Velmi by mne to zajímalo.
Re: Doplnění a upozornění na chybu
celé vláknoBuď můžete počkat na velký vzorek. Bude to trvat delší dobu a riziko, že výsledek je náhoda, je menší.
Anebo to potřebujete udělat rychle. Stačí vám malý vzorek, ale riziko, že výsledek je náhoda, je větší.
Klient zvolil druhou variantu. Pokusím se zajistit prodloužení experimentu, ale vzhledem k personálním změnám u klienta nemohu nic slíbit.
Když tak sledujte http://www.facebook.com/RobertNemec.com, tam bychom případně výsledek uveřejnili.
Re: Doplnění a upozornění na chybu
celé vláknoJen dodám, že ještě mnohem větší problém než s bounce ratem je s druhým kritériem, počtem stránek na návštěvu. Lze předpokládat, že různí návštěvníci se vydali po webu různými cestami a každá z mnoha různých stránek na těchto mnoha různých cestách ovlivnila jejich celkový počet zhlédnutých stránek jinak. Celé se nám to tedy rozpadne na mnoho velmi malých vzorků, často tvořených třeba jen jediným návštěvníkem, a to už je pak jen čirá náhoda.
Promiň Roberte, ale tenhle test se ti opravdu nepovedl. Přesto považuji článek díky komentáři Jiřího Štěpána za velmi užitečný, protože lidé mají k těmto chybám velmi silnou tendenci. Snad jim to tedy poslouží jako dobrý antipříklad.
Re: Doplnění a upozornění na chybu
celé vláknoAle měli jsme to mít hotové za týden, pak jsme ještě poprosili o další tři dny, následně to klientovi již stačilo a potřeboval finální výsledky. :-(
Re: Doplnění a upozornění na chybu
celé vláknoOstatně, šlo by toho i využít a ještě z toho udělat velmi užitečný experiment. Měřte dál, dokud nezískáte dostatečná data, pak zveřejněte konečný výsledek a porovnejte ho s těmito předběžnými čísly.
Re: Doplnění a upozornění na chybu
celé vláknoJe očividné, že jste pořád nepochopil podstatu problému. Je to zřejmě i z toho důvodu, že vaše vzdělání zahrnuje pouze psychologii a politologii a žádnou matematiku ani statistiku.
Nejde o to, že "zde chyba může být"! Vy jste klientovi předal zcela bezcenný výsledek, který jste lživě prezentoval jako "prokazatelné zlepšení".
Se statistikou si zahráváte jako malé děcko, bez pochopení podstaty. Úplně stejně tomu bylo i v předchozím článku! Naměříte nějaká čisílka a pak z nich tvoříte dalekosáhlé a nesprávné závěry!
Re: Doplnění a upozornění na chybu
celé vláknoRe: Doplnění a upozornění na chybu
celé vláknoJe jasné, že my všichni jsme občas tlakem okolností nuceni odevzdat ne zcela optimální výsledek, ale proč o tom pak psát článek a stavět do zcela jiného světla?
Re: Doplnění a upozornění na chybu
celé vláknoChápu, že v praxi to ale funguje jinak. Řada zákazníků nemá dostatečné matematické vzdělání a díky tomu přijímá celou řadu chybných předpokladů. Je pochopytelné, že ekonomický subjekt (dodavatel) se tomu přizpůsobí a přistoupí na pravidla hry platícího zákazníka. Ale, prosím, nechlubte se tím potom. Je sice fajn vědět, že majitel jistého webu neumí počítat, ale vám to na kreditu nepřidá.
Re: Doplnění a upozornění na chybu
celé vláknoZ toho, že jsou vzorky menší než doporučeníhodné, vyplývá pouze to, že je větší pravděpodobnost chyby. Ne to, že tam chyba je.
Re: Doplnění a upozornění na chybu
celé vláknoNevzdělanost trčí z článku i jinde. Hovoříte třeba o zhruba 240 000 navštěvníků a pak tvrdíte, že místo 60 984 jich po testování odejde jen 54 744.
Za něco takového se dávala pětka už na střední škole!
Re: Doplnění a upozornění na chybu
celé vlákno1. číslo: návštěvnost hlavní stránky
2. číslo: kolik návštěvníků odejde z hlavní stránky při původním bounce rate
3. číslo: kolik návštěvníků odejde z hlavní stránky při novém bounce rate
Re: Doplnění a upozornění na chybu
celé vláknoVysvětlím vám to.
Pokud je první číslo uvedené s přesností na desetitisíce, nemůžete z něj nikdy dostat čísla, která by byla s přesností na jednotky.
Zajímavé, co?
A teď vraťte školné a začněte se živit nějak poctivě.
Re: Doplnění a upozornění na chybu
celé vláknoJak vám tady výše spočítal pan Stepan (neověřoval jsem), vaše vzorky vedou na to, že je 23 procent pravděpodobnost, že ve skutečnosti je stávající verze lepší, než vámi vybraná nejlepší varianta. A to je tak velké číslo, že se o statistice mluvit nedá. To i šestikomorový revolver je na tom lépe.
Chápu, že pokud je to pro zákazníka malý projekt a malé náklady, že do toho jde i za těchto podmínek.
Re: Doplnění a upozornění na chybu
celé vláknoRe: Doplnění a upozornění na chybu
celé vláknoGWO a sledování Bounce Rate
celé vláknoPoužité konverzní metriky
celé vláknoPodle mě je hodně ošidné používat počet shlédnutých stránek na návštěvníka a bounce rate jako konverzní metriky:
- Snadno se může stát, že ta nejlepší varianta z pohledu počtu stránek ve skutečnosti byla nejhorší, protože návštěvníka tak dezorientovala, že potom hledal svou odpověď na mnoha dalších stránkách a mnohokrát se v prohlížeči vracel sem a tam.
- Pokud má nějaká varianta nejlepší bounce rate, znamená to, že nejvíce návštěvníka zaujala a dokázala udržet při příchodu na web - to je určitě pozitivní. Ale už nám to nic neříká o tom, jestli se návštěvník pak choval, jak bychom chtěli. Ukazuje tedy jen jednu polovinu pravdy.
A pak bych se ještě vyjádřil k samotné výchozí koncepci experimentu. Myslím, že A/B testování by nemělo být zužováno na náhodné prohazování boxů na jinak špatně zpracované stránce - to by ho pak mohly s odpuštěním realizovat cvičené opice nebo počítače samotné. A/B testování by se mělo nasazovat v průběhu návrhu či optimalizace stránky, kdy máme více hypotéz o tom, jak mohou věci fungovat, a potřebujeme se rozhodnout pro tu správnou.
Ten váš příklad působí klasicky v "Google-Do-It-Yourself" stylu, který ale podle mě v praxi nepřináší výsledky a vede k tomu, že lidé A/B testování i optimalizaci zavrhnou.
Re: Použité konverzní metriky
celé vláknoProto by měl být BR co nejnižší a PVs/V co nejvyšší.
2. Když musíte dělat rychle a s co nejnižšími náklady, nic jiného vám nezbude.
Ano, mohli jsme udělat "miliony" variant s úplně novými prvky a extrémně si s tím vyhrát. Ale protože nám na to Martin Snížek ani nikdo jiný neposlal žádné peníze, museli jsme operovat s tím, co jsme měli k dispozici, včetně toho, že náklady na tvorbu variant se musí blížit nule.
P. S. Vzpomínáte, jak jsem říkal, že do analytik se musí investovat jistá částka, aby to bylo efektivní?
Re: Použité konverzní metriky
celé vláknoPokud je více shlédnutých stránek vykoupeno špatnou zkušeností uživatele, který se ke mně už příště nevrátí, tak bych tyto PageViews raději oželel :-) To je přece hodně krátkozraké.
Re: Použité konverzní metriky
celé vláknoRe: Použité konverzní metriky
celé vláknoRe: Použité konverzní metriky
celé vláknoVysvětlení a vhled, jak se problém řešil
celé vláknoJenže si představte situaci: potřebujete rychle z mnoha důvodů před Vánoci zlepšit metriky. Ideální testování by zabralo 20 až 40 dní a než by proběhly následné procesy, máte dávno po Vánocích.
Takže máte na výběr: buď prošvihnout Vánoce, nebo akceptovat, že tam možná bude chyba, ale aspoň se o něco pokusit (ale nesmí to trvat déle než týden).
Toto byly okolnosti experimentu. Navíc jsme měli dovoleno publikovat výsledky (což se jen tak nestává). Mohli jsme je upravit nebo některá čísla nezveřejňovat. Ale já chtěl, aby byl experiment otevřený (což zahrnuje i to, že může být rozcupován na kousky). A byl jsem upozorňován na to, že "budu bit" za malé vzorky.
Ale domníval jsem se, že odborníci to vezmou v potaz (proto jsme zveřejnili konkrétní čísla a do Lupy jsme dokonce poslali všechny varianty) a ukázka bude spíše sloužit pro veřejnost.
Ano je hodně těžké získat souhlas s publikováním nějakého experimentu, takže jsem rád alespoň za něco.
Takže ještě jednou: odborníci díky konkrétně zveřejněným číslům vezmou v potaz, že vzorek je malý a může obsahovat větší chybu, než je standard.
Veřejnost získá vhled do toho, jak probíhá A/B testování.
P. S. Na škole jsem absolvoval dva kurzy výzkumů v psychologii a jeden kurz statistiky. Jak dopadly ty první dva si už nepamatuji, ale ze statistiky jsem získal A.
Etika optimalizace webu
celé vlákno@Marek Prokop: Máte naprostou pravdu s tou délkou návštěvy, to jsem úplně ignoroval. A/B test funguje dobře u mikrokonverzí, kde je zřejmá příčina => následek a kde mohu vyloučit další faktory.
@Robert Nemec: Doba A/B testu lze dopředu poměrně přesně odhadnout. Pokud chceme prokázat 10% zvýšení non-bouncerate pro web 550visits/denně a současné hodnota je 75%, tak stačí použít třeba tuhle kalkulačku http://www.google.com/support/websiteoptimizer/bin/answer.py?hl=en&answer=61688 . Pro 20 variant dostáváme odhad doby experimentu 18dnů. Je zřejmé, že slibovat týden je chyba.
Omlouvám se za příkrost, ale buďto děláme statistiku nebo neděláme statistiku. Dělat ji jenom trochu jaksi nejde. Bez ohledu na to co si klient vybral. Souhlasím, že někdy na testy není čas. Při změnách námi vyvíjených eshopů, narychlo před vánoci, také občas dáme přednost volbě "pocitově nejlepši varinty", neboť nechceme utrácet návštěvy s vysoce konverzním potenciálem na testování. Ok, ale pak to nenazýváme A/B testem. Je to prostě rozhodnutí UI experta, který za něj nese odpovědnost. Ponecháme jen minimální vzorek pro kontrolu a 90%-95% pustíme rovnou to co si myslíme, že je lepší. Je to rizikový, leč legitimní postup. Ale není to A/B test, který z nás snímá odpovědnost za rozhodování. Je to obyčejné kvalifikované manažerské rozhodnutí.
A s tím se pojí obecnější problém etiky optimalizace webu, jakožto poměrně módní disciplíny. V internetovém businessu se pohybuji už řádku let a tak vidím jisté analogie. Stejně jako jsme dříve na základě profesní cti prosazovali čisté CSS layouty a pěkný kód (ač to klient nechtěl), stejně jako jsme o něco později propagovali čisté SEO techniky ač jsme mohli ustoupit (v jisté době) k různým fíglům, tak je nyní nutné při optimalizaci a analýze webů být k zákazníkům (i sobě) maximálně upřímní. Tím "my" myslím komunitu internetových konzultantů/tvůrců webu atd. Tedy těch, kteří současně musí pro klienty hledat kompromisy, a současně je vzdělávat. Musíme proto i přiznávat neúspěchy a úspěchy jasně prokazovat. Hledání rozstoucích grafů pro PPT prezentaci umí každý marketingový lhář. Ale to nebude fungovat věčně, klient po čase pozná, že něco je špatně.
Tedy - když analyzujeme, musíme říkat i věci nepříjemné pro nás i pro klienta. Měli bychom přijmout za své etické standardy a postupy z přírodních věd - experiment (třeba AB test) by měl být dobře rozmyšlený, dokumentovaný a hlavně podrobený kritice. Hypotéza není prokázána nalezením prvního rostoucího grafu, který ji podporuje. Hypotéza je prokázana, když se ji nepodaří vyvrátit křížovou kontrolou. Atd. Teprve pak můžeme doufat, že klienti uvěří, že jim opravdu chceme pomáhat, a že nám mohou důvěřovat (= svěřit své peníze).
Tímto si dovolím v diskusi skončit - za hodinu odjíždím optimalizovat carvingový styl. Ale rád si s odstupem přečtu reakce. Pěkné vánoce!
Re: Etika optimalizace webu
celé vláknoDalší příklad z praxe
celé vláknoI když bych mohl (mám to od klienta dovolené), raději nebudu zveřejňovat vzorek... :-)