Zajímavé. Když nad tím přemýšlím, vlastně mi nedochází, jak je možné, že z toho vznikla dvě čísla. Vzhledem k tomu, že samotná nezávislá proměnná tu má jen dvě hodnoty (cz doména, ne-cz doména), čekal bych prostě jediný koeficient korelace - statistickou závislost na těchto dvou hodnotách. Znaménko by určovalo, která varianta je pro seznam důležitější. Ale možná mi něco podstatného taky uniká :).
Takže abych to shrnul:
Nemyslím si, že by např. 1) automaticky implikoval 4) apod.
Navíc vstupem výpočtu není pouze atribut "má českou doménu/má jinou než českou doménu". Druhý atributem jsou totiž pozice ve vyhledávání, které jsou v obou případech shodné.
V pochopení možná pomůže následující PHP kód: http://pastebin.com/J7E6SePD
Já jsem z výsledků pochopil, že pokud jsou korelační koeficienty (téměř) shodné, tak se oba typy TLD vyskytovaly ve výsledcích se stejnou pravděpodobností na nízkých i vysokých pozicích.
Díky za shrnutí. Stále mi nejde do hlavy závěr, který z toho děláte. Když Vás budu citovat, tak vlastně říkáte:
NEčeská doména se ve vzorku vyskytovala častěji s vyšší pozicí, než s nižší
a zároveň platí, že:
česká doména se ve vzorku vyskytovala častěji s vyšší pozicí, než s nižší.
Toto mi hlava prostě nebere :-)
Problém je možná v tom, že v tomto konkrétním případě podle mě test nesplňuje vstupní předpoklady pro použití Spearmanova Rank koeficientu. Tady je hezky shrnuto, jaké vlastnosti musí vstupní proměnné mít: musí být buď kontinuální (neboli kvantitativní, jako je třeba počet odkazů na stránku), nebo alespoň ordinální, tj. musí mít v sobě inherentně obsaženou kvalitu "pořadí". U testu s doménami tento předpoklad splňuje pouze proměnná výsledné pořadí na seznamu, ale proměnná hasCzDomain / hasNonCzDomain není ani kontinuální, ani nemá žádné pořadí. Je pouze nominální.
Spearman rank koeficient, jak ho chápu já, pak vyjadřuje shodu v monotónnosti obou proměnných. Monotónnost ale asi těžko lze určit u libovolně zvolené kategorie (typu "má .cz doménu") protože nejde říct, "má více .cz doménu" nebo "má méně .cz doménu".
Můj závěr z toho je, že se tyto typy korelací dají hezky použít pro SEO testy, ve kterých je souvislé pole hodnot, např: počet odkazů na web, počet výskytů klíčových slov v title tagu apod., ale už ne na "binární" proměnné typu česká doména nebo klíčové slovo je obsaženo v hostname. Vůbec netuším, co ta výsledná čísla u těchto testů mohou znamenat, ale já osobně jim - omlouvám se - nevěřím.
Ještě to doplním: vlastně mě napadá, že kdybychom si z proměnné "web má českou doménu" myšlenkově udělali ordinální proměnnou, tj. že kdybychom řekli, že "mít českou doménu je jakoby víc než nemít", pak se oba testy (hasCzDomain a hasNonCzDomain) redukují na jediný test hypotetické proměnné "česká doménovitost webu" versus pořadí na Seznamu.
Pak by mi ale z výsledné korelace kolem 0.3 vycházelo, že Seznam naopak mírně zvýhodňuje české domény oproti všem ostatním. A teď babo raď. :-)