Hlavní navigace

Social network analysis pro začátečníky

Josef Šlerka 22. 2. 2011

Analýza sociálních sítí si vydobyla pevné postavení všude, kde jsou zapotřebí údaje jinak nesnadno získatelné – o soukromém světě lidí. Zjistěte o ní více!

Svoje válečné ostruhy si mladá vědní disciplína zvaná social network analysis (SNA) vysloužila přesně 13. prosince 2003 v Iráku. Právě díky uplatnění její metodologie se americké armádě podařilo zadržet bývalého diktátora Sadáma Hussajna. Prozradila ho detailní analýza jeho sociální sítě a následné zpravodajské akce v terénu. Podrobnosti o celé operaci si můžete přečíst třeba v článku: Searching for Saddam. Dnes jsou základy SNA součástí armádního výcviku pro boj s povstalci. Stejně tak je ale SNA šlágrem mezi marketéry či policisty. Svoje postavení si vydobyla především v těch oblastech, kde jsou důležitější vztahy než osoby sami (například při hledání vlivných osob ve skupině) nebo tam, kde prostě nemáme informace o osobách k dispozici a musíme si vystačit s tím, co máme (například v případě mapování kontaktů teroristů).

Stručný pokus o definici sociální sítě by mohl znít přibližně takto: je to soubor lidí nebo jiných subjektů, mezi kterými existují nějaké vztahy. Tyto vztahy můžeme formalizovat pomocí matice nebo grafu a dále formálně analyzovat.

Řekněte to písní

To zní poněkud suše, lépe si pomoci písní. Slovenská punková kapela Zóna A zpívala kdysi píseň nazvanou Prečo je život taký? V první sloce podával text nádherný příklad jednoduchého orientovaného grafu: Igor má rád Evu, Eva jeho nie / a tak preto Igor, stále smutný je. / Eva chce mať Vojta, Vojto Evu nie / a tak preto Eva, stále smutná je. Pokud bychom jej chtěli vizualizovat, máme v zásadě dvě možnosti. První z nich je matice, do které zaneseme vztahy například takto:

Igor Vojta Eva
Igor  — 0 1
Vojta 0  — 0
Eva 0 1  —

Matice ovšem můžeme snadno převést na graf jako je tenhle:

Nešťastný milostný trojúhelník ale má ve skutečností tisícero podob a výrazně komplikovanější. Na YouTube je zase k dispozici přednáška Introduction to Applying Social Network Analysis to Behavioral Research on HIV/AIDS.

Andrew Odewahn zase analyzoval společná hlasování v americkém senátu a SNA se nevyhnula ani Novému Zákonu, viz projekt Co-Occurrences of Names in the New Testamen.

Většině z nás ale budou blízké i příklady oblastí sociálních médií: Twitter se svým principem následování. Facebook s přáteli, členy skupin nebo “lajkování.” Tagování fotek na Flickru. To všechno jsou jen různé varianty našeho grafu lásky. Jak sami uznáte, jedná se velmi zajímavé oblasti, ať už z marketingového, sociologického či politologického pohledu, a tak může být užitečné se na základy analýzy takových sítí podívat blíže.

Uzly, vrcholy, vazby, hrany

Stavebními kameny této teorie jsou principy z teorie grafů. Máme tu tedy uzly neboli vrcholy(v anglič­tině se jim říká nodes, vertices, entities, items a podobně) a vazby neboli hrany mezi nimi (setkat se můžete s označeními jako ties, connections, relationships a podobně). Takže například v případě Twitteru jsou uživatelé uzly a jejich vzájemné následování vazby, u Flickru může být vazbou mezi uživateli užití stejného tagu, a tak by se dalo pokračovat dál.

Samotné vazby mohou existovat v několika podobách. Buď jsou orientované nebo nikoli.

Tedy buď je vazba vždy obousměrná jako v případě Facebooku (pokud jste přítel někoho, je i on vaším přítelem) nebo může být jednosměrná jako v případě Twitteru (pokud vás někdo následuje, nemusíte ještě následovat vy jeho, proto vazba vede od následujícího k následovanému). Sociální grafy kde není směr rozhodující, se pro některé účely interpretují snadněji, když si kupříkladu necháte vygenerovat svůj graf vazeb na LinkedInu pomocí aplikace LinkedInMaps snadno nahlédnete, že vazby se shlukují pomocí síly provázanosti mezi sebou. Vytvářet podobné grafy v jiných typech grafů, bývá poněkud složitější. Vazby mezi uzly mohou mít i jiné vlastnosti než směr. Mohou mít kupříkladu nějakou váhu podle důležitosti či jich může být i více. To však je námětem na jiný článek.

Víme již, že sítě vznikají vazbami mezi uzly a řekli jsme si, že vazeb může být vícero druhů. Není proto překvapivé, že více druhů může být i sítí. V základní typologii je rozdělujeme na spojité, nespojité a egocentrické. Spojitý graf je takový, kde lze projít od jednoho uzlu k jinému lhostejno po kolik bodech projdeme. Naopak nespojitý graf je takový, kde taková cesta není možná, protože je nějaký bod (či body) izolovaný od ostatních. Zvláštním případem je egocentrická síť, v němž existuje uzel, s nímž jsou všechny ostatní uzly propojeny. Příklady jsou velmi jednoduché spojitý nebo nespojitý graf může vzniknout vizualizací vazeb mezi lidmi hovořícími o nějaké značce na Twitteru. Mluví-li o něm jen ucelená komunita, bude graf spojitý jinak nikoli. Zmiňovaný egocentrický graf je kupříkladu graf následujících a následovaných kolem vaše účtu na Twitteru nebo graf vašich přítel na Facebooku.

Jak asi tušíte, jen vytvořit graf a pojmenovat ho nestačí, zajímavá je další počítání schované za tím, které může mnohé o reprezentované sítí naznačit. Kupříkladu už jen třeba údaj o počtu uskutečněných vazeb ke všem možným, který se nazývá hustota sítě, nám říká tom, jak moc nebo málo je síť sociálně propojená, tedy do jaké míry s ní můžeme pracovat jako se silnou komunitou. Například ve třídě na základní škole se všichni žáci vzájemně znají, proto by síť vzájemných znalostí byla maximálně hustá. Naopak, čím je síť řidší, tím je pravděpodobnější, že síť nereprezentuje nějakou skupinu, ale spíše náhodný souhrn osob. Pokud bychom se ptali například cestujících ve vagonu metra, kdo koho zná, síť by byla velmi řídká, složená pouze z náhodných setkání. Síť osazenstva kavárny by pak zřejmě ukazovala na štamgasty, kteří se znají, a na nahodilé návštěvníky.

Blízko, mezi, spojený

Další zajímavé míra se jmenují degree centrality, česky označovaná jako centralita měřená stupněm uzlu, closeness centrality neboli centralita měřená blízkostí polohy ve středu a betweenness centralities neboli centralita měřená středovou mezipolohou. Každá z nich vypovídá o postavení aktérů sítě něco malinko jiného.

Hodnota degree centrality vyjadřuje počet přímých vazeb uzlu k dalším uzlům v síti. V zásadě měří aktivitu uzlů v síti. Uzly s vysokou hodnotou degree centrality jsou „spojky“ nebo „středy“ v této síti. Na pohled je poznáme v grafu tak, že mají tvar hvězdy, ke kterým vede mnoho vazeb od ostatních uzlů.

Hodnota closeness centrality je nejvyšší, jestliže z uzlu lze dosáhnout ke všem dalším uzlům v síti přímou nezprostředkovanou vazbou, aneb je to nejmenší hodnota součtu vzdáleností k ostatním uzlům. Uzly s vysokou mírou blízkosti k středu mají velký vliv na to, co se v síti odehrává, protože mají nejrychlejší přístup k celé síti, takže pokud ji chcete třebas zavirovat, není lepšího místa pro útok. Ostatně si o tom můžete přečíst dizertaci Farese Masuoda Abdelganiho Rabaye nazvanou Closeness Centrality and Epidemic Spreading in Networks.

Hodnota betweenness centralities je nejvyšší pokud cesty mezi libovolnými dvěma uzly sítě vždy procházejí tímto uzlem, proto se také o nich někdy hovoří jako o mostech (bridges) nebo o zprostředko­vatelích (brokers). Body s vysokou hodnotou tak kontrolují tok informací v síti a umožňují dobrou viditelnost všeho, co se děje v síti. Případně naopak mohou fungovat jako efektivní závory, které celou věc dělají složitější. O uzlech s vysokou betweenness se často hovoří jako o úzkých hrdlech sítě. Jsou pro síť důležité, protože brání jejímu rozpadu na oddělené součásti, ale taky představují riziko. Například v síti vzájemné spolupráce ve firmě jsou brokeři nepostradatelní pro komplexní chod firmy a jejich odchod může způsobit přerušení spolupráce jednotlivých členů organizace.

Dalšími možnostmi co v sítích měřit jsou různé ranky, které ukazují důležitost jednotlivých uzlů v systému. Nejznámějším z nich je PageRank pojmenovaný po svém tvůrci Larry Pageovi, ale existuje jich celá řada dalších. Další možností, kterou grafy nabízejí je samozřejmě shlukování (hezké slovo pro cluster, že?) uzlů do skupin (či komunit) podle míry vzájemného propojení či sdílených vlastností.

Praktická cvičení

Pokud se už teď děsíte nad propastí, která se rozevírá mezi vašimi matematickými znalostmi a možnostmi, které SNA nabízí, tak se tolik děsit nemusíte. V současnosti je totiž k dispozici celá řada programů pro všechny platformy. Za všechny jmenujme například Pajek, UCINET, Gephi či NWB. (Jejích výčet najdete třeba na Wikipedii v hesle Social Network Analysis software) Pro úplné začátky bych ale doporučil NodeXL, který vyvinuli na univerzitě ve Standfordu ve spolupráci s firmou Microsoft (je licencován pod Microsoft Public License, věděli jste, že něco takového existuje?). Krom toho, že je zadarmo, umí importovat data z Twitteru či Flicku má totiž jednu zásadní výhodu pro běžné smrtelníky: je to šablona do MS Excelu a tudíž, se v ní bude řada čtenářů cítit jako ryba ve vodě. (Uživatelům Maca se omlouvám, mohou si pohrát třeba s Gephi či NWB.)

Příkladem analýzy, kterou můžete přes NodeXL rovnou vyzkoušet, je komunikace na Twitteru o vybraném tématu. Před nedávnem proběhla v Praze akce nazvaná Appparade, při níž se měli možnost setkat a předvést čeští vývojáři aplikací pro mobilní telefony. Představme si, že jsme zástupci firmy, která by ráda věděla, jaké osoby má oslovit a případně ovlivnit v české komunitě, tak, aby se její sdělení dostalo k co největšímu počtu uživatelů. Jednodenní akce je na Twitteru ideálním prostředím pro takové mapovaní. Budeme tedy hledat uzly-bridges v komunikaci, která zmiňuje klíčové slovo appparade a vztahy mezi nimi.

Zmiňovaný NodeXL nám umožňuje vcelku pohodlně importovat výsledky hledání z Twitteru. Výsledný graf pak vypadá takto, přičemž velikost ikon koreluje s hodnotou bridges. Vidím, že jako klíčové postavy pro tok informací českého vývoje pro mobilní hry se ukazují srakyi (Michal Šrajer) a Split82 (Jan Ilavský). Důležité místo zaujaly firemní profily Inimite a Hubu Praha, což je pochopitelné, protože Inimite je známá vývojářská firma a Hub Praha byl spoluorganizátorem akce. Dobré by bylo mluvit i s networkery v této oblasti Eliškou Hutníkovou a Adamem Reinbergerem, ale to by již bylo na další analýzu.

Pokud vás stručný úvod do social network analysis zaujal, přišel čas nasměrovat vaší pozornost na další zdroje. V českém prostředí je to zcela určitě blog Analýza sociálních sítí v praxi Jana Schmida, kterému touto cestou velmi děkuji za iniciaci v této oblasti i cenné poznámky k tomuto článku. Na Facebooku se můžete přidat například do zahraniční skupinydo české.

WT100

Další odkazy: Sbírka případových studií

Seznam doporučené literatury:

Našli jste v článku chybu?
Měšec.cz: TEST: Vyzkoušeli jsme pražské taxikáře

TEST: Vyzkoušeli jsme pražské taxikáře

Lupa.cz: Patička e-mailu závazná jako vlastnoruční podpis?

Patička e-mailu závazná jako vlastnoruční podpis?

Vitalia.cz: Tipy: Kde zaručeně koupíte dobré maso

Tipy: Kde zaručeně koupíte dobré maso

DigiZone.cz: Ultra HD v praxi a v Portugalsku

Ultra HD v praxi a v Portugalsku

Podnikatel.cz: 5 věcí, které o EET ještě nevíte

5 věcí, které o EET ještě nevíte

Vitalia.cz: 7 příčin neplodnosti u žen: pravda a mýty

7 příčin neplodnosti u žen: pravda a mýty

Vitalia.cz: Když bílkoviny, tak jíme ty nekvalitní

Když bílkoviny, tak jíme ty nekvalitní

Podnikatel.cz: „Lex Babiš“ Babišovi paradoxně pomůže

„Lex Babiš“ Babišovi paradoxně pomůže

DigiZone.cz: Parlamentní listy: kde končí PR...

Parlamentní listy: kde končí PR...

Podnikatel.cz: Vytvořte si web sami. Redakční systém Tumblr

Vytvořte si web sami. Redakční systém Tumblr

Vitalia.cz: Inspekce našla nelegální sklad v SAPĚ. Zase

Inspekce našla nelegální sklad v SAPĚ. Zase

Podnikatel.cz: Byla finanční manažerka, teď cvičí jógu

Byla finanční manažerka, teď cvičí jógu

Lupa.cz: Poučný příběh jednoho rozšíření pro Chrome

Poučný příběh jednoho rozšíření pro Chrome

DigiZone.cz: DVB-T2 ověřeno: seznam TV zveřejněn

DVB-T2 ověřeno: seznam TV zveřejněn

Vitalia.cz: Tradiční čínská medicína a rakovina

Tradiční čínská medicína a rakovina

120na80.cz: Zázrak ze smetiště: co léčí lopuch?

Zázrak ze smetiště: co léčí lopuch?

Vitalia.cz: Test dětských svačinek: Tyhle ne!

Test dětských svačinek: Tyhle ne!

DigiZone.cz: ČT začne vysílat z Hradce Králové

ČT začne vysílat z Hradce Králové

Lupa.cz: Adblock Plus začal prodávat reklamy

Adblock Plus začal prodávat reklamy

DigiZone.cz: Nova opět stahuje „milionáře“

Nova opět stahuje „milionáře“