Hlavní navigace

Jak se o stranách mluví online? Volby na sociálních sítích okem datového analytika

Autor: Jiří Kwolek, GoodMentions
Jiří Kwolek

Které politické strany před volbami ovládaly debatu na sociálních sítích? O kterých se mluvilo pozitivně a které sklidily nejvíce negativních zmínek?

V době, kdy píší tento článek, zbývá do zahájení voleb několik hodin. V této situaci mi nezbývá příliš mnoho času na líčení příběhu vedoucího ke vzniku tohoto „truc projektu“. A to je možná dobře, za datové analytiky by měla spíše mluvit zajímavá data, grafy a statistiky.

Poznámka: následující analýza není průzkumem volebních preferencí. Vznikala mimo pracovní dobu a nebyla nikým placena. Nebudu také tvrdit, že následující přehled je naprosto objektivní a jediný možný – na to jsme příliš malý tým s malými prostředky. Konec konců na celou analýzu jsem si vyhradil cca 30 pracovních hodin.

Zdroje dat a zvolená metodika

Za výchozí zdroj údajů pro analýzu jsem zvolil export dat ze systému SentiOne. Tento mezinárodní systém již několik let monitoruje evropský internet a nabízí aplikační platformu založenou na nejkomplexnější databázi dat ze sociálních sítí (Facebook, Twitter, Google+) a navíc monitoruje ještě diskuzní fóra, články i diskuze pod články, produktové recenze, YouTube a Instagram.

Za výchozí období jsem zvolil osm kompletních předvolebních týdnů (Po–Ne) v období od 21. 8. do 15. 10. 2017. V tomto časovém úseku jsem v systému nalezl 1 750 106 zmínek týkajících se široce definovaných voleb a politických stran. Vybral jsem tisíc náhodných zmínek, roztřídil je a sestavil k nim logické podmínky tak, abych zachytil alespoň 95 % relevantních zmínek – tak vznikly komplexní třídicí dotazy zachycující zmínky přiřaditelné k deseti politickým stranám. Dotazy do databáze jsem dospěl k následujícímu souboru dat:


Autor: Jiří Kwolek, GoodMentions

Téma je evidentně velmi frekventované, v databázi zůstalo cca 890 000 zmínek. Pro analýzu převládající nálady (odborný termín – sentiment) bylo ještě třeba označit zmínky, které se týkají pouze jedné strany (vyloučení rekombinací) – důvodem je zvýšení přesnosti automatické detekce sentimentu (pozitivní-neutrální-negativní) ve vazbě ke zkoumaným politickým stranám. Dále jsem ručně označil vlastní profily stran a hnutí.

Prvotní data – výchozí grafy

LOVE – součet pozitivních a neutrálních zmínek


Autor: Jiří Kwolek, GoodMentions

Zvlnění u tohoto grafu je typické – zmínky běžně reagují na každou událost (debaty, článek v mediích, aféra, odhalení, u sportu například zápas – jako analytik si mohu každý vrchol otevřít a zjistit, co se tehdy řešilo). Přesto mě předchozí graf poměrně překvapil – výrazně rostoucí trend zmínek týkajících se hnutí SPD Tomio Okamury jsem nečekal. Jedná se přitom o neutrální a pozitivní zmínky!

HATE – negativní zmínky


Autor: Jiří Kwolek, GoodMentions

Graf negativních zmínek vedou v součtu následující strany: ANO, SPD a ČSSD. To se tak trochu dalo čekat. Překvapivý je pouze trend klesající popularity ČSSD (čísla jsou absolutní).

S původními daty bychom mohli pokračovat ještě dlouho, ale rozhodli jsme se do nich ještě více „říznout“ a podívat se, jak je to s dnes tak běžným „bombardováním a tapetováním sociálních sítí“. Za bombardování považujeme neúměrné zasypávaní sociálních sítí příspěvky, tapetování je podobná činnost doprovázená opakováním zmínek systémem Ctrl-C/Ctrl-V.

Nehodlám a nechci spekulovat, kdo je v následující části analýzy „fanda“, kdo „troll“ a co jsou domnělé posty placených diskutujících (zejména v emočně vypjatém předvolebním období). Bez náročné časové a frekvenční analýzy jsou indicie pro kvalitní roztřídění poměrně slabé. Tak snad příští volby – rád bych na to vytrénoval neuronovou síť a pokusil se o hlubší pohled na stále častější trend ovlivňování diskuzí na sociálních sítích.

Příklad: profil strany vs. náhodně vybraný „bomber/tapetovač“

Níže uvedu příklad dvou profilů – musím podotknout, že v databázi máme posty týkající se pouze politických stran a voleb (další dotazy do databáze SentiOne by ukázaly mnohem vyšší čísla):


Autor: Jiří Kwolek, GoodMentions

Sloupec mood indikuje náladu, „mentions“ jsou počty zmínek neboli příspěvků. LoVe_index a HaTe_index je převládající nálada x počet zmínek. Poznámka – předchozí tabulka nevypovídá nic konkrétního ani o ODS, ani o ANO – jen ilustruje, jak systém citlivě indikuje charakter debaty.

V tabulce vidíte, že profil ODS má pochopitelnou pozitivní afinitu k ODS, a pouze mírný „hate“ směřuje ke KSČM. Profil s id 234272653 (důsledně anonymizováno – účelem výzkumu jsou pouze statistická data) je nejspíše příznivcem ANO (mood –6 % je v reálu „mírná chvála“) a zároveň výrazným kritikem ČSSD a TOP 09 (mood –22 %, –23 %). Počet zmínek tohoto konkrétního profilu ve zkoumaném období je 1130 (511 postů zmiňuje hnutí ANO). V našem souboru sociálních profilů to vypadá následovně:


Autor: Jiří Kwolek, GoodMentions

Bombardérů/tapetovačů má každý subjekt různý počet – někdy je to více (SPD, ANO), jindy zase méně (SZ). Zevrubná analýza by byla časově náročná – profily tohoto typu se špatně řadí ke konkrétním stranám – zejména negativní bombeři. V této souvislosti neopomenu poznámku: ne každý názor, který čtete na sociálních sítích, je autentický. Občas čtete obsah generovaný zkušeným „kobercovým bombardérem“. :-D

Podíl hromadných posterů na celkovém množství zmínek

Zkusil jsem změřit, jaký podíl obsahu v našem vzorku tvoří „bombeři“ a kolik obsahu je generováno menšími profily. Limit jsem v tomto případě nastavil na 12 příspěvků ve zkoumaném období 2 týdnů:

LOVE – neutrální a pozitivní zmínky


Autor: Jiří Kwolek, GoodMentions

Ve výsledném grafu je vidět obrovská korekce a pozitivních a neutrálních zmínek u některých stran. Ve všech případech více dat generují hromadní posteři. :-)

HATE – negativní zmínky


Autor: Jiří Kwolek, GoodMentions

Ano, jak je vidět, tapetuje se evidentně jak pozitivně, tak i negativně. Poznámka: všimněte si, že měřítko tohoto grafu se od předchozího liší.

Další výzva – nastavme limit na autory s pouze jedinou zmínkou

V tomto okamžiku začínáme vlastně od začátku – model jeden autor / jedna zmínka vyzdvihuje drobné hlasy. Výhodou ale je, že malé profily se prakticky nevyplácí „fejkovat“ ani manipulovat. Pravda, odfiltrování autorů s více zmínkami byl radikální tah (přišli jsme o značnou část dat) – stále však máme k dispozici desetitisíce relevantních zmínek!

Unikáti – změna témat a nálady v čase


Autor: Jiří Kwolek, GoodMentions
Předchozí graf ukazuje nárůsty zmínek v období září-říjen. Barvy reprezentují sentiment, sloupce zase počet zmínek. Je evidentní, že výrazný náskok ANO poněkud stagnuje. Níže uvádíme obdobný graf reprezentující stejnou změnu diskurzu (časová lupa je v tomto případě nastavená na 14 dní):

Autor: Jiří Kwolek, GoodMentions

Stačilo několik týdnů a situace vypadá v diskuzích zcela jinak! Jako datový analytik jsem rád, že sociální sítě tak rychle reaguji na nálady ve společnosti. Všimněte si nástupů Pirátů a SPD.


Autor: Jiří Kwolek, GoodMentions

Kombinovaný graf – nálada vůči stranám a hnutím

Jelikož volby vyvolávají pozitivní i negativní pocity, sestavil jsem graf, kde proti neutrálním a kladně tónovaným zmínkám (NEUTRAL + POSITIVE) stavím negativní (NEGATIVE). Následný graf ukazuje jistou podobu diskurzu na sociálních sítích:


Autor: Jiří Kwolek, GoodMentions

Pohledem na graf si nejspíše odvodíte, že přesně tímto způsobem tyto volby nejspíše nedopadnou – sloupce proto záměrně nechávám bez procentuálních hodnot.

Věcné poznámky:

  1. překvapuje vysoký potenciál SPD: i po aplikovaném „anti-tapetovacím“ filtru, kdy se počítají zmínky autorů s jedinou zmínkou v období 14 dní
  2. otázka: projevil se u SPD efekt sněhové koule, efekt, který je častěji k vidění v průběhu mediálních krizí (viz palmový olej v potravinách)?
  3. u ČSSD se počet negativních zmínek blíží součtu zmínek neutrálních a negativních (indikuje nízký podíl explicitně pozitivních zmínek problém?)
  4. rozhoduje horní polovina grafu, volí se pozitivně – pokud by každý měl zároveň i negativní hlas, dopadly by volby zcela jinak!

Popularita stran a hnutí – poměr jednotlivých sentimentů

Srovnáním grafů naleznete jisté podobnosti – například mezi ODS a TOP 09. Další analogie a anomálie (do ležícího se nekope) můžete hledat sami.


Autor: Jiří Kwolek, GoodMentions

Nelíbí se vám prezentované analýzy? Běžte prosím volit!

Možná budete čekat, že v posledním odstavci odhalím obrovské spiknutí. Že vyvodím radikální závěry. Nic takového se ale nestane. Moje přání a osobní preference zde nehrají žádnou roli, navíc v této záležitosti jsem pouhým poslem. A i když si přeji, aby mé analýzy v maximální míře „vycházely“ – tentokrát se naznačeného trendu poněkud obávám…

P. S.: Nakonec bych chtěl poděkovat společnosti SentiOne za poskytnutá data. Čtenáře zároveň prosím o náměty pro příští analýzu – podmínkou je čilá diskuze na sociálních sítích.

Text původně vyšel na blogu GoodMentions, Lupa jej vydává se souhlasem autora.

Našli jste v článku chybu?