Hlavní navigace

Analýzy sentimentu v našem prostředí: koho by volil český Internet?

 Autor: 21971
Vojtěch Bednář 27. 5. 2010

Nejočekávanější politická událost letošního roku se kvapem blíží, a to za velké pozornosti nejenom zúčastněných politiků a médií, ale i internetových diskuzí a sociálních sítí. Jejich potenciál je značný, avšak na druhou stranu jim stále moc nerozumíme. Koho by volil český Internet?

O analýzách sentimentu uživatelů jsme na Lupě již nedávno psali. V podstatě vzato se jedná o technologii poznávání stavu nějaké skupiny lidí převzatou ze sféry byznysu, přesněji řečeno z akciových trhů. Právě zde naladění obchodníků a jejich subjektivní přesvědčení představuje faktor, který rozhoduje o ceně akcií mnohem více než reálná hodnota či finanční kondice firmy.

Již ve výše zmíněném článku jsem si dovolil poukázat na to, že analýza sentimentu je v online prostředí potenciálně použitelná k politickým cílům. Volby do Poslanecké Sněmovny parlamentu, které se uskuteční již tento týden, sice nejsou letos jediné, ale zato suverénně nejdůležitější. A právě při jejich příležitosti začala společnost eMerite uvolňovat výsledky svých výzkumů sentimentu uživatelů Internetu.

Výzkumy (informace o jejich výsledcích najdete na příslušné stránce, zde je nechceme komentovat) nám mohou posloužit jako víceméně klasická ukázka snah o zjišťování sentimentu ve specifickém prostředí Internetu. Můžeme o nich říci, že se zaměřují dvěma směry. Prvním je zkoumání kvantitativního charakteru. Firma se snaží „počítat“ výskyty politických stran, subjektů a postav, respektive jejich jmen na českém Internetu – v diskuzích, komentářích, článcích, na sociálních sítích. Druhé zkoumání je rovněž kvantitativní (firma počítá), ale orientuje se na kvalitu. Kdo je nejlépe vnímaným politikem na Internetu? O kom je zde možné najít nejvíce pozitivních zmínek?

Výsledky obou dvou přístupů jsou mediálně mimořádně „sexy“. Před volbami média touží po tom vědět, o kom diskutuje český Internet. Přesněji řečeno, koho by volil český Internet. Pokud by taková analýza byla alespoň blízko pravdě, mohla by znamenat zajímavé (a samozřejmě využitelné) informace i pro politiky, což je pravděpodobně směr, kterým firma, která se do těchto výzkumů pustila, míří. Na druhou stranu ale nad tím, nakolik je reálné měřit sentiment uživatelů, visí celá řada mráčků pochybnosti. Nejvýznamnější z nich jsou v metodice výzkumu. Proto jsme se společnosti pokusili zeptat, stručně řečeno, jak to dělá.

Velikost neznámá

Pro jakýkoli kvantitativní výzkum jsou klíčově důležité dva faktory. Za prvé, jak velké množství informací je zpracováno a za druhé, jak velkou část z celku představuje. eMerite tvrdí, že zkoumá všechny reálné výskyty klíčových slov (třeba „ODS“), a to za pomocí speciálních vyhledávacích softwarů. Nechci s přímo tvůrci těchto výzkumů polemizovat, ale faktem je, že ani vysoce specializované systémy prohledávání nejsou schopny postihnout všechny reálné výskyty informací. Kupodivu ještě více to platí na sociálních sítích, které jsou sice obrovské, ale zase zůstávají svým způsobem „světem ve světě“ mnohem většího Internetu. Jakýkoli vyhledávací nástroj, který funguje zvenku, nemůže být ničím jiným, než podmnožinou, respektive klientem integrovaného vyhledávání (je možné také tzv. „chodit po odkazech“, ale tím se rovněž postihne jen nevelká část sítě). eMerite nám absolutní čísla (tedy kolik stránek, komentářů a záznamů na sociálních sítích bylo analyzováno) bohužel neprozradilo, takže je zde nemůžeme publikovat. Předpokládám však, že i když by tato absolutní čísla byla nejspíše v řádu stovek tisíc až milionů, reálně postihuje pouze malou část obsahu českého Internetu.

Jak je to s přesností?

Podívejme se na to, co je pro novináře i pro politiky na výzkumech nejdůležitější, tedy na sentiment uživatelů. Podle tvůrců výzkumu eMerite, respektive ředitele společnosti pana Petráška, je sentiment příspěvků (tedy zda příspěvek, který zmiňuje konkrétní politický subjekt, vyznívá pozitivně nebo negativně) určován automaticky, ale zároveň také kontrolován ručně. Tím se dostáváme k vůbec největšímu problému sentiment-analýzy v prostředí Internetu, který platí všude, ale v obrovské míře u česky hovořících uživatelů. Analýzu skutečného vyznění, tedy zda je konkrétní výpověď vzhledem k danému subjektu zájmu pozitivní nebo negativní, je extrémně obtížné provést automaticky. A co hůře, není to příliš přesné ani ručně. Povězme si proč.

Takřka žádná výpověď neobsahuje vyznění vůči subjektu zájmu, které by vycházelo pouze z ní samotné. I tak triviální výkřik do tmy, jako „Ať žije ČSSD“, může mít jak kladný nebo záporný obsah v závislosti na svém okolí. Vyznění tak lze demaskovat velmi komplexní analýzou okolí výroku, nebo použitím živého člověka, který analýzu provede a výsledek „započítá“. Tím se do hry analýzy sentimentu dostává intuice, ale i něco horšího; totiž interpretace, zkušenosti, věk, vzdělání, preference a další faktory související s jednotlivcem obecně – a ještě další, související s ním aktuálně. Tyto faktory (patří mezi ně únava, okamžitá nálada, nebo třeba počasí) spoluurčují rozhodování člověka, zvláště, když pracuje ve stresové zátěži. Stresová zátěž se dá od člověka který má analyzovat tisíce různých výroků, očekávat…

Pokud jde o strojovou analýzu sentimentu, je problematická všeobecně, ale ještě problematičtější v češtině. Nabízí se zde jedna odborné veřejnosti všeobecně známá analogie. Stačí si vzpomenout, jak dlouho trvalo společnosti Microsoft, než počeštila gramatickou kontrolu ve svém balíku Office. Problém byl, že i když určování základních vztahů gramatiky bylo relativně snadné, drobné detaily dělaly přípustně kvalitní kontrolu gramatiky dlouho nedostupnou. Se strojovou analýzou sentimentu je to podobné, ale ještě obtížnější. Naproti tomu lidská práce se dá korigovat křížovou kontrolou. Zda ji eMerite provádí, bohužel nevíme, neboť jsme neměli čas společnost blíže vyzpovídat.

Užitečnost

Výše uvedené výhrady neměly za cíl ukázat, jak je výzkum politického sentimentu českých uživatelů Internetu v podání společnosti eMerite vlastně k ničemu. Naopak, určitě může být užitečný pro politické subjekty i pro média. Musíme si ale uvědomit, že Internet je svým způsobem jako tramvaj jedoucí v době odpolední špičky. Najdeme zde lidi různého věku, pohlaví, vzdělání i zaměstnání, všichni však mají společné to, že jedou tramvají v době odpolední špičky. Jinými slovy, jejich „podobnost“ se nachází na vyšší třídící úrovni. Slovy některých odborníků na adresu jiné čistě „internetové“ analytické agentury; Internet trpí velkou měrou nevýběrového zkreslení. To znamená, že informace zjištěné na něm je nemožné žádným způsobem transformovat do reality mimo něj. Výzkum tedy užitečný je. Jen je třeba abychom věděli, že se týká pouze Internetu, pouze části Internetu v určité době a určitým způsobem. Nic méně, nic více.

Deriváty

Výzkumy politického sentimentu eMerite mohou být docela dobrou inspirací pro další, kteří by se chtěli pustit do něčeho podobného. Existuje – a firma to dělá – totiž možnost jejich derivátů na mnohem menších vzorcích populace, než je „celý internet“. Kromě toho je lze provádět kvalitativně (na velmi malém počtu účastníků). Tím prudce stoupá hodnota výsledků takových výzkumů, respektive míra toho, nakolik odpovídají realitě. Před volbami však veřejnost daleko spíše ocení představu „celého Internetu“, který si v 45 % případů z neznámo jak velkého vzorku myslí, že pravdu má X. V tomto ohledu považuji zveřejněné výzkumy spíše za formu self-promotion než za něco, co může přinést pravdu. I taková forma propagace ovšem může být úspěšná.

Dopad

Jak již bylo zmíněno v původním článku, problém výzkumů sentimentu spočívá od základu v tom, že bývají využívány ne k zjišťování jak se věci mají, ale k určování toho, jak chceme, aby se měly. Nakolik takto může fungovat výzkum sentimentu uživatelů Internetu, je svým způsobem vzrušující a mimořádně zajímavá otázka. Zajímavá už jen tím, že je ještě hůře probádatelná než stejná otázka u „konvenčních“ výzkumů veřejného mínění. Zde Internet svým uživatelům ještě hodně dluží a dlužit dlouho bude.

Anketa

Věříte předvolebním průzkumům?

Našli jste v článku chybu?

28. 5. 2010 10:15

> tak já to bral v pořadí v jakém to tam mají oni

Pořadí je zjevně chronologické, čili na prvních stránkách jsou nově přidané osoby a na dalších stranách ti, co podporu vyjádřili dříve -- to i celkem odpovídá tomu, kdo je uveden kde...

A stále postrádám nějaký údaj, dokládající zadlužení obce Suchá Loz... Házet špínu bez důkazů je strašně jednoduché...



27. 5. 2010 22:11

> první dvě stránky a z toho 5x MISS :))

Tak projděte i další stránky, najdete tam i zajímavější jména. Ivo Možný, Tereza Brdečková, Petr Forman, Eduard Janota, Jiří Stránský, Miloš Forman a Eva Holubová, Josef Váňa, Magda Vašáryová, Jaroslav Róna, Václav Marhoul...

> tenhle bude taky dobrej: http://i48.tinypic.com/2a0epsx.jpg

A nebyl by prosím nějaký důkaz?





Vitalia.cz: Vláknina: Rozpustná, nebo nerozpustná?

Vláknina: Rozpustná, nebo nerozpustná?

DigiZone.cz: NG natáčí v Praze seriál o Einsteinovi

NG natáčí v Praze seriál o Einsteinovi

Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

Vitalia.cz: Jak koupit Mikuláše a nenaletět

Jak koupit Mikuláše a nenaletět

Podnikatel.cz: K EET. Štamgast už peníze na stole nenechá

K EET. Štamgast už peníze na stole nenechá

Podnikatel.cz: Víme první výsledky doby odezvy #EET

Víme první výsledky doby odezvy #EET

Podnikatel.cz: Zavře krám u #EET Malá pokladna a Teeta?

Zavře krám u #EET Malá pokladna a Teeta?

Podnikatel.cz: EET zvládneme, budou horší zákony

EET zvládneme, budou horší zákony

Root.cz: Telegram spustil anonymní blog Telegraph

Telegram spustil anonymní blog Telegraph

Vitalia.cz: Pravda o přibírání na zimu

Pravda o přibírání na zimu

Podnikatel.cz: Na poslední chvíli šokuje vyjímkami v EET

Na poslední chvíli šokuje vyjímkami v EET

Vitalia.cz: To není kašel! Správná diagnóza zachrání život

To není kašel! Správná diagnóza zachrání život

Vitalia.cz: Naučí vás péct kváskový chléb bez lepku i s lepkem

Naučí vás péct kváskový chléb bez lepku i s lepkem

120na80.cz: Rakovina oka. Jak ji poznáte?

Rakovina oka. Jak ji poznáte?

DigiZone.cz: Milan Kruml: procházka TV historií

Milan Kruml: procházka TV historií

Lupa.cz: Google měl výpadek, nejel Gmail ani YouTube

Google měl výpadek, nejel Gmail ani YouTube

Měšec.cz: Golfové pojištění: kde si jej můžete sjednat?

Golfové pojištění: kde si jej můžete sjednat?

Podnikatel.cz: Pozor, pojišťovny mění čísla účtů

Pozor, pojišťovny mění čísla účtů

120na80.cz: Bojíte se encefalitidy?

Bojíte se encefalitidy?

120na80.cz: Popraskané rty? Některé balzámy stav zhoršují

Popraskané rty? Některé balzámy stav zhoršují