Hlavní navigace

Minority Report 2.0 nastupuje?

11. 11. 2010
Doba čtení: 4 minuty

Sdílet

Křišťálová koule
Křišťálová koule
Prediktivní analýza na základě dat z Internetu začíná být spolehlivější než renomované analýzy. Jak předpovědět třeba výsledky voleb analýzou sociálních sítí?

"You can choose… " (Agatha, Minority Report)

Srpnové vydání Gartner's Hype Cycle Special Report přineslo mimo jiné i zprávu o tom, že prediktivní analýza na základě dat z Internetu již opustila fázi optimalizace algoritmu a pomalu ale jistě se přesouvá do hlavního proudu produktů. Podle Gartneru se stane běžnou součástí IT ekosystému do dvou let. Zpráva má samozřejmě na mysli ekosystém především amerického trhu, což znamená, že si u nás místo dvou let počkáme čtyři roky. Nicméně už teď stojí za to se podívat alespoň na některé příklady prediktivní analýzy v praxi. Aspoň nebudou štiky českého Internetu zaskočeny, až to přijde.

Hype Curve

Cílem prediktivní analýzy je, stručně řečeno, odhadnout či předpovědět budoucí chování nějakého systému. Lhostejno, zda se jedná o trh s akciemi, výsledky voleb či předpověď nezaměstnanosti. Já jsem si pro vás připravil pár ukázek takovýchto analýz, které ukazují, jak různě se dají data z Internetu využít.

Americké volby a sociální média

Minulý týden skončily volby do amerického kongresu a senátu. Kromě napínavého souboje republikánů a demokratů, přinesly i minimálně dva zajímavé poznatky z oblasti sociálních médií. Ukázalo se, že analýzou veřejných dat z Facebooku a Twitteru bylo možné předpovědět výsledky jednotlivých soubojů s přesností více než 70 procent. Podle článku Facebook Fans Help Predict More Than 70% of Key Races přitom na Facebooku stačila velice banální metrika: počet fanoušků fan page. Je to možná překvapivě prosté, ale platilo, že čím víc fanoušků, tím větší šance vyhrát. Podobně to fungovalo i v případě Twitteru. Ve článku New Data: Can Twitter Predict Elections? popisuje Dan Zarella experiment, v rámci něhož se ukázalo, že počet followerů na Twitteru předpovídal úspěšnost v souboji o křeslo s přesností 71 procent. Mimochodem: i když jsou počty uživatelů amerického a českého Twitteru nesrovnatelné, tak porovnání pořadí stran v posledních volbách s počtem jejich followerů vykazuje také slušnou korelaci:

1. ČSSD 568 následovníků
2. ODS 361 následovníků
3. TOP09 1490 následovníků
4. Věci veřejné 219 následovníků
5. KSČM 88 následovníků

Anomálie TOP09 (a případně Strany zelených) má své kořeny v tom, že se jejich strany nejlépe zhostily marketingu na Internetu. Situaci trochu komplikují oficiální a neoficiální účty, jinak počty následovníků kopírují pořadí ve volbách.

Koupím? Prodám?

Nejen politikou živ je člověk, a tak nikoho nepřekvapí, že řadu příkladů pro prediktivní analýzu najdeme především v ekonomické oblasti. Například výzkum, který podnikli společně lidé z university v Indianě a Manchestru, ukázal, že změny nálady uživatelů Twitteru předcházejí o tři až čtyři dny změny v Dow Jonesově indexu a silně s nimi korelují. Populární shrnutí naleznete v článku Twitter Predicts the Stock Market, pokud chcete jít přímo k pramenu, pak si můžete stáhnout rovnou původní studii. Celé kouzlo tkví v jednom prostém faktu: finanční rozhodnutí jsou často vedena emocemi a náladou obchodníků na burze, nikoli pouze racionální úvahou. Ostatně komu je podezřelý Twitter, nechť si přečte jinou studii, tentokrát od výzkumníků z Illinois Widespread Worry and the Stock Market. Ti ukazují silnou korelaci mezi pohybem indexu S&P 500 a sentiment analýzou příspěvků na blogovacím systému LiveJournal.

Další oblasti, kde různé formy prediktivní analýzy našly své uplatnění, jsou různé předpovědi týkající se pohybu na trhu jako takovém. Kanonická je v tomto ohledu studie od výzkumníků přímo z Googlu. Ti se v zásadě věnují analýze dynamiky hledání na internetu. Klasická je v tomto ohledu studie Predicting the Present with Google Trends, kdy lidé z Googlu pěkně ukazují kupříkladu korelace mezi dynamikou hledání zemí a jejich skutečnými turistickými návštěvami.

Ve stejném duchu podnikli svůj výzkum Nikolaos Askitas a Klaus F. Zimmermann z Forschungsin­stitut zur Zukunft der Arbeit, kteří publikovali v Applied Economics Quarterly studii pod názvem Google Econometrics and Unemployment Forecasting. V ní pak dokazují, že analýza trendů vyhledávání klíčových slov spojených s hledáním práce, dokázala predikovat vývoj míry nezaměstnanosti v zemi. Mimochodem, podívejte se na výsledky takového hledání pro Českou republiku sami na Google Insight.

Analýza významu vlivu v sociálních médiích

CIF24

Máme rádi Lenina, večer půjdem do kina…

Na závěr jsem si nechal něco romantičtějšího. Biograf. Přesněji předpovídání tržeb, které film utrží. Pro tyto předpovědi má společnost Yahoo! patentovanou metodu. Její rozbor si můžete přečíst v textu Predicting the Outcome of Events Based on Related Internet Activity nebo ve zkrácené podobě na blogu SEO by the Sea. Yahoo využívá při své analýze plnou palbu svých služeb a příklad, který uvádí v patentu, je fascinující. Za vzorcem „Opening weekend box office revenues (in $Millions)=Buzz score*1.3482“ se ukrývá odhad tržeb filmu Wall-e s přesností na dva miliony!

Skutečně Minority Report 2.0?

Na někoho možná uvedené příklady mohou působit děsivě. Můžeme opravdu pomocí internetu předpovídat budoucnost? Ano, pokud věříme, že je aspoň částečně uložena v našich myslích už teď a my se podle toho chováme. Pokud je to tak, pak se stačí jen zbavit předsudků a ponořit se do budoucnosti…

Autor článku

Autor působí jako Head of R&D ve společnosti Socialbakers, zároveň vede Studia nových médií na FF UK.

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).