Hlavní navigace

Minority Report 2.0 nastupuje?

Josef Šlerka 11. 11. 2010

Prediktivní analýza na základě dat z Internetu začíná být spolehlivější než renomované analýzy. Jak předpovědět třeba výsledky voleb analýzou sociálních sítí?

"You can choose… " (Agatha, Minority Report)

Srpnové vydání Gartner's Hype Cycle Special Report přineslo mimo jiné i zprávu o tom, že prediktivní analýza na základě dat z Internetu již opustila fázi optimalizace algoritmu a pomalu ale jistě se přesouvá do hlavního proudu produktů. Podle Gartneru se stane běžnou součástí IT ekosystému do dvou let. Zpráva má samozřejmě na mysli ekosystém především amerického trhu, což znamená, že si u nás místo dvou let počkáme čtyři roky. Nicméně už teď stojí za to se podívat alespoň na některé příklady prediktivní analýzy v praxi. Aspoň nebudou štiky českého Internetu zaskočeny, až to přijde.

Hype Curve

Cílem prediktivní analýzy je, stručně řečeno, odhadnout či předpovědět budoucí chování nějakého systému. Lhostejno, zda se jedná o trh s akciemi, výsledky voleb či předpověď nezaměstnanosti. Já jsem si pro vás připravil pár ukázek takovýchto analýz, které ukazují, jak různě se dají data z Internetu využít.

Americké volby a sociální média

Minulý týden skončily volby do amerického kongresu a senátu. Kromě napínavého souboje republikánů a demokratů, přinesly i minimálně dva zajímavé poznatky z oblasti sociálních médií. Ukázalo se, že analýzou veřejných dat z Facebooku a Twitteru bylo možné předpovědět výsledky jednotlivých soubojů s přesností více než 70 procent. Podle článku Facebook Fans Help Predict More Than 70% of Key Races přitom na Facebooku stačila velice banální metrika: počet fanoušků fan page. Je to možná překvapivě prosté, ale platilo, že čím víc fanoušků, tím větší šance vyhrát. Podobně to fungovalo i v případě Twitteru. Ve článku New Data: Can Twitter Predict Elections? popisuje Dan Zarella experiment, v rámci něhož se ukázalo, že počet followerů na Twitteru předpovídal úspěšnost v souboji o křeslo s přesností 71 procent. Mimochodem: i když jsou počty uživatelů amerického a českého Twitteru nesrovnatelné, tak porovnání pořadí stran v posledních volbách s počtem jejich followerů vykazuje také slušnou korelaci:

1. ČSSD 568 následovníků
2. ODS 361 následovníků
3. TOP09 1490 následovníků
4. Věci veřejné 219 následovníků
5. KSČM 88 následovníků

Anomálie TOP09 (a případně Strany zelených) má své kořeny v tom, že se jejich strany nejlépe zhostily marketingu na Internetu. Situaci trochu komplikují oficiální a neoficiální účty, jinak počty následovníků kopírují pořadí ve volbách.

Koupím? Prodám?

Nejen politikou živ je člověk, a tak nikoho nepřekvapí, že řadu příkladů pro prediktivní analýzu najdeme především v ekonomické oblasti. Například výzkum, který podnikli společně lidé z university v Indianě a Manchestru, ukázal, že změny nálady uživatelů Twitteru předcházejí o tři až čtyři dny změny v Dow Jonesově indexu a silně s nimi korelují. Populární shrnutí naleznete v článku Twitter Predicts the Stock Market, pokud chcete jít přímo k pramenu, pak si můžete stáhnout rovnou původní studii. Celé kouzlo tkví v jednom prostém faktu: finanční rozhodnutí jsou často vedena emocemi a náladou obchodníků na burze, nikoli pouze racionální úvahou. Ostatně komu je podezřelý Twitter, nechť si přečte jinou studii, tentokrát od výzkumníků z Illinois Widespread Worry and the Stock Market. Ti ukazují silnou korelaci mezi pohybem indexu S&P 500 a sentiment analýzou příspěvků na blogovacím systému LiveJournal.

Další oblasti, kde různé formy prediktivní analýzy našly své uplatnění, jsou různé předpovědi týkající se pohybu na trhu jako takovém. Kanonická je v tomto ohledu studie od výzkumníků přímo z Googlu. Ti se v zásadě věnují analýze dynamiky hledání na internetu. Klasická je v tomto ohledu studie Predicting the Present with Google Trends, kdy lidé z Googlu pěkně ukazují kupříkladu korelace mezi dynamikou hledání zemí a jejich skutečnými turistickými návštěvami.

Ve stejném duchu podnikli svůj výzkum Nikolaos Askitas a Klaus F. Zimmermann z Forschungsin­stitut zur Zukunft der Arbeit, kteří publikovali v Applied Economics Quarterly studii pod názvem Google Econometrics and Unemployment Forecasting. V ní pak dokazují, že analýza trendů vyhledávání klíčových slov spojených s hledáním práce, dokázala predikovat vývoj míry nezaměstnanosti v zemi. Mimochodem, podívejte se na výsledky takového hledání pro Českou republiku sami na Google Insight.

Analýza významu vlivu v sociálních médiích

WT100

Máme rádi Lenina, večer půjdem do kina…

Na závěr jsem si nechal něco romantičtějšího. Biograf. Přesněji předpovídání tržeb, které film utrží. Pro tyto předpovědi má společnost Yahoo! patentovanou metodu. Její rozbor si můžete přečíst v textu Predicting the Outcome of Events Based on Related Internet Activity nebo ve zkrácené podobě na blogu SEO by the Sea. Yahoo využívá při své analýze plnou palbu svých služeb a příklad, který uvádí v patentu, je fascinující. Za vzorcem „Opening weekend box office revenues (in $Millions)=Buzz score*1.3482“ se ukrývá odhad tržeb filmu Wall-e s přesností na dva miliony!

Skutečně Minority Report 2.0?

Na někoho možná uvedené příklady mohou působit děsivě. Můžeme opravdu pomocí internetu předpovídat budoucnost? Ano, pokud věříme, že je aspoň částečně uložena v našich myslích už teď a my se podle toho chováme. Pokud je to tak, pak se stačí jen zbavit předsudků a ponořit se do budoucnosti…

Našli jste v článku chybu?
120na80.cz: Zázrak ze smetiště: co léčí lopuch?

Zázrak ze smetiště: co léčí lopuch?

Podnikatel.cz: Jak vám může jóga pomoci v byznysu?

Jak vám může jóga pomoci v byznysu?

DigiZone.cz: LG OLED65E6: první pohled

LG OLED65E6: první pohled

Lupa.cz: Jen technická kvalita může být málo

Jen technická kvalita může být málo

Vitalia.cz: Muž, který miluje příliš. Ženám neimponuje

Muž, který miluje příliš. Ženám neimponuje

Lupa.cz: Patička e-mailu závazná jako vlastnoruční podpis?

Patička e-mailu závazná jako vlastnoruční podpis?

Vitalia.cz: Inspekce našla nelegální sklad v SAPĚ. Zase

Inspekce našla nelegální sklad v SAPĚ. Zase

Lupa.cz: Blíží se konec Wi-Fi sítí bez hesla?

Blíží se konec Wi-Fi sítí bez hesla?

Vitalia.cz: 5 chyb, které děláme při skladování potravin

5 chyb, které děláme při skladování potravin

Měšec.cz: TEST: Vyzkoušeli jsme pražské taxikáře

TEST: Vyzkoušeli jsme pražské taxikáře

DigiZone.cz: O2 TV doplnilo kanály HBO v HD

O2 TV doplnilo kanály HBO v HD

Lupa.cz: Jak se prodává firma za miliardu?

Jak se prodává firma za miliardu?

Vitalia.cz: Voda z Vltavy před a po úpravě na pitnou

Voda z Vltavy před a po úpravě na pitnou

Vitalia.cz: Když všichni seli řepku, on vsadil na dýně

Když všichni seli řepku, on vsadil na dýně

Podnikatel.cz: EET pro e-shopy? Postavené na hlavu

EET pro e-shopy? Postavené na hlavu

DigiZone.cz: Nova opět stahuje „milionáře“

Nova opět stahuje „milionáře“

DigiZone.cz: Pure má tři nové přijímače DAB

Pure má tři nové přijímače DAB

Lupa.cz: Jak levné procesory změnily svět?

Jak levné procesory změnily svět?

DigiZone.cz: DVB-T2 ověřeno: seznam TV zveřejněn

DVB-T2 ověřeno: seznam TV zveřejněn

Podnikatel.cz: Byla finanční manažerka, teď cvičí jógu

Byla finanční manažerka, teď cvičí jógu