Věk hybridní žurnalistiky přichází a bude velmi zajímavé sledovat, jak se automatizace a umělá inteligence budou prosazovat v kvalitních online i tištěných médiích. Ať se řadíte mezi technologické stoupence nebo nevěřící, vypadá to, že se s tím všichni budeme muset srovnat.
Přečtěte si článek o finančním stavu firmy SAIC (firma dodává zbrojní techniku armádě USA). Zjistíte, že text není výtvorem kreativního novináře, ale výsledkem asi 15 sekund práce systému firmy Narrative Science. Ta poskytuje americkému obchodnímu magazínu Forbes technologii, která je schopna generovat články o obchodních statistikách. Systém Quill, který za celým zázrakem stojí, neumí pracovat pouze s obchodními daty, ale také se sportovními statistikami nebo umí analyzovat informace na Twitteru a přetavit je ve čtivý článek o tom, jak si stojí republikánský kandidát na vítěze v primárkách Newt Gingricht. O čem debatuje, čím zaujal a jak jsou v porovnání s ním retweetování i jeho protivníci. Samozřejmě, že byste podobná data získali i přes analytické nástroje typu Klábosení.cz apod., ale byli byste ochuzeni o onu novinářkou omáčku, úhly pohledu a jakési protežování nejzajímavějších částí příběhu.
Quill je prostě systém, který ze syrových dat a tabulek umí vytvořit příběh. Zatím to na Pulitzerovu cenu nevypadá, ale technologický vývoj napovídá, abychom nikdy neříkali nikdy. Quill by pravděpodobně úspěšně prošel Turingovým testem. Člověk by nebyl schopen poznat, zda za článkem stojí stroj, nebo zda jej napsal člověk. A o to v tomto případě jde. Může stroj, který píše jako člověk, ovlivňovat okolí, jako dobrý žurnalista?
Tabulky a statistiky se mění v prózu
Podívejme se na to, jak Quill články píše. Systém nejdříve posbírá všechna relevantní data. V případě výroční obchodní zprávy to znamená, že management firmy dodá tabulky, statistiky, konverzní čísla, položky na skladě, výnosy, pohyby na účtech a cokoli dalšího. Efektivní samozřejmě je, když dodáme i starší data tak, abychom jejich porovnáním mohli zjistit trendy. Například to, že si náš byznys stál lépe v I. kvartálu 2012 než I. kvartálu 2011.
A podobně to může fungovat i ve sportovních zprávách. Pravděpodobně se asi shodneme na tom, že kdo dá ve fotbale první gól, ten má zásadním způsobem nakročeno k vítězství. Pokud se jedná o stejně kvalitní týmy, třeba Barcelonu a Real, pak je jasné, že druhý tým už to se vstřelením vyrovnávací branky nebude mít tak lehké. Z informací, kdy gól padne, jak jsou dobré týmy, a jakým výsledkem skončila jejich minulá utkání, můžeme predikovat výsledek zápasu. Respektive Quill je toho schopen na základě algoritmických operací s těmito daty.
Systém pak data a algoritmy vkládá do širšího rámce. V případě, že jde o byznysovou zprávu, musíme nejprve definovat, co je dobrý výsledek firmy. Jestlipak výsledky firmy trumfnou výsledky minulého roku? Nebo zda se firma nepropadne do ztráty? V případě fotbalu je to jednodušší. Tým, který vsítí více branek, vyhrává. Vývojáři v Narrative Science musí tyto rámce předem připravit. Jedná se v zásadě o několik pravidel, kterými se řídí každá oblast, o které Quill píše.
Doposud se jedná o tvrdou dřinu s daty. Vlastně by takové operace a výpočty zvládl i Excel. Jak se ale tyto analýzy mění v prózu, tedy čtivý text, který je sémanticky i syntakticky správný? Narrative Science si na tuto práci najal tým žurnalistů, kteří pro Quill vytvořili množství předloh, do kterých systém analýzy vkládá. Co je ale zásadní, tento tým spolupracuje s vývojáři a programátory a spolu se snaží naučit Quill rozpoznávat různé úhly pohledu na vytvořené obchodní analýzy nebo sportovní výsledky. Quill tak dokáže rozpoznat, zda byl zápas úplný propadák s nečekaným vítězstvím jednoho týmu, jestli byl některý hráč na hřišti excelentní, nebo zda výsledky I. kvartálu byly pro celkové roční výnosy firmy nejzásadnější.
Tým žurnalistů Quillu pomáhá i s finální podobou článku. Odborníci na jazyk totiž definují slovní zásobu, ze které Quill následně čerpá. V případě fotbalového zápasu ho tak naučí obraty jako: „Zápas byl do poslední chvíle strhující podívanou“ nebo „Břevno, které v nastaveném čase trefil Novák, muselo hosty po skončení zápasu hodně mrzet“.
Někdy se stane, že se při analýze informací, nebo v samotných datech, která Quill používá, objeví chyby. Systém je však trénovaný, aby evidentní nesmysly opravoval. Když se třeba ukáže, že v I. kvartálu firma prokázala 1000 % nárůst a ve II. kvartálu propadla, je pravděpodobné, že se někde skrývá logická chyba. Quill je schopen takovéto omyly detekovat a opravovat, případně na ně upozornit člověka. Tím je zaručeno, že systém produkuje relativně kvalitní a pravdivé články.
Dobrá data nic nenahradí
Analýzy, vzory a práce žurnalistů na vylepšování systému jsou sice zásadní, ale stále platí, že pokud Quill nemá dostatek kvalitních dat, jeho výsledky nemohou být ideální. Kvalitu dat Narrative Science řeší připojením systému k externím databázím.
Čím víc dat systém pojme a analyzuje, tím jsou samozřejmě výsledky relevantnější a hodnotnější. Mohlo by to vést i k renezanci na poli Sémantického Webu a technologií RDF nebo Topic Map, které by systém mohly využívat k získávání dalších potřebných informací. Hodilo by se Quill napojit třeba na službu Factual, připojit k SIOC nebo projekt FOAF.
Potenciál technologie jde ale ještě dál. Představte si, co by software mohl dokázat, kdyby firmu koupil velký hráč typu Google, Facebook nebo Amazon. Tyto firmy dnes mají spoustu informací o svých uživatelích. Politickým stranám a velkým firmám by tak mohly s pomocí Quillu dodávat informace a analýzy na základě dataminingu sociálních sítí – tedy preference voličů a klientů. A tyto informace by byly dostupné v čtivé podobě, která bude obohacena o názory, trendy a úhly pohledu.
Paradoxně tak můžeme být svědky toho, že díky umělé inteligenci, která bude psát reporty pro velké firmy a politické strany, dojde k přehodnocení přístupu k problematice otevřených dat.
Budou nám stroje diktovat, co čteme?
Mají mít žurnalisté strach, že je systémy jako Quill připraví o práci? Někteří možná ano. Žádný člověk nedokáže projít takové množství dat a informací, které Quill zanalyzuje za pár sekund. Narrative Science si přitom za článek, který obsahuje 500 slov, účtuje v přepočtu 200 korun. Z ekonomického hlediska se tedy „zaměstnat“ Quill vyplatí. Peníze ušetřené za rešerše by pak deníky v ideálním případě mohly přidat třeba investigativní sekci redakce.
I tady by Quill mohl pomoci. Prováděl by jakousi kompletní analýzu témat. Systém by se hodil pro provádění hlubokých analýz státních financí, vládních dat kolem rozpočtu nebo korupce ve státních podnicích. Novinář by pak tato data mohl použít při psaní vlastního článku. Jednalo by se tak o jakýsi hybridní typ žurnalistiky, na jehož výsledku by nakonec profitovali všichni – čtenáři, novináři i Narrative Science.
Spíš než žurnalisté by se ale možná nástupu poslušných automatických autorů měli začít obávat čtenáři. Co když budou články, které napíše systém typu Quill, tendenčně zabarveny? Co když podobný systém zaplaví svými texty média a pak se ukáže, že ho vlastní firma s nejasnou strukturou a sídlem kdesi na Panenských ostrovech?
To je však fabulovaný budoucí vývoj, který můžeme pouze odhadovat. Zatím se Narrative Science soustředí na psaní článků pro malé publikum. Ideálním klientem Quillu jsou firmy s obrovskými databázemi, které je těžké analyzovat a zveřejňovat ve smysluplné formě. Quill tak firmám pomáhá prezentovat vlastní výsledky investorům nebo akcionářům ve formě čtivého příběhu.
Článek za dolar
Stejně jako mohou mít systémy jako Quill vliv na novinářské řemeslo, mohou samozřejmě ovlivnit i to, jak čteme a co a jak si ke čtení pořizujeme. S přibýváním projektových zaměstnání a s většími požadavky na schopnost se učit stále něco nového bude docela zajímavé, jestli se Quill nebude hodit k tvorbě úzce profilovaných odborných článků.
Představte si, že třeba chcete získat pracovní místo, kde jsou vyžadovány nejaktuálnější znalosti z oblasti sociologického výzkumu. Se systémem, který projde web a všemožné databáze a napíše nám do několika sekund knihu o 50 stránkách s nejnovějšími informacemi k tématu, to bude hračka. Kolik byste byli ochotni dát za takovou knihu? Díky zkušenostem s iTunes, Amazonem a dalšími online obchody s hudbou nebo textem, můžeme cenu stlačit klidně na pár dolarů za kus. I to se bude vlastníkovi systému vyplácet. Na serveru Nimble Books si můžete podobnou vlastní knihu objednat už dnes.
Zkuste si představit, jak by za dva, tři roky mohl vypadat třeba Google. Největší vyhledávač na světě koupil Narrative Science a získal přístup do všech zásadních vědeckých databází z oblasti veřejné správy, zdravotnictví, vědy a výzkumu nebo vzdělávání. Hlavní stránka Google vypadá stále stejně, ale po zadání klíčového slova se vám neukáže spousta odkazů seřazených podle relevance. Na obrazovce vidíte něco jako časopisecký článek. Text je plný přesných informací, které jste požadovali, jsou v něm grafy a analyticky zhodnocený stav problematiky s možností nahlédnout na věc z různých úhlů pohledu. K tomu všemu je text k nerozeznání podobný tomu, který by za dobu jednoho roku napsal vědecký pracovník AVČR.
Žádnou paniku, ve skutečnosti prozatím neexistuje žádná umělá inteligence, která by se sama rozhodovala, co napíše a co ne. Algoritmický systém na tvorbu textu je stále jen a pouze dobrý sluha. Ani nic jiného být nemůže. Bez lidského faktoru by neexistoval a jeho produkty by nikdo nečetl.