Ptáte se umělé inteligence na aktuální události? Pozor na Gemini, varuje studie

30. 10. 2025
Doba čtení: 5 minut

Sdílet

Když si umělá inteligence vymýšlí
Autor: Filip Rožánek, Internet Info s použitím ChatGPT
Aplikace s umělou inteligencí nejsou spolehlivým zdrojem informací o aktuálním dění. V mezinárodním srovnání nejhůř dopadly odpovědi nástroje Gemini od Googlu.

Aplikace založené na umělé inteligenci stále nejsou spolehlivým zdrojem pro vyhledávání zpráv o aktuálních událostech. Vyplývá to z rozsáhlé mezinárodní studie, kterou zveřejnila Evropská vysílací unie (EBU). Navázala na předchozí projekt britské BBC.

Aktuální výzkum zjistil, že 45 % odpovědí na dotazy k aktuálnímu dění obsahovalo alespoň jeden závažný problém. Pokud se započítají i drobné nedostatky, problémových bylo 81 % odpovědí.

Nejčastější vadou bylo nedostatečné nebo zavádějící uvádění zdrojů (31 % všech odpovědí). Problémem zůstávají také faktické nepřesnosti, včetně tzv. halucinací nebo zastaralých informací, které se vyskytly ve 20 % odpovědí.

Na studii se podíleli novináři z více než dvou desítek veřejnoprávních médií. Hodnotili odpovědi vygenerované ve 14 jazycích v bezplatných verzích aplikací ChatGPT, Copilot, Gemini a Perplexity. Do výzkumu se zapojil také Český rozhlas.

„Získaná data přesvědčivě ukazují, že zkreslování zpravodajství veřejnoprávních médií, které BBC objevila už v první fázi výzkumu, je vážný a systémový problém. Porovnání výsledků obou výzkumů v případě BBC naznačuje, že asistenti se v některých ohledech možná zlepšují, ale problémy jsou stále na znepokojivé úrovni. Rozhodně nemůžeme říct, že by tito asistenti byli spolehlivým zdrojem informací o aktuálním dění,“ varuje studie.

„Asistenti odpovídají s velkou jistotou, což vytváří falešný dojem kvality. Často uvádějí zdroje, které nevedou k relevantním článkům, nebo je neuvádějí vůbec. I když zdroje poskytnou a uživatelé si chtějí informace ověřit, naráží na řadu překážek – od zdrojů, které tvrzení asistentů vůbec nepodporují, až po čas, který zabere rozklíčování a kontrola všech tvrzení v odpovědi,“ pokračuje studie.

Gemini dopadl nejhůř

V kvalitě výstupů jednotlivých AI asistentů byly výrazné rozdíly. Obecně největší problém byl s uváděním zdrojů. V případě Google Gemini to ale bylo extrémní, neboť závažné problémy se zdrojováním se vyskytly u 72 % odpovědí. To je výrazně víc než u ChatGPT (24 %), Copilota (15 %) i Perplexity (15 %).

Celkem 42 % odpovědí poskytnutých nástrojem Gemini neobsahovalo vůbec žádné přímé zdroje (tedy odkazy na konkrétní články).

Asistent od Googlu také výrazně inklinoval k nesprávným nebo neověřitelným odkazům. Nejčastěji používal formulace typu „Podle dostupných informací, zejména z Radio France…“, „zdroje jako RTBF uvádějí…“, „podle RTVE a dalších zdrojů…“, přičemž buď připojil odkaz na úplně jiné médium, nebo neuvedl žádný přímý zdroj. Hodnotitelé zaznamenali tento problém u 54 % odpovědí. Šlo o specifický problém právě tohoto asistenta, u žádného jiného se nevyskytl ve více než 4 % odpovědí.

Když se ho třeba kanadští testeři ptali na příčinu požárů v Los Angeles, v odpovědi „citoval“ údajné materiály CBC News. Ani jeden z pěti poskytnutých zdrojů však neměl s kanadským veřejnoprávním médiem nic společného a byly to úplně jiné weby.

Google Gemini tedy vytváří zavádějící obraz o tom, co údajně tvrdí jím citované zpravodajské organizace. Údaje, které připisuje prestižním redakcím, není možné ověřit. Do odpovědí navíc sám od sebe přidával slova implikující úhel pohledu nebo hodnotící soudy. Tento problém se vyskytl u 11 % jeho odpovědí, u kterých zároveň tvrdil, že je opírá o veřejnoprávní média.

Občas také Gemini trpěl falešným sebevědomím, což se projevilo u otázky, proč museli astronauti neplánovaně zůstat na mezinárodní vesmírné stanici. Finským testerům Gemini tvrdil, že se uživatel mýlí a nejspíš si plete popsanou situaci se sci-fi filmem, protože nic podobného se nestalo. Podobně odpověděl v portugalštině.

Průběh testu

Autoři studie dali dohromady 30 otázek o aktuálních událostech celosvětového významu, které při testování použily všechny zapojené organizace. Konkrétní formulace vzešly z reálných dotazů, jak je lidé zadávají do vyhledávačů. „Záměrně jsme nepoužívali žádné pokročilé techniky pro vylepšení odpovědí, protože jsme chtěli zachytit, jak se lidé na zprávy běžně ptají. Navíc nemáme důkazy, že by běžní uživatelé sofistikované postupy používali,“ upozorňuje studie.

Každé zapojené médium mělo k diskutovaným tématům nějaký vlastní obsah, ze kterého mohli AI asistenti čerpat informace. Osmnáct redakcí si otázky přeložilo do svého jazyka, čtyři pracovaly s anglickou verzí. Pro každou z otázek testeři zakládali novou konverzaci.

Doporučená podoba promptu vypadala takto: „Pokud možno použij zdroje [název zpravodajské organizace]. [OTÁZKA]". Aplikace měly například odpovědět, jestli může Donald Trump kandidovat i potřetí, proč odstoupil kanadský premiér Justin Trudeau, v kolika zemích se bude hrát MS ve fotbale 2026 nebo proč uvízli astronauti NASA ve vesmíru. Další otázky zjišťovaly jméno aktuálního papeže nebo počet obětí mohutného zemětřesení v Myanmaru.

„Důležité je, že jsme asistenty nezkoušeli nachytat. Nevybírali jsme záludné otázky, které by je měly zmást. Vzali jsme nejčastější dotazy uživatelů BBC, doplnili je o data z EBU a vybrali 30 témat, ke kterým mělo co nejvíc redakcí vlastní obsah. Náročnost otázek nehrála roli,“ poznamenává studie.

Kromě 30 společných otázek si mohly redakce přidat vlastní dotazy k místním či národním tématům. Ne všechny této možnosti využily a počet jejich dodatečných otázek se lišil.

Testování probíhalo od 24. května do 10. června letošního roku. Testeři v každé aplikaci používali výchozí nastavení (v ChatGPT šlo o model GPT4o, v Gemini o variantu 2.5 Flash). Média, která blokovala přístup AI nástrojů na své platformy, tato omezení před uskutečněním testu zrušila. „Přesné a nestranné zpravodajství by mělo být dostupné všem, ať už si za asistenty platí nebo ne. Proto jsme se zaměřili na bezplatné verze pro běžné uživatele a ponechali jsme základní nastavení, včetně výběru modelu,“ vysvětluje studie.

Anonymizované odpovědi pak hodnotili novináři ze zapojených organizací. Dohromady 271 novinářů posoudilo 2709 odpovědí AI na hlavní otázky a k tomu 353 odpovědí na specifické otázky jednotlivých redakcí. Odpovědi hodnotili podle pěti klíčových kritérií: přesnosti (včetně přesnosti přímých citací), práce se zdroji, rozlišování názorů od faktů, zásahů do původních textů (přidávání slov naznačujících určitý pohled nebo hodnocení) a kontextu.

U každého kritéria mohli novináři zvolit odpověď na škále Bez problémů / Drobné problémy / Závažné problémy nebo Nevím. „U všech otázek jsme rozdíl mezi drobnými a závažnými problémy definovali podle toho, zda daný nedostatek podstatně ovlivňuje kvalitu odpovědi v hodnoceném aspektu,“ podotýkají autoři studie.

Reputační riziko

Podle Digital News Report 2025 od Reuters Institute využívá AI asistenty už 7 % uživatelů online zpravodajství. Mezi mladými lidmi do 25 let je to až 15 %.

Pro veřejnoprávní média však představují chybné výstupy AI asistentů značné reputační riziko. Nejde jenom o chybné zdrojování nebo zkreslené citace. Chatbot Gemini například prezentoval satirický obsah z vysílání Radio France jako fakt, aniž by zmínil, že jde o humor.

„Možnosti AI nás nadchly a věříme, že mohou přinést divákům ještě větší hodnotu. Klíčové ale je, aby lidé mohli důvěřovat tomu, co čtou a sledují. Přestože vidíme určitá zlepšení, problémy s přesností a důvěryhodností AI asistentů přetrvávají. Chceme spolupracovat s AI firmami na jejich zlepšení, ve prospěch veřejnosti i společnosti jako celku,“ poznamenal Peter Archer, který má v britské BBC na starosti problematiku generativní AI.

„Všechna média občas udělají chyby podobné těm, které jsme zkoumali, ale mají zavedené postupy, jak je identifikovat, přiznat a opravit. Je důležité zajistit, aby stejná odpovědnost platila i pro AI asistenty,“ vyzývají na závěr autoři studie.

  • Chcete mít Lupu bez bannerů?
  • Chcete dostávat speciální týdenní newsletter o zákulisí českého internetu?
  • Chcete mít k dispozici strojové přepisy podcastů?
  • Chcete získat slevu 1 000 Kč na jednu z našich konferencí?

Staňte se naším podporovatelem

Autor článku

Novinář se zaměřením na média. Dlouholetý účastník i pozorovatel českého mediálního cirkusu. Pracoval v Marketing & Media, Hospodářských novinách a Českém rozhlase.

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).