Ptáte se umělé inteligence na aktuální události? Pozor na Gemini, varuje studie

30. 10. 2025

Doba čtení: 5 minut

Aplikace s umělou inteligencí nejsou spolehlivým zdrojem informací o aktuálním dění. V mezinárodním srovnání nejhůř dopadly odpovědi nástroje Gemini od Googlu.

Aplikace založené na umělé inteligenci stále nejsou spolehlivým zdrojem pro vyhledávání zpráv o aktuálních událostech. Vyplývá to z rozsáhlé mezinárodní studie, kterou zveřejnila Evropská vysílací unie (EBU). Navázala na předchozí projekt britské BBC.

Aktuální výzkum zjistil, že 45 % odpovědí na dotazy k aktuálnímu dění obsahovalo alespoň jeden závažný problém. Pokud se započítají i drobné nedostatky, problémových bylo 81 % odpovědí.

Nejčastější vadou bylo nedostatečné nebo zavádějící uvádění zdrojů (31 % všech odpovědí). Problémem zůstávají také faktické nepřesnosti, včetně tzv. halucinací nebo zastaralých informací, které se vyskytly ve 20 % odpovědí.

Na studii se podíleli novináři z více než dvou desítek veřejnoprávních médií. Hodnotili odpovědi vygenerované ve 14 jazycích v bezplatných verzích aplikací ChatGPT, Copilot, Gemini a Perplexity. Do výzkumu se zapojil také Český rozhlas.

„Získaná data přesvědčivě ukazují, že zkreslování zpravodajství veřejnoprávních médií, které BBC objevila už v první fázi výzkumu, je vážný a systémový problém. Porovnání výsledků obou výzkumů v případě BBC naznačuje, že asistenti se v některých ohledech možná zlepšují, ale problémy jsou stále na znepokojivé úrovni. Rozhodně nemůžeme říct, že by tito asistenti byli spolehlivým zdrojem informací o aktuálním dění,“ varuje studie.

„Asistenti odpovídají s velkou jistotou, což vytváří falešný dojem kvality. Často uvádějí zdroje, které nevedou k relevantním článkům, nebo je neuvádějí vůbec. I když zdroje poskytnou a uživatelé si chtějí informace ověřit, naráží na řadu překážek – od zdrojů, které tvrzení asistentů vůbec nepodporují, až po čas, který zabere rozklíčování a kontrola všech tvrzení v odpovědi,“ pokračuje studie.

Gemini dopadl nejhůř

V kvalitě výstupů jednotlivých AI asistentů byly výrazné rozdíly. Obecně největší problém byl s uváděním zdrojů. V případě Google Gemini to ale bylo extrémní, neboť závažné problémy se zdrojováním se vyskytly u 72 % odpovědí. To je výrazně víc než u ChatGPT (24 %), Copilota (15 %) i Perplexity (15 %).

Celkem 42 % odpovědí poskytnutých nástrojem Gemini neobsahovalo vůbec žádné přímé zdroje (tedy odkazy na konkrétní články).

Asistent od Googlu také výrazně inklinoval k nesprávným nebo neověřitelným odkazům. Nejčastěji používal formulace typu „Podle dostupných informací, zejména z Radio France…“, „zdroje jako RTBF uvádějí…“, „podle RTVE a dalších zdrojů…“, přičemž buď připojil odkaz na úplně jiné médium, nebo neuvedl žádný přímý zdroj. Hodnotitelé zaznamenali tento problém u 54 % odpovědí. Šlo o specifický problém právě tohoto asistenta, u žádného jiného se nevyskytl ve více než 4 % odpovědí.

Když se ho třeba kanadští testeři ptali na příčinu požárů v Los Angeles, v odpovědi „citoval“ údajné materiály CBC News. Ani jeden z pěti poskytnutých zdrojů však neměl s kanadským veřejnoprávním médiem nic společného a byly to úplně jiné weby.

Google Gemini tedy vytváří zavádějící obraz o tom, co údajně tvrdí jím citované zpravodajské organizace. Údaje, které připisuje prestižním redakcím, není možné ověřit. Do odpovědí navíc sám od sebe přidával slova implikující úhel pohledu nebo hodnotící soudy. Tento problém se vyskytl u 11 % jeho odpovědí, u kterých zároveň tvrdil, že je opírá o veřejnoprávní média.

Občas také Gemini trpěl falešným sebevědomím, což se projevilo u otázky, proč museli astronauti neplánovaně zůstat na mezinárodní vesmírné stanici. Finským testerům Gemini tvrdil, že se uživatel mýlí a nejspíš si plete popsanou situaci se sci-fi filmem, protože nic podobného se nestalo. Podobně odpověděl v portugalštině.

Průběh testu

Autoři studie dali dohromady 30 otázek o aktuálních událostech celosvětového významu, které při testování použily všechny zapojené organizace. Konkrétní formulace vzešly z reálných dotazů, jak je lidé zadávají do vyhledávačů. „Záměrně jsme nepoužívali žádné pokročilé techniky pro vylepšení odpovědí, protože jsme chtěli zachytit, jak se lidé na zprávy běžně ptají. Navíc nemáme důkazy, že by běžní uživatelé sofistikované postupy používali,“ upozorňuje studie.

Každé zapojené médium mělo k diskutovaným tématům nějaký vlastní obsah, ze kterého mohli AI asistenti čerpat informace. Osmnáct redakcí si otázky přeložilo do svého jazyka, čtyři pracovaly s anglickou verzí. Pro každou z otázek testeři zakládali novou konverzaci.

Doporučená podoba promptu vypadala takto: „Pokud možno použij zdroje [název zpravodajské organizace]. [OTÁZKA]". Aplikace měly například odpovědět, jestli může Donald Trump kandidovat i potřetí, proč odstoupil kanadský premiér Justin Trudeau, v kolika zemích se bude hrát MS ve fotbale 2026 nebo proč uvízli astronauti NASA ve vesmíru. Další otázky zjišťovaly jméno aktuálního papeže nebo počet obětí mohutného zemětřesení v Myanmaru.

„Důležité je, že jsme asistenty nezkoušeli nachytat. Nevybírali jsme záludné otázky, které by je měly zmást. Vzali jsme nejčastější dotazy uživatelů BBC, doplnili je o data z EBU a vybrali 30 témat, ke kterým mělo co nejvíc redakcí vlastní obsah. Náročnost otázek nehrála roli,“ poznamenává studie.

Kromě 30 společných otázek si mohly redakce přidat vlastní dotazy k místním či národním tématům. Ne všechny této možnosti využily a počet jejich dodatečných otázek se lišil.

Testování probíhalo od 24. května do 10. června letošního roku. Testeři v každé aplikaci používali výchozí nastavení (v ChatGPT šlo o model GPT4o, v Gemini o variantu 2.5 Flash). Média, která blokovala přístup AI nástrojů na své platformy, tato omezení před uskutečněním testu zrušila. „Přesné a nestranné zpravodajství by mělo být dostupné všem, ať už si za asistenty platí nebo ne. Proto jsme se zaměřili na bezplatné verze pro běžné uživatele a ponechali jsme základní nastavení, včetně výběru modelu,“ vysvětluje studie.

Anonymizované odpovědi pak hodnotili novináři ze zapojených organizací. Dohromady 271 novinářů posoudilo 2709 odpovědí AI na hlavní otázky a k tomu 353 odpovědí na specifické otázky jednotlivých redakcí. Odpovědi hodnotili podle pěti klíčových kritérií: přesnosti (včetně přesnosti přímých citací), práce se zdroji, rozlišování názorů od faktů, zásahů do původních textů (přidávání slov naznačujících určitý pohled nebo hodnocení) a kontextu.

U každého kritéria mohli novináři zvolit odpověď na škále Bez problémů / Drobné problémy / Závažné problémy nebo Nevím. „U všech otázek jsme rozdíl mezi drobnými a závažnými problémy definovali podle toho, zda daný nedostatek podstatně ovlivňuje kvalitu odpovědi v hodnoceném aspektu,“ podotýkají autoři studie.

Reputační riziko

Podle Digital News Report 2025 od Reuters Institute využívá AI asistenty už 7 % uživatelů online zpravodajství. Mezi mladými lidmi do 25 let je to až 15 %.

Pro veřejnoprávní média však představují chybné výstupy AI asistentů značné reputační riziko. Nejde jenom o chybné zdrojování nebo zkreslené citace. Chatbot Gemini například prezentoval satirický obsah z vysílání Radio France jako fakt, aniž by zmínil, že jde o humor.

„Možnosti AI nás nadchly a věříme, že mohou přinést divákům ještě větší hodnotu. Klíčové ale je, aby lidé mohli důvěřovat tomu, co čtou a sledují. Přestože vidíme určitá zlepšení, problémy s přesností a důvěryhodností AI asistentů přetrvávají. Chceme spolupracovat s AI firmami na jejich zlepšení, ve prospěch veřejnosti i společnosti jako celku,“ poznamenal Peter Archer, který má v britské BBC na starosti problematiku generativní AI.

„Všechna média občas udělají chyby podobné těm, které jsme zkoumali, ale mají zavedené postupy, jak je identifikovat, přiznat a opravit. Je důležité zajistit, aby stejná odpovědnost platila i pro AI asistenty,“ vyzývají na závěr autoři studie.

Vstoupit do diskuse (3 názory)

Filip Rožánek

Novinář se zaměřením na média. Dlouholetý účastník i pozorovatel českého mediálního cirkusu. Pracoval v Marketing & Media, Hospodářských novinách a Českém rozhlase.

Témata:

No nakonec je to jenom "language model", i když large :)) Takže když chci přidat něco co už někdo dělal a komentoval tisíckrát, tak to může být správně na poprvé, Když je to něco co už bylo stokrát, tak to musím odladit, a pokud vymyslím jakoukoliv odchylku od obvyklých řešení, tak je to už převážně na mě. Program byl dávný pokus o klienta analyzujícího poker podle GTO, ale moc jsem se tam odvázal a posléze ztratil (a taky komerční programy zanedlouho dělaly totéž a lépe). Nicméně co leželo asi…

Fantux

Sdílet

Gemini dopadl nejhůř

Průběh testu

Reputační riziko

Autor článku

Filip Rožánek

Témata:

Anketa

Vláda potvrdila konec televizních poplatků. Je to správné rozhodnutí?

Komerční sdělení

VEDOS upevňuje pozici lídra českého trhu s .cz doménami

smsticket: Jednoduchý a přehledný prodej vstupenek pro pořadatele

Udržte autenticitu v AI světě. Buďte zapamatovatelní i pro gen Z

Ptáte se umělé inteligence na aktuální události? Pozor na Gemini, varuje studie

Sdílet

Gemini dopadl nejhůř

Průběh testu

Reputační riziko

Autor článku

Filip Rožánek

Témata:

Anketa

Vláda potvrdila konec televizních poplatků. Je to správné rozhodnutí?

Komerční sdělení

VEDOS upevňuje pozici lídra českého trhu s .cz doménami

smsticket: Jednoduchý a přehledný prodej vstupenek pro pořadatele

Udržte autenticitu v AI světě. Buďte zapamatovatelní i pro gen Z

Dále u nás najdete

Quishing: Myslete, než skenujete, QR kód může být past

Začínající podnikatel: Základní pojmy z firemních financí

Seriál IT Crowd oslavil dvacáté narozeniny

Zklamání pro fajnšmekry, bude méně mobilů s AMOLED panely

V Plzni nachytřili křižovatky o IoT, zachrání zombíky před tramvají

Jen desetina nemocnic plní požadavky na kyberbezpečnost

Microsoft předal FBI šifrovací klíče k BitLockeru

Fialova vláda krátila připomínková řízení, Nový kabinet je přeskakuje

Příznaky menopauzy mohou vypadat úplně jinak než jako návaly

První dítě dostalo lék, který odloží nástup cukrovky o několik let

Tuxedo InfinityBook Max 15 Gen10 s procesory Intel a grafikami Nvidia

Tuzemské firmy se chrání obstojně, rizikově se chovají lidé

Bezdrátové sítě jiné než Wi-Fi: HaLow, Z-Wave, Zigbee a Thread

Prohlídka u praktika, která vám může zachránit srdce

David Bečvařík přechází z Heureky do Etnetery Core jako nový CTO

WhatsApp zavádí bezpečný režim pro ohrožené osoby

Česká jablka jsou plná pesticidů, ukázal test. Ovocnáři se bouří

Registrační značku si budete moci nechat doručit do výdejního boxu

Lékaři začnou řešit, kolik mají lidé v pase

Registrace a storno zaměstnání od dubna 2026