Hlavní navigace

Český národní korpus chystá databázi textů z online médií a sociálních sítí

Sdílet

David Slížek 7. 3. 2020

Elektronická databáze autentických českých textů a promluv chystá novinku. Český národní korpus začal systematicky sbírat data z vybraných online médií, diskusních fór i sociálních sítí, jako je Facebook, Twitter či Instagram. 

Údaje plánuje dát v rámci projektu Online veřejně k dispozici nejspíše v dubnu 2020 a bude je průběžně aktualizovat, oznámil na konferenci New Media Inspiration 2020 Václav Cvrček z Ústavu Českého národního korpusu při Filozofické fakultě Univerzity Karlovy.

Databáze má sbírat v průměru 5,7 milionu tokenů za den (z toho 1,5 milionu má pocházet z webových médií), ročně má jít asi o 2 miliardy položek. Textová data projekt získává od firmy Dataweps.

Ústav má už sesbírána data za roky 2017 – 2020, zpracovány má ale zatím jen texty z roku 2019. Data opatřuje anotacemi a tagy a v budoucnosti plánuje, že je bude aktualizovat na denní bázi.

Údaje z korpusu se dají využít k výzkumu či k analýze toho, jaká témata se v internetových médiích či na sociálních sítích objevují. 

Našli jste v článku chybu?
  • Aktualita je stará, nové názory již nelze přidávat.