Hlavní navigace

Vizualizace a datamining nad veřejně dostupnými databázemi

29. 4. 2011
Doba čtení: 6 minut

Sdílet

Vizualizace a datamining
Různé státní weby zveřejňují informace z databází jako obchodní rejstřík, veřejné zakázky nebo hlasování poslanecké sněmovny. Nejzajímavější ale je vidět tato data propojená. Kdo hlasuje pro stavební zákony a přitom vlastní stavební firmy? Jak na to?

V lepším případě lze tyto databáze prohledávat, ale nemají API pro získání jednoduše strojově zpracovatelných dat. S trochou „parsování“ ale jde vytvořit zajímavější podoby prezentace, například vizualizace diskrétního grafu obchodních vztahů a statistik hlasování. Představené webové projekty se dotýkají převážně dat z ČR a SR.

Většina zde uvedených projektů získává data z veřejných webů, např. záznamy z obchodního rejstříku justice.cz, orsr.sk, nebo hlasování z online záznamů z poslanecké sněmovny. Data se většinou musí parsovat z html výsledných stránek, protože zatím neexistuje API, které by to umělo podat v „rozumné formě“. Podle zjištění je to často v státních databázích uloženo jako html i s markupem – div, p a jinými značkami. Tudíž úřady většinou zatím nemůžou technicky vyhovět požadavku na „čistá data“ (viz iniciativa opendata.cz).

Technická omezení

Data jsou zobrazována tak, jak jsou přítomna ve zmíněných rejstřících (tudíž nemusí být úplně aktuální a některé úřady jako sociální pojišťovna SR se moc do aktualizací nehrnou). Prvním problémem jsou překlepy a různé způsoby zápisu – např. přehlasované ë jednou jako „ë“, jindy jako „oe“, různé zápisy adres (s popisným číslem, bez popisného čísla), chyby vzniklé po OCR. Navíc se zjistilo, že IČO je pouze „pseudounikátní“ (myslím případ SR). Stejně někdy není možné rozlišit např. mezi stejnými jmenovci, pokud bydlí na stejné adrese a mají stejný titul. Část databází se nachází přímo na serverech projektů, určité rejstříky ale limitují počet dotazů na IP adresu, tudíž se musí některé dotazy posílat přímo z uživatelova počítače (z Java/Flash appletu nebo přes AJAX).

A nyní k jednotlivým projektům, podle „majoritního“ zdroje. Předem se chci omluvit, že se některým projektům budu věnovat víc než jiným, protože není v mých silách proklikat všechny možnosti všech projektů.

Obchodní rejstříky

Vizualizace obchodního rejstříku – Vorsk.sk (ČR, SR)

Jako první jsem vybral vorsr.sk, protože kromě procházení a vizualizace slovenského obchodního rejstříku umí v betaverzi procházení českého rejstříku (drobné upozornění: je to implementováno jako Java applety). Vizualizace ukazuje vazby jako diskrétní graf různých vztahů – statutář, akcionář, společník, atd.; nejlépe to bude vidět ze screenshotu (legendu jsem nechal zapnutou):

Screenshot z vorsr.sk appletu

Screenshot z vorsr.sk appletu

Grafem lze procházet do větší hloubky pravým klikem na osobu/firmu a „Prozkoumej vztahy v OR“. Některé vztahy (čáry/hrany) jsou „zdvojeny“, protože ukazují stav v různých obdobích. Alternativně lze použít „časovou analýzu“ pro zkoumání stavu v různých časech. Další featury viz manuál, třeba propojení na foaf.sk (další z níže uvedených projektů), výpis orsr.sk nebo z justice.cz. Následovní krátké video ukazuje možnosti časové analýzy na příkladu několika firemních seskupení obchodujících se solární energií v SR:

Časová vizualizace vývoje dvou „solárních seskupení“ firem v SR v appletu vorsr.sk

Foaf.sk (SR)

Projekt foaf.sk je jeden z nejstarších projektů tohoto rázu, vyhledávač/agre­gátor vazeb mezi fyzickými a právnickými osobami s SR. Kromě vyhledávání v obchodním rejstříku mapuje data i ze sociální/zdravotní pojišťovny, daňového úřadu, veřejných zakázek a registru domén. Rovněž disponuje zobrazením vývoje vztahů v minulosti a vizualizací vztahů ve flashovém appletu (pokud se pamatuji správně, je to první vizualizace obchodních vztahů v „našich končinách“). Příklad výpisu: SLOVNAFT, a.s. (údaje o veřejném obstarávaní a doménách lze rozkliknout)

Veřejné zakázky

zIndex.cz – hodnocení veřejných zakázek (ČR)

Web zIndex.cz je založený na mírně jiném principu než předchozí projekty. Data jsou rovněž získávána parsováním veřejných webů (především ISVZ), ale neposkytují přímé vyhledávání, nýbrž hodnocení veřejných zakázek a zadavatelů (ministerstev) podle vlastní metodiky. Netroufám si hodnotit metodiku (ale jako „matfyzák“ jsem vždy na pozoru, když vidím dimenzionální redukci do několika ukazatelů), nicméně to není jednoduchá lineární kombinace (výpočet některých komponent dává smysl na první pohled, s jinými bych musel strávit nějaký čas). Konkrétní výsledky a výstupy, např. různé „jednohubky“ pro neznámé firmy lze najít na hlavní stránce zIndexu.

zNasichDani.sk – vizualizace objemů veřejných zakázek (SR)

Stránky zNasichDani.sk zobrazují podíly fyzických osob a firem na veřejných zakázkách v tabulkové a grafové formě. Místo popisování, co lze z vizualizací zjistit, se raději podívejte se na obrázek infografiky návodu. Živý příklad z vizualizace, která je použita na vysvětlovací infografice. Všimněte si, že výsledky jsou propojeny s již zmíněným vorsr.sk, vedle firem je umístěna ikona pro grafování firmy ve vorsr.sk.

Datasety – naparsované informace přístupné přes API

DataNest.sk – sbírka datasetů (SR)

DataNest.sk je projektem Aliancie Fair-Play primárně určen na poskytování strojově zpracovatelných datasetů. Datasetů v nabídce je celkem požehnaně (viz podrobnější popis API). Strojově zpracovatelné tabulky jsou přístupné jako CSV nebo XML (je vyžadována bezplatná registrace). Platforma datanest.sk slouží tím pádem jako základ k budování dalších aplikací – např. již zmíněný zNasichDani.sk, příklady dalších jsou uvedeny na hlavní stránce datanest.sk.

PublicData.eu – evropský agregátor datasetů (EU)

Web PublicData.eu zmiňuji spíše pro úplnost, protože jejich datasety vypadají spíše jako agregátor zpráv v různých formátech. K publicdata.eu v současnosti probíhá soutěž Open Data Challenge, která se týká datasetů, vizualizací a aplikací nad nimi, což může pomoci financování nadšenců a provozovatelů podobných projektů.

Parlamentní watchdog – hlasování, soudržnost se stranou

KohoVolit.eu (ČR, SR, EU)

KohoVolit.eu poskytuje vizualizaci analýz hlasování pro poslance z ČR, SR a Evropského parlamentu. Cílem vizualizace je ukázat „blízkost názorů“ jednotlivých poslanců podle jejich hlasování – zastupitelé, kteří hlasovali spolu, jsou zobrazeni u sebe, ti, co hlasovali rozdílně, jsou daleko od sebe. Dále jsou statistiky aktivit poslanců shrnuty v tabulce pro ČR a SR (účast na hlasování, počet předložených zákonů, atd.).

NasiPolitici.cz, JakHlasovali.cz (ČR)

Prezentace webu <a>JakHlasovali.cz shromažďuje výsledky hlasování poslanců parsováním z webu poslanecké sněmovny ČR. Ze statistik a grafů je vidět, kdo je rebel (hlasování proti zbytku strany), pracant (velká účast) nebo pekař („peče na to“, tj. nízká účast). Projekt NasiPolitici.cz je naproti tomu spíš agregátor profilujících informací o politicích a kontextových informací z médií.

Demagog.sk, DoTankoch.sk (SR)

DoTankoch.sk mapuje aktivitu slovenských poslanců – účast na hlasováních, služební cesty, vizualizace loajálnosti vůči straně („korelace“ hlasování se zbytkem strany). Pěkný příklad je Ján Slota, dle jehož nesmrtelné a okřídlené věty „My pôjdeme do tankoch a pôjdeme a zrovnáme Budapešť!“ je portál pojmenován.

Demagog.sk není „typický dataminující web“, místo toho provozovatelé získávají nahrávky televizních debat a jejich přepisy do textu a ověřují, jestli tvrzení korespondují s realitou (tady mě nejvíc zaujalo, že přepisy mají přes speech-to-text engine, který má více než 90% úspěšnost, což je vzhledem k rozšířenosti a složitosti jazyka pozoruhodné). Samotná kontrola pravdivosti výroků je časově náročná. Pro podrobnější popis posledních dvou projektů se podívejte na sme.sk článek.

Sejmometr.pl, MamPrawoWiedziec.pl (PL)

Obdobné „parliament watchdog“ projekty pro Polsko. Oba projekty vypadají propracovaně, ale Polsko má jinou strukturu parlamentu než ČR/SR. Uvádím pro úplnost, někoho to může zajímat.

KL24

Propojování databází a ÚOOÚ

ÚOOÚ „oficiálně“ bojuje proti propojování databází. Existují ale komerčně přístupné verze de facto stejného software, používá to třeba BIS nebo úřady. Moc se o těchto SW neví. Nejrozšířenější je od czechia.cz – bizguard.cz. Webová verze je magnusweb, jeden screenshot grafu z magnuswebu.

Do budoucnosti – nové API, podpora

Některé projekty jsem kvůli velikému počtu vynechal, pro kompletní seznam projektů i s prezentacemi, které byly předvedeny na eDemocracy day, se podívejte na wiki stránku organizátora – eDemocracy Day KohoVolit.eu. Na konci stránky je uveden seznam, jak se do některého z projektů zapojit – buď jako programátor, „pročišťovač údajů“, atd. V každém případě lze vždy přispět finančně – mnohé projekty jsou provozovány dobrovolníky bez financování. Pro webaře, programátory: nejnovější plán je spustit REST-ful API u zmíněných projektů, aby šlo vyměňovat/updatovat databáze.

Byl pro vás článek přínosný?

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).