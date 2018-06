Data o parkování, zpoždění příměstských autobusových linek, údaje z různých senzorů nebo heatmapa pohybu cyklistů. To jsou ukázky datasetů, které uživatelé mohou najít na webu Golemio.cz. Sídlí zde veřejný katalog Datové platformy Prahy, na které v městské firmě Operátor ICT pracuje tým asi sedmi lidí.

„Dnes publikujeme 21 datových sad, ale v datové platformě momentálně pracujeme s asi třiceti,“ vysvětluje vedoucí oddělení Datové platformy Benedikt Kotmel (BK), který se otevíráním dat zabýval i na svém předchozím působišti na ministerstvu financí: byl členem týmu, který vyvinul oceňované open data aplikace Supervizor a CityVizor.

Datová platforma ale nemá být jen skladištěm údajů, které Praha zveřejní ve formě otevřených dat. „Pomáháme městu spojovat jednotlivé organizace do jednoho ‚datového celku‘, aby se data sdílela a propojovala,“ doplňuje vedoucí odboru Smart Prague Michal Kraus (MK).

Tým Datové platformy (zleva): Jan Vlasatý – senior datový analytik, grafik a vývojář, Michal Kraus – vedoucí odboru Smart Prague, Tomáš Hronek – senior datový analytik, Valeriia Riazanova – datový analytik, Benedikt Kotmel – vedoucí oddělení Datové platformy, Jan Bednář – datový analytik a vývojář

Kromě městských dat má platforma pracovat také s některými údaji soukromých firem – před podpisem je třeba memorandum s bikesharingovou společnosti Rekola a Kotmelův tým by se rád dostal i k datům ubytovací služby Airbnb.

Snaží se také přesvědčit městské firmy a místní samosprávy, aby si do smluv s dodavateli IT systémů nezapomněly začlenit svůj přístup k datům. Nebudou pak muset platit velké částky za výstupy dat, které pro ně může vytvořit právě Operátor ICT, slibuje Kotmel.

V rozhovoru pro Lupu mluví také o tom, k čemu Praha může data používat, která data se nedají publikovat, jak bude město poskytovat přístup k API nebo které údaje by se v datové platformě měly ještě objevit.

K čemu má datová platforma vlastně sloužit, co to je? Sklad dat, která bude moci město i lidé zvenčí nějak využívat?

BK: Určitě to není datový sklad, tomu pojmu se záměrně vyhýbáme. Nejcennější součástí projektu je tým lidí, který drží know-how na práci s daty. Technická vrstva je složená z více komponent. Jednou je i to úložiště dat, ale další, náročnější částí je integrační rozhraní, které integruje data z různých zdrojů ve městě – ze senzorických zařízení, z informačních systémů městských společností nebo magistrátu – a k tomu využíváme standardní open data. A jsou to data všech možných druhů: živá data, statická data, statistická data,geodata a podobně. Zpracováváme je, podle konkrétních účelů využití je ukládáme do databáze a pak je různými způsoby poskytujeme ven.

Například jakými?

BK: Jednou cestou je cosi, čemu říkáme dispečink. Jde o vnitřní systém pro řízení města, který umožňuje náhled na data podle potřeb magistrátu. Máme v něm integrována data například o parkovištích, o poloze vozů příměstské integrované dopravy, o kvalitě ovzduší a další. Neveřejná část běží v rámci pilotního provozu na 18 měsíců na řešení od firmy Cisco. Například senzorická data z chytrých lamp v Karlíně jsme tak byli schopní integrovat v rámci dnů, protože Cisco má certifikované dodavatele.

Screenshot rozhraní tzv. interního dispečinku

Z platformy se pak dají jednotlivá světla přímo ovládat – vypnout, zapnout, nastavit pravidla, kdy se mají automaticky vypínat či zhasínat, nebo upravovat intenzitu světla a podobně.

Kromě lamp jsou v systému také například data z cyklosčítačů, údaje ze senzorů měřících kvalitu ovzduší, otevřená data ze stanic Českého hydrometeorologického ústavu či pozice zpožděných autobusů příměstské hromadné dopravy. V dispečinku hodně testujeme různé technologie, složitost či jednoduchost zapojení různých senzorických zařízení a jejich chování.

Jsou už nějaké konkrétní scénáře, jak město může s těmito daty pracovat, třeba v krizovém řízení a podobně?

BK: Pro krizové řízení by byl potřeba náročnější přístup s přísnými SLA a dalšími nároky. Pokud by o to Praha měla zájem, jsme schopní to připravit. V rámci pilotního provozu ale nejdřív městu ukazujeme, jak s daty dokážeme pracovat a jaké výhody tato práce přináší. Datová platforma je například připravená na data ze senzorů kompresních odpadkových košů, která se dají využít k optimalizaci svozů. Chceme, aby ta data šla přes datovou platformu, ať už si koše pořídí kterákoli městská část. My pak pro ni zařídíme náhled na data i analytickou část, aby radnice mohla například řídit svoz odpadu.

MK: Jednotlivé způsoby využití pro město teprve začínají vyplývat z toho, jak se nám platforma plní daty. Mezi daty začínají vznikat vazby, které třeba na první pohled nebyly patrné.

BK: Typickým uživatelem by myslím mohly být městské části, kterým dokážeme ukazovat, jak na jejich území vypadá například kvalita ovzduší nebo kde se nejvíce pohybují lidé a podobně.

Jak řešíte problém s tím, že nejspíš každý poskytovatel dat dodává údaje ve svém formátu?

MK: Když někdo vysoutěží konkrétní řešení, zpracovávají se data ze senzorů na jeho straně. My vyžadujeme, aby výsledná data byla předávána do datové platformy prostřednictvím standardizovaných rozhraní. Když třeba řešíme data o parkování, sejdou se nám údaje z různých puků (senzorů pod parkovacími místy – pozn. redakce), kamer a tak dále. Je na výrobci, jak si ta data v zařízení zpracovává, ale my po něm chceme, aby je poslal třeba ve formátu „zaparkováno/nezaparkováno“.

Screenshot rozhraní tzv. interního dispečinku

BK: Klíčovým prvkem projektu je, že definujeme standardy, jsme něco jako metodický orgán. Veškeré informace jsou na veřejném portálu – včetně obecných specifikací nebo například informací o problému vendor lock-in. Městským částem také budeme vysvětlovat, jak má vypadat struktura dat či jak má fungovat REST API. Důležité je, aby si požadavek na přístup k datům a tyto standardy dávaly do zadávacích dokumentací při výběrových řízeních.

Když jste ale dávali dohromady první datasety, tyhle společné instrukce ještě neexistovaly. U kterých dat jste měli největší problémy?

BK: Nejproblematičtější data byla z chytrých laviček, pro které jsme museli vytvářet několik různých rozhraní, protože jsme zapojovali osm různých dodavatelů. Právě proto, že na začátku tady nebyla jednotná metodika a nikdo neřekl, že se data budou předávat tímto konkrétním způsobem.

MK: Ale nakonec jsme se s tím dokázali vypořádat, a dokonce jsme se na tom i něco naučili, jen to bylo časově náročnější.

Kolik datových sad v platformě teď na startu máte?

BK: Zaintegrováno máme zhruba třicet datových sad – některé jsou v dispečinku, některé na veřejném portálu a některé zatím jen zpracováváme na backendu.

Která data nepublikujete veřejně?

BK: Některé údaje se nedají publikovat asi nikdy, protože mají bezpečnostní charakter, a některá musíme předzpracovat. Jde například o data z detektorů dopravy. Máme k dispozici data o průjezdech vozidel a ve spolupráci s ČVUT nad nimi vytváříme nějaký model. Nemůžeme ale dát k dispozici surová data ze senzorů, protože tam hrozí velké riziko dezinterpretace. Ta data je nutné vyčistit, zpracovat a potom je zveřejnit třeba ve formě nějaké statistiky. Současně si dáváme pozor na zveřejňování dat o kvalitě ovzduší. Pokud nevím, že jsou senzory opravdu dobré a certifikované, zveřejňovat je nechceme, protože by to mohlo generovat zbytečné problémy. Ale co je možné, to zveřejňujeme v plné míře, co nejvyšší možné granularitě a původní struktuře.

Na našem veřejném portálu jsou data rozdělena do tematických skupin, v těch k údajům dáváme vizualizace založené na předzpracovaných datech a nakonec poskytujeme i samotná zdrojová data. Na webu máme i řadu živých datasetů – například ze senzorické sítě nebo údaje o parkování. Jsou to klasická API, což není zrovna jednoduché, musíte si hlídat, že se chovají správně, musíte mít nastavené eskalace a zároveň si musíte hlídat přístupy, aby vám někdo API nepřetěžoval.

MK: Aby třeba nezpůsobilo zbytečnou paniku, když se třeba jen někde zblázní nějaké porouchané čidlo.

Mají tedy tahle API nějaká omezení na počty přístupů a podobně?

BK: Žádné pevné omezení stanovené není. Když se chcete připojit na API, musíte se registrovat. A kdyby někdo API evidentně přetěžoval, tak to samozřejmě musíme řešit. Ale chceme, aby akademická sféra nebo firmy data využívaly. Budeme třeba poskytovat data o pětileté historii hodinové obsazenosti P+R parkovišť. Co s tím můžete udělat? Třeba predikční model, který vám s nějakou pravděpodobností řekne, že v danou hodinu bude parkoviště nejspíš obsazené.

Veřejný datový katalog Golemio.cz

Máme také data o pohybu cyklistů – jednak z cyklosčítačů a pak také z mobilní aplikace Prahou na kole, která anonymizovaně trackuje ujeté trasy. Je to docela velký vzorek dat, ze kterého jsme schopní říct, kde se v Praze cyklisté pohybují. A nezveřejníme jen data – přibližně během měsíce publikujeme také zdrojové kódy k integračním nástrojům, kterými data zpracováváme. A pokud budeme sami vytvářet nad daty nějaký model, zveřejníme pod licencí GNU GPL i tyto modely, aby je kdokoli mohl využít.

Souvisí to s tím, že na webu máte oddíl nazvaný Komunita?

BK: Náš projekt je zaměřený na propojování občanů, dat a jejich publikantů – městských společností, magistrátu, akademické sféry. Uspořádali jsme už čtyři Prague Open Data Innovation Beer, kde jsme se sešli s různými lidmi, novináři, experty, zástupci neziskovek a městských částí a mluvili jsme o tom, co je trápí a jak jim my prostřednictvím dat můžeme pomoci. Chceme v tom pokračovat a budeme pořádat také Open Data Challenge o nejlepší využití otevřených dat a další akce.

Budete vyrábět také svoje koncové aplikace založené na datech?

BK: Pokud se bavíme o mobilních aplikacích, tak ty v rámci projektu datové platformy vyvíjet nebudeme.

Jak tedy budete s daty pracovat – tedy kromě toho, že je budete zveřejňovat?

BK: Velkou součástí projektu je jeho analytická vrstva. Budujeme ji podle jednotlivých use case. Pokud někdo z magistrátu bude chtít třeba statistiku o využívání parkovišť, tak mu ji dodáme prostě v Excelu. Pokud po nás bude chtít zpracování nějakých big dat, využijeme nějaký nástroj na big data. Vždycky ale daná analýza musí něco konkrétního přinést, nebudeme se do ní pouštět, aniž bychom věděli, že na konci je služba, kterou někdo potřebuje.

Analytická vrstva je důležitá také v tom, že ji můžeme napojovat na informační systémy partnerů. Městské společnosti nebo městské části si dnes obvykle pořídí nějaký informační systém a v jeho rámci si objednají nějaké reporty. Ale pokud si ve smlouvě dobře zadefinují přístup k datům, jsme pak tyto služby schopni zajišťovat my, což je mnohem účelnější a hospodárnější. Když totiž v takových systémech chcete cokoli dodělat, stojí jakákoli, byť drobná změna obvykle hodně peněz. S přípravou zadávacích dokumentací jsme přitom schopní pomoci tak, aby v nich byl přístup k datům dostatečně dobře definován a my s údaji mohli libovolně pracovat.

To by byl ve státní správě a samosprávě dost revoluční krok. Už to takhle někde zafungovalo?

BK: Teď to připravujeme s městskou firmou Technologie Hlavního města Prahy, která od ELTODO převzala městské osvětlení. Pořizuje si informační systém a my s nimi vedeme debatu o tom, jak budou využívat našich služeb a jak by měli definovat přístup k datům z vybraného systému.

MK: Souvisí to s tím, jak pomáháme městu propojovat jednotlivé organizace do jednoho „datového celku“, aby se data sdílela a propojovala. Navrhujeme procesy, jak s daty pracovat, jak kontrolovat jejich kvalitu, jak je publikovat, za jakých podmínek, jak upravit oblast autorských práv a tak dále.

Jak na tyhle změny městské firmy reagují?

MK: Ze začátku to samozřejmě bylo těžké. Ale postupně se nám přístup městských organizací podařilo změnit a myslím, že v tuhle chvíli už můžeme o všech prohlásit, že už jdeme stejným směrem. Teď jde spíš o to vyřešit otázku konkrétních dat, městské společnosti s tím občas mají samy problémy, protože mají třeba uzavřené nějaké historické smlouvy nebo některé softwary nejsou na poskytování dat někam dál vůbec připravené. Přesvědčování o společné myšlence se teď mění spíš v „boj“ o data, ve kterém usilujeme společně s městskými společnostmi o to, abychom data získali od poskytovatelů informačních systémů a podobně.

To je pokud vím i případ Dopravního podniku. V datové platformě máte údaje o příměstské dopravě, ale data Dopravního podniku v ní chybí. Je v tomhle případě nějaký vývoj?

BK: Řeší se tam žaloba a bylo vydáno nějaké rozhodnutí (žalobu podával datový novinář Českého rozhlasu Jan Cibulka – poznámka redakce). Běží také proces vyjednávání s dodavatelem a potenciální pořízení nového dispečinkového systému. My zatím chceme na datech z příměstské dopravy ukázat jednak to, že je umíme zpracovávat, a pak také to, že dopravní data mají velký potenciál. Příměstské linky jsou podle mého názoru skoro zajímavější, protože na nich zpoždění generuje pro cestující větší problémy – intervaly mezi jednotlivými spoji jsou totiž dlouhé. A společně s ROPIDem můžeme na základě dat třeba zefektivnit jízdní řády.

Zatím mluvíme jen o datech městských organizací. Plánujete do platformy začlenit i nějaké datové zdroje soukromých firem nebo dalších třetích stran?

BK: Právě dojednáváme memorandum se službou Rekola, se kterou si budeme předávat data. Bikesharing a carsharing jsou obecně oblasti, které nás zajímají. Na magistrátu jsme i součástí odborné skupiny pro určování pravidel bikesharingu v Praze. Jasně jsme tam řekli, že jejich součástí musí být to, že nám bikesharingové společnosti musí poskytovat data o poloze kol.

Všechny problémy, které s bikesharingem souvisí, vznikají z toho, že nemáte dostatek dat a pak nevíte, kde se kola hromadí, kde se odkládají na nevhodných místech a podobně. Pokud ta data mít budeme, jsme schopní vytvořit jednoduchou analytickou vrstvu, mapu s polohou kol, a potom třeba upozorňovat bikesharingové společnosti, kde k těm problémům dochází.

Byli bychom rádi, kdyby podobné memorandum, které podepisujeme se službou Rekola, bylo podepsáno na úrovni magistrátu se všemi provozovateli bikesharingu. Podobné je to u carsharingu – mluvíme ale o skutečném carsharingu, ne taxislužbách typu Uber a podobně. Další oblast, která nás hodně zajímá, je Airbnb.

Ano, státní správa po jeho datech hodně touží, ale Airbnb je pokud vím předávat nechce.

BK: V různých městech k tomu přistupuje různě. Teď Airbnb hrozí nějaká forma regulace. Podle nás by ale bylo racionálnější se nejdříve podívat na data, jak je tato služba využívána. My na to naši datovou platformu připravujeme a momentálně vytváříme prezentační vrstvu, která by měla městu ukázat, jak to může vypadat. Praha může vymýšlet nějakou regulaci, ale nejdřív by se měla podívat na data a z nich zjistit, kde je skutečně problém. V Praze 1 to bude jiné než například na Šeberově. Data také mohou městu umožnit, aby mohlo rozlišovat mezi sharing economy a crowd-based economy – tedy mezi prostým sdílením jednoho bytu nebo byznysem postaveném na tom, že někdo těch bytů pronajímá deset.

Zajímavé plány. A co data o parkování v modrých a smíšených zónách, budete je taky mít?

BK: Během měsíce budeme mít od Technické správy komunikací k dispozici real-time data z parkomatů o tom, kolik aut v daném parkovacím úseku právě teď zaplatilo parkovné. Na základě takových dat se dá postavit třeba statistický model, který bude odhadovat, kolik volných míst k parkování v daném místě je. Výhledově bychom tyto údaje chtěli zkombinovat s daty ze skenovacích aut, abychom měli přehled nejen o počtu nerezidentů, kteří za parkování platí v automatech, ale i rezidentů, které z dat parkomatů vyčíst nelze.

Mimochodem – proč se vlastně váš datový katalog jmenuje Golemio?

BK: Golem je ochránce Prahy a doba Rudolfa II. přála vědě a alchymii. My vlastně provádíme cosi jako alchymii s daty, mícháme je dohromady a vznikají mezi nimi synergické efekty (smích).