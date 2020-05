Vratislav Žabka: Data do systému zadavují pouze epidemiologové, respektive hygienici. Ti typicky telefonují různým lidem a zjišťují o nich potřebné informace. Dalším okruhem jsou data z nemocnic o provedených testech a jejich výsledcích. Tito lidé mají své metody, jak se vyvarovat některých zkreslení jako jsou například nepravdivě podané informace. My jim k tomu připravujeme nástroje pomocí nichž tato data mohou analyzovat a to jak statisticky, tak vizuálně, případně je exportovat pro další použití.

Částečně jste to již naznačil, ale jak přesně systém s daty pracuje, na jakých datech je závislý a co může případně vést k případné dezinterpretace výsledků?

Jednou z důležitých činností epidemiologické práce je snaha lokalizovat zdroj nákazy a najít přenašeče. Přitom epidemiologové zcela intuitivně a zároveň poměrně efektivně pracují právě s mapovými podklady. Náš informační systém do tohoto postupu přidává především to, že umožňuje tato data statisticky analyzovat a vizualizovat v mapách. Když to shrnu, tak GIS nám umožňuje pracovat s daty v prostou, epidemiologové si díky tomu jednoduše mohou říci, že je zajímá například vše v okruhu 10 kilometrů od ohniska a tato data si jednoduše vyfiltrovat a dále s nimi pracovat.

Co se práce s chybami týče, jeden z těch analytických nástrojů v systému například detekuje, zdali nejsou záznamy v systému duplicitně a automaticky hygieniky na případný konflikt upozorní a umožní provedení možné opravy.

JŠ: Zjistili jsme, že objevování podobného typu chyb je typické pro mimořádné situace, jako byl třeba právě Covid. Při běžných epidemiích hovoříme o desítkách a maximálně stovkách záznamů, takže zde k chybám tak často zase nedochází. Typická žloutenka je například obyčejně záležitost nějakých 200–300 záznamů (neplést s počtem nemocných), gastroenteritida opět zhruba do 300. Průběh běžné epidemie pak představují desítky lidí. Pro kontrast, v době vrcholu covidové epidemie bylo v libereckém kraji 70 editorů databáze. V období takto zvýšené zátěže nevyhnutelně dochází k chybám při plnění daty.

Lidé často hygienikům nepřiznají vše, mají pocit, že se opakují a neříkají to, co již prozradili jinde, často neznají skutečnou adresu svého aktuálního pobytu, telení číslo atd. Pokud tato data nejsou uložena v databázi, tak se podobné chyby přehlížejí, což nutně vede ke skreslování výsledků statistik a vstupuje to významně do různých analýz. Tady je důležité podotknout, že systém pouze vyhledává a navrhuje opravy podezřelých dat, interpretace je vždy na epidemiologovi, který musí rozhodnout, jestli jde skutečně o chybu a jak data upravit, aby výsledek vyšel správně.

Co se týče validace dat, tak vidíme různé příležitosti, jak systém dále vyvíjet. Jednu z nich představuje napojení na registr obyvatelstva. V tuto chvíli pracujeme především s validacemi, které se týkají místa klíčové pro obec, ale nemáme tam třeba validaci přesné adresy, protože k tomu bychom již potřebovali napojení na registr obyvatel. Pro epidemiologické šetření systém zjišťuje několik míst, tím nejdůležitějším je asi místo nákazy, vůči kterému by se měli nakažení ve statistikách správně vykazovat a nikoli například k místu trvalého bydliště. Dále následují pobytová místa a další vstupy, právě k identifikaci skutečného místa nákazy je ověření alespoň na úrovni obce zásadní.

Jakým způsobem systém pracuje s pohybem osob?

Daniel Vrbík: Systém pracuje s pohybem osob manuálním způsobem, hygienici jsou schopní ke každé osobě zadat několik míst, kde se daný člověk pohyboval. To znamená trvalé bydliště, nebo místo dlouhodobého pobytu, cestovatelská anamnéza, až již zahraniční jako tomu bylo na počátku koronavirové epidemie v Česku, nebo následný pohyb v rámci republiky. Všechny vstupy jsou ale zprostředkovávány manuálně skrze hygieniky, není tam žádné napojení na chytré telefony a podobná řešení. Těchto míst je podle potřeb možné přidávat teoreticky nekonečně mnoho a následně se data vyhodnocují.

JŠ: Ono to může znít trochu banálně, ale my jsme byli mnohokrát za dobu, co systém vyvíjíme, upozorňováni epidemiology, že toto je pro ně zcela zásadní část, která je zároveň velice citlivá a nedá se jednoduše delegovat na nezkušené lidi, nebo nějaké technologie. Při sběru dat je nejprve nutné nabídnout nakaženému atmosféru důvěry, ve které vůbec bude ochotný připustit a přiznat epidemiologům pro ně klíčové kontakty. To je věc, kterou ani není jednoduše možné vynutit tím, že něco nařídíte nějakým zákonem. Pokud se nalézáte ve stavu nákazy život ohrožující nemoci, můžete začít uvažovat úplně jinak, změní se vám priority a nikdo z nás si nedovede představit, jak by přesně v takové situaci jednal.

Zde je tedy potřeba postupovat velice citlivě, abychom daného člověka zbytečně nedostali do situace, kdy pod tlakem začne lhát a my tak nepřišli o cenné informace. To se tradičně provádí prostřednictvím telefonních hovorů, které epidemiologie dělají dnes a denně (nejen v období globální pandemie) a mají na to speciálně a pečlivě vyškolené pracovníky.

Nový aspekt, který do toho vnáší využití geoprostorových technologií pro sbírání a sdílení dat o pohybu lidí je hodně nové a velmi zajímavé téma (minimálně v našem geografickém prostoru), které ale spolu přináší množství etických a bezpečnostních otázek. Myslím, že až budeme jako společnost zpětně analyzovat současnou covidovou krizi, tak se určitě bude hodně řešit to, nakolik jsme ochotni pozměnit naše chování, aby takto získaná data bylo možné efektivně využít až se objeví epidemie podobné velikosti v budoucnosti.

Pokud ale chceme budovat systém, se kterým mají epidemiologové pracovat již teď, tak musíme vycházet z osvědčených a efektivních metod sběru dat, které také již dnes používají. Když to řeknu ještě jinak, systém s námi do značné míry navrhují sami epidemiologové a my řešíme problémy, které trápí je, ne naopak. Tím se vyhýbáme fázi, kdy by jim musel někdo nařizovat, ať systém začnou používat, oni se tomu bránili a vnikalo nepochopení na obou stranách.

Jak dlouho vlastně probíhá vývoj systému a co obnáší?

JŠ: Již přibližně tři roky úzce spolupracujeme coby geoinformatici s krajskou hygienickou stanicí v Liberci. Skrze tuto spolupráci jsme se v době vypuknutí gastroenteritidy v Novém Boru dostali k problematice epidemiologie, kde nás zaujalo, jak epidemiologové pracují s mapami. To následně vedlo k sestavení projektového záměru, který od ledna 2019 řešíme. V první fázi jsme se věnovali výzkumu, kdy jsme poctivě mapovali potřeby epidemiologů a teprve tento rok mělo dojít na řešení samotné technické stránky. Nástup koronavirové pandemie ale tuto fázi dramaticky urychlil a došlo k ostrému nasazení do provozu. Díky tomu jsme získali cennou zpětnou vazbu a ještě lépe si ujasnili, co vlastně epidemiologové přesně potřebují a jak mají pro ně vytvářené nástroje vypadat.

Pepi Adam: Na té koronavirové verzi EpiGIS jsme začali intenzivně pracovat v polovině března. Během prvních dvou týdnů vznikla hrubá struktura a v následujících dvou za velmi úzké spolupráce s epidemiology, kteří jej začali reálně testovat, probíhalo ladění. Od nich ale vedle připomínek přicházely také nové požadavky, to znamená, že se přidávaly položky do formulářů (někdy vynucené vládním nařízením, jindy vycházející z přirozených potřeb epidemiologa) a bylo je potřeba zároveň integrovat do dalších nástrojů. Verzi, která začala být nějakým způsobem použitelná v reálném provozu, jsme měli hotovou přibližně za čtyři týdny. Kvůli časové tísni se testovalo prakticky až za chodu. Jednou z komplikací byla i forma importu dat. Epidemiologové totiž nezačínali na zelené louce, ale měli již množství dat v různých tabulkách, která bylo potřeba správně naimportovat a zároveň jim usnadnit přechod na nový systém zadávání dat.

Na čem systém stojí po technologické stránce? Používáte open source technologie, nebo proprietární software?

PA: Frontend systému je napsaný v PHP s podporou Nette framework a dalších technologií a data jsou ukládána v MySQL databázi. Pak je zde ale ještě analytická část.

VŽ: Celá analytická část je napsána v jazyce R v RStudiu a využívá ke svému choru R Server. Systém jako celek je postaven na open source technologiích.

PA: Celý systém jinak v ostrém chodu běží na zabezpečeném serveru krajské hygienické stanice, která je také jediná, kdo má uložená vešekrá osobní data.

Jaké jsou plány se systémem po koronavirové krizi?

JŠ: Současná epidemie nám hodně zasáhla do původního projektového záměru a v současné době tak řešíme s Technologickou agenturou nějaké změny oproti původnímu časovému plánu. Pokud nám jej TAČR schválí, tak bychom chtěli pokračovat v původní i covidové variantě EpiGIS, aby byla tato verze připravená k použití pro případné další vlny epidemie.

V tuto chvíli je na systému nejcennější databáze reálných dat z průběhu epidemie v libereckém kraji a my se chceme zaměřit hlavně na zpracování těchto dat. Chceme nalézt stav, kdy bude systém disponovat všemi potřebnými analytickými nástroji, ale zároveň víme, že nesmíme systém zaplevelit tím, že jich tam bude příliš a budou práci spíše komplikovat. Čeká nás tedy období určitého experimentování.

Finální podobu této nové verze bychom chtěli mít připravenou pro případnou podzimní a zimní vlnu epidemie. Vedle toho pro nás ale zůstává také základní cíl mít EpiGIS použitelný pro jakoukoli epidemii, což v praxi znamená hlavně snadnou rozšiřitelnost formulářů pro specifika jednotlivých epidemií. Budeme také dál pracovat na analytické a vizualizační části. Ta je vedle usnadnění orientace epidemiologa důležitá hlavně proto, aby daná data mohla sloužit nejen ke komunikaci uvnitř expertních týmů, ale také třeba k usnadnění komunikace směrem k novinářům, občanům a politikům.

Je přitom potřeba zajistit, aby systém umožňoval data agregovat v různých rozlišeních, od těch, která odfiltrují šum a umožní epidemiologům odhalit ohniska nákazy, až po nejhrubější zjednodušení, která mohou sloužit pro informování veřejnosti bez toho, že by hrozilo a prozrazení nějakých citlivých dat. Když bych měl uvést nějaký příklad naopak z té analytické části, tak bych se zastavil v oblasti grafů, kde jsou takovým klíčovým prvkem epidemiologické křivky. Ty díky koronaviru dnes znají již prakticky všichni. Křivky je třeba mít v systému za různé geografické jednotky, pro různé věkové kohorty, sociální skupiny i časové úseky.

PA: Aby to ale nevyznělo, že je naším cílem pouze pilovat analytiku, zabýváme se také tím, jak systém do budoucna co nejvíce integrovat, ať již je řeč o na začátku zmiňovaném registru obyvatelstva, informačním systému infekčních nemocí, kde hledáme nějaký možný průnik, nebo třeba integraci s Daktelou, případně nějakou formou chytré karantény, pokud se tento koncept ujme.

S jakými mapovými podklady vlastně systém pracuje?

DV: Ve chvíli kdy ověřujeme obce, tak využíváme seznam obcí ČR s jejich oficiálními kódy a následně data ukládáme do databáze, odkud je zpětně dokážeme přiřadit ke geometrické reprezentaci, to znamená k hranici daného katastrálního území. Jinými slovy využíváme data jednotlivých administrativních úrovní a do nich si agregujeme data z naší databáze, se kterými se dále pracuje v té analitické části.

Použitá GIS data pochází ze standardních zdrojů jako je Český úřad zeměměřický a katastrální a pracujeme také s počtem trvale bydlících obyvatel v obcích, kde momentálně vycházíme z dat ministerstva vnitra.