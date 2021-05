Minulý týden proběhla médii informace o připravované změně v Nahlížení do katastru nemovitostí, která vyvolala rozporuplné reakce. Změna spočívá v tom, že se obsah částečně omezí pro nepřihlášené uživatele. Úplnou verzi, ve stejném rozsahu jako před změnou, uvidí pouze uživatelé po přihlášení. Proč k této změně dochází?

Hlavní důvody jsou dva a mají společnou příčinu – automatizované vytěžování dat.

Provoz aplikace

Aplikace se na začátku roku 2021 potýkala s výkonnostními problémy, které byly způsobeny vysokým počtem přístupů jak do grafické, tak do „textové“ (popisné) části aplikace. Počet vyhotovených výstupů začal v roce 2020 narůstat a na konci roku se sice zastavil, ale v novém roce opět nabral na tempu a za období leden–duben 2021 se proti období leden–duben 2020 téměř zdvojnásobil.

Celý systém se na jaře dostával ve špičkách do kritického bodu, kdy odezvy byly až 10 sekund. Úzké hrdlo tvořila databáze, a protože její další ladění už nepřinášelo výsledky, museli jsme snížit její zátěž. Omezili jsme nekritické databázové úlohy a vypnuli jsme zobrazování náhledu mapy na výstupech, které šlo „obětovat“, náhled není pro výstup zásadní informace.

Současně s tím jsme pracovali na posílení serverů z rezervních zdrojů, které proběhlo v druhé polovině března 2021. Poté jsme mohli plně obnovit všechny úlohy a opět ve výstupech aktivovat náhled mapy.

Podle plánů měla infrastruktura určená pro provoz aplikace postačovat až do plánovaného přechodu na nové servery. Ty ale nebyly v té době ještě k dispozici, začínají se instalovat právě v těchto dnech.

Infrastruktura

Naše aplikace neprovozujeme v cloudu, ale máme vlastní infrastrukturu, kterou pravidelně obnovujeme. Nahlížení je sice aplikace, u které by nasazení do cloudu bylo z hlediska lepší škálovatelnosti výhodou, ale přinášelo by to jiné komplikace, dané zejména vazbami na ostatní námi provozované IS, a ani z hlediska nákladů na provoz bychom si moc nepolepšili.

Zátěž databáze není úplně malá, aktuálně se ve špičkách provádí cca 2000 dotazů/s do poměrně komplikovaného datového modelu. Vzhledem k velkému počtu změn se u popisných informací nevyplácí dělat přepočet dat z čistě OLTP modelu do modelu vhodného pro publikaci dat. V ideálním případě Nahlížení zobrazuje změny v popisné části nejpozději do 2 hodin od jejich provedení v interním systému (např. provedení zápisu návrhu na vklad), v případě grafických dat je zpoždění zpravidla do 12 hodin.

Grafická část

Vyšší zpoždění grafické části je dáno tím, že se v jejím případě provádí přepočet a transformace dat do formátu vhodného pro publikaci, protože online provoz přímo z čistě vektorových dat uložených v databázi (jako objekty Oracle Spatial) není vzhledem k počtu obsloužených požadavků reálný.

Následně se ještě provádí generování dlaždic pro jednotlivé vrstvy mapy, což se děje už online, při požadavku na danou oblast. Přepočet do publikačního formátu je složitý proces náročný na HW zdroje, včetně databáze, ale až na výjimky se nám daří změny do 12 hodin zpracovat a dostat do mapy zobrazované v Nahlížení.

Denně se aktualizuje cca 60 000 objektů mapy (z toho cca 11 000 parcel a 6000 budov). To ale neznamená, že se následné zobrazování grafických dat obejde bez databáze, ta se využívá např. pro zvýrazňování zobrazených objektů, při prostorové identifikaci atd.

Pozn.: Provoz výhradně přímo z databáze využívá mapa v Dálkovém přístupu do katastru nemovitostí, kde je ale zátěž podstatně nižší.

Proč přistupujeme k omezení?

Po provedeném posílení hardwaru je provoz aplikace bez problémů, a to za situace, kdy od problémového jara dále vzrostl počet vyhotovovaných sestav. Proč tedy přistupujeme k omezení Nahlížení?

Pokud by zátěž rostla současným tempem, dříve či později bychom se znovu dostali na limit hardwaru. Ten lze sice opět posílit a aplikace je na to z hlediska možností škálování připravena, ale považujeme za projev péče „řádného hospodáře s prostředky státního rozpočtu“, když nechceme utrácet peníze za posilování infrastruktury, aby obsloužila i „stahovače“. Aplikace Nahlížení má sloužit skutečně pouze k nahlížení, ne k vyrábění soukromých kopií katastru.

CAPTCHA

Po spuštění první verze aplikace v roce 2004 jsme začali zaznamenávat pokusy o její vytěžování automatizovanými prostředky, ale zpočátku toho nebylo mnoho. Po roce 2008, kdy se do aplikace zavedlo zobrazování omezení vlastnického práva (např. zástavní právo, exekuce atd.), začalo vytěžování růst a dostalo se to do situace, kdy jsme museli v roce 2013 zavést CAPTCHA .

Ta několik let poměrně obstojně fungovala, ale časem se stávala méně a méně účinnou, např. byla obcházena analýzou její hlasové verze pro nevidomé. Nakonec jsme CAPTCHA v roce 2017 vypnuli, protože již prakticky neplnila svou funkci a jen obtěžovala uživatele, a soustředili jsme se na mechanismus ochrany proti vytěžování spočívající v blokování IP adres.

Blokování IP adres

Pro tento účel jsme vyvinuli vlastní systém, který se snaží vytěžování rozeznat na základě různých charakteristik jako počet požadavků za časový interval, geolokace, charakteristika požadavků atd. Ani tento mechanismus však není všespásný, a přestože denně zablokuje spoustu IP adres, vytěžování neustále narůstá a dostalo se doslova do obřích rozměrů, kdy odhadem tvoří 1/3–2/3 celkového objemu provozu aplikace.

Zaznamenáváme provoz ze všech koutů světa včetně nejexotičtějších zemí, z velkých datových a cloudových center, přes VPN /proxy a další různé maskovací techniky. Přemigrovat aplikaci/službu z jednoho datacentra do jiného je v dnešní době jednoduché. Zablokujeme provoz z jednoho IP rozsahu a za pár dnů je podezřele podobný provoz zpět, z úplně z jiného koutu světa.

Osobní data

Vytěžování však není problém pouze zátěže aplikace a zde se dostáváme ke druhému důvodu – shromažďování velkého množství osobních dat vlastníků nemovitostí, které je v rozporu se zákonem o zpracování osobních údajů (zákon č. 110/2019 Sb.) a Obecným nařízením o ochraně osobních údajů ( GDPR ).

Pokud k tomu není zákonný důvod, osobní údaje se nesmí bez souhlasu subjektu údajů (fyzická osoba, k níž se osobní údaje vztahují) shromažďovat. ČÚZK poskytuje mnoho dat jako tzv. otevřená data, ale mezi tato data nepatří údaje o vlastnictví, včetně osobních údajů vlastníků.

Vydávání osobních dat jsme museli kvůli GDPR v roce 2018 výrazně omezit a elektronicky (výměnný formát nebo WSDP) jsou již vydávána pouze jednotlivě a jmenovitě.

V Nahlížení ale zůstala dostupná a tím se stala ještě cennější. Jsou zdrojem např. pro hromadné obesílání seniorů s nabídkami na odkup jejich nemovitostí, zjišťování, na koho byla uvalena exekuce, kdo má nemovitost zatíženou zástavním právem atd. Chceme vlastníky nemovitostí před těmito praktikami chránit. Na katastrálním pracovišti lze sice stále anonymně získat např. libovolný výpis z katastru nemovitostí, ale jedná se o jednotlivosti v porovnání s tím, co lze udělat pomocí automatizovaných prostředků. Nemůže být a není nám jedno, co se s daty děje.

Identifikace konkrétních subjektů, které stojí za vytěžováním a které probíhá převážně z IP v zahraničí mimo EU, je velmi obtížná, takřka nemožná. Obtížně se i odhaduje, o jaký počet subjektů se jedná. Podle rozsahu a rozmanitosti se domníváme, že se jedná o desítky až stovky pravidelně vytěžujících subjektů. Připravujeme zahájení správního řízení s některými identifikovanými subjekty, ale je to dlouhá cesta s nejasným výsledkem.

Proč právě přihlašování?

Začali jsme hledat řešení, které by bylo co nejvíce přijatelné z hlediska uživatelů a současně bylo dostatečně efektivní. Zvažovali jsme několik variant.

Jednou variantou bylo ještě více zpřísnit blokování adres. Rozpoznávání vytěžování ale není jednoduché a jednoznačné a při agresivnějším nastavení bychom díky falešně pozitivním detekcím a sdíleným IP adresám zablokovali i neúměrné množství běžných uživatelů.

Po jednom „zátahu“ na velký provoz přes VPN jsme se často setkávali se situací, kdy běžní uživatelé vůbec nevěděli, že si nainstalovali VPN a že přes ni probíhá veškerý jejich provoz. Většinou ani netušili, co to VPN je, jen si nainstalovali software, na který někde na internetu vyběhla reklama a byl zdarma, nebo potvrdili dotaz antiviru/antimalware na „zvýšené zabezpečení“ atd. Cestu přísnějšího blokování jsme tedy zamítli.

Další variantou bylo opětovné zavedení CAPTCHA, resp. její novější verze reCAPTCHA. U CAPTCHA se ale stále vyskytuje problém s automatizovaným rozpoznáváním, které jde proti uživatelské přívětivosti. Buď musí být těžká (i reCAPTCHA dokáže pěkně potrápit), nebo jde snadno prolomit. CAPTCHA by se navíc musela zobrazovat často, nestačila by pouze „poprvé“. Tuto variantu jsme tedy také zavrhli.

Nakonec jsme vyhodnotili, že nejméně obtěžující pro uživatele bude částečné uzamčení obsahu za přihlášení, za které budou umístěna osobní data. Uživatel se jednou přihlásí a následně už pracuje bez omezení. K tomuto rozhodnutí přispěl i národní bod pro identifikaci a autentizaci (NIA), pomocí kterého se mohou přihlašovat fyzické osoby svými identifikačními prostředky, kterých je již velké množství (pozn.: v polovině dubna existovalo cca 5 mil. id. prostředků, ale jedna osoba jich může mít více, počet osob tedy bude o něco nižší).

Právnické osoby mohou využít přihlášení pomocí účtu Dálkového přístupu do katastru nemovitostí, kde si podle potřeby mohou samy libovolně zřizovat své uživatele. Přihlášení bude fungovat jako přirozená regulace, protože vytěžování osobních údajů tak bude vždy spojeno s konkrétní fyzickou nebo právnickou osobou a také se částečně zmenší zátěž, protože nejnáročnější části výstupů se budou generovat až po přihlášení.

Spolu s přihlašováním se občas objevují obavy z „Velkého bratra“. Při přihlášení prostřednictvím NIA neprobíhá v Nahlížení registrace uživatele a nevzniká uživatelský účet. Přihlašování je zprovozněno již od listopadu 2020 pro modul Můj katastr. Ukládá se pouze množina informací potřebná pro vyhodnocování, zda se nejedná o vytěžování. Data jsou uložena po dobu několika týdnů a následně se mažou, není důvod je skladovat. Máme zásadu, že o data, která nemáme, se nemusíme starat. Pro osobní údaje i pro nás platí princip nezbytnosti zakotvený v zákoně o zpracování osobních údajů.

Přihlašování (ani přes účet Dálkového přístupu) také neznamená, že by se za zobrazované informace mělo platit, jak občas v diskuzích pod články zaznělo. Informace v Nahlížení budou i po přihlášení zobrazovány bezplatně, na tom se nic nemění. Za které výstupy z katastru nemovitostí se platí, určuje příloha č. 4 k vyhlášce č. 358/2013 Sb. a informace zobrazované v Nahlížení pod tuto část nespadají.

Otevřenost českého katastru a srovnání s EU

I přes připravované změny zůstává český katastr nemovitostí jedním z nejvíce otevřených v rámci evropských zemí. Občas se naopak vyskytnou hlasy, zda je správně, že je v ČR katastr nemovitostí veřejný a otevřený. Kolegové v roce 2019 zpracovali přehled, jak je to s otevřeností katastru v EU. V některých státech např. vůbec nelze získat přehled vlastnictví ani kopie listin. V některých tyto údaje získat lze, ale po prokázání právního zájmu. Bezplatný přístup k informacím je možný v menšině zemí, ve většině je přístup zpoplatněný (pozn.: pro plný kontext by bylo třeba znát strukturu daní a jiných poplatků). V některých zemích je přístup omezený pouze pro vybrané skupiny uživatelů.

Chápeme, že nutnost přihlášení do aplikace pro získání kompletní množiny informací je pro uživatele komplikací, obzvláště u jednorázových přístupů. Je však třeba se na celou problematiku dívat jak z pohledu konzumentů dat, tak i z pohledu vlastníků nemovitostí vedených v katastru. Jsme přesvědčeni, že činíme správný krok. Spolu s tím, jak se bude zvyšovat povědomí o eGov a rozšiřovat počet osob vlastnící prostředek pro přihlášení prostřednictvím NIA a lidé si ho navyknou pro přístup k různým službám státu využívat, to bude stále menším problémem.