Hlavní navigace

Názor k článku Ledy se hýbají. Sedm úřadů spouští projekt otevřených dat od . . - Moc teorie. Dobře udělaných API je pomálu a...

  • Článek je starý, nové názory již nelze přidávat.
  • 18. 9. 2016 15:24

    . . (neregistrovaný)

    Moc teorie. Dobře udělaných API je pomálu a často jsou hodně špatně škálovatelná a drahá na provoz. Házet někam soubory je levné a dá se to transparentně škálovat/cachovat.

    Příklad praxe, pro jednu velkou českou firmu jsme dělali kontinuální akvizici dat od třetí strany (za měsíc cca 5TB nekomprimovaných dat) v proměnlivé struktuře. Na S3 kompatibilní uložiště jsme dostali každou hodinu změněné údaje (fieldy) proti poslednímu stavu (formát avro), každý údaj měl svoje sekvenční číslo, aby bylo možné ověřit konzistenci. Schéma bylo zpětně neměnné, pouze přibývaly nová pole, zpětnou projekci struktur jsme zajišťovali sami a nebylo to nijak obtížné.

    Druhý příklad, pro jiného klienta jsme zajišťovali sběr dat z jeho uzlů po celém světě (cca 8PB měsíčně), data chodila v různých velikostech, v různých formátech a různě časově zarovnaná. Opět S3 kompatibiní uložiště, podle přípony a vnitřní struktury souboru jsme detekovali jednoduše jestli už formát známe nebo ne, znémé formáty jsme rovnou zpracovávali, ty neznáme zařazovali do fronty a čekali až odpovědný člověk vytvoří odpovídající job v Talend na zpracování takových dat.

    Při poskytování velkých objemů dat nechceš na straně poskytovatele vynakládat žádný výpočetní výkon na filtrování a zpracování, ideálně chceš pouze vrátit soubor. S3 je také api, jen pracuje na úrovni celých souborů či bloků a ne na úrovní jednotlivých záznamů.

    Vývoj a údržba klasického REST api je náročná, osobně jsem pro co nejmenší bariéru mezi daty a jejich získání, soubory někde na http/ftp mi vyhovují, hlavně ať jsou k dispozici. Pokud bude umožněn jejich mirroring, rád poskytnu pár serverů.

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).