Hlavní navigace

Jak CZ.NIC migroval Hadoop a podpůrné nástroje z jedné distribuce na druhou

Sdílet

Jan Sedlák 8. 9. 2021

CZ.NIC provedl migraci instalace Hadoopu a několika podpůrných nástrojů. Doposud využíval zdarma dostupnou nabídku Cloudera Express, kterou převedl na Apache Bigtop.

Sestava sedmi až osmi serverů se převážně používá k ukládání provozu z autoritativních DNS serverů pro doménu .CZ a provozu z veřejných resolverů ODVR.

Správce české domény se na blogu rozepsal, jak migrace probíhala nebo co za výběrem konkrétní distribuce Hadoopu stálo. V češtině je k dispozici základní verze, podrobnější popis je k přečtení v angličtině.

Našli jste v článku chybu?
  • Aktualita je stará, nové názory již nelze přidávat.
  • 8. 9. 2021 15:14

    ...

    pěkné povídání, na jednom projektu jsme stáli před podobným problémem a skončili jsme také podobně, BigTop artefakty, vlastní generování konfigurací, ansible atd.

    Dospěli jsme ale k několika rozdílům:
    - Apache Impalu jsme používali k generování reportů, Presto a ani jeho klony nedokázaly využít efektivitu partition pruning a jiných optimalizací, nakonec data částečně klonujeme do ClickHouse, kde běží reporty, na ad-hoc dotazy necháváme livy, spark sql/hive sql
    - ponechali jsme spark, ale povýšili ho na poslední verzi, stejně tak se hodilo zvýšit verze hadoop komponent s vyřešit tím dlouhodé neduhy
    - líbil se nám styl Cloudera Manageru a jeho agentů - vygenerovat dopředu celou konfiguraci pro službu a tu spouštět, dobře se to ladí, dobře se to předává jakémukoliv správci procesů, nakonec to děláme stejně jen místo supervisord jsme zvolil Hashicorp Nomad, prakticky to je ale jedno co se zvolí
    - Mit kerberos se osvědčil, ale po vzoru CDH 7 jsme přidali Apache Knox a Atlas na jednotnou GW a datový katalog
    - Monitoring jsme rozdělili na realtime a dlouhodobý (stejně Cloudera Manager neuměl uchovávat dlouhou historií grafů), realtime máme nad Netdatou s obohacenými metrikami kolem hadoop služeb, dlouhodobé nad VictoriaMetrics, Grafana (ale i PowerBI) k zobrazování. Zatím jsme nevyřešili reporting využití podle jednotlivých uživatelů, resource skupin, ale to stejně nebylo v Express, ale až v Enterprise verzi