Hlavní navigace

Fotoreportáž: Jak vypadá jedno z největších datových úložišť v Česku

29. 8. 2019
Doba čtení: 2 minuty

Sdílet

 Autor: Karel Wolf
Koncem minulého roku začalo vznikat na objednávku sdružení CESNET datové úložiště s hrubou kapacitou 12,6 petabytů, což by z něj v případě, že by šlo o čistou kapacitu, dělalo pravděpodobně největší úložiště u nás.

Nutno přiznat, že po očištění o kapacitu, kterou spolkne RAID (úložiště využívá DRAID 6, v každém se nalézá 60 disků) a hot-spare, se celková velikost úložiště zmenší na 9,36 PB čistě diskové kapacity, i tak jde ale o úctyhodné číslo, které nemá v ČR příliš konkurenci.

Úložiště si v druhé polovině loňského roku objednalo sdružení CESNET a po svém dokončení se stalo nedílnou součástí národní e-infrastruktury datových úložišť pro vědu a výzkum. Nachází se v malém datovém sálu technologického centra Kraje Vysočina, které naleznete kousek od centra města Jihlavy a je napojené přímo do WAN prostředí CESNETu.

Sloužit by mělo především akademickým pracovníkům a studentům českých výzkumných institucí pro sdílení dat a speciální aplikace, ale i k zálohování a archivaci akademických dat. Na technologiích IBM a Cisco jej postavila česká společnost DATERA a jde zatím o největší IBM diskové úložiště v České republice.

Podívejte se, jak datové úložiště CESNETu vypadá:

Fyzicky je úložiště menší, než byste možná čekali, zahrnuje malý datový sál a samotné úložiště bez síťové podpory a klimatizace se vejde do tří racků. Aby se podařilo do tak malého prostoru potřebnou kapacitu vůbec vtěsnat, musel dodavatel sáhnout po poměrně unikátních diskových expanzích s vysokou hustotou umístěných disků.

BOX: Úložiště v kostce

  • Hrubá kapacita: 12,6 PB
  • Čistá kapacita pro ukládání dat 9,36 PB
  • Zapisovací výkon: více jak 8 GB/s
  • Čtecí výkon: více jak 11 GB/s

Jádro úložiště využívá proprietární technologii IBM – IBM Spectrum Scale s vysoce dostupnými souborovými službami označovanými jako Cluster Export Services (CES) umožňujícími přístup k datům pomocí síťových protokolů, případně pomocí objektového přístupu. Zcela konkrétně systém pro interní potřebu využívá hlavně souborový systém General ParallelFileSystem (IBM GPFS), který umožňuje přístup k datům rychlostí přes 10 GB/s a škálovatelnost v řádu miliard souborů.

Když se ponoříme o úroveň hlouběji, tedy k hardwarové vrstvě, zjistíme, že úložné kapacity poskytuje kombinace velkokapacitních točivých „Near-Line“ disků, na která jsou ukládána samotná data SSD disků pro ukládání metadat systému souborů pro radikální zvýšení výkonu. Obojí je momentálně postaveno na IBM Storwize V7000 druhé generace – jde celkem o 3 disková pole. Koncept úložiště je nicméně postavený tak, aby CESNETu umožnil v případě potřeby rozšíření nebo doplnění stávajících diskových polí nezávisle na výrobci disků.

ebf - tip do článku - debata

Technologický oříšek

V situaci, kdy je potřeba zálohovat petabyty dat a počty souborů mohou jít do miliard, se stává z obyčejné denní zálohy zajímavá inženýrská výzva. Tu úložiště umožňuje řešit pomocí IBM Spectrum Scale, interních GPFS žurnálů a umístění metadat na Enterprise SSD disky umožňující vysoký počet možných přepisů za den. Pro snížení doby nutné k obnově paritní ochrany využívá úložiště také technologie distribuovaných RAID polí.

Pokud jde o samotnou běžnou dostupnost, každý host přistupuje na diskové pole čtyřmi cestami. Každý host tak „vidí“ volume čtyřmi redundantními cestami, což by mělo garantovat přístup k datům v případě výpadku jedné z komponent FC SAN sítě (HBA, kabel, řadič diskového pole, switch) či v případě upgradu firmware diskového pole.

Autor článku

Externí spolupracovník serveru Lupa.cz a expert na blockchain a kryptoměny. Jako šéfredaktor v minulosti vedl ADASTRA Business Intelligence Magazine a server ITbiz.cz. Dnes pracuje jako redaktor časopisu Forbes.

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).