Nutno přiznat, že po očištění o kapacitu, kterou spolkne RAID (úložiště využívá DRAID 6, v každém se nalézá 60 disků) a hot-spare, se celková velikost úložiště zmenší na 9,36 PB čistě diskové kapacity, i tak jde ale o úctyhodné číslo, které nemá v ČR příliš konkurenci.
Úložiště si v druhé polovině loňského roku objednalo sdružení CESNET a po svém dokončení se stalo nedílnou součástí národní e-infrastruktury datových úložišť pro vědu a výzkum. Nachází se v malém datovém sálu technologického centra Kraje Vysočina, které naleznete kousek od centra města Jihlavy a je napojené přímo do WAN prostředí CESNETu.
Sloužit by mělo především akademickým pracovníkům a studentům českých výzkumných institucí pro sdílení dat a speciální aplikace, ale i k zálohování a archivaci akademických dat. Na technologiích IBM a Cisco jej postavila česká společnost DATERA a jde zatím o největší IBM diskové úložiště v České republice.
Podívejte se, jak datové úložiště CESNETu vypadá:
Fyzicky je úložiště menší, než byste možná čekali, zahrnuje malý datový sál a samotné úložiště bez síťové podpory a klimatizace se vejde do tří racků. Aby se podařilo do tak malého prostoru potřebnou kapacitu vůbec vtěsnat, musel dodavatel sáhnout po poměrně unikátních diskových expanzích s vysokou hustotou umístěných disků.
BOX: Úložiště v kostce
- Hrubá kapacita: 12,6 PB
- Čistá kapacita pro ukládání dat 9,36 PB
- Zapisovací výkon: více jak 8 GB/s
- Čtecí výkon: více jak 11 GB/s
Jádro úložiště využívá proprietární technologii IBM – IBM Spectrum Scale s vysoce dostupnými souborovými službami označovanými jako Cluster Export Services (CES) umožňujícími přístup k datům pomocí síťových protokolů, případně pomocí objektového přístupu. Zcela konkrétně systém pro interní potřebu využívá hlavně souborový systém General ParallelFileSystem (IBM GPFS), který umožňuje přístup k datům rychlostí přes 10 GB/s a škálovatelnost v řádu miliard souborů.
Když se ponoříme o úroveň hlouběji, tedy k hardwarové vrstvě, zjistíme, že úložné kapacity poskytuje kombinace velkokapacitních točivých „Near-Line“ disků, na která jsou ukládána samotná data SSD disků pro ukládání metadat systému souborů pro radikální zvýšení výkonu. Obojí je momentálně postaveno na IBM Storwize V7000 druhé generace – jde celkem o 3 disková pole. Koncept úložiště je nicméně postavený tak, aby CESNETu umožnil v případě potřeby rozšíření nebo doplnění stávajících diskových polí nezávisle na výrobci disků.
Technologický oříšek
V situaci, kdy je potřeba zálohovat petabyty dat a počty souborů mohou jít do miliard, se stává z obyčejné denní zálohy zajímavá inženýrská výzva. Tu úložiště umožňuje řešit pomocí IBM Spectrum Scale, interních GPFS žurnálů a umístění metadat na Enterprise SSD disky umožňující vysoký počet možných přepisů za den. Pro snížení doby nutné k obnově paritní ochrany využívá úložiště také technologie distribuovaných RAID polí.
Pokud jde o samotnou běžnou dostupnost, každý host přistupuje na diskové pole čtyřmi cestami. Každý host tak „vidí“ volume čtyřmi redundantními cestami, což by mělo garantovat přístup k datům v případě výpadku jedné z komponent FC SAN sítě (HBA, kabel, řadič diskového pole, switch) či v případě upgradu firmware diskového pole.