MetaCentrum: grid s největší výpočetní kapacitou u nás

Gridový projekt MetaCentrum, na němž spolupracují specialisté několika českých a moravských univerzit a CESNETu, se dnes může pochlubit skutečně úctyhodnými výpočetními a úložnými kapacitami: celkem 994 jádry CPU a pamětí o objemu téměř půl petabytu dat. To umožňuje např. výzkum na podporu vývoje nových léků.

Nedávno jsem narazila na informace o nejvýkonnějším počítači v České republice v Ústavu fyziky atmosféry AV ČR s půvabným jménem Amálka, který se chlubí značnou výpočetní kapacitou sloužící pro výzkumné účely, mezi jiným i pro kosmický výzkum. Protože se mi nedostávalo srovnání, jak si superpočítač páté generace Amálka stojí v domácí/světové konkurenci, rozhodla jsem se trochu zapátrat. A ukázalo se, že zdatného konkurenta má takřka za humny, a ten ji dokonce v mnohém předčí. Sice na něj nevolají tak příjemně znějícím jménem, ale jeho ostatní kvality jistě nikoho neodradí…

Projekt MetaCentrum probíhající pod záštitou sdružení CESNET poskytuje podmínky pro rozvoj všech vědních disciplín a stará se o provoz a další rozvoj základu národní gridové infrastruktury. Současně vytváří nezbytné zázemí pro napojení České republiky do mezinárodních gridově orientovaných aktivit. Projekt zahájil v Brně před 12 lety a zaměřuje se na vývoj infrastruktury gridu v oblastech ukládání a přenosu objemných dat, bezpečnosti dat a přístupu k nim (na bázi single sign-on) a také v oblasti budování prostředí pro spolupráci (využívající sdílený diskový prostor). Podporuje také vývoj a používání paralelních a distribuovaných programů a paralelizovaného programového vybavení.

Na rozvoji MetaCentra se samozřejmě podílí hned několik univerzit, jak se na gridové výpočetní prostředí sluší. Kapacity a možnosti tohoto gridu jsou k dispozici mnoha výzkumným projektům, z těch aktuálních stojí za zmínku, že MetaCentrum také pomáhá chemikům nacházet nové léky a materiály.

Technické vybavení

MetaCentrum se dnes může chlubit celkem 994 jádry CPU v 335 strojích, což je zřejmě největší výpočetní objem v naší zemi (výše zmiňovaná Amálka má podle nedávné zprávy v médiích “pouhých“ 360 CPU). Maximálně se využívají prostředky spolupracujících institucí – MetaCentrum, jak jeho strohý, ale výstižný název napovídá, je distribuované na několika místech republiky – a nevylučuje se ani zapojení dalších zájemců s výpočetními kapacitami.

Technické vybavení je tvořeno především klastry výpočetních strojů vybavených od dvouprocesorových Pentium III po šestnáctijaderné Opterony s 64 GB paměti, úložnou kapacitou 60 TB diskového pole a dalších desítek TB v menších polích a zálohovacím zařízením, nabízejícím 400 TB zálohovací kapacity na páskách.

Výpočetní i datové prostředky MetaCentra jsou rozmístěny ve čtyřech lokalitách (MetaCentrum k výpočetním prostředkům vloženým sdruženými univerzitami přidává i další prostředky, jejichž vlastníkem je CESNET):

  • CESNET v Praze – klastr s kapacitami využívanými primárně v rámci mezinárodní spolupráce s projektem EGEE (Enabling Grids for E-sciencE);
  • Ústav výpočetní techniky Univerzity Karlovy v Praze – výpočetní a diskové kapacity UK a související diskové kapacity (na ÚVT UK není umístěn žádný z vlastních klastrů MetaCentra);
  • Západočeské superpočítačové centrum na Západočeské univerzitě v Plzni (ZČU) – vlastní klastr MetaCentra a klastr patřící ZČU spravovaný provozní skupinou MetaCentra, dále pásková knihovna s kapacitou 200 TB (terabyte = 1012 B) nekomprimovaných dat;
  • ÚVT Masarykovy Univerzity v Brně – výpočetní systémy a klastry jak MetaCentra, tak v majetku MU (ve správě MetaCentra), diskové pole o 60 TB a další disková pole s kapacitou v řádu desítek TB, pásková knihovna s kapacitou 200 TB nekomprimovaných online dat (dvojče knihovny umístěné na ZČU).

Provoz vlastního MetaCentra spolupracuje s provozními skupinami jednotlivých uzlů propojených 10 Gbit/s páteřní sítí CESNET2 (v gesci sdružení CESNET) určenou pro výzkum a vzdělávání, a garantuje tak plnohodnotné transparentní propojení lokálních a centrálně spravovaných výpočetních i úložných kapacit.

Rychlý vývoj

MetaCentrum se samozřejmě neustále vyvíjí k lepšímu, takže jen za poslední rok se rozrostlo zejména o pět počítačů s konfigurací 16 CPU (8× dual Opteron) a 64 GB paměti, patřící mezi špičková zařízení z hlediska výpočetních možností. Kromě toho přibylo vloni také 35 nových strojů v konfiguraci se 4 CPU (2× dual Intel Xeon 5160 „Woodcrest“) a 3,5 GB paměti, což byly v době nákupu nejrychlejší CPU dostupné na trhu. A vedle toho centrum ještě instalovalo dalších 54 nových zařízení (klastry konos, loslab, orca a perian).

MetaCentru se také nevyhnula virtualizace, kterou využívá účelně jako odezvu na konkrétní požadavky uživatelů: na jednom fyzickém stroji lze pro uživatele vytvořit více virtuálních strojů nainstalovaných přesně na míru. Úložná kapacita se za minulý rok rozrostla o nové diskové pole s kapacitou 60 TB, protože MetaCentrum poskytuje uživatelům rozsáhlé diskové kapacity, zpravidla realizované pomocí polí RAID (Redundant Array of Independent Disks) připojených přímo k jednotlivým klastrům resp. jejich primárním uzlům (head-node).

Dvě páskové knihovny dodávají systému úložnou kapacitu o objemu 400 TB. Pro experimenty vysokorychlostního přenosu mezi páskovými knihovnami se využívá akcelerované zpracování toků TCP (Transmission Control Protocol) přes rozhraní 10GE (Gigabit Ethernet). Celkový úložný prostor disků i pásek již překračuje úctyhodný půl PB (petabyte = 1015 B) dat.

Domácí i mezinárodní výzkum

Z mnoha projektů, kterých se MetaCentrum přímo nebo prostřednictvím univerzitních partnerů aktivně účastní, rozhodně stojí za zmínku MediGrid (pro distribuované zpracování datových a výpočetních úloh ve zdravotnictví), dokončené projekty DiDaS a PADS (distribuovaná datová úložiště), z evropských projektů je třeba jmenovat GRIDLAB (A Grid Application Toolkit and Testbed).

Další důležitou mezinárodní aktivitou je účast Masarykovy univerzity, partnera MetaCentra, v tzv. projektu sítě excelence (NoE, Network of Excellence) CoreGRID spolufinancovaném z fondů EU a sdružujícím výzkumníky z 42 institucí, s cílem posílení a rozvinutí vědecké a technologické kvality oblasti gridů a peer-to-peer technologií. Projekt je zaměřen na výzkum šesti výzkumných oblastí vybraných na základě jejich strategické důležitosti a vědecké významnosti v celoevropském měřítku pro rozvoj další generace middleware. Mezi těmito oblastmi najdeme mj. gridové informační a monitorovací služby či správu zdrojů a plánování.

Ale nejdůležitějším projektem, do něhož je MetaCentrum zapojeno, je projekt EGEE II, již druhá fáze budování rozsáhlé gridové infrastruktury, pokrývající nejen Evropskou unii (projekt je částečně hrazen z unijních prostředků), ale s ambicí celosvětového propojení gridů. EGEE grid je tvořen z klastrů počítačů s operačním systémem Linux propojených s rozsáhlými datovými sklady. Předpokládaná agregovaná kapacita gridu dosáhne řádu desítek biliard bytů (tj. desítek PB). Projekt sdružuje národní, regionální i aplikačně orientované gridové aktivity, které poskytují vlastní technické i programové vybavení a lidskou kapacitu pro správu klastrů. Prostřednictvím MetaCentra je do projektu EGEE zapojeno z ČR celkem 489 jader. Převážnou většinu této kapacity tvoří příspěvek Fyzikálního ústavu AV ČR, který svou farmou goliáš poskytuje dalších 409 jader ve 282 procesorech.

CIF16

Superpočítače a gridy

Projekt MetaCentrum podporuje rozvoj národní gridové infrastruktury České republiky, je garantem zapojení republiky do mezinárodních gridových infrastruktur, ale především představuje nezbytný předpoklad pro realizaci zajímavých a důležitých výzkumných úkolů. Projekt a jeho aktivity zůstávaly poněkud ve stínu mediálně zvučnějších superpočítačů, doufejme ale, že tento článek přispěje k objektivnějšímu pohledu na oblast podpory náročných výpočtů. Objektivní konkurence v této oblasti bude příspěvkem pro konstruktivní výzkum, protože i doma máme systémy, kterými se můžeme chlubit.

Rovněž zřejmě opětovně (a oprávněně) vyvstanou otazníky nad jinak běžně používanými (a často zaměňovanými) pojmy jako superpočítač, klastr, distribuované výpočetní prostředí a grid. O tom se píší nejen články, ale celé knihy a přou se mnozí odborníci, takže nebudeme ani první ani poslední (pro začátek viz článek Grid computing ve firemním prostředí).

Anketa

Zajímá vás výzkum podporovaný MetaCentrem a jeho technické zázemí?

38 názorů Vstoupit do diskuse
poslední názor přidán 22. 3. 2008 1:09

Školení Google Analytics

  •  
    Jak vyhodnocovat úspěšnost reklamních kampaní.
  • Jak ovládat Google Analytics a najít co potřebuji.
  • Jak měřit hodnotu objednávek z webu.

Detailní informace o školení Google Analytics »