Český hydrometeorologický ústav (ČHMÚ) si pořídil nový superpočítač. Jako ty předchozí pochází od japonské společnosti NEC. Nový stroj, který vyšel na 72,6 milionu korun (59,9 milionu bez DPH), má jméno SX-Aurora TSUBASA a bude se používat na předpovídání dlouhodobého vývoje počasí.
Aurora je oproti tradičním superpočítačům, jaké můžete vidět třeba v národním superpočítačovém centru IT4Innovations v Ostravě, postavená na vektorech. HPC má 3072 vektorových jader a 1152 klasických procesorových jader.
Vedoucí oddělení numerických předpovědí počasí v ČHMÚ Radmila Brožková v rozhovoru pro Lupu popisuje, v čem jsou vektory užitečné, k čemu se superpočítač bude využívat nebo jeho rozdíl oproti superpočítačům (HPC) s architekturou x86 a grafickými kartami (GPU).
Jaký superpočítač jste používali před nákupem nového? A jaká je strategie a cyklus obměny?
Nyní máme dva výpočetní klastry. Starší z nich byl v cílové konfiguraci zprovozněn v květnu 2018 a je plně využíván pro provozní numerickou předpověď počasí. Jedná se o klasickou architekturu x86 se 320 výpočetními uzly s procesory Intel Broadwell, celkem se 7680 jádry. Systém je vybaven vysokorychlostním úložištěm o užitné kapacitě 1 PB.
Nově pořízený superpočítač posiluje naši výpočetní kapacitu pro regionální modelování klimatu ve vysokém rozlišení. Zároveň bude sloužit jako záloha pro operativní výpočty. Takže vlastně budeme využívat nadále oba superpočítače.
Standardní cyklus obměny u výpočetní techniky je pět až šest let. Rádi bychom tento cyklus dodrželi, protože provoz zastarávajícího zařízení zvedá provozní náklady na podporu. Se stářím se přirozeně zvyšuje poruchovost komponent a po určité době by nastal i problém s dostupností náhradních dílů.
Dlouhodobě volíte značku NEC. Má to nějaké specifické důvody?
Je pravda, že superpočítače od japonského výrobce používáme dlouhodobě, nicméně na jednom výrobci nejsme závislí. Každé pořízení nového přístroje je předmětem otevřeného tendru, kdy pravidelně dostáváme více nabídek. Součástí tendru jsou výkonnostní testy meteorologické předpovědní úlohy, která ovšem dovede profitovat z vektorové architektury. Teď při poslední soutěži nabídka NEC, založená na nové vektorové technologii, výrazně předčila naše očekávání. V poměru cena/výkon a spotřeba energie/výkon neměla konkurenci.
Co ČHMÚ od superpočítače potřebuje a jak se liší od tradičních HPC, které používají kombinace x86 a GPU karet?
Potřebujeme efektivně počítat numerický předpovědní model ALADIN, který je naší hlavní HPC aplikací. Provozní předpověď je časově kritickou úlohou. Další výkon potřebujeme na vývoj nových verzí modelu a teď nově i na regionální modelování klimatu, kde se využije uzpůsobená verze modelu ALADIN.
Slovem tradiční bych spíše označila architekturu x86 jako takovou. Když se podíváme třeba na velké akademické instalace v posledních letech v ČR, běžně je část systému neosazená GPU kartami, protože je stále dost úloh, které pro ně nejsou vhodné. V našem případě, abychom alespoň nějak efektivně využili GPU karty, tak bychom museli masivně přepsat kód, podle odhadů až 95 procent. Jenže ALADIN, který vyvíjíme v rámci konsorcia šestadvaceti zemí, má více než dva miliony řádků zdrojového kódu. Byla by to ohromná investice s nejistým výsledkem. Uvidíme, kam se v příštích letech technologie posunou.
Aurora používá vektory. V čem jsou pro vás vektory důležité?
Vektorové procesory jdou ke zvýšení výkonu oproti tradiční x86 architektuře jinou cestou než GPU: zatímco grafické karty mají tisíce výpočetních jader, vektorové procesory mají jader méně, v našem případě osm, ale jsou schopné provádět během jedné instrukce matematickou operaci ne jednou, ale mnohokrát na celém řetězci (vektoru) dat. Pro výpočty, které tohle využijí, jako je typicky mechanika tekutin, ale i meteorologická úloha, to znamená značné zvýšení efektivity.
Aurora je nová technologie, která kombinuje architekturu x86 s vektorovými kartami, takzvané vector engines. Zjednodušeně řečeno je to alternativa ke kombinaci x86 s GPU. Na rozdíl od GPU, kde je potřeba častý přenos dat mezi GPU a procesorem, probíhá celý výpočet na vektorové kartě.
Náš superpočítač tvoří 48 výpočetních serverů, každý s jedním x86 procesorem, osmi vektorovými kartami a 2 × 200Gb/s propojením s ostatními. Celkem tedy máme 3072 vektorových jader a 1152 klasických procesorových jader. Klastr je dále vybaven servisními uzly a vysokorychlostním úložištěm o kapacitě dva PB.
Jakého dosahujete reálného, nikoliv teoretického výkonu (single i double precision)?
Model počítáme ve dvojité přesnosti. Reálný výkon nevyjadřujeme pomocí počtů operací v plovoucí čárce. Z praktických důvodů jej měříme časem, který je potřeba pro uskutečnění dané délky předpovědi, a také kolik takto rychle spočtených předpovědí může být realizováno současně. Sestavujeme tak kombinovaný výkonnostní faktor. Ve srovnání s naším starším strojem jsme dosáhli zvýšení tohoto faktoru o 3,2, a to při nižší spotřebě elektřiny.
Jaká je vytíženost superpočítače?
Nový superpočítač jsme převzali na samém konci roku 2020. Nyní na něm instalujeme poslední verzi modelu, validujeme všechny jeho konfigurace. Kromě toho instalujeme a validujeme množství dalších pomocných knihoven a nástrojů. Počítáme, že v příštích týdnech zahájíme provozní testy pro zajištění operativní zálohy a zároveň rozběhneme intenzivní výpočty regionálního klimatu.
Jaké se používají programovací jazyky a sada aplikaci?
Hlavní HPC aplikací je model ALADIN, který je psán převážně v jazyce FORTRAN. Část technického kódu je v jazyce C. Kromě modelu používáme celou řadu knihoven a nástrojů, které slouží pro přípravu dat pro model nebo pro zpracování a vyhodnocení výsledků. Část z nich je specifická kvůli práci s daty ve formátu, který používá model. Většina jsou ale standardní nástroje a balíčky běžící v prostředí operačního systému Linux.
Jaké používáte datové formáty?
Model má svůj vlastní proprietární datový formát. Jinak strojově čitelné výsledky pro uživatele jsou převáděny do formátu GRIB, který je v meteorologii standardem.
Aurora má pomoci předvídat dlouhodobý vývoj počasí. Jaká se používají vstupní data, statistické modely, algoritmy, predikční modely a podobně?
Primárním úkolem je regionální modelování klimatu. Od klasické předpovědi počasí se podstatně liší tím, že nejde o problém znalosti počáteční podmínky a nejde o to, jaké konkrétní počasí bude zítra nebo nějaký den v budoucnu. Tady jde o získání režimových charakteristik chování atmosféry. Potřebujeme modelovat, jak četné nebo intenzivní bude sucho, jaká bude extremita počasí a tak dále. Vstupem jsou současné klimatické podmínky a potom kromě scénářů budoucích koncentrací skleníkových plynů budeme uvažovat i možné změny fyziografických podmínek, jako je míra zalesnění a tak. Je to všechno součástí projektu PERUN, který ČHMÚ řeší spolu s dalšími institucemi a kvůli němuž jsme Auroru pořídili.
Jaká je při podobných výpočtech úspěšnost predikce?
V současné době již můžeme hodnotit predikce klimatu, které byly počítány v minulosti, a v podstatě můžeme říci, že se tyto predikce naplňují. Důležité je zmínit, že se klimatické projekce připravují ve více verzích a jejich součástí je možná pravděpodobnost budoucího výskytu projektovaných podmínek v daném scénáři. Pokud tedy říkáme, že se naplňují minulé predikce, tak se jedná o ty, které byly označovány jako pravděpodobné, nebo chcete-li jako průměrné. Příliš optimistické nebo naopak příliš pesimistické predikce se naštěstí nenaplňují.
Jak se s výsledky vašich simulaci posléze v praxi pracuje?
Součástí odpovědi je náplň projektu PERUN. Jde o to, jak měnící se klima ovlivní různé další sektory, jak se budou měnit například hydrologická bilance, jaké dopady měnícího se klimatu budeme pozorovat v krajině, v lesích a podobně. Ve finále jde o přípravu vhodných adaptačních opatření, pro kterou modelování poskytne podklady.
Používáte i externí superpočítače, například na IT4Innovations? Případně na jaké účely?
Externí superpočítače nepoužíváme, i když jsme uvažovali i o takové variantě. Z praktických důvodů, ale též finančních a bezpečnostních by to nebylo výhodné.