Hlavní navigace

Tady se testují virtuální škodovky. Podívejte se na superpočítač ve Škoda Auto

Karel Wolf

V patrně největším firemním datovém centru v ČR se nalézají dva počítačové clustery, skrývající 1008 výpočetních uzlů a 24 192 procesorových jader a dosahující výkonu 2 petaFLOPS. Uvnitř: FOTOREPORTÁŽ.

Doba čtení: 4 minuty

Sdílet

Jak vypadá nejnovější (jen něco přes měsíc stará) technologická hračka rozsáhlého IT týmu Škoda Auto, jsme se vypravili do Mladé Boleslavi podívat osobně. První věc, která na clusterech zaujme, je, že jejich výkon 2 petaFLOPS se počítá čistě z výkonu CPU.

„Pro úlohy, které u nás počítáme, by nepředstavovala výpomoc v podobě GPU nebo jiné specializované architektury žádný přínos,“ vysvětluje Ing. Jaroslav Červinka z FIE – Systémová integrace Vznik výrobku Škoda Auto.

Vedle samotných HPC clusterů zaujme ale řešení datacentra DC C12 a HPC sálu také například chlazením na bázi vody a glykolu nebo nadstandardním řešením záložního zdroje v podobě čtyř (dvou na každé napájecí straně) dynamických UPS jednotek HitecPowerPRO 2700, které pracují na kinetické bázi a vedle skutečně dlouhých výpadků energie (déle než jednu pracovní směnu) jsou schopné vyrovnávat také všechny výkyvy napětí energetické sítě škodováckého průmyslového areálu.

Dvě jednotky DUPS HitecPowerPRO 2700.
Autor: Karel Wolf

Dvě jednotky DUPS HitecPowerPRO 2700.

Datové centrum v číslech

  • 1700 metrů čtverečních plochy jen pro IT technologie
  • celkem 6 sálů
  • celkový příkon 10 MW (napájení v redundanci N+N již od elektrárny)
  • příkon HPC sálu 3 MW
  • chlazení v redundanci N+1
  • obsazená kapacita 6500 serverů (celková kapacita pro 10 000 serverů v 500 rackových skříních)
  • 210 km rozvedených elektrických kabelů

Galerie: Počítačové clustery Škoda Auto

K čemu Škoda Auto HPC používá

Samotný HPC systém, který je v provozu od posledního říjnového dne, je plně využíván, a to zejména pro výpočty aerodynamických simulací nebo pro vývoj nových bezpečnostních prvků a motorů (například simulace chování aut s elektrickým pohonem při nárazu). Uplatnění ale čím dál častěji nachází také při vizualizacích (CPU rendering aut nebo jejich částí na clusteru). Do budoucna se počítá i s dalšími scénáři využití.

„Co dnes můžeme pozorovat, je dlouhodobý tlak na eliminace prototypů a jejich fyzického testování. Ty je pochopitelně potřeba s každým dalším škrtem nahrazovat mnoha virtuálními modely a metodami, které budou co nejpřesněji odrážet původní fyzické chování (například simulace v oblastech aeroakustiky a aerodynamiky). Podobných testů se přitom v technickém vývoji provádějí desítky až stovky a pro jejich virtualizaci je ideální využít právě cluster,“ uvádí Červinka.

Možnosti ale sahají ještě dále, přes testování produktů ve virtuální realitě až po vývoj technologií v oblasti ochrany chodců nebo učení neuronových sítí. Ve stejném výpočetním centru se mají ukládat také data propojených aut, úložiště nicméně není součástí clusterů a nalézá se v samostatném datovém sálu (na fotografiích jej proto neuvidíte).

Co clustery obsahují

Oba clustery jsou tvořeny HPC systémy od HPE, konkrétně modely HPE SGI 8600. Ty jsou umístěny zrcadlově proti sobě a každý z nich obsahuje 9 rackových skříní. Každý se skládá z jednoho tepelného výměníku mezi chladicím okruhem budovy a clusterem (jednotka CDU), čtyř výpočetních racků (druhý cluster má zatím o jeden výpočetní rack méně), dvou „cooling tower“ racků (rozvaděč chladicí vody mezi dvěma výpočetními racky a zdroj vnitřního chladicího vzduchu pro dva výpočetní racky) a dvěma I/O infrastrukturními racky s vodními dveřmi, které obsahují scratch storage a pre-/post-processing servery.

Clustery v kostce

  • Celkem 1008 výpočetních serverů
  • 2016 procesorů Intel Xeon Gold 6126
  • 24192 procesorových jader
  • 193 536 GiB RAM (8 GiB RAM na jádro)
  • Software: SUSE Linux Enterprise for High-performance Computing

Těch posledně jmenovaných se v obou clusterech nalézá dohromady 14 a slouží k běhu jednojádrových na paměť náročných úloh, které předcházejí (nebo naopak následují) běh paralelního solveru. Každý z nich obsahuje 2 × 8C Intel Xeon CPU 3,5 GHz Gold 6144 a 768 GB RAM (24 × 32 GB) DRR4 2666 MHz.

Clustery obsahují dvojí nezávislou EDR InfiniBand 100Gb/s infrastrukturu výpočetní sítě a následující výpočetní servery: 576 × 2-socket diskless server (respektive 432 × server v případě druhého clusteru). Vždy čtyři servery v blade modulu (celkem 144 bladů rozdělených do 4 racků), případně 108 blade modulů na druhém clusteru. První cluster obsahuje 13 824 jader 1152 × 2,6 GHz 12core Intel Xeon Gold 6126, druhý pak 10 368 jader stejného typu. Co se týče pamětí, nalezneme v prvním clusteru 110 592 GiB (6912 × 16 GiB DIMM DDR4 2666 MHz, ECC buffered, 8 GiB/core) a 82 944 GiB ve druhém clusteru.

Scratch storage serverů se v obou clusterech nalézá celkem sedm. Jejich úloha spočívá v ukládání vstupu a mezivýsledků v průběhu výpočtu, protože samotné výpočetní uzly nemají vlastní disky. Obsahují 21 × 600GB 10K RPM 12Gb SAS HDD pro data zapojené v RAID5 + 1 × hot spare.

Jak je řešeno chlazení

O chlazení HPC se stará primárně adiabatický chladič LuVe s kombinovaným ostřikem lamel (detail na fotografii), které mají zajistit, aby po většinu času (včetně letních veder) nebylo zapotřebí zapínat dodatečné strojní chlazení.

Teplotní spád tvoří 32/38 °C. Paralelně je také instalovaný i zdroj chladu s integrovaným volným chlazením se šroubovými kompresory pro chlazení nemrznoucí směsi o výstupní teplotě 32 °C, dvojice chladičů má dohromady 1 MW chladicího výkonu.

NMI20-tip-obecny-temata1

V současnosti plní druhý chladič funkci redundance chlazení pro případ výpadku vody pro ostřik, po rozšíření clusteru redundance zmizí, neboť výkon obou systémů dohromady přesně pokryje potřeby HPC clusteru.

„Chlazení pro HPC redundanci na chlazení nemá na rozdíl od ostatních datových sálů v DC C12, není totiž striktně vzato potřeba,“ vysvětluje Zdeněk Král z FIO/3 – Provoz IT Facilities ve Škoda Auto. Do budoucna Škoda počítá také s praktickým využitím odpadního tepla, které vzniká během vodního chlazení.

Zajímavosti:

  • objem nemrznoucí směsi: 15 m3, z toho 5 m3 v okruhu HPC (pouze první okruh, v konečném stavu bude v okruhu HPC 3 × 5 m3)
  • délky potrubí do DN200 v HPC okruhu: 0,5 km v první fázi (v konečné fázi má být až 2,2 km)