Hlavní navigace

DATAGRID

26. 4. 2001
Doba čtení: 6 minut

Sdílet

Projekt DATAGRID je v současné době největším evropským projektem, který se zabývá problematikou GRIDu a který financuje Evropská unie. Jeho primární motivací je zajistit prostředí pro ukládání, manipulaci a další zpracování dat, která bude nejpozději od roku 2005 produkovat Light Hadron Collider (LHC), budovaný v současné době v CERNu.

Experimenty, které fyzici prakticky z celého světa připravují pro toto unikátní zařízení, budou produkovat prakticky trvalý proud údajů z nejrůznějších čidel v rozsahu 200–1 000 GB každou hodinu (cca 2–10 Petabyte ročně). Vzhledem k tomu, že se bude často jednat o jedinečná měření, je zcela nezbytné výsledky spolehlivě uložit a následně zpřístupnit nejprve oprávněným a následně všem zainteresovaným skupinám fyziků k dalšímu zpracování.

Cílem projektu DATAGRID je proto nalézt metody a postupy, jimiž bude možno s takovými objemy dat pracovat, a tyto metody následně implementovat a zprovoznit tak, aby byly k dispozici ještě před vlastním zahájením experimentů na LHC.

Uvědomíme-li si, že komunita fyziků spolupracujících s CERNem čítá několik tisíc lidí rozptýlených nejen po Evropě, ale i po dalších kontinentech (zejména Amerika – USA a Asie – Japonsko), je zřejmé, že běžné metody práce a využití informačních technologií nebudou dostatečné pro zajištění rychlého, bezproblémového a přitom de facto „masového“ přístupu k výsledkům fyzikálních experimentů.

Komisariát Evropské unie při předběžných rozhovorech o tomto projektu (v průběhu roku 2000) požádal, aby byl projekt rozšířen i o další aplikační oblasti tak, aby bylo možno při řešení prokázat, že vyvíjené technologie mají možné širší využití. Kromě fyziky vysokých energií jsou tedy součástí projektu i aplikace z oblasti dálkového sledování země (Earth Observation) a bioinformatické aplikace (např. analýza lidského genomu). Všem těmto oblastem je společný obrovský objem dat, s nimiž je nutno manipulovat – výsledky fyzikálních experimentů, trvale proudící data z družic, genomické sekvence – a rozsáhlá a geograficky rozptýlená komunita lidí, kteří s těmito daty pracují.

Rozvíjející se technologie GRIDů, která by měla potřebné nástroje poskytnout, není zatím příliš „zralá“ a většina produktů (vznikajících jako součást výzkumných aktivit především v USA) zatím nikdy nebyla testována na takto rozsáhlém souboru dat a uživatelů. Projekt Datagrid proto na jedné straně počítá s využitím existujících nástrojů a prostředků, na straně druhé počítá jak s jejich dalším rozvojem, tak i s vývojem vlastních systémů tak, aby bylo vytvořeno stabilní prostředí, které budou moci použít všichni zájemci (primárně samozřejmě z řad odborníků zabývajících se některou ze zahrnutých aplikačních oblastí).

Hlavním kontraktorem projektu Datagrid je CERN, základními kontraktory (Principal Contractors v řeči projektů Evropské unie) jsou dále CNRS (Francie), ESA-ESRIN (European Space Agency, Francie), INFN (Itálie), NIKHEF (Holandsko) a PPARC (Velká Británie), tedy vesměs národní agentury zabývající se výzkumem obecně (např. CNRS) nebo přímo výzkumem v oblasti fyziky (např. INFN či NIKHEF). Kromě této pětice hlavních kontraktorů se pak na řešení projektu podílí 17 přidružených kontraktorů (Associated Contractors), mezi nimiž jsou pouze dva reprezentanti zemí střední a východní Evropy: maďarský ústav SZTAKI a český CESNET (v obou případech se kontraktoři zabývají výzkumem v oblasti informatiky, nikoliv fyziky vysokých energií nebo jinými aplikacemi).

Projekt byl oficiálně zahájen 1. ledna 2001 a je plánován na tři roky, tj. do 31. 12. 2003. Celkově projekt počítá s kapacitou cca 105 lidí na plný úvazek ročně (celkem 3 780 člověkoměsíců) a celkové náklady jsou vyčísleny na 13,384 milionů Euro, z toho příspěvek EU bude činit 9,789 milionů Euro. Projekt je členěn do následujících dvanácti pracovních skupin:

  1. Plánování a správa úloh (Workload Scheduling and Management)
  2. Správa dat (Data Management)
  3. Monitorovací služby (Monitoring Services)
  4. Správa zdrojů (Fabric Management)
  5. Správa databází a datových zdrojů (Mass Storage Management)
  6. Testovací prostředí (Integration Testbed)
  7. Síťové služby (Network Services)
  8. Fyzika vysokých energií (High Energy Physics Applications)
  9. Dálkové sledování země (Earth Observation Science Application)
  10. Bioinformatika (Biology Science Applications)
  11. Sdílení a využití výsledků (Information Dissemination and Exploitation)
  12. Řízení projektu (Project Management)

V současné době se intenzivně jedná o vytvoření 13. pracovní skupiny, která by odpovídala za bezpečnost v rámci Datagridu.

Zajímavá je snad i informace o řízení projektu, které zajišťují následující skupiny:

  1. Řídící skupina, kterou tvoří zástupci všech pěti hlavních kontraktačních partnerů plus hlavní řešitel, kterým je dr. Fabrizio Gagliardi z CERNu. Tato skupina odpovídá za celý projekt, rozhoduje především politické záležitosti a řeší mimo jiné případné spory mezi jednotlivými kontraktory.
  2. Technická skupina, tvořená zástupci všech pracovních skupin (většinou dva zástupci), hlavním řešitelem celého projektu a vedoucím technické skupiny (tím je v současné době Les Robertson). Tato skupina odpovídá za technické otázky, má zajišťovat přenos informací mezi jednotlivými pracovními skupinami a rozhoduje v technických věcech tam, kde se nepodaří najít shodu prostou dohodou mezi zástupci pracovních skupin.
  3. Skupina architektury Datagridu (Architecture Task Force), tvořená především zástupci pracovních skupin 1–5 (po jednom zástupci) plus další 3 lidé (techničtí konzultanti a vedení projektu). Tato skupina odpovídá za koncepci architektury celého Datagridu, tj. snaží se nalézt konzistentní propojení mezi požadavky aplikací a představami a možnostmi „výkonných“ pracovních skupin (tedy skupin 1–5). Má hlavní odpovědnost za to, že v rámci projektu vznikne skutečně použitelná infrastruktura, nikoliv pouze „slepenec“ dílčích řešení a nápadů neprovázaných dostatečně konkrétními společnými specifikacemi.

Plán projektu na rok 2001 předpokládá, že první využitelné GRIDové prostředí vznikne do konce měsíce září. To bude postaveno primárně na již existujících nástrojích, především pak na systému Globus (tzv. Globus Toolkit) – důvodem je relativně krátká doba od zahájení projektu do termínu prvního Datagridu, která neumožňuje vývoj principiálně nových nástrojů (ty by se měly stát součástí nových verzí, plánovaných na 18. a 24. měsíc projektu).

Pro programátory (ale snad i další) mohou být zajímavá některá rozhodnutí o konkrétních technologiích:

  • Programová rozhraní (API) musí být dostupná pro jazyky Java a C s dostupností ze skriptovacích jazyků Perl a Python prostřednictvím swig.
  • Projekt doporučuje použití CASE nástroje Together pro tvorbu dokumentů.
  • Veškeré finální dokumenty musí být dostupné v PostScriptu nebo ve formátu PDF (Adobe, Portable Data Format); interní výměna dokumentů je samozřejmě možná pomocí jakýchkoliv nástrojů a editorů.
  • Cílová platforma je architektura IA32 (tj. současné intelovské procesory) a IA64 (intelovské 64bitové procesory) s operačním systémem Linux, v menší míře pak procesory Sparc a operační systém Solaris (firma Sun). Žádné jiné prostředí nebude v rámci projektu podporováno na straně výpočetních zdrojů (předpokládá se ovšem, že programy pro přístup k Datagridu budou portovány i na jiné platformy, zejména MS Windows).

  • Počítače s uvedenými architekturami budou spojovány do clusterů, které budou tvořit základní výpočetní jednotky celého Datagridu (očekává se, že jen v samotném CERNu budou do roku 2005 k dispozici clustery s mnoha desítkami tisíc procesorů, jejichž výkon bude odpovídat stovkám tisíc současných procesorů Intel Pentium III). Jednotlivá pracoviště (celé země) mají přispívat vlastními kapacitami (clustery), jejichž propojení vytvoří skutečný Datagrid.

Všechny oficiální dokumenty projektu explicitně uvádí, že veškeré programové vybavení vyvinuté v rámci projektu musí být k dispozici výzkumné komunitě (nejen z aplikačních oblastí, přímo na projektu participujících) zdarma a ve formě zdrojových textů (není požadována žádná konkrétní forma licence, i když lze očekávat zájem o zpřístupnění pomocí GPL). To samozřejmě neznamená, že není možné komerční využití výsledků projektu, jen to, že toto využití nemůže být bezprostředně postaveno na pouhém prodeji binárních programů, ale musí zahrnovat další služby.

BRAND24

V této souvislosti je zajímavé sledovat, jak EU i odborná komunita se snaží vyhnout přílišné provázanosti s jakoukoliv firmou či jakýmkoliv komerčním produktem a zajistit tak, aby investice veřejných prostředků nesla skutečně prospěch veřejnosti a nikoliv jen malé skupině firem či dokonce jen jedné jediné komerční organizaci (přitom mezi přidruženými kontraktory jsou i komerční firmy).

Projekt Datagrid je rozsáhlý a velmi ambiciózní projekt, jehož úspěch či neúspěch nepochybně bude do značné míry rozhodovat o dalším rozvoji GRIDu a příslušných aplikací. Projekt Datagrid rovněž přispěl k tomu, že problematika GRIDů se stala jednou z prioritních oblastí současných výzev k podávání projektů v rámci 5. rámcového programu EU (tzv. 6. výzva) a očekává se, že GRID se stane jedním ze základních nosných témat i celého 6. rámcového programu EU. Je snad příjemné vidět, že v těchto aktivitách je Česká republika zapojena prakticky od samého počátku.

Byl pro vás článek přínosný?

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).