bude to velmi nakladne pokud budou metadata kompletni, a ne jen velmi ridky sflow pro 1 syn paket z milionu tak jak se to ted bezne dela.
na kazdy prichozi gigabit tu mame 3000 novych spojeni za sekundu:
((sleep 1; killall conntrack)& conntrack -e NEW -E) wc -l
databazovy zaznam je cas, zdroj, cil + databazovy overhead, takze rekneme 32 bajtu na zaznam, takze 100kbyte/s, aneb 10GB za den za 1Gbit. ted si vemte prutok celym NIXem, a vynasobte to 2ma a dostanete zhruba celkem co tu po cechach tece i se zahranicim - 1Tbit/s.
NBU bude logovat 300TB mesicne, ci 3.5PB rocne. Predpokladam ze alespon na 3-5 let zpatky. 20PB diskove pole neni *vubec* legrace, to je skala relativne velkeho svetoveho cloud storage providera.
A na to ze to bude skladovat provajdr at zapomenou, pokud si to nezaplati.
Bez obav. Stačí se - samozřejmě v režimu utajení - o ta data podělit s
organizací NSA našich amerických "spojenců". Oni ty technické prostředky a kapacity mají. Mají také mnohaleté zkušenosti s analýzou nasbíraných dat, vyhledáváním kompromitujících informací i prolamováním Toru metodou časové korelace. Nemusí se ty terabajty ani posílat nikam přes oceán, prvotní analýza může proběhnout už ve sklepě na US ambasádě.
výpočet máš dobrý, ale osobně takováhle čísla nepovažuji za problém, podobné logování již dělají sami operátoři a warehouse pro podobná data výjde nákupkou do 10m (re.álná zkušenost)
Počítej, že data budou převážně komprimována a že není nutné kupovat drahá disková pole.
Co jsem slyšel, počítají s tím, že operátorům budou s tím platit náklady, líbí se mi řešení, kdy technologie nechají na operátorech a sami budou požadavovat jen ty výstupy.
S tou kompresi to neni tak horky - entropie na zaznam je stale kolem 15 bajtu. Ma to smysl jen pokud je to pro cajty co si tu a tam vyzadaji casove okno. Pro analyticke zpracovani je ale nutne mit data online a s indexama (a tam se dostavame na 30b, bez ohledu na kompresi).
Co se tyce ceny, je pravda ze to neni az tak drahe - 1Mkkc / PiB capex, 200kkc / rocni opex. To jsou ale doopravdy jen disky a proud, nic jineho. Realna cena je pak ~2x vic (socka lowcost stylu backblaze) az 4x (ent diskova pole). A jelikoz se jedna o statni spravu, vubec bych se nedivil 10x odklonovaci prirazce.
Jednotlivi ISP co jiz tato data loguji maji obecne naklady daleko nizssi, neb loguji jen svuj provoz, a jen po dobu 6 mesicu - ne cely cesky internet na dobu neurcitou. Udajne (mam z druhe ruky) jsou vyjimkou mobilkari, tyto site generuji kvanta povinne logovanych provoznich dat, porovnani s tim je jejich internetovy provoz skoro nic.
O tom žádná, stát nakupuje jen u IBM za násobné ceny proti trhu.
Přesně tak, tihle generují enormní množství signalizačních dat a je jich mnohem víc než přenášených dat (z první ruky). V praxi mají tihle ceny šíleně nízko a loňské nákupy vycházejí pro výpočetní 4U servery plných disků na 2Mkkc / PiB capex, o nákladů na údržbu nemám přehled.
Oni se nám technologie trochu posunuly, indexy často netřeba, komprese se aplikuje na celé bloky dat seřazených čísel a v ent segmentu se pomalu zabydlují technologie typu pivotal, teradata, netezza. Entropie se snižuje ukládáním pouze přírustků nebo strkáním dat do stromu.
Pořád ale vychází dobře prostě nakoupit HW, jen bohužel stát místo 50 M do toho dá 500.