Názory k článku
Výpadek TTC ochromil 200 tisíc e-mailových schránek Seznamu
Spadlá DB a filesystém?
celé vláknoRe: Spadlá DB a filesystém?
celé vláknoRe: Spadlá DB a filesystém?
celé vláknoRe: Spadlá DB a filesystém?
celé vláknoAle zásadní rozdíl asi bude v tom, že na kolegových Windows XP se neprovádí takové množství simultánních diskových operací, jako na serverech seznamu. U běžných desktopových aplikací se 90% času disk ani nehne. Mně se v mém linuxu za posledních 5 let také žadný soubor neztratil, a to kvůli odcházejícím zdrojům nemám o pořádné výpadky nouzi. Ale to se prostě nedá srovnávat.
Re: Spadlá DB a filesystém?
celé vláknoA třeba takový XFS je velmí dobrý FS, ale UPS potřebuje jaksi z principu návrhu (má to v RAM a na disk sáhne až když je potřeba).
Ale tady jde o něco jiného. Srovnávat domácí desktop s jedním diskem, který se 95% provozu PC nudí s fileserverem s velkým diskovým polem, které je neustále v provozu a má velký cache, prostě nelze.
Re: Spadlá DB a filesystém?
celé vláknoRe: Spadlá DB a filesystém?
celé vláknoRe: Spadlá DB a filesystém?
celé vláknoRe: Spadlá DB a filesystém?
celé vláknoRe: Spadlá DB a filesystém?
celé vláknoto že si bfu neznamená,že je linux špatný
narozdíl od windows jsou unixové systémy nejstabilnější os ;)
windows bych na server nedal nikdy,to rači 5 let starou distribuci linuxu :F
Re: Spadlá DB a filesystém?
celé vláknoAle to je celkem jedno. Každý FS se může poškodit. I ten váš NTFS. A pokud ta UPS zareagovala stylem, "mám ještě deset minut" a pak se kvůli přetížení prostě vypla, tak to není chyba OS, nebo FS, ale prostě té UPS.
Re: Spadlá DB a filesystém?
celé vláknoRe: Spadlá DB a filesystém?
celé vláknoRe: Spadlá DB a filesystém?
celé vláknoRe: Spadlá DB a filesystém?
celé vláknoRe: Spadlá DB a filesystém?
celé vláknoRe: Spadlá DB a filesystém?
celé vláknoRe: Spadlá DB a filesystém?
celé vláknoRe: Spadlá DB a filesystém?
celé vláknoJeste sem nevidel widle, ktery bych moh vzit tak jak sou na disku, zapojit je do uplne jinyho stroje aby bez sebemensiho zavahani nastartovaly. U tuxe naprosta samozrejmost. Widle se obvykle po prechodu na jinej chipset slozej nebo je treba celodeniho laborovani s rizikem, ze stejne neco nebude fungovat jak ma. Takze ve finale je efektivnejsi to nainstalovat znova.
Vim ze existujou vsemozny nastroje na spravovani widli, ale tux se da vpohode spravovat tak nejak od prirody a nemusim za spoustu $ dokupovat nastroje, ktery potrebuju abych moch pod widlema udelat totez stejne efektivne.
Re: Spadlá DB a filesystém?
celé vláknoRe: Spadlá DB a filesystém?
celé vlákno(sice pomaleji a jsou háklivé na hackery :)) ale není to záhadné
Záhadný bývá software uvnitř...
Re: Spadlá DB a filesystém?
celé vláknoMno a za 1/2 roku se clovek docte ze M$ opravil kritickou chybu v klm.dll ktera zpusobovala pady systemu, pricemz jejich (podotykam placeny)support vesele tvrdi, ze chyba je nekde u me. (vlastni zkusenost)
U jinyho OS (a mel sem jich pod rukama uz par) se mi jeste nestalo, ze by se stroj restartnul takovym fofrem pod rukama, aniz by si na cokoli postezoval. Uplne jako kdybych ho resetoval HW. Netvrdim ze tohle widle delaj casto, ale uz se mi to stalo nekolikrat.
A to nemluvim o naprave pripadnych problemu, u tuxe v nejhorsim nastartuju z CD a konfiguraci proste opravim, ale u widli abych zase hledal nejakou silenou utilitu na editaci registru, kterej, kupodivu, je cirou nahodou, zrovna tim poskozenym souborem, ktery se pri padu nestacil/spatne ulozil.
Re: Spadlá DB a filesystém?
celé vláknopodobnou situaci vam nasimuluji u uplne kazde podpory - pravdu u vetsiny ne-widle (viz idiotska terminologie) systemu ani zadna neni
Re: Spadlá DB a filesystém?
celé vláknoskutecne neni treba k windows dokupovat zadne nastroje-nektere vam praci ulehci ale to je duvod existence SW a HW nakonec obecne ze?
tedy-mylite se
Re: Spadlá DB a filesystém?
celé vláknoTo s přehazováním disků je asi jasné, linux má většinu známých chipsetů kompilované v jádře které se spouští hned při startu, takže mu přechod např. z via na intel nebude dělat problém. Ale nic proti, osobně harddisky nepřehazuji z jednoho serveru do jiného. Server je od toho aby poskytoval služby a ne aby se s ním experimentovalo. Taktéž existují záložní servery, které při výpadku primárního budou nadále obsluhovat uživatele.
Re: Spadlá DB a filesystém?
celé vláknoRe: Spadlá DB a filesystém?
celé vláknoKaždopádně borcům stohodle telehouse bych ukroutil ručiččky a poslal je s tim i někam na ukrajinu, to by mě zajímalo jak to kontrolovali, když se jim to druhý den posralo. Tohle si můžu dovolit já doma, když seeduju torrenty, a ne telehouse takového rozměru, že je tam i seznam.
Re: Spadlá DB a filesystém?
celé vláknoRedundance
celé vláknoRe: Redundance
celé vláknoRe: Redundance
celé vláknoAle v dnešní době snad není velký problém (pro firmu velikosti Seznamu) si udělat v záložním datacentru redundantní zrcadlo placených služeb, pro případ těhle výpadků. Pro ISP s autonomním systémem by to měla být hračka...
Re: Redundance
celé vláknoJe to neprijemny paradox, ze nejvice zavisle na sve IT infrastrukture jsou firmy, ktere si nemohou dovolit do ni prilis mnoho investovat.
Re: Redundance
celé vláknoNějaký další argument?
Re: Redundance
celé vláknoRe: Redundance
celé vláknoNechapu poznamku o konkurenci, nikde jsem netvrdil, ze ti jsou na tom lepe.
Re: Redundance
celé vláknoRe: Redundance
celé vláknonad tím kolik to bude stát.
Nejraději mám typy ze státní správy, nebo třeba z ČEZu, kteří si vůbec neumí představit že by si na sebe museli vydělat. Miliony nerostou na stromech!
Je trochu škoda že teď každej bude koukat na TTC jako
na toho komu nic nefunguje, ale výpadek byl jenom 12 minut
a to ještě ne ve všech technologiích!
A těm se spoustama milionů ty jejich javaletí řešení padají
jako hrušky a nikoho to nepřekvapuje joo von je zase spadlej ORACLE... apod.
Nefungují www banky, pošty, apod nikoho to nedrásá, ale oni na to opravdu mají peníze a stejně jim to nechodí.
A to tam dělají samí děsně chytří lidé, kteří jako první tady budou psát o tom jak to má seznam špatně.
Tak ať to udělají lépe... koupit další zařízení to umí každej blbec.
Re: Redundance
celé vláknoRe: Redundance
celé vláknotrochu souvisí a seznam asi neměl moc na výběr jak situaci řešit. Druhé centrum je príma, ale to jsou dvojnásobné investice (otázkou je jestli se to vyplatí při jednom výpadku za rok) Mirroring dat by ale měl být řešen v SW jako to má goooogle
Re: Redundance
celé vláknoRe: Redundance
celé vláknoGeograficka redundance je pekna vec, ale obavam se, ze ten jejich RAID jim pres WAN asi nepobezi :-) Nehlede na to, ze WAN ma castejsi vypadky, vetsi zpozdeni atp., takze je to dost narocne udelat.
Re: Redundance
celé vláknoRe: Redundance
celé vláknoOno je fajn zes to delal a RAID po siti samozrejme jde, ale tady se bavime o radove jinych datovych tocich. AFS je pro tohle nevhodne a Samba nezajisti redundanci.
Re: Redundance
celé vláknoRe: Redundance
celé vlákno> Praze dve serverovny, tomu nerikam geograficka
> redundance. A mezi Prahou a Brnem uz, bohuzel, latence
> nabehne.
Pro bezne potreby jsou dve opravdu redundatni servrovny v Praze zcela dostatecna geograficka redundance. Vzdalenost mezi Prahou a Brnem je v nasich podminkach pro ucely disaster recovery zcela zbytecna a neefektivni z mnoha duvodu.
Re: Redundance
celé vláknoRe: Redundance
celé vláknoRe: Redundance
celé vláknoRe: Redundance
celé vláknoTudiz praxe v CR (a obecne v Evrope) je takova nedelat geograficke clustery na vetsi vzdalenosti, protoze neprinasi vyssi zabezpeceni a dopady prodluzovani vzdalenosti jsou znacne a obtizne (pokud vubec) resitelne.
Re: Redundance
celé vláknoRe: Redundance
celé vláknoMozna vas to prekvapi, ale praxe rika, ze 15+ km JE geograficka zaloha. Minimalne v realnem svete to tak funguje. Pred nejakou dobou jsem shanel ruzne reference na opravdu vzdalene clustery a s vyjimkou Ameriky, kde zejmena na Floride byva zvykem mit zalozni datacentrum opravdu daleko (velmi casto az na East Coast - West Coast vzdalenost) jsou v Evrope ale i na dalsich mistech zdaleka nejcastejsi geograficke mirrory na vzdalenost jednotek maximalne malych desitek kilometru. Nejsou dokonce neobvykla ani disaster recovery reseni pres ulici, i kdyz to je i na mne docela podcenene.
Co se tyce privodu energie, tak u nas to funguje tak, ze kriticke businesses (rozvodne zavody, plynarny, banky, ...) maji domluveny v pripade nestesti dodavky ze statnich rezerv. Takze pokud vypadne proud nejenom, ze generatory udrzi nejakou dobu datacentrum v provozu, ale v pripade nutnosti prijede i "statni cisterna" naftu doplnit.
Co se tyce extremnich katastrof jako treba jaderna havarie a podobne, tak je treba si uvedomit, ze datacentrum neni zdaleka jedine slabe misto. Klasickym prikladem bylo jedenacte zari, kdy vetsina firem umistenych ve dvojcatech a okoli mela zalohovana datacentra v nepostizene oblasti, ale presto nebyly schopny fungovat po utocich tydny az mesice. Ne kvuli problemum s IT infrastrukturou, ale proste proto, ze nedokazaly zvladnout vzniknuty chaos.
A to je primarni limit pri velkych nestestich. Neni to o tom, ze dojde ke zniceni prilis blizkeho datacentra, ale o tom, ze firma neni vojenska jednotka, aby dokazala fungovat pri zniceni linie veleni a ztratach personalu v desitkach procent. Je pekne, ze dokazete preclusterovat na dveste kilometru vzdalene servery, ale nedokazete preclusterovat lidi.
Treba takova burza v NY nemela po 9/11 zadne neresitelne problemy s IT, ale stejne radeji na tyden prerusila obchodovani, protoze vznikly chaos nebylo mozne zvladnout a obnovit funkcnost.
Reseno ve zkratce: "pokud dojde k havarii srovnatelne s Cernobylem, nikdo nebude resit jestli mu funguje nebo nefunguje zalozni datacentrum, protoze vsichni budou mit uplne jine starosti.
Re: Redundance
celé vláknoNavic s dvojcaty srovnavate nesrovnatelne - lidske zdroje, ktere minite tim chaosem nebyly zasazene/znicene, jsou plne operativni - jsou geograficky po celem svete, takze do zniceni Zeme se nic nedeje... jde jen o to datacentrum a tedy techniku
.Re: Redundance
celé vláknoRe: Redundance
celé vláknoRe: Redundance
celé vláknoRe: Redundance
celé vláknoRe: Redundance
celé vláknoRe: Redundance
celé vláknoAle to je neco trochu jineho, to neni RAID kde je jedna kopie nekde a druha jinde, ale disk pripojeny pres sit.
A pokud to chapu dobre, tak jen pripojenim pres lokalni crossover metalicky kabele s latenci ~0.1ms znamena snizeni prenosove kapacity na polovinu.
Re: Redundance
celé vláknoRe: Redundance
celé vláknoAle mne prave zajima, jak se chova RAID na ne moc spolehlive siti - podle mne v tom bude hlavni zadrhel.
Jinak ty FS jsou hezke, ale ne moc pro narocne pouziti. Neznam aktualni "state of the art", ale pred par roky nic moc. Jediny filesystem ktery vyhovuje je Google FS a ten neni verejne dostupny :-)
Re: Redundance
celé vláknoRe: Redundance
celé vláknoVsechno vyjmenovane.
Re: Redundance
celé vláknoRe: Redundance
celé vláknoRe: Redundance
celé vláknohttp://en.wikipedia.org/wiki/Global_File_System
http://en.wikipedia.org/wiki/Google_File_System
Re: Redundance
celé vláknoGoogleFS je něco dost jiného. Vypadá to zřejmě zhruba tak, že v clusteru každý počítač drží jenom kus celkového souborového systému, nebo řekněme datové základny, pokud to navenek nemá podobu klasického stromového souborového jmenného systému. Existuje jakýsi virtuální společný souborový systém, a existuje mechanismus, jak se dostat ke konkrétním datům někde v tomto virtuálním společném systému. Kromě toho, že je systém distribuovaný, patrně obsahuje také solidní míru redundance... Jak přesně vypadá "společný jmenný systém" GoogleFS, to netuším.
Osobně bych GoogleFS zařadil do kategorie aplikačních clusterů, které s výhodou využívají specifického charakteru dat, atomicitu transakcí na co nejvyšší úrovni apod.
Re: Redundance
celé vláknoRe: Redundance
celé vláknoProste se nabori pop3/webmailovej/imap frontend a ten vytvari zurnal akci a ty se pekne "jak linka dovoli" provadi i na tom vzdalenem systemu. To muze byt nejaka low-end supermicro case s 12xSATA disky (tj nekolik terra dat).
Hlavne tu nikdo moc nediskutuje ze Seznamu takze vime prd co se stalo 500 serveru je 500 serveru.
Re: Redundance
celé vláknoRe: Redundance
celé vláknoRe: Redundance
celé vláknoTakže to co používá Seznam , a čemu vy říkáte "RAID" jim přes WAN poběží.
Re: Redundance
celé vláknoRe: Redundance
celé vláknoRe: Redundance
celé vláknohttp://kryl.info/clanek/280-pod-poklickou-gigamailu-centra-i http://kryl.info/clanek/281-pod-poklickou-gigamailu-centra-ii
Re: Rundance
celé vláknoKdyž uvážím, že OS i file system bude stejný jako na Seznamu, pak teoretická dostupnost řešení je na Centru řádově horší.
Re: Rundance
celé vláknoPokud se rozbije filesystem na jedne, nic se nedeje, jede se z jine.
Re: Rundance
celé vláknoPokud PC s SCSI disky říkáte storage, tak OK :-D
Re: Rundance
celé vláknoTak co v tom Centru tedy používáte za diskové storage?
Re: Rundance
celé vláknoRe: Rundance
celé vláknoJinak doporucuji podivat se na Google FS, to je o level vys nez co ma Centrum.
No, lepsi nez rikat "ty pocitace jak se tam ukladaji data" :-)
Re: Redundance
celé vláknoPokud to mate mirorovane na aplikacni urovni, tak se muze FS rozsypat a soubory ztratit. Ale pokud se vam nerozsype tech FS vic a nejak fatalne (hodne poztracenych souboru), tak mate vzdycky alespon jednu kopii dobrou.
Re: Redundance
celé vláknoCenu, kterou za to platíte je, že poškození systému může být způsobem chybou software, typicky pokud se na jeho vývoji podílí jen několik málo lidí. Je to tak ve vašem případě? nemýlim se?
K tomu všemu takovým designem aplikace zvyšujete její složitost a tím i pravděpodobnost chyby a následné ztraty dat.
"Průšvih" , jak píšete, není způsobem "profesionálním hardware", ale tím, že celá infrastruktura nepočítala s tím, že by k výpadku el. produ mohlo vůbec dojít.
I middle range, ale bez pochyb i enterprise range storage zajistí v rozumné konfiguraci řádově nižší riziko poškození dat než vlastní vyvíjená aplikace, která dělá mirroring na aplikační úrovni.
Re: Redundance
celé vláknoReseni Centra je naopak co nejvic decentralizovane. Stoji na tom, ze pokud se stane nejaky velky prusvih, tak se stane izolovane a alespon jedna kopie bude funkcni.
Samozrejme ma velkou narocnost na kvalitu toho SW co zajistuje redundanci, ale pri vhodne zvolene SW architekture a postupech to neni zas tak velky problem - podarilo se nam to zvladnout.
> I middle range, ale bez pochyb i enterprise range storage
> zajistí v rozumné konfiguraci řádově nižší riziko
> poškození dat než vlastní vyvíjená aplikace, která dělá
> mirroring na aplikační úrovni.
Hm, tak proc tedy Seznam ma takove problemy a Centrum ne?
Pritom na Naganu nedavno vypadla klimatizace, takze to neni tim, ze by Centrum melo "privetivejsi" prostredi.
Re: Redundance
celé vláknoSeznam to evidentně nepoužívá v konfiguraci, která byla odolná vůči výpadku el. proudu, zničení serverovny atd. Budeli chtít, je to otázka pouze investice do technologie a ne do lidí.
Investice do lidí (vlastní vývoj) je dost riziková sama o sobě. Kolik vás to v Centru psalo? Kolik testovalo? Kolik testovacích scénařů jste měli?
Je dost na zamyšlenou, když na práci 1-3 programátorů stojí terabajty uživatelských dat.
S technologií, kterou používáte, je odvolávat se na to cizí neštěstí docela zábavné. Je to jako smích rogalisty, který se uprostřed přeletu atlantického oceánu dozví, že někde havaroval Concord :-)
Re: Redundance
celé vláknoI Centrum muze se svym systemem pokryt Vami uvedena rizika a troufam si tvrdit, ze se zlomkem jednotkovych nakladu co by s tim mel Seznam.
Navic ten problem "jednoho FS" neni o HW, ale o systemu nad nim.
Cim je lepsi investice do HW nez do lidi? I HW zastarava, takze investice do nej neni jednorazova. Maximalne je to o tom, ze investice do HW je mene rizikova, protoze clovek muze odejit, ale HW vam nevezmou. Ale to je opet zvladnutelne riziko.
Vase prirovnani je nesmysl, Centrum i Seznam se provozuji ve zhruba stejnem prostredi. A opakuji, i Centrum ma problemy zpusobene externimi selhanimi, ale evidentne se s nimi umi vyporadat lepe.
Re: Redundance
celé vláknoRe: Redundance
celé vláknoNS jsou geograficky oddelene (i kdyz jen v ramci Prahy). Ale stejne je nanic ze NS funguje, kdyz se nedostanes na IP, kterou prelozili ;-)
Stejne tak MX sice muzeme jit jinde, ale do 4 dni pocka mail u odesilatele a ulozit 4 dny prichozich mailu rozhodne neni reseni za 50 tisic :-)
Treba tu analyzu delal a vyslo mu, ze takhle je to levnejsi ;-)
Re: Redundance
celé vláknoRe: Redundance
celé vláknoDalsi otazka je, jak je pravdepodobne, ze zadny MX server nebude dostupny, respektive co takova situace bude mit za dalsi nasledky.
Mne z toho vychazi, ze v takove situaci nebude dostupne Centrum vubec, coz je velky prusvih. Takze ma spis smysl se snazit aby ty servery byly maximalne dostupne tak jak jsou.
Re: Redundance
celé vláknoRe: Redundance
celé vláknoRe: Redundance
celé vlákno; <<>> DiG 9.3.2 <<>> MX centrum.cz
;; global options: printcmd
;; Got answer:
;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 64136
;; flags: qr rd ra; QUERY: 1, ANSWER: 6, AUTHORITY: 2, ADDITIONAL: 8
;; QUESTION SECTION:
;centrum.cz. IN MX
;; ANSWER SECTION:
centrum.cz. 1347 IN MX 10 mail8.centrum.cz.
centrum.cz. 1347 IN MX 10 mail1.centrum.cz.
centrum.cz. 1347 IN MX 10 mail2.centrum.cz.
centrum.cz. 1347 IN MX 10 mail5.centrum.cz.
centrum.cz. 1347 IN MX 10 mail6.centrum.cz.
centrum.cz. 1347 IN MX 10 mail7.centrum.cz.
;; AUTHORITY SECTION:
centrum.cz. 2867 IN NS host2.netcentrum.cz.
centrum.cz. 2867 IN NS host1.netcentrum.cz.
;; ADDITIONAL SECTION:
mail1.centrum.cz. 607 IN A 213.29.7.233
mail2.centrum.cz. 2898 IN A 213.29.7.232
mail5.centrum.cz. 1398 IN A 213.29.7.229
mail6.centrum.cz. 943 IN A 213.29.7.198
mail7.centrum.cz. 2285 IN A 213.29.7.193
mail8.centrum.cz. 2898 IN A 213.29.7.184
host1.netcentrum.cz. 3455 IN A 213.29.7.239
host2.netcentrum.cz. 821 IN A 81.0.254.36
; <<>> DiG 9.3.2 <<>> MX seznam.cz
;; global options: printcmd
;; Got answer:
;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 2137
;; flags: qr rd ra; QUERY: 1, ANSWER: 2, AUTHORITY: 2, ADDITIONAL: 6
;; QUESTION SECTION:
;seznam.cz. IN MX
;; ANSWER SECTION:
seznam.cz. 268 IN MX 10 mx1.seznam.cz.
seznam.cz. 268 IN MX 20 mx2.seznam.cz.
;; AUTHORITY SECTION:
seznam.cz. 268 IN NS ms.seznam.cz.
seznam.cz. 268 IN NS ns.seznam.cz.
;; ADDITIONAL SECTION:
mx1.seznam.cz. 184 IN A 194.228.32.45
mx1.seznam.cz. 184 IN A 194.228.32.26
mx1.seznam.cz. 184 IN A 194.228.32.44
mx2.seznam.cz. 100 IN A 194.228.32.42
ms.seznam.cz. 200 IN A 194.228.3.117
ns.seznam.cz. 47 IN A 82.100.0.150
***********
Centrum ma vsechno napraskane do jednoho subnetu stejne jako Seznam => kdyz zdechne ten subnet, tak se jak jeden tak druhy vypari z inetu.
Od profiku bych ocekaval ze aspon 1/2 MX bude smerovat na jiny a samozrejme jinde fyzicky umisteny subnet. To ze vam zustane v provozu zalozni DNS je vam prd platny.
Re: Redundance
celé vláknoRe: Redundance
celé vláknoRe: Redundance
celé vláknoRe: Redundance
celé vláknolemming@lemming:~$ host -t mx atlas.cz
atlas.cz mail is handled by 10 mx1.mail-atlas.net.
atlas.cz mail is handled by 20 mx2.mail-atlas.net.
atlas.cz mail is handled by 300 mx3.mail-atlas.net.
lemming@lemming:~$ host mx1.mail-atlas.net.
mx1.mail-atlas.net has address 212.47.13.100
lemming@lemming:~$ host mx2.mail-atlas.net.
mx2.mail-atlas.net has address 212.47.13.151
lemming@lemming:~$ host mx3.mail-atlas.net.
mx3.mail-atlas.net has address 194.212.229.244
Ale nameservery ma na jednom subnetu:
lemming@lemming:~$ host -t ns atlas.cz
atlas.cz name server ns1.atlas.cz.
atlas.cz name server ns2.atlas.cz.
lemming@lemming:~$ host ns1.atlas.cz.
ns1.atlas.cz has address 212.47.13.5
lemming@lemming:~$ host ns2.atlas.cz.
ns2.atlas.cz has address 212.47.13.226
Zajimave.
Centrum je levnější na úkor rizika
celé vláknoUrčitě je to solidní řešení, za daných nákladů možná i jediné rozumné a realizovatelé.
Re: Centrum je levnější na úkor rizika
celé vláknoNavic si uvedomte, ze i superprofesionalni pole je porad jenom disk a potrebujete nad nim nejakou aplikaci, ktera ta data spravuje. A ta taky neni uplne jednoducha (spis mozna slozitejsi), taky muze nadelat pekne briklule, taky na ni stoji uzivatelska data a taky potrebujete lidi, co ji rozumi.
Jinak pokud to reseni bezi a je dobre zdokumentovane (coz si chce samozrejme pohlidat), tak neni zasadni problem, aby se ho naucil jiny schopny programator.
Samozrejme kdyz budu ne-SW firma a shodou okolnosti budu potrebovat velke redundantni pole, tak si asi koupim hotove reseni. Ale pokud tak jako tak potrebuju mit ve firme schopne programatory, tak to zas takove riziko navic neni.
Re: Redundance
celé vláknoze jsi to s tou svoji sestrou nemyslel vazne ;-)
Re: Redundance
celé vláknoRe: Redundance
celé vláknoRe: Redundance
celé vláknoSamozrejme by mel probiha nejaky monitoring ale rikat ze kdyz nekdo upravi smtp server ze veskere prichozi veci rovnou kopiruje zurnalogem s daty na server 1000 km daleko aby vedel ze je ma treba posledni 4 hodiny kopirovany na 3 stroje poslednich 24 na dva stroje a poslednich 48 hodin na jednom stroji (jedno zaloznim tj ve dvou kopiich) je proste vzdy levnejsi nez nejake hw reseni.
Re: Redundance
celé vláknoJsou firmy, které si můžou dovolit kupovat levné věci a jsou firmy, které si to dovolit nemůžou. Co preferovali v Centru je asi jasné.
Re: Redundance
celé vláknoRe: Redundance
celé vláknoRe: Redundance
celé vlákno> Profesionální HW, které používá Seznam, ale umožňuje i
> geografický mirroring dat na HW úrovni. Je to otázka jen
> licence a dostatečně silné linky.
Vazne? Napriklad u EMC funguje rozumne HW mirroring (SRDF) pouze u nejvyssi rady diskovych poli (Symmetrix) a to jsou spolecne s licencemi za SW, switche, optiku mezitim atd. takove naklady, ze neverim ze by firma jako je Seznam byla schopna je zaplatit.
Re: Redundance
celé vláknoZajimalo by mne co se stane, kdyz spojeni mezi dvema lokalitami vypadne - treba na deset sekund, na minutu?
Re: Redundance
celé vlákno> lokalitami vypadne - treba na deset sekund, na minutu?
Pokud vypadne jeden propoj, tak se nic nestane, protoze i opticke propoje SAN jsou pochopitelne zdvojeny.
Pokud vypadnou oba, tak jsou dve moznosti. Bud je konfigurace active/passive (90+% pripadu, simultanni zapis na diskova pole ve dvou lokacich neni uplne dobre vyresen), tak se proste prohlasi zalozni pole za desynchronized (split) a pocka se na obnoveni spojeni aby se znovu sesynchronizovaly.
Pokud je cirou nahodou konfigurace active-active, tak uplne preruseni spojeni dostane cluster do nejhorsiho z moznych stavu - splitbrain. Pri splitbrainu bezi obe dve instance, ale nejsou synchronizovany mezi sebou. V takovem pripade se pouzije zalozni heartbeat, aby se urcilo, ktera z instanci zije a na tu se aplikace preclusteruje. Pokud ziji obe dojde k shutdownu te s nizsi prioritou.
Alespon jeden heartbeat by nemel byt prerusen, protoze se obvykle implementuje dvema nezavislymi technologiemi (napriklad pres sdilene disky a zaroven pres ethernet). Pokud by nahodou doslo k preruseni uplne vsech spojeni naridi cluster software nezavisle na sobe na obou dvou lokacich shutdown abort. Uplna outage je totiz mensi zlo nez nechat obe diskova pole aby se navzajem rozesla s tim, ze cast platnych transakci bude na jednom poli a cast na druhem. Takovy stav totiz neni na urovni infrastruktury nijak resitelny.
Re: Redundance
celé vláknoNa vrstvě blokových zařízení nelze splitbrain automatizovaně vyřešit.
Sebevětší a sebedražší geograficky distribuovaný RAID má v tomto achilovu patu.
Ostatně průchodnost v poměru ke kapacitě bude u velkých monoistických RAIDů taky problém. A to nemluvím o nutnosti vícenásobného paralelního mountování takového velikého disku...
Tyto problémy lze často výhodně řešit "taktickým ústupem na vyšší vrstvu abstrakce" - clusteringem na vrstvě souborové, databázové, aplikační.
Pokud se bavíme o mailu, tak při scénáři "split brain" mail dorazí z divokého internetu buď na jeden nebo druhý ostrůvek, které se zrovna vzájemně nevidí. Tím je pro vnější svět přijat. Může se mu přiřadit nějaké generované jméno souboru (zaručeně unikátní napříč clusterem), nebo se uloží do databáze (opět se zaručeně globálně unikátním identifikátorem), nebo konkrétně v případě mailu se pro zaindexování použije message ID obsažené ve zprávě, které je samo o sobě unikátní.
V momentě, kdy se oba ostrůvky opět navzájem uvidí, není velký problém křížem zmirrorovat data na úrovni souborů či databázových záznamů, ať už podle syntetických unikátních klíčů nebo podle SMTP message ID...
Asi by nebyl problém dořešit také transakce typu mazání, přesunů apod. - pokud by při split-brainu zůstal v chodu webový interface pro uživatele...
Re: Redundance
celé vláknoTo o cem vy mluvite je rozpojeni clusteru pri zachovani funkcnosti obou. K necemu podobnemu v prvni rade nesmi dojit a cluster SW neco takoveho nedovoli.
Jinak bych jeste dodal, ze rozjety cluster rozhodne nevyresite na "vyssi vrstve abstrakce" at uz jde o soubory nebo o databazi. Jedine misto kde lze takovy stav vyresit je aplikacni vrstva a to jeste velmi komplikovane.
Re: Redundance
celé vlákno> radove minuty) po ktery se zastavi zpracovani
No potes koste :-)
> Jinak bych jeste dodal, ze rozjety cluster rozhodne
> nevyresite na "vyssi vrstve abstrakce" at uz jde o soubory
> nebo o databazi. Jedine misto kde lze takovy stav vyresit je
> aplikacni vrstva a to jeste velmi komplikovane.
Ta komplikovanost zavisi od aplikace. To co popsal u mailu je pomerne realne a neni to zas tak slozite.
Re: Redundance
celé vlákno> mailu je pomerne realne a neni to zas tak slozite.
Ano, nicmene obecne jsou disaster recovery techniky nasazovane u kritickych aplikaci a ty v naproste vetsine pripadu maji tendenci ke znacne slozitosti. Dat dohromady rozjety databazovy cluster, kde neni problem mit radove vysoke stovky ruzne provazanych tabulek je nekde mezi velmi komplikovanym az nemoznym.
Re: Redundance
celé vlákno> kritickych aplikaci a ty v naproste vetsine pripadu maji
> tendenci ke znacne slozitosti.
Souhlas.
Re: Redundance
celé vláknoJe spravne receno, ze problem je v tom, ze HW pole neni schopno samo o sobe resit nektere situace bez dalsich informaci (omezujicich podminek) z aplikacni vrstvy. (Ani kdyby na nem delalo tisic programatoru sto let tak neni ;-)
Ten system co popisujete je docela realisticky. A jak se muze pan anonym (co jsem si s nim psal predtim) presvedcit, neni ani nijak slozity.
Co se tyce opetovneho sesynchronizovani, tak jednosmerne operace (smazani, pokud je tak udelane) jsou bezproblemove. U ostatnich (o/odznacovani mailu, presun mezi slozkami) proste bude vysledek "nejaky" a da se zajistit, aby konecny stav odpovidal (u konfliktnich operaci) stavu na jedne a replik.
Re: Redundance
celé vlákno>
To Vas zklamu, mne taky zivi hardware - maly hardware :-> Velky hardware jsem zatim videl jenom zdalky zamceny ve skrini nebo zdokumentovany v manualech. Maly hardware, male problemy... Ale soubeh optickych tras jsem prakticky obcas potkal.
Re: Redundance
celé vláknoRe: Redundance
celé vláknoAle to neustale zduraznovani "profesionality" reseni mi prislo dost obchodnicke. Neco jako "nejprodavanejsi pojisteni" nebo tak.
Re: Redundance
celé vláknoRe: Redundance
celé vláknoRe: Redundance
celé vláknoRe: Redundance
celé vláknoRe: Redundance
celé vláknoRe: Redundance
celé vláknoRe: Redundance
celé vláknoOvšem lepší UPS-ky umějí samy při klesání výkonu řádně odstavit počítač. Napište raději, jaké šunky používali, aby si je ostatní pro jistotu už nekupovali.
P.S.
Vůbec nejlepší je z článku věta, že ani ředitel ani tisková mluvčí nebyli hned k zastižení. Prosím Vás, znáte někdo firmu, kde ředitel a tisková mluvčí vůbec něčemu trochu složitějšímu rozumí? Jeden nebyl schopen ani dostudovat a druhá je pro změnu určitě vystudovaná žurnalistka.
Re: Redundance
celé vláknoRe: Redundance
celé vláknoRe: Redundance
celé vláknoRe: Redundance
celé vláknodata na serverech
celé vláknoRe: data na serverech
celé vláknoRe: data na serverech
celé vláknoRe: data na serverech
celé vláknoRe: data na serverech
celé vláknoRe: data na serverech
celé vláknoRe: data na serverech
celé vláknoRe: data na serverech
celé vláknoSeznam vždycky tam najdu co neznám
celé vláknoJenom se musím pochlubit že mám také server v TTC a ten vydržel, jeho uptime je stále nezměněn. Takže někdo umí a někdo ne.
Ale nezávidím to těm deseti technikům to asi muselo bejt hodně ošklivý. Tlak ze všech stran ať to funguje.
Každé kolečko se nakonec poláme i kdyby bylo sebelepší.
A že by to seznam nepřežil :) toho bych se nebál i kdyby
to nefungovalo dva, tři dni tak se stejně nic nezmění.
Re: Seznam vždycky tam najdu co neznám
celé vláknoPs. No vidíte jak jste šikovný. A to máte jen o 449 serverů méně než Seznam a jak to hezky zvládáte :)
Re: Seznam vždycky tam najdu co neznám
celé vláknoRe: Seznam vždycky tam najdu co neznám
celé vláknoRe: Seznam vždycky tam najdu co neznám
celé vlákno2x IDE disky se používají v té jejich server farmě na vyhledávání prostě www.google.com search jede na IDE diskách
cca 12 datacenter spojených 10Gbit linkama rozsypaných po světě
No je tam dost šílenej systém replikace dat, kterej sem nepochopil. Pokud někdo ví sem jedno ucho, ale ta matematika je pro mě asi nezvladatelná :)
Příjde vám google amatérské? Všechno není jenom o HW
MySQL(InnoBase) používají asi na nějaké ty doprovodné služby (podrobněji to nevím jenom vím že je uváděné jako používaný software)
Vyhledávat v MySQL samozřejmě nejde... ale to ani v ORACLE, ten je totiž ještě pomalejší.
Re: Seznam vždycky tam najdu co neznám
celé vláknoRe: Seznam vždycky tam najdu co neznám
celé vláknoGoogle je v podstatě takovej skynet :)
Je to nová filosofie úplně odlišná od všech ostatních
V jejich případě nezáleží na hardware, ale na síle myšlenky,
kterou museli velmi dobře zaplatit.
Úplně unikátní je sítový souborový systém, který se replikuje mezi všechny servery v síti (proto ty 10Gbit spojení)
Výsledky vyhledávání se skládají z fragmentů dat uložených v datacentru tedy cca 10000 serverů.
Když je v tom integrován gmail tak to musí být asi hodně složitý a žádné informace se neztrácejí
Re: Seznam vždycky tam najdu co neznám
celé vláknoRe: Seznam vždycky tam najdu co neznám
celé vláknoRe: Seznam vždycky tam najdu co neznám
celé vláknoRe: Seznam vždycky tam najdu co neznám
celé vláknoRe: Seznam vždycky tam najdu co neznám
celé vláknoRe: Seznam vždycky tam najdu co neznám
celé vláknoRe: Seznam vždycky tam najdu co neznám
celé vláknoRe: Seznam vždycky tam najdu co neznám
celé vláknoRe: Seznam vždycky tam najdu co neznám
celé vláknoRe: Seznam vždycky tam najdu co neznám
celé vláknoRe: Seznam vždycky tam najdu co neznám
celé vláknoRe: Seznam vždycky tam najdu co neznám
celé vláknoRe: Seznam vždycky tam najdu co neznám
celé vlákno> U MySQL to není vůbec o verzi. MySQl by v takto rozsáhlých řešeních použil jen sebevrah.
Jako třeba Wikipedie se svými pár tisíci požadavky za sekundu? ;-)
Re: Seznam vždycky tam najdu co neznám
celé vláknoRe: Seznam vždycky tam najdu co neznám
celé vláknoRe: Seznam vždycky tam najdu co neznám
celé vláknoMísto standardní 0.001s to ale trvalo obrovských 0.7s
Oracle nicméně odpovídal v řádu mnoha sekund
Všechno je relativní...
Re: Seznam vždycky tam najdu co neznám
celé vláknoRe: Seznam vždycky tam najdu co neznám
celé vláknoRe: Seznam vždycky tam najdu co neznám
celé vláknoRe: Seznam vždycky tam najdu co neznám
celé vláknoORACLE má HP Proliant Xeon s 10k disky 1.5TB RAID5
Takže ani nesrovnávám rovnocenný hardware na tu workstajšnu bych se ORACLE bál spustit :)
Každopádně v něčem je rychlejší ORACLE v něčem MySQL
ORACLE se vyznačuje tím že je v něm ukrutnej bordel (jak starej hrad v karpatech) spousta věcí postrádá logiku
Přenositelnost mezi jednotlivými verzemi je bídná (fungovalo vám to v 9i? v 10g nebude :)
Nezkoušel někdo IBM DB2? Vypadá mnohem lépe, alespoň na můj první subjektivní dojem
Databáze mají transakce, filesystém má fsync()
celé vláknoRe: Databáze mají transakce, filesystém má fsync()
celé vláknopokud bych chtěl použít fsync tak musím zastavit procesy které manipulují s daty, jinak to nemá moc velký smysl.
to asi může rozkázat jenom božský Ivo (jenže tomu v tichomoří zrovna nešel satelitní telefon)
Pokud budete chtít deaktivovat některé služby určitě potřebujete povolení...
A že by aplikace při každé změně volala fsync no tomu snad nikdo nevěříme že ne? asi by moc rychlá nebyla
Re: Databáze mají transakce, filesystém má fsync()
celé vláknofsync je přibližně stejně náročný jako přečtení nenacachovaného souboru, takže pokud jim server utáhne náhodné čtení souborů, když si uživatel prohlíží maily, není důvod, aby to neutáhlo náhodné zápisy do souborů, když ty maily přicházejí (navíc tomu odesílajícímu SMTP je celkem jedno, pokud dostane potvrzení až za několik sekund, takže je příjem mailů ještě méně náročný než jejich prohlížení).
Jen mě zarazilo, že když technologie chránící data proti výpadku napájení jsou vyvinuté už několik desetiletí, tak to stále není používáno a přispivatelé v tomto fóru kritizují všechny možné komponenty, které za to vůbec nemohou.
Re: Databáze mají transakce, filesystém má fsync()
celé vlákno1) databáze si zpravidla sama určuje, kdy bude zapisovat na disk a kdy ne. Ani transakce nepomůžou. Pomůže jen dobrá záloha :)
2) použití fsync() výrazně zpomalí celý systém. Chci vidět, toho člověka, který to bude používat na tyto aplikace.
Nehledě na množství dat, které tam protéká. Zeptej se na wz,
tak dlouho obnovovali rozbitý raid...
Nikdy neodhadneš míru poškození souborů. Samozřejmě například INNODB má něco jako žurnál, takže (snad) pozná, co je špatně. Já osobně bych měl taky strach při tomhle množství věcí něco pokoušet. Možná by bylo lepší (pokud by se na to přišlo včas) všechny servery včas vypnout. Ušetřila by se práce s obnovou. Ale po bitvě je každý kapitán...
Re: Databáze mají transakce, filesystém má fsync()
celé vláknoNavic fsync() nestaci, vetsinu kdyz uz, tak pouzivat fdatasync() a to vetsinou docela dost zpomaluje. Koneckoncu, fsync() by mel teoreticky nahradit zurnalovaci FS a ten tam maji nasazeny.
Ponaučení
celé vlákno2) Tohle ještě jednou ukazuje zranitelnost řešení, které nabízejí firmy přes internet: různý 1 - 2 gigový schránky, vzdálená úschova souborů, vzdálená editace, vzdálené CRM a objednávkové systémy a nevím co ještě. Pokud prostě někdo na něčem opravdu závisí, musí si to provozovat u sebe, zálohovat, zálohovat, zálohovat. Internetový služby jsou určitě taky užitečný, ale tu spolehlivost musí brát člověk s rezervou.
Re: Ponaučení
celé vláknoRe: Ponaučení
celé vláknoStejne je to cele divne
celé vláknoZe se prehral motorgenerator, muze se stat, nekdo nemenil filtry nebo tak neco. Ale proc po jeho vypadku spadla pretizena UPS? Vzdyt to byla ta sama UPS ktera zivila servery do startu motorgeneratoru. Tak co ji vlastne pretizilo?
Ze se radove lisi doba vypadku priznavana Cendrou od TTC je asi folklor.
A dostavame se k seznamu. Cekal jsem alepon Ivo rekne co se stalo tak, aby bylo jasne co se deje. Misto toho zase mlha.
Re: Stejne je to cele divne
celé vláknoU malých UPSek mě nikdy nepřekvapí, když baterka lehne rychleji než by si UPSka myslela - a že už jsem to několikrát viděl.
Inteligence malých UPSek kulhá (IQ tykve), velká UPSka by měla mít lepší odhad a hlášení poklesu napětí.
Olověná baterka po několika letech provozu už neutáhne tolik, jako zamlada. Dodavatelé velkých UPS a stejnosměrných telekomunikačních zdrojů dnes často standardně nabízejí "bezúdržbové" zapouzdřené olověné akumulátory, a slibují jim životnost řádově 20 let (na základě katalogových listů výrobce akumulátorů), přestože daný model pochopitelně nikdo nikdy takto neotestoval - jedná se o životnost projektovanou/extrapolovanou. Drby z oboru říkají, že lepší spolehlivost je dlouhodobě dosahována s "dolévacími" bateriemi, za jejichž stav a údržbu je někdo konkrétní odpovědný. A to se bavíme o profi staničních bateriích s kapacitou v desítkách až stovkách Ah, ne o malých 8Ah cihličkách.
Konec konců, jestliže UPSka vyčerpala skoro celou kapacitu, a pak korektně naskočil generátor, nelze míti UPSce zazlé, že to takřka okamžitě vzdala, když generátor po pár minutách zase chcípnul.
Poznámka o stejnosměrných zdrojích, které přežily, mi připomněla vyprávění veteránů z oboru. Telekomunikační "stejnosměrný zdroj" o jmenovitém napětí -48V má pro konkrétní jmenovitý odběr (výkon) řádově větší kapacitu baterek (časovou výdrž), než srovnatelná UPSka. Můžeme to chápat jako věc tradice - stejnosměrný zdroj pro telefonní ústřednu je stavěn na delší provoz bez dobíjení, třeba až několik dní.
Pokud jsou z takového zdroje napájeny počítače, ať už přímo nebo přes trvale běžící "střídač" (invertor) na 230V, prakticky nehrozí překvapivý okamžitý výpadek - baterie jsou vybíjeny poměrně rozumným proudem a bývají pečlivěji opatrovány údržbou, než baterie v "počítačové" UPSce.
Pro uživatele hostingových služeb je stejnosměrný telekomunikační zdroj taková fajnová online UPSka se superdlouhou výdrží. Bohužel je to luxus i cenově.
Cvičení krizových stavů je taky trochu problém. Třeba ten generátor: jestli ho testovali při venkovní teplotě 25C, nebo v noci při 20C, a on jim musel nakonec běžet při 33C, tak mě problém zase tolik nepřekvapuje.
Kromě toho fatální krizový stav někdy nejde bezezbytku nasimulovat, z organizačních nebo technických důvodů. Třeba při testování RAIDu na chování v kritické situaci prakticky není možné nasimulovat širší spektrum možných závad (RAID řadič, elektronika disku, fyzická ztráta sektorů) - prakticky můžete jenom zkusit za chodu vyrvat disk a vyměnit ho za jiný. Přitom odpojení disku za chodu je prakticky poměrně nepravděpodobná závada...
Re: Stejne je to cele divne
celé vláknoPokud generator nabehl az po temer vybiti UPS... tak je asi neco spatne v navrhu, vidte?
Jo a ty bezne "cihlicky" maji realnou kapacitni zivotnost do 3 let (v praxi spise 1,5-2) a to bez vyrazneho namahani (vypadek a vybiti na 50% kapacity tak 2-3x do roka).A centrum lze nikoli simulovat, ale realne otestovat - nejlepe pred privitanim prvniho zakaznika a pote (diky redundanci - bavime se o profesionalech, ne?) v pravidelnych intervalech testovat "po okruzich".
Re: Stejne je to cele divne
celé vláknoA to nemluvim o tom, ze v zadnem pripade nesmi dojit k takovemu vybiti baterii aby se stroje nestihly korektne vypnout. Doma si muzete dovolit vypinat stroj pri 20% nebo mene, ale v data centru by melo jit vse dolu tak pri 50% aby se to bez problemu stihlo => po cca 5ti minutach provozu bez generatoru by se mely zacit stroje shazovat.
Prave u tech profiku bych ocekaval, ze akumulatory pravidelne meni nebo alespon premeri, coz je trivialni operace. Otestovat celou UPS nebo alespon jeji jednotlive vetve neni taky nic tak sloziteho. Pri predpokladu, ze mam alespon jednu vetev jako zalozni muzu vzdy prepnout na ni a otestovat postupne celou UPS.
=> pokud to funguje jak ma, tak 2 minuty trva nez nabehne generator, kdyz umre, zbyva jeste 8 minut provozu na UPS => po dalsich 3ch minutach vydava UPS pokyn k vypnuti vsem strojum.
Mimochodem, telefoni ustredna musi mit dostatecne zdroje k udrzeni plneho provozu po dobu 48hodin + nouzoveho provozu alespon tyden (mozna to je dokonce 14 dnu). Nouzovym provozem se rozumi odpojeni domacnosti a firem - v provozu zustavaji verejne automaty, urady, nouzove linky.
Konfigurace DNS seznamu
celé vláknoDNS servery jsou dva:
ns.seznam.cz 82.100.0.150 (AS9148 = net4net)
ms.seznam.cz 194.228.3.117 (AS5610 = Telefonica O2)
A teď pozor - kouzlo:
;; ANSWER SECTION:
www.seznam.cz. 300 IN A 194.228.32.3
;; Query time: 6 msec
;; SERVER: 82.100.0.150#53(82.100.0.150)
;; WHEN: Tue Jul 11 17:40:37 2006
;; MSG SIZE rcvd: 47
;; ANSWER SECTION:
www.seznam.cz. 300 IN A 212.80.76.3
;; Query time: 6 msec
;; SERVER: 194.228.3.117#53(194.228.3.117)
;; WHEN: Tue Jul 11 17:40:10 2006
;; MSG SIZE rcvd: 47
Tedy name server 82.100.0.150 v síti net4net vrací adresu web serveru 194.228.32.3 v síti Telefoniky O2 a name server 194.228.3.117 v síti Telefoniky O2 vrací adresu web serveru 212.80.76.3 v síti net4net.
Tedy pokud vypadne konektivita net4net, dostanu adresu web serveru v síti net4net, pokud vypadne Telefonica O2, tak dostanu adresu webu v síti Telefonica O2, tedy výpadek kterékoliv konektivity způsobí nedostupnost www.seznam.cz.
Je tohle efekt, který adminové Seznamu zamýšleli? Nemělo to být právě naopak?
Nebo jsem jenom něco nepochopil?
Re: Konfigurace DNS seznamu
celé vláknoRe: Konfigurace DNS seznamu
celé vláknoRe: Konfigurace DNS seznamu
celé vláknoCož je podle mě špatně, protože DNS klient zpravidla používá odpověď z lépe dostupného nameserveru, a použité řešení vždy nasměruje uživatale tou trasou, které je pro něj horší. Jak je to v případě výpadku jedné trasy nevím, minulé úterý při výpadku to házelo adresy úplně stejně, jako dnes, to jest křížem, i když byl seznam down.
Re: Konfigurace DNS seznamu
celé vláknoprave jsem se "parkrat" optal tech nameserveru, a pro klienty ze siti chello a T-Systems Pragonet (pak jsem na to uz nemel naladu)to vraci nahodne vysledky.
Vcera jsem poslal dotazu jen malo (sit CESNET2) a asi mi nebyl nahodny vyber naklonen :-)
Re: Konfigurace DNS seznamu
celé vláknoRe: Konfigurace DNS seznamu
celé vláknoRe: Konfigurace DNS seznamu
celé vláknoPár nejasností k výpadku a zálohování
celé vláknoJe tam poměrně podrobně popsáno, jak je zálohování TTC Teleportu uděláno. Pár nejasností ale zbývá:
Do objektu jsou přivedeny dvě nezávislé vysokonapěťové přípojky 22kV. To vypadly (nebo byly podle IL okolo 20 h plánovaně odpojeny) obě dvě? A jsou pak opravdu nezávislé?
Podle TZ APC je zálohování zajištěno dieselagregátem s výkonem 1 MW a zásobou nafty na 10 hodin, pro překlenutí jeho náběhu jsou použity dvě UPS 240 kW, která každá zvládne až 200 % zátěž pod dobu 1 minuty. Kapacita baterií má vystačit na 30 minut provozu.
No a co se (údajně) přihodilo:
1. Byly odpojeny obě vysokonapěťobé přípojky 22 kV.
2. Po dobu náběho motorgenerátoru jedou UPS jen z baterií, což pro ně není snad žádný problém, když jsou online?
3. Naběhne motorgenerátor a po 20 minutách se přehřeje a automaticky vypne.
4. Zátěž opět přebírají UPS (mají vydržet 30 minut)
5. Ve skutečnosti jsou ale baterie vybité už za 10 minut, a celá serverovna zrácí napájení bez toho, aby byly servery korektně shozeny. (UPS jsou dvě, vypadly obě současně?)
6. Poté, co po 12 minutách ve 20:47 naběhla síť, jedna z UPS nevydržela vysokou zátěž při zapnutí (Jak je to s tou 200% odolností? Jaká je skutečná zátěž při zapnutí?)
7. Nějakou blíže neurčenou dobu tedy běžela serverovna na jednu 240 kW online UPS a druhá část byla zřejmě připojena napřímo (UPS má "Automatic internal bypass").
Takže je nejasné, jak je to s tou nezávislostí dvou VN přípojek a k čemu vlastně jsou, jak je to s výdrží UPS (10 nebo 30 minut?) a proč jedna nevydržela náběh.
Z hlediska uživatelů by bylo zajímavé vědět, jestli je k dipozici z těch UPS nějaká signalizace, umožňující včasný shutdown, pokud ne, tak je to myslím podstatná chyba, pokud ano, tak proč nebyly servery korektně vypnuty?
Seznam také asi mohl a měl udělat mnohem víc - minimálně u serverů a diskových polí, které jsou kriticky závislé na korektním vypnutí, měly být instalovány malé inteligentní UPS s řízeným náběhem, které by zaručily dodávku proudu po dobu shutdownu.
Máte někdo nějaké informace, ať už co se skutečně přihodilo a jak je to zařízené v TTC Teleport, nebo jak se to dělá jinde?
Re: Pár nejasností k výpadku a zálohování
celé vláknoPulzní zdroj při zapnutí hází velkou špičku, a to při tom množství serverů musí být pěkná rána to by chtělo dimenzovat aspoň 1000%
Připojení serverů najednou musí bejt pěknej šok pro UPS
Ani se nedivím že to neutáhne...
Nedivíte se že když zapnete počítač tak blikne žárovka?
Proudový náraz je opravdu velmi velký zařízení se musí
připojovat postupně.
Re: Pár nejasností k výpadku a zálohování
celé vláknoSNMP na UPS neni v ceskych telehausech zrovna standard. Vsichni vam budou tvrdit, ze to vubec nepotrebujete, protoze proud proste nevypadne a kdyz ano, tak jedine jeden rack se samostatnym jisticem, kde to stejne neni nic platne. Dosahnete toho jedine, kdyz budete nakupovat fakt velky hosting.
Re: Pár nejasností k výpadku a zálohování
celé vlákno... a nebudete tlacit na cenu :-)
Re: Pár nejasností k výpadku a zálohování
celé vláknoPomalý náběh (nabíjení vstupního kondíku) jsem u počítačového zdroje ještě nepotkal.
Jakékoli konkrétní číslo ve stovkách procent je podle mého lehce nepodložené, zatížené "dělením nulou". Takové naddimenzování výkonových částí není úplně jednoduché zařídit, hlavně to není levné. Podle mého to není správný přístup k problému.
Teoreticky by se to na straně UPS dalo ošetřit tak, že by UPS měla omezení výstupního proudu a definovaný provoz do zkratu po nějakou omezenou dobu (jednotky sekund). Těžko říct, nakolik by to bylo obvodově složité a uregulovatelné.
Pro počítačové UPSky všech výkonových kategorií by to rozhodně dávalo smysl.
Fakt je, že prakticky jsem takovou UPS taky neviděl.
Terminologická poznámka: "smart" UPSky od APC jsou "smart" v tom smyslu, že zvládají komunikaci nějakým protokolem po RS232, tj. nikoli pouze primitivní diskrétní/logickou signalizaci přes režijní modemové signály sériového portu jako levnější modely. Nevím o tom, že by menší "smart" UPSky měly nějakou explicitní podporu pro omezení inrush špičky.
Fakt je, že větší počet malých UPSek by se s inrush špičkou mohl vyrovnat lépe než jedna velká. Zejména malé offline UPSky, které obsahují klasické trafo na 50 Hz dimenzované na cca 20-50% jmenovitého výkonu, mají omezení výstupního proudu jaksi v základní výbavě :-)
Mimochodem, to přetížení UPSky po opětovném naběhnutí po výpadku je druhotný problém. Obsluha to zjistí, obejde počítače, vypne vypínače, nahodí jističe a jede se dál. Primárním problémem je sám výpadek proudu - ten způsobil narušení souborových systémů.
Na okraj:
Technici "od Internetu", když si kupují server s ATX zdrojem, obvykle požádají o BIOS předkonfigurovaný tak, aby server po výpadku napájení rovnou naběhl - aby nemuseli po výpadku cestovat do serverovny.
Mluvil jsem na toto téma s člověkem, který má na starosti nějaké méně důležité servery v atomové elektrárně - a ten naopak tvrdil, že žádá vždy server předkonfigurovaný tak, aby po výpadku napájení hlavně zůstal vypnutý - že je lepší, když obsluha servery obejde, po jednom nahodí a zkontroluje úspěšný start.
Re: Pár nejasností k výpadku a zálohování
celé vláknoKaždopádně obcházet tolik serverů vypnout je a pak zase postupně nahazovat asi není zrovna velká legrace. Když jsem dělal u jistého soukromého rádia tak bylo normální že celej barák jel na hranici možností a jakýkoliv výpadek proudu znamenal všechno vypnout a postupně zapínat. Velká UPSka taky vydržela 40 minut, ale zapínání pulzních zdrojů neměla v oblibě. Vždycky na ní mrklo přetížení :) ošklivej pocit obzvlášť když jsem to měl na starosti tak se člověk skoro modlil ať nechcípne.
Re: Pár nejasností k výpadku a zálohování
celé vláknoRe: Pár nejasností k výpadku a zálohování
celé vláknoAPC dela krasne PDU s postupnym nabehem cena pro cely rack od 800 czk/port. Me na nich spise vadi to, ze se do toho racku blbe davaji (vsechny telehouse preferuji 80tky misto 100vek).
Ten general error nebo snmp server pro zakazniky by ovsem telehouse zavest meli, prece jenom to stoji par susnu.
Re: Pár nejasností k výpadku a zálohování
celé vláknoRe: Pár nejasností k výpadku a zálohování
celé vláknoI ty nejlevnější servery za pár korun tuto výbavu mají, třeba tyhle 1U: http://www.msi.com.tw/program/products/server/svr/pro_svr_detail.php?UID=551
Re: Pár nejasností k výpadku a zálohování
celé vláknoOdpusťte mi to rýpnutí na téma Internet vs. atomová elektrárna, problém s inrushem bude v obou případech.
Rozdíl bude až v následném zvýšeném odběru při rozběhu(nabíjení výstupu zdroje, roztáčení disků apod.). Tento odběr by neměl překročit štítkový odběr zdroje.
Re: Pár nejasností k výpadku a zálohování
celé vláknoV tech vice "homemade" datacentrech se pouzivaji naprosto bezne dnes uz snad vyhradne ATX zdroje, MB ... proste bezna PC. Neni problem si od kazdeho vytahnout ten spravny kusdrat a dovest jej na panel s tlacitky + pripadne pridat nejakou trivialni elektroniku ktera nebude mit na starost nic vic, nez se po nabehu napeti pocka po definovany cas (nekdy jak znamo to padne opakovane v kratkych intervalech) a pak zacne v definovanych intervalech spoustet jednotlive stroje. Signalizace uspesneho startu je pak uz otazkou trivialniho scriptu.
Nepochybuju, ze je totez mozne u profi HW do racku. Pripadne pripada v uvahu trivialni reseni pomoci stykacu pro jednotlive racky.
Re: Pár nejasností k výpadku a zálohování
celé vláknoPri beznem testu jednoho DSA doslo k poruse na DSA, odesel
generator.
V patek mel bagrista provadet skryvku zeminy, bohuzel se mu
pokazil bagr a tak to delal v sobotu, kdy nebyli jaksi lide
na kontrolu. Prestoze mel delat skryku zeminy tak skryval tak, ze sundal jedno 22kV vedeni, aniz by si toho vsiml.
(ony se ty vedeni nekde sbihaji a tam provadel skryvku)
Za chvilku sundal i to druhe, toho uz si vsiml.
Pri najezdu druheho DSA se zadrel pastorek starteru
(taky bezne prochazi kontrolou startu a behu),zustal v kole a sundal DSA.
Tak to jelo cca 1hod. z baterek.
Co myslite ze bylo pote :(
Lokalitu radeji neuvedu, mam duvod.
Re: Pár nejasností k výpadku a zálohování
celé vláknoRe: Pár nejasností k výpadku a zálohování
celé vláknoRe: Pár nejasností k výpadku a zálohování
celé vláknoPri beznem testu jednoho DSA doslo k poruse na DSA, odesel
generator.
V patek mel bagrista provadet skryvku zeminy, bohuzel se mu
pokazil bagr a tak to delal v sobotu, kdy nebyli jaksi lide
na kontrolu. Prestoze mel delat skryku zeminy tak skryval tak, ze sundal jedno 22kV vedeni, aniz by si toho vsiml.
(ony se ty vedeni nekde sbihaji a tam provadel skryvku)
Za chvilku sundal i to druhe, toho uz si vsiml.
Pri najezdu druheho DSA se zadrel pastorek starteru
(taky bezne prochazi kontrolou startu a behu),zustal v kole a sundal DSA.
Tak to jelo cca 1hod. z baterek.
Co myslite ze bylo pote :(
Lokalitu radeji neuvedu, mam duvod.
service level agreement
celé vlákno„Výše odhadovaných ztrát by mohla dosáhnout řádově jednotek až desítek milionů korun za minutu výpadku, proto je spolehlivé zálohování napájení skutečně nezbytností," vysvětluje Winzberger.
přeji příjemné placení :)
co tam maji
celé vláknoObsah si domyslete sami.
Nemam nic proti IBM, sami je masivne pouzivame, muj zaver je: at vymyslite cokoliv, vzdy se to vyse.e jinde. Toliko mych cca 25 let v IT.
Re: co tam maji
celé vlákno48 V DC
celé vláknojo telco zařízení používají 48 V DC ... to jen IT bazmek používá 230 V AC...
Sloušné telco zařízení je napájeno takto... Suměrňovač a zdroj 48 V který trvale dobíjí baterky a znich je napájeno vše potřebné... žádné UPS invetrory atd...
Před tím je samozřejmě pořádný diesel nebo spíše dva až tři...
Tak to je rozdíl mezi telco a IT mimo jiné...
ZTRATA EMAILU??? Seznam.cz
celé vláknodvakrat uz sem psal na seznam helpdesk seznam.teamu a ani se neobtezovali odpovedet...
zajimalo by me kolik lidi jeste takto ceka na sve maily a adresy
Re: ZTRATA EMAILU??? Seznam.cz
celé vláknoVíte něco o lumpovi rupert.upert@centrum .cz?
celé vláknoVe 22.20h tam ještě byly. Pak jsem to zavřel, a teď po 2 hod tam není ani čárka. Vidím to doma. Šlo by maily prosím obnovit? 28.7.06 23.49h
Děkuji Novák
--------------------------------------------------------------------------------
PS:rupert.upert@centrum.cz mi ukradl všechny maily!Někdo asi prolomil mé heslo a pozměnil Vaše nastavení přesměrování takto:
Adresa: rupert.upert@centrum.cz Sem zadejte emailovou adresu, na kterou má být přesměrována vaše pošta.
Filtry pro příchozí poštu
Číslo Název Stav Posun
1. Vždy pošli upozornění na eucz@atlas.cz Přišel nový email! zapnutý upravit Přesuň o úroveň výš Přesuň o úroveň níž
2. Vždy pošli zprávu na adresu rupert.upert@centrum.cz zapnutý upravit Přesuň o úroveň výš Přesuň o úroveň níž
3. Vždy zprávu hned smaž zapnutý upravit Přesuň o úroveň výš Přesuň o úroveň níž
Tušíte kdo mi to provedl? Toho rupert.upert@centrum.cz bych mohl žalovat? Víte o něm něco? Jsem v tom sám? Jak získat mé maily zpět? I ten mail od Vás ze cca 31.7.2006-pošlete mi jej prosím znovu?
Děkuji Novák a7a@seznam.cz