Vlákno názorů k článku Nestřílejte specialisty aneb Co způsobilo rozsáhlý databázový výpadek v Alza.cz od Martin Prokeš - Tuším, že podobně se už kdysi spálil i...

  • Článek je starý, nové názory již nelze přidávat.
  • 11. 7. 2018 22:32

    Martin Prokeš (neregistrovaný)

    Tuším, že podobně se už kdysi spálil i Seznam se svým freemailem.

    "Nerozbitné pole", které se jaksi ehm, rozbilo.

    On ten Google nebyl úplně mimo, když založil svou architekturu na komoditním hardwaru. Od té doby se zjistilo, že to byla geniální myšlenka.

  • 12. 7. 2018 7:27

    Adam Kalisz

    Ono dost záleží na tom, jak se ten hardware skutečně chová v praxi. Ono když hardware lže, tak toho není až tak mnoho, co můžete dělat. Taky je problém, že vždy bude určitá pravděpodobnost, že se Vám chyby sejdou a stejně budete mít výpadek. Jedná se o jedno z poměrně špatně objasněných témat a na jakékoliv výpočty potřebujete model a podle toho, co vím, tak ty modely můžou mít hodně odlišné či přímo protichůdné výsledky a to stačí jen drobný rozdíl v předpokladech.

    Co hlavně všichni zapomínají, že mít jen jednoho nebo dva zasvěcené databázové adminy v miliardovém podniku je tak trochu málo. Jeden na dovolené, druhý onemocní a hned máte dobu obnovy + 1-2 dny v optimistickém případě, kdy se admin dopraví z dovolené zpět do země resp. se připojí přes remote odněkud a instruuje lidi ve firmě.

    Myslím, že Google to prostě řeší tak masivní redundancí, quorem/ rozhodnutím většiny (bloků dat) a navíc počítají s určitou chybou prakticky na denním pořádku, že to jsou úplně jiné podmínky. Alza je oproti Google jako pískoviště proti písáku. Google zaměstnává řádově více inženýrů a administrátorů, než o čem si Alza může nechat zdát. V Alze navíc asi nebudou mít nutně kompetenci si napsat jak databázi, tak distribuovaný storage a to nemluvíme o tom, že nemusí dávat smysl něco takového implementovat - prostě protože je levnější jednou za pár let mít 1-2 dny výpadek. Tak holt mají dostupnost "jen" 99,95% (když počítám jednou za tři roky, tak to zhruba na těch 27 hodin sedí) místo 99,999% (jednou za tři roky 15 minut výpadek).

    Díky za zkušenosti. Taky mám dojem, že např. Red Hat má lepší podporu než Microsoft, ale zatím nemůžu moc doporučit přeprodanou podporu od HPE co se týče Red Hat. Jako problém se vyřeší, ale přímo Red Hat reaguje daleko svižněji i když by podle smlouvy nemuseli. HPE má dost krkolomné support procesy.

  • 12. 7. 2018 7:17

    Filip Jirsák

    U toho řešení Google ale zapomínáte porovnávat ještě cenu. Nebo-li nevyšlo by Alzu nakonec dráž „Google“ řešení v porovnání s jejich současným řešením, a to i když započítáte náklady na ten výpadek? A porovnávat můžete různé varianty – „Google řešení“ in-house postavené vlastními prostředky v Alze, Alza hostovaná v Google cloudu, a pak také varianty migrace starého řešení Alzy do cloudu vs. Alza startuje v roce 2015 a píše cloudové řešení na zelené louce.

    Ono totiž mít geniální myšlenky je mnohem snazší, když na to máte rozpočet.

  • 11. 7. 2018 23:55

    Q (neregistrovaný)

    vidim ze je tu pametnik velmi davnych casu.. nerozbitne pole neexistuje. Ale kdyz v v IBM DS nemenite vadne disky, mate blbe udelany RAID a jeste to nechate varit mimo provozni teploty, tezko se pak divit ze to jednou spadne.. pole bylo opravene hned, ale recovery trval dlouho.

  • 15. 7. 2018 0:24

    nhlfan (neregistrovaný)

    to sa mi paci :) Ale aj IBM DS som videl vselico. Silent data corruption na DS8300, corruption dat pocas patchovania firmware a tak... A aj IBM DS ma option PPRC, abysa pekne zrkadlilo na druhe IB DS ;) Dnes mozno radsej 2x storwize s metro mirror, ako len jedno DS ako SPOFZ

  • 15. 7. 2018 0:03

    nhlfan (neregistrovaný)

    lenze akosi sa zabuda ze ten sw musi byt genialne navrzeny aby sa dalo bezat na komoditnom HW. Kazde aj mid range pole vie dnes synchronne zrkadlit. Len niekto nesmie setrit... ta strata 27h musela byt obrovska

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).