Hlavní navigace

Vlákno názorů k článku Jak nám v Alze aktualizace Windows způsobila výkonové problémy databáze od fd - Na testovacim prostredi prevazne nemate sanci vygenerovat takovy...

Článek je starý, nové názory již nelze přidávat.

  • 3. 9. 2018 8:48

    fd (neregistrovaný) 2a01:8d00:4000:----:----:----:----:----

    Na testovacim prostredi prevazne nemate sanci vygenerovat takovy provoz nebo takove podminky aby se chyba projevila v nejakem pricetnem case. Specielne u win prostredi si tak maximalne muzete overit, ze to po aktualizaci nastartuje, a pak mozna par dnu pockat, zda se na internetu neobjevi popis nejakeho prusvihu.

  • 4. 9. 2018 8:30

    fd (neregistrovaný) 2a01:8d00:4000:----:----:----:----:----

    Mozna a hypoteticky muzete postavit nejaky test na odhlaleni teto konkretni chyby, ale nikoli test ktery odhali libovolnou potencileni chybu. Nemate naprosto zadnou sanci. Pokud chcete generovat nejakou zatez, muzete v optimalnim pripade proste "prehrat" provoz realny, jenze, hodlate ho prehravati den? dva? tri? tyden? Pak se chyba projevi napropsto zarucene presne minutu po te, co test ukoncite.

    Pricemz pomijim celou radu dalsich aspektu, kdo si tak muze dovolit mit exaktni kopii HW i SW konfigurace a pravidelne ji udrzovati synchronni s provoznim systeme. Prevazne se testuje na HW vyrazenem pri posledni obmene provozniho. A prave na nem se chyba nemusi projevit vubec.

    Cimz se dostavame k penezum, a prostemu dusledku, ze sem tam nejaky ten vypadek je zkratka zcela akceptovatelny stav.

  • 3. 9. 2018 7:27

    bez přezdívky

    Zaujímalo by ma ako to budete do budúcna riešiť. Je to kumulatívna aktualizácia za 07/2018 a budúci mesiac to tam máte zase. Jedine žeby to MS opravil, samozrejme ak sa o tom dozvie.
    My sme tak čakali na opravu na opravu jádra na 2012 R2 niekoľko mesiacov. Chyba spôsobovala na špecifickom hardware že jádro otváralo stále nové Threads až sa server za 25-26 hodín reštartoval. Trvalo mi niekoľko dní kým som chybu odhlalil.
    Prekvapuje ma že aktualizácie netestujete na testovacom prostredí. Aspoň to tak z články vyplýva, ináč by ste nato museli prísť pred nasadeným do produkcie.

  • 4. 9. 2018 12:00

    fd (neregistrovaný) 2a01:8d00:4000:----:----:----:----:----

    Takze vy vubec nevite proc se testuje, ale vykladate tu o tom jak se ma testovat, vskutku zabavne.

    Libovolne testovani se totiz dela prave proto, aby se odhalila predem neznama chyba, odhalovat chybu znamou je tak nejak pro kocku. Stejne jako je vam naprosto prokocku i to, ze budete replikovat provoz ostreho prostredi, protoze uz jen to, ze ten provoz je treba o den zpozdeny muze ovlivnit vysledky natolik, ze jsou knicemu. Treba proto, ze dotycna chyba se projevi jen ve specificke kombinaci akci a casu. Chcete priklad? To se takhle zakaznikova aplikace pokusila zapsat aktualni cas ... xx:xx:60. Muzete testovat klidne mesice. Na zadny problem nenarazite, protoze prestupnou sekundu musel vymyslet orpavdu Mozek.

    A vite jak se zajistuje provoz kde je treba opravdu vysoka spolehlivost? Predevsim se nic (a to naprosto dusledne) nepatchuje. Nikdy. Pripadna bezpecnost se zajistuje jinak.

  • 4. 9. 2018 12:22

    Tom (neregistrovaný) ---.nxiii.cc

    Testy v aplikace přece vždy píšu na známé chyby a chování, ne?

    Kdo mluvil o denním zpoždění? Vždyť data na preprod mohou posílat rovnou, či zavést hot seat, nemusím jen snapshotovat provoz.

    Nevím, nikdy jsem provoz vysoké dostupnosti asi neviděl :). Nepatchuje? Důsledně? Co je v tomhle kontextu patch? Vždy se musí aktualizovat, mohu používat rolling patching, mohu postupně nasazovat, mohu dělat big bang atd. Neexistuje nejlepší řešení, ale vždy kompromis.

  • 3. 9. 2018 23:28

    Tom (neregistrovaný) ---.nxiii.cc

    ale no tak :). Je možné udělat slepý odklon části provozu a zjistit korelace. Preprod prostředí je běžné prostředí u systému s HA. Tady se jedná o web, není problém generovat zátěž na webu vč. objednávek, pravděpodobně takové testy i mají. Z článku není ani patrné, že by se chyba projevovala až při vysoké zátěži.

    Každopádně chápu, že alza má určitou infrastrukturu a nemůže si dovolit dělat změnu každý rok a současný stav vychází z určitých omezení v historii.

  • 4. 9. 2018 9:45

    Tom (neregistrovaný) ---.nxiii.cc

    kdo mluvil o libovolné potenciální chybě? Psal jsi, že na testu nemáš jak vygenerovat takový provoz, na to ale existují strategie s pre-prod a duplikováním provozní zátěže, může být kontinuální a o tom jak dlouho to chci testovat rozhoduje pouze testovací strategie a míra rizik.

    Dovolit si to může firma, které záleží na tom, aby chyby nebyl v produkci, spousta infrastrukturních prvků se takhle testuje, některé banky takhle fungují, dokonce i pojišťovny, je toho spousta.

    Jasně, je to o penězích, ale netvrď, že není možné generovat na testovacím prostředí produkční provoz, je to možné a děje se to, ne všichni jsou takoví kaskadéři, aby si z produkce dělali testing. Existuje i u nás spousta čtyř, pěti devítkových služeb a ty to jinak dělat nemohou.