Hlavní navigace

Šťoura: Telecomu nefungoval mailserver

Marek Antoš

Několik desítek tisíc zákazníků Internet OnLine včera během dne narazilo na nepříjemný problém - SPT TELECOMu nefungoval poměrně dlouhou dobu, takřka půl dne, jejich mailserver, takže nebylo možné přijímat ani odesílat poštu.

Na to, že se něco děje, jsem přišel už poměrně brzo dopoledne. Opět se mi osvědčil můj obvyklý způsob zjišťování podobných malérů – rozeslal jsem totiž „Lupí novinky mailem“ a posléze si všiml, že ve frontě zůstalo přehršel mailů, které měly odejít právě do sítě Telecomu; naše novinky má zapsáno několik desítek uživatelů z této sítě, takže všimnout si nevyžadovalo žádný velký postřeh.

Během dne bych však na to byl možná zapomněl, nebýt dvou šťourů, kteří mně na to upozornili – poděkovaní tentokrát letí k Radoslavu Řezníčkovi a Michalovi Švigovi, který dokonce připojil i výpis pingu, který učinil:

C:WINDOWS>ping mail.telecom.cz
Pinging kerberos.telecom.cz [194.228.2.35]
with 32 bytes of data:
Reply from 194.228.176.3: Destination net unreachable.
Reply from 194.228.176.3: Destination net unreachable.
Reply from 194.228.176.3: Destination net unreachable.
Reply from 194.228.176.3: Destination net unreachable.

Tyto problémy podle šťourů trvaly od časného dopoledne až zhruba do dvou hodin.

SPT TELECOM má pro většinu svých domén nastaveny dva mailservery. Prvním, tedy prioritním je server kerberos.telecom.cz, kam má standardně pošta směřovat a kde se přijímá. Ten byl po celou popisovanou dobu nedostupný. Druhým serverem, který obstarává relay pro tyto domény, je ns2.tel.cz. Ten včera sice fungoval, ale jednak byl evidentně přetížený, takže přestože port 25 otevřel hbitě, komunikovat začínal se značným zpožděním a spojení nezřídka vytimeoutovalo. Ani pošta doručená na tento server však neměla vyhráno: tady se totiž jen uložila do fronty a čekala, až se ze svého spánku probudí Kerberos, kterému pak byla předána a teprve on ji roztřídil do schránek uživatelů. Pro odchozí poštu platilo něco velmi podobného: vzhledem k tomu, že uživatelé mají ve svých programech napevno nastavený server Kerberos, při jeho nedostupnosti nemohou poštu odeslat vůbec.

O stanovisko jsme požádali také provozovatele služby Internet OnLine a musím je v této souvislosti pochválit alespoň za to, že jejich reakce byla velmi pružná, ačkoliv jsem žádost odeslal až ve tři hodiny odpoledne:

Mailserver služby IOL byl dnes v době od 9:30 do 14:30 neplánovaně mimo provoz. Příčinou byla kombinovaná HW a SW závada, která vedla k uvedenému výpadku. Závada na diskovém poli, která byla okamžitě detekována naším monitorovacím systémem, vedla k nutnosti restartovat celý systém. Bohužel SW chyba, jejíž příčiny dosud analyzujeme, znemožnila okamžité zprovoznění celého systému. Vzhledem k tomu, že náš hlavní mail server je realizován jako High Availability řešení, nepoužíváme druhý mail server jako plnohodnotnou zálohu, ale pouze jako relay server pro překlenutí skutečně krátkodobých výpadků hlavního serveru. Všem našim uživatelům IOL, které uvedená závada postihla, se touto cestou omlouváme.

EBF17

Marek Antoš


Starší, související články:

Našli jste v článku chybu?