S
Smazaný uživatel 666
Návštěvník
FYI
Vážený zákazníku,
dovolujeme si Vás upozornit na následující událost:
Typ: porucha
Doba trvání: až 10 hodin
Datum a čas od: 2022-03-21 17:46:00
Datum a čas do: 2022-03-22 03:52:00
Popis:
Dobrý den,
úvodem se velice omlouváme za způsobené komplikace. V pondělí 21.03.2022 zhruba v 17:46 se objevil problém na naší interní síti, který zapříčinil problémy v komunikaci na virtuální síti (vlan) mezi servery v serverových skříních HPE Moonshot a některými datovými úložišti (3PAR Storage Server). Ačkoliv se tomu okamžitě začali naši technici naplno věnovat nedařilo se nám rychle objevit přesnou příčinu. Zhruba po 18. hodině situace gradovala až došlo ke znatelnému zpomalení sítě mezi servery a úložišti.
Ze začátku jsme hledali problém u serverů a provedli všechny standardní úkony, včetně postupného restartu páteřních switchů (kolem 19:00), což problém bohužel nevyřešilo.
Kolem 20:00 jsme objevili, kde vázne komunikace na virtuální síti, nicméně problém způsobil přetížení serverových úložišť. Síť byla velmi zpomalená a bylo nutné provést její celkový restart. Následně bylo prováděno postupné spouštění jednotlivých úložišť, kontrolování integrity dat a mnoho dalších úkonů, které mají předejít poškození dat. Máme řadu interních procesů podle kterých je prioritou ujistit se, že data jsou v pořádku, před ukvapeným spuštěním.
Někdo zřejmě využil příležitosti, že máme problémy a detailně o tom informujeme na status stránce a sociálních sítích, a spustil v 21:17 masivní plošný DDoS útok o síle několika stovek Gbps a dlouhodobě přes 120 Gbps do segmentu sítě, kde jsou webhostingy. Útok byl veden na úplně všechny naše IP adresy a proto nešlo jednoduše filtrovat nebo blokovat jednotlivé dílčí útoky na jednotlivé weby. Ačkoliv tento útok eliminovala naše ochrana, komplikovalo to práci některých našich kolegů. Útok totiž ucpal i řadu ISP, přes které se připojovali technici a další naši pracovníci. Jen z českého NIX šlo několik desítek Gbps. Z tohoto důvodu byla dočasně zavedena na ochranách přísnější pravidla až do 3:52, abychom mohli v klidu pracovat a vyřešit problém.
Od 22:24 někdo začal útočit i na naši status stránku, kterou máme záměrně u jiných poskytovatelů v zahraničí, aby její dostupnost nesouvisela s provozem u nás. Status stránka není chráněna naší ochranou a tak rychle došlo k její nedostupnosti.
Kolem 22:30 byl propojen poslední server se službami VPS ON a WEDOS Cloud se svým úložištěm. U jednotek případů jsme evidovali dodatečné problémy, které se snažila podpora se zákazníky přímo řešit a pomáhat jim. U VPS ON a WEDOS Cloud jsme zaznamenali celkově jen několik zákazníků s problémy. Nejprve zpomalení a potom u několika read-only úložiště. Během restartů páteřních switchů byla úložiště nedostupná na jednotky minut pro větší množství serverů.
U webhostingů byla situace komplikovanější. Po 22:35 začaly nabíhat první webhostingové webservery. Ze začátku byly pomalé, protože úložiště pořád ještě připojovalo další disky a provádělo potřebné operace po restartu. Bohužel největší problém byl v tom, že se jednotlivé servery musely "zaregistrovat" na úložišti, aby se mohly následně spustit, což bylo možné dělat postupně.
Máme postupy jak postupně spouštět služby, tak aby to bylo co možná nejrychlejší. Kolem 1:00 už většina webhostingových serverů byla spuštěna. Zhruba ve 2:05 pak bylo spuštěno téměř vše až na jednotky výjimek, kde se vyskytla nějaká komplikace. Oficiálně všechny servery, se všemi službami, včetně všech problémových a nestandardních jely na úložištích od 3:30.
Následně jsme detekovali ještě problémy se synchronizací dat v databázích, ale jelikož máme databáze v replikaci master-slave v reálném čase, tak stačilo u těchto rozbitých databázových serverů prohodit slave za master a vše naskočilo. Nicméně vzhledem k vytíženosti techniků tento úkon nebyl proveden okamžitě, jak je zvykem.
V 3:52 jsme vypnuli všechna nadstandardní pravidla na ochranách. Do té doby mohl být znatelně zpomalen provoz ze zahraničí a i některých českých sítí, ze kterých se běžně hodně útočí.
Výše uvedené události jsou jen zkrácený výčet, toho co se všechno u nás stalo. Každý z nás, kdo mohl, tak byl online a pomáhal hledat problém. O problémech jsme informovali na naší status stránce (WEDOS Status - aktuální stav služeb) a sociálních sítích. Bohužel jsme nemohli poslat e-mail, protože než bychom to všechno rozeslali, tak by to trvalo přes 8 hodin.
Za způsobené komplikace se Vám omlouváme. Bohužel nebylo v našich silách vyřešit problém rychleji. Naši technici budou ještě celou událost blíže zkoumat. Zároveň provedeme úpravy, abychom podobnému problému mohli předejít.
V nejbližších dnech vyměníme 2 poslední páteřní switche HPE za výkonnější a univerzálnější Aristy, které už máme všude. To nám zjednoduší správu sítě a rychleji budeme moct podobným problémům předcházet. Zároveň všechny webhostingy nasměrujeme na WEDOS Global, kde budeme útoky filtrovat blíže ke zdroji. Slibujeme si od toho také snížení zátěže za servery a nové možnosti filtrování útoků na aplikační vrstvě, což by řadě zákazníků s oblíbenými redakčními systémy mohlo ulevit.
Chápeme že Vám výpadek mohl způsobit problémy, bohužel vzhledem k počtu žádostí nejsme schopni individuálně vyhovět každému. Pokud máte u nás službu VPS ON, WEDOS Cloud, NoLimit, WebSite, LowCost anebo WMS, která byla zasažena a chcete období zdarma, tak nám prosím napište odpověď na tento e-mail a v něm uveďte číslo služby (případně název), které chcete jako omluvu prodloužit. Jsme si vědomi závažnosti problému a tak služby prodloužíme i nad rámec smluvních podmínek.
Ještě jednou se omlouváme za způsobené komplikace.
Tato událost se týká následujících Vašich služeb:
Webhostingy:
- prekladyher.eu
S přáním hezkého dne,
WEDOS Internet, a.s.
Masarykova 1230
373 41 Hluboká nad Vltavou
E-mail: [email protected]
URL: Nejoblíbenější, nejprodávanější a největší hosting v ČR - WEDOS.cz
Nejrychleji rostoucí a zároveň největší hosting v ČR