Všechno, co potřebujete vědět o našem výpadku 28. května 2021

Vytvořte svůj první obsah

3 minuty

Provoz služby solidpixels bereme vážně. Od začátku našeho fungování se snažíme dělat vše pro to, abychom zajistili její maximální bezpečnost a dostupnost. Výpadek na našem serveru přesto způsobil nedostupnost klientských webů. Proto je třeba realizovat změny v naší infrastruktuře i procesech, aby k podobně dlouhému výpadku už nemohlo dojít.

Co se stalo

Dopoledne v pátek 28. května jsme zaznamenali technickou chybu skriptu na serverech solidpixels, která způsobila nekonzistenci datového uložiště a souborů. Nebyla však narušena nijak jejich bezpečnost. Problém postupně vedl k omezení provozu a také výpadkům webů běžících na solidpixels - včetně webu solidpixels.net, což vedlo k nedostupnosti kontaktů na naši podporu.

Příčinu jsme našli a začali okamžitě pracovat na jejím odstranění, ale kvůli způsobené nekonzistenci dat jsme museli ihned přistoupit ke kompletní obnově ze zálohy. I přes plné nasazení však nahrávání takového množství dat probíhalo bez přerušení až do soboty. Jednotlivé weby tak od výpadku začaly fungovat postupně jeden za druhým.

Měníme zálohovací systém

Z rychlosti obnovy dat během pátku a soboty je jasné, že je nutné zásadně předělat zálohovací systém. Technické chyby se dějí, ale reakce na ně musí být rychlejší a přesnější. Naše kritéria pro technické řešení jsou následující:  

  • I kompletní obnova dat ze zálohy musí probíhat v řádech desítek minut.
  • Zálohy musí být zcela spolehlivé a kompletní.
  • Recovery scénáře musíme dopředu trénovat a měřit čas obnovy.
  • Stávající zálohovací systém zůstane jako sekundární vrstva záloh.

Proto do sytému již tento týden zapojujeme nový způsob zálohování, který v pravidelných intervalech vytváří snapshoty všech webů a jejich dat. Pomůže nám vyřešit rychlou obnovu. A v případě kritického problému lze tento server využít pro přímý dočasný provoz než bude sjednána oprava. Nyní nás čekají simulace a testy nových komponent i recovery scénářů.

Nový proces pro komunikaci incidentu

Stejně jako měníme systém zálohování, je třeba změnit systém krizové komunikace. Chceme, aby v případě výpadku měli naši klienti informace rychle a průběžně. Zároveň všichni pracujeme na tom, abychom takovou komunikaci nemuseli nikdy použít. Pro lepší nastavení krizové komunikace děláme následující:

  • nastavujeme přesný proces pro identifikaci a komunikaci závad
  • e-maily pro krizovou komunikaci připravujeme dopředu, abychom ji v případě incidentu pouze použili
  • pracujeme na statusové stránce, na které se každý dozví, jak na tom aktuálně jsme
  • revidujeme kontakty na všechny klienty a uživatele

To jsou změny, které jsme realizovali od víkendu. V následujících týdnech nás čekají simulace výpadků a jakmile budeme mít uspokojivé výsledky, dáme vám zase vědět o tom, kam jsme se společně posunuli.

Vyzkoušejte si, co jste se právě naučili