Vytvořte svůj první obsah
02. prosinec 2017
3 minuty
Provoz služby solidpixels bereme vážně. Od začátku našeho fungování se snažíme dělat vše pro to, abychom zajistili její maximální bezpečnost a dostupnost. Výpadek na našem serveru přesto způsobil nedostupnost klientských webů. Proto je třeba realizovat změny v naší infrastruktuře i procesech, aby k podobně dlouhému výpadku už nemohlo dojít.
Co se stalo
Dopoledne v pátek 28. května jsme zaznamenali technickou chybu skriptu na serverech solidpixels, která způsobila nekonzistenci datového uložiště a souborů. Nebyla však narušena nijak jejich bezpečnost. Problém postupně vedl k omezení provozu a také výpadkům webů běžících na solidpixels - včetně webu solidpixels.net, což vedlo k nedostupnosti kontaktů na naši podporu.
Příčinu jsme našli a začali okamžitě pracovat na jejím odstranění, ale kvůli způsobené nekonzistenci dat jsme museli ihned přistoupit ke kompletní obnově ze zálohy. I přes plné nasazení však nahrávání takového množství dat probíhalo bez přerušení až do soboty. Jednotlivé weby tak od výpadku začaly fungovat postupně jeden za druhým.
Měníme zálohovací systém
Z rychlosti obnovy dat během pátku a soboty je jasné, že je nutné zásadně předělat zálohovací systém. Technické chyby se dějí, ale reakce na ně musí být rychlejší a přesnější. Naše kritéria pro technické řešení jsou následující:
- I kompletní obnova dat ze zálohy musí probíhat v řádech desítek minut.
- Zálohy musí být zcela spolehlivé a kompletní.
- Recovery scénáře musíme dopředu trénovat a měřit čas obnovy.
- Stávající zálohovací systém zůstane jako sekundární vrstva záloh.
Proto do sytému již tento týden zapojujeme nový způsob zálohování, který v pravidelných intervalech vytváří snapshoty všech webů a jejich dat. Pomůže nám vyřešit rychlou obnovu. A v případě kritického problému lze tento server využít pro přímý dočasný provoz než bude sjednána oprava. Nyní nás čekají simulace a testy nových komponent i recovery scénářů.
Nový proces pro komunikaci incidentu
Stejně jako měníme systém zálohování, je třeba změnit systém krizové komunikace. Chceme, aby v případě výpadku měli naši klienti informace rychle a průběžně. Zároveň všichni pracujeme na tom, abychom takovou komunikaci nemuseli nikdy použít. Pro lepší nastavení krizové komunikace děláme následující:
- nastavujeme přesný proces pro identifikaci a komunikaci závad
- e-maily pro krizovou komunikaci připravujeme dopředu, abychom ji v případě incidentu pouze použili
- pracujeme na statusové stránce, na které se každý dozví, jak na tom aktuálně jsme
- revidujeme kontakty na všechny klienty a uživatele
To jsou změny, které jsme realizovali od víkendu. V následujících týdnech nás čekají simulace výpadků a jakmile budeme mít uspokojivé výsledky, dáme vám zase vědět o tom, kam jsme se společně posunuli.