Nedávný globální výpadek IT systémů způsobený aktualizací bezpečnostního nástroje od společnosti CrowdStrike jasně ukázal, jak zranitelné mohou být moderní organizace závislé na technologiích. Tento incident, který ochromil banky, letecké společnosti, nemocnice i úřady po celém světě, slouží jako varovný příklad a zdůrazňuje potřebu robustních strategií pro zajištění kontinuity provozu. Zde je soubor klíčových opatření, která mohou především větší a regulované (DORA, NIS2) organizace přijmout, aby minimalizovaly dopady podobných incidentů v budoucnu:
1. Plán kontinuity provozu (Business Continuity Plan - BCP)
Základem připravenosti na krizové situace je důkladně vypracovaný a pravidelně aktualizovaný plán kontinuity provozu. Tento plán by měl začínat důkladnou analýzou rizik a zranitelností ve vztahu ke klíčovým procesům a aktivům každé organizace. Pravidelná aktualizace těchto analýz umožní identifikovat potenciální slabá místa, ve kterých by výpadek způsobený interní chybou nebo třeba selháním dodavatele organizaci zasáhl nejbolestivěji, dopředu je řešit.
Na základě analýzy by organizace měla vytvořit detailní plán pro udržení a obnovení klíčových funkcí a služeb během výpadků. Tento plán by měl zahrnovat alternativní pracovní postupy a komunikační kanály, které lze rychle aktivovat v případě krize. Je důležité, aby plán byl dostatečně flexibilní a mohl se přizpůsobit různým scénářům.
Klíčovým aspektem BCP je jeho pravidelné testování. Provádějte simulace různých krizových scénářů, abyste zajistili, že váš plán je aktuální, úplný a funkční a že všichni zaměstnanci vědí, jaká je jejich role v případě výpadku. Tyto testy vám také pomohou identifikovat případné mezery nebo slabiny ve vašem plánu dříve, než na ně poukáže skutečná krize.
2. Diverzifikace a redundance IT infrastruktury
Jedním z nejúčinnějších způsobů, jak snížit riziko úplného výpadku business a/nebo IT služeb, je diverzifikace a redundance IT infrastruktury. To zahrnuje přípravu redundantních serverů a síťových zařízení, která mohou okamžitě převzít provoz v případě selhání primárních systémů podporujících klíčové funkce a procesy.
Důležitým prvkem je i geografická diverzifikace IT zdrojů. Uložením dat a systémů v různých lokalitách můžete minimalizovat riziko úplného výpadku v případě regionální katastrofy nebo výpadku.
3. Zálohování dat
Robustní strategie zálohování dat je klíčová pro rychlou obnovu po jakémkoli typu výpadku služeb. Implementujte takový mechanismus zálohování, který umožňuje dostatečně rychlou obnovu systémů a dat do stavu před incidentem (havarijní situací).
Je důležité ukládat zálohy na fyzicky oddělených místech a šifrovat je tak, aby byly chráněny před neoprávněným přístupem. Toto opatření vás chrání nejen před fyzickými hrozbami, ale také před kybernetickými útoky.
Pravidelnost zálohování je klíčová. Implementujte takový systém zálohování, který provádí zálohy tak často, jak vyžadují vaše procesy, ideálně do jiné lokality. Uchovávejte více verzí záloh, abyste měli možnost obnovit data z různých časových bodů v případě potřeby.
4. Monitoring a rychlá reakce na incidenty
Schopnost rychle detekovat a reagovat na provozní či bezpečnostní incidenty může významně snížit závažnosti jejich dopadu. Implementujte pokročilé monitorovací nástroje, které mohou v reálném čase detekovat neobvyklé aktivity a potenciální hrozby ve vaší síti.
Vytvořte specializovaný tým pro reakci na incidenty. Tým musí být připraven k rychlé akci při jakémkoliv IT výpadku. Tento tým by měl mít jasně definované role a odpovědnosti, měl by podle povahy incidentu či výpadku zahrnovat zaměstnance z dotčených útvarů a s odpovídající rozhodovací pravomocí a měl by být dobře vycvičen v postupech rychlé reakce.
5. Vzdělávání zaměstnanců
Vaši zaměstnanci jsou první linií obrany proti výpadkům IT služeb a bezpečnostním hrozbám. Pravidelně je školte na postupy při IT výpadcích a na používání alternativních komunikačních a pracovních nástrojů. Zajistěte, aby každý zaměstnanec věděl, jak postupovat v případě výpadku.
Kromě toho je důležité neustále posilovat povědomí o kybernetické bezpečnosti a správném používání IT systémů mezi všemi zaměstnanci. Pravidelná školení a informační kampaně mohou významně snížit riziko lidských chyb, které často vedou k bezpečnostním incidentům.
6. Správa aktualizací
Pro prevenci výpadků způsobených softwarovými chybami je nezbytná rovněž pečlivá správa aktualizací. Při instalaci aktualizací buďte opatrní. Před plošným nasazením jakékoli aktualizace ji důkladně otestujte v kontrolovaném prostředí. Incident způsobená instalací nedostatečné aktualizace není vinou vašeho dodavatele, ale selháním vašich procesů.
Vytvořte proces pro pravidelnou kontrolu a testování aktualizací. Zvažte použití nástrojů pro jednotnou správu aktualizací, které vám umožní centrálně řídit a monitorovat stav aktualizací napříč vaší infrastrukturou. Tím snížíte riziko, že problematická aktualizace ovlivní celou vaši organizaci.
7. Spolupráce s dodavateli
Vaše bezpečnost, odolnost a kontinuita provozu závisí i na vašich dodavatelích a obchodních partnerech. Uzavřete s nimi smlouvy o úrovni služeb (SLA), které jasně definují jejich odpovědnosti a garantují rychlou a efektivní reakci na problémy. Tyto smlouvy by měly zahrnovat konkrétní metriky pro dobu odezvy a řešení problémů.
Pravidelně prověřujte a hodnoťte své dodavatele a partnery z hlediska jejich bezpečnostních opatření a spolehlivosti. Toto hodnocení by mělo zahrnovat audity jejich bezpečnostních praktik, plánů kontinuity provozu a schopnosti reagovat na incidenty. Buďte připraveni změnit dodavatele, pokud nesplňují nebo nejsou ochotni splnit a doložit vaše bezpečnostní a provozní standardy.
8. Příprava na obnovu po výpadku (Disaster Recovery Plan - DRP)
Vypracujte podrobný plán obnovy po havárii (DRP), který bude navazovat na plán kontinuity provozu. DRP by měl obsahovat konkrétní kroky a odpovědnosti pro rychlou obnovu informačních systémů a dat po závažném incidentu (havarijní situaci). DRP by měl také jasně definovat priority obnovy, cílové doby obnovy pro každý kritický systém a postupy pro přechod zpět k normálnímu provozu.
Plán obnovy po havárii pravidelně testujte, abyste zajistili jeho aktuálnost a efektivitu. Tyto testy by měly simulovat různé scénáře havarijních situací a zahrnovat všechny klíčové stakeholdery (interní i externí). Po každém testu proveďte důkladnou analýzu a aktualizujte plán na základě získaných poznatků.
9. Šifrování dat
Šifrování je klíčovým nástrojem pro ochranu dat, ale zároveň se může stát překážkou při obnově systémů, pokud nejsou správně spravovány šifrovací klíče. Zálohujte obnovovací klíče pro šifrovací nástroje a zajistěte, aby byly bezpečně uloženy a snadno dostupné oprávněným osobám v případě potřeby.
Vytvořte a dodržujte striktní politiky pro správu šifrovacích klíčů, včetně pravidelné rotace klíčů a bezpečného ukládání záloh. Zvažte použití systému pro správu klíčů, který poskytuje centralizovanou kontrolu a auditní stopu pro všechny operace s klíči.
10. Nespoléhejte jen na cloud
Přestože cloudové služby nabízejí mnoho výhod, je důležité nespoléhat pouze na cloud. Mějte zálohy kritických dat a systémů i mimo cloud (pokud je to technicky možné) a zajistěte možnost práce bez připojení k internetu pro klíčové business procesy. Takovéto hybridní řešení vám poskytne větší flexibilitu a odolnost v případě výpadků cloudových služeb.
Pravidelně přehodnocujte svou strategii využití cloudu a zvažte multi-cloudový přístup nebo hybridní řešení, které kombinuje on-premise a cloudové prostředí. Tím snížíte závislost na jediném poskytovateli a zvýšíte celkovou odolnost vaší IT infrastruktury.
11. Threat Intelligence
CrowdStrike incident ukázal, jak je dnešní globalizovaný svět vzájemně propojen a že i prostřednictvím IT systémů tvoří opravdu jednu globální síť. Proto je třeba monitorovat nejen incidenty, které se stanou uvnitř firmy, ale je v odpovídající míře sledovat i globální dění na internetu a využívat threat intelligence, abychom byli schopni předejít nežádoucím dopadům podobných globálních incidentů.
CrowdStrike incident nepostihl náhle celý svět, ale šířil se postupně. Firmy působící například v Evropě či v USA, které monitorují externí hrozby a aktuální dění, mohly poté, kdy se incident začal šířit v Austrálii, přijmout opatření k minimalizaci dopadů. Zejména pro větší společnosti je proto klíčové monitorovat externí hrozby a využívat threat intelligence v režimu 24/7.
Investice do bezpečnosti se mnohonásobně vyplatí!
Implementace uvedených opatření vyžaduje značné úsilí a investice jak do lidí, tak do technických prostředků. V dlouhodobém horizontu se však jednoznačně vyplatí. Organizace, které jsou připraveny na IT výpadky a mají robustní strategie pro zajištění kontinuity provozu, jsou schopny rychleji a efektivněji reagovat na krizové situace, minimalizovat finanční ztráty a udržet si důvěru svých zákazníků a partnerů.
V dnešním digitálním světě není otázkou, zda k výpadku či jinému incidentu dojde, ale kdy se tak stane. Být připraven je klíčem k přežití a konkurenční výhodě v globálním a vzájemně propojeném IT prostředí.