Как работи Disaster Recovery: системите зад оперативната устойчивост
TL;DR
Оперативните прекъсвания рядко възникват точно там, където организациите очакват.
Скорошните геополитически конфликти и нарастващото международно напрежение показаха колко бързо могат да бъдат засегнати инфраструктури и дигитални услуги. Кибератаки, инфраструктурни сривове или външни събития могат да прекъснат услуги дори когато вътрешните системи на организацията остават защитени.
Това, което определя колко бързо операциите ще бъдат възстановени, не е късмет.
То е подготовка.
Организациите, които успяват да възстановят услугите си бързо, обикновено имат три ключови елемента:
• тествани стратегии за архивиране на данни
• ясно дефинирани процеси за Disaster Recovery
• възстановителни среди, които могат да бъдат активирани при отказ на основната инфраструктура
Самото архивиране не означава възстановяване.
А плановете за възстановяване, които никога не са били тествани, рядко работят както се очаква по време на реален инцидент.
Оперативната устойчивост зависи от това възстановяването да бъде планирано предварително, интегрирано в политиките за бизнес непрекъсваемост и редовно тествано, за да се гарантира, че организацията действително може да възстанови критичните услуги, когато системите спрат.
Тази статия разглежда практическата разлика между backup, disaster recovery и recovery environments, както и защо тези процеси трябва да работят заедно, за да поддържат бизнес непрекъсваемостта.
Организациите все по-добре разбират значението на планирането на бизнес непрекъсваемост.
Когато обаче възникне инфраструктурно прекъсване, много бързо възниква един практичен въпрос:
Как всъщност системите се връщат обратно в работа?
Бизнес непрекъсваемостта определя как операциите трябва да продължат по време на прекъсване. Disaster Recovery определя как системите се възстановяват и връщат обратно в експлоатация след инцидент.
Разбирането на тази разлика е ключово за организациите, които разчитат на дигитални услуги.
Какво всъщност означава Disaster Recovery
Disaster Recovery често се бърка с възстановяване на данни от архив.
В действителност Disaster Recovery се фокусира върху възстановяването на цели работещи системи, включително инфраструктурата и зависимостите, необходими за функционирането на приложенията и услугите.
Това обикновено включва:
• сървъри и изчислителни среди
• системи за съхранение на данни
• приложения и платформи
• мрежова свързаност
• системи за идентичност и достъп
• интеграции между системите
С други думи, Disaster Recovery не е само извличане на данни.
Това е възстановяване на цялата среда, която позволява услугите да работят.
Защо архивите не са достатъчни
Архивирането е важна част от устойчивостта, но решава само част от проблема.
Backup защитава данните.
Disaster Recovery възстановява системите.
Организации, които разчитат само на архиви, могат да изпитат продължителни прекъсвания, ако инфраструктурата не може да бъде възстановена бързо или ако средата за възстановяване не е подготвена предварително.
Дори когато данните са налични, услугите не могат да се възобновят, докато системите, които използват тези данни, не бъдат възстановени.
Затова Disaster Recovery планирането се фокусира върху възстановителни среди и процеси, а не само върху защита на данните.
Основни компоненти на стратегия за Disaster Recovery
Добре проектираната стратегия за Disaster Recovery включва няколко ключови елемента.
Recovery среди
Това са алтернативни инфраструктурни среди, в които системите могат да бъдат стартирани, ако основната инфраструктура стане недостъпна. Често те са разположени в различен географски регион.
Процедури за възстановяване
Организациите дефинират ясни процеси за възстановяване на системи, приложения и услуги, така че реакцията при инцидент да не бъде импровизирана.
Автоматизация на инфраструктурата
Автоматизацията позволява инфраструктурата да бъде възстановена значително по-бързо, вместо системите да се изграждат ръчно.
Анализ на зависимостите
Много приложения зависят от множество други системи. Разбирането на тези зависимости е важно, за да бъдат системите възстановени в правилната последователност.
Цели за възстановяване: RTO и RPO
Disaster Recovery планирането включва и дефиниране на измерими цели за възстановяване.
Два от най-често използваните показатели са:
RTO (Recovery Time Objective)
Максимално допустимото време за възстановяване на система или услуга.
RPO (Recovery Point Objective)
Максимално допустимото количество загубени данни, измерено във времето.
Не всички системи изискват еднакви цели за възстановяване. Критичните системи обикновено изискват значително по-кратки времена за възстановяване.
Disaster Recovery as a Service (DRaaS)
В съвременните инфраструктури Disaster Recovery често се реализира чрез облачни платформи.
Този модел е известен като Disaster Recovery as a Service (DRaaS).
DRaaS позволява на организациите да поддържат възстановителна инфраструктура без да управляват втори център за данни.
Типичните DRaaS възможности включват:
• репликация на инфраструктура
• автоматичен failover
• оркестрация на възстановяването
• географски разделени recovery региони
Този модел улеснява планирането на възстановяването, но също изисква внимателна конфигурация и редовно тестване.
Технологията сама по себе си не гарантира устойчивост.
Защо тестването е критично
Една от най-честите слабости в Disaster Recovery стратегиите е липсата на реално тестване.
Процедурите могат да изглеждат правилни на хартия, но да се окажат неприложими при реален инцидент.
Тестването позволява на организациите да проверят дали:
• системите могат реално да бъдат възстановени
• зависимостите между системите са правилно идентифицирани
• процедурите работят както е планирано
• целите за възстановяване могат да бъдат постигнати
Един прост, но важен принцип често се потвърждава:
Ако възстановяването никога не е било тествано, то реално не съществува.
Disaster Recovery като част от оперативната устойчивост
Disaster Recovery не съществува самостоятелно.
То е част от по-широка рамка за устойчивост, която включва:
• бизнес непрекъсваемост
• мониторинг и откриване на инциденти
• процедури за реакция
• архивиране и защита на данни
Дори при добре изградени стратегии е възможно да възникнат временни прекъсвания.
Целта на Disaster Recovery не е да елиминира всички прекъсвания.
Целта е да намали тяхната продължителност и въздействие.
Перспективата на DIAMATIX
От гледна точка на оперативната сигурност устойчивостта се определя от способността за възстановяване.
Организациите, които поддържат тествани recovery среди, ясни процедури и добре дефинирани приоритети, обикновено се възстановяват значително по-бързо при инфраструктурни инциденти.
Този подход включва:
• планиране на инфраструктурно възстановяване
• анализ на системните зависимости
• постоянен мониторинг
• редовно тестване на recovery процедурите
Устойчивостта рядко е резултат от една технология.
Тя е резултат от подготовка, процеси и непрекъснато подобрение.
Заключение
Дигиталната инфраструктура днес е силно взаимосвързана.
Това позволява ефективност и мащаб, но създава и нови зависимости.
Когато възникне прекъсване, скоростта на възстановяване на системите става критична.
Disaster Recovery предоставя техническата и оперативна рамка, която позволява възстановяване на услугите и продължаване на операциите.
Прекъсванията невинаги могат да бъдат предотвратени.
Но тяхното въздействие може значително да бъде ограничено чрез подготовка.
Продължение на серията
Тази статия е част от серия за оперативна устойчивост.
Ако все още не сте прочели първата статия, можете да я намерите тук:
Когато възникнат инфраструктурни прекъсвания: защо планирането на бизнес непрекъсваемост е важно
В следващите статии ще разгледаме още теми, свързани с устойчивостта:
• стратегии за backup и защита на данните
• Business Impact Analysis и приоритизация на системите
• ролята на мониторинга и SOC в устойчивостта
Практически разговор
Всяка организация има различни инфраструктурни зависимости, приоритети и рисков профил.
Кратък експертен разговор често може да помогне да се изясни:
• кои системи са критични за операциите
• какви recovery цели са реалистични
• как трябва да бъде структурирана recovery средата
• как Disaster Recovery и бизнес непрекъсваемостта да бъдат интегрирани в организационните процеси
Ако вашата организация преразглежда своята стратегия за Disaster Recovery или бизнес непрекъсваемост, можете да насрочите кратък разговор с екипа на DIAMATIX.
Целта не е да обещаваме, че прекъсвания никога няма да се случат.
Целта е когато те се случат, възстановяването да бъде възможно, предвидимо и възможно най-бързо.
Навигация в серията
Част от серията DIAMATIX Operational Resilience
Тази статия е част от серия, посветена на това как организациите могат да се подготвят за инфраструктурни прекъсвания и да поддържат оперативна устойчивост.
Статии от серията:
Когато възникнат инфраструктурни прекъсвания: защо планирането на бизнес непрекъсваемост е важно
Как работи Disaster Recovery: системите зад оперативната устойчивост
Стратегии за архивиране, които действително подпомагат възстановяването след бедствия (следваща статия)
Анализ на въздействието върху бизнеса: Определяне на приоритетите за възстановяване (предстояща статия)
Всяка статия разглежда различен компонент на устойчивостта. От стратегическо планиране и архитектура за възстановяване до оперативни процеси, които помагат на организациите да възстановят услугите си, когато възникне прекъсване.
Ключови понятия в тази статия
Backup
Backup защитава организационните данни чрез създаване на копия, които могат да бъдат възстановени при загуба, повреда или криптиране на данните по време на инцидент.
Backup as a Service (BaaS)
BaaS предоставя автоматизирано архивиране и съхранение чрез облачни платформи, позволявайки на организациите да управляват защитата на данните без да поддържат собствена backup инфраструктура.
Disaster Recovery (DR)
Disaster Recovery се фокусира върху възстановяването на системи, инфраструктура и приложения след оперативно прекъсване.
Disaster Recovery as a Service (DRaaS)
DRaaS предоставя облачни среди за възстановяване, които позволяват на организациите да извършат failover и да възстановят системите си, когато основната инфраструктура стане недостъпна.
Recovery Environment
Recovery Environment е алтернативна инфраструктурна среда, в която системите и услугите могат да бъдат възстановени, когато основната среда е прекъсната или недостъпна.
Trusted · Innovative · Vigilant.
Абонирайте се за най-новите актуализации и анализи
Получавайте актуални новини и експертни анализи за киберсигурност






