Понимание терминологии аварийного восстановления — RTO, RPO, Failover, BCP и т. д.

Опубликовано: 2022-03-20

План аварийного восстановления — это первостепенная мера, которую организация должна иметь до того, как на нее обрушится необычное событие.

В ИТ-индустрии все начинается с создания официального документа, содержащего планы, действия и процедуры действий в случае стихийного бедствия и его последствий.

Бедствие — это событие, которое происходит внезапно, без предварительного уведомления и может быть разного типа. И когда он приземляется, люди и организации сталкиваются с трудностями разного рода, включая финансовые проблемы и проблемы с пользовательским интерфейсом.

Если произойдет атака, вы должны быть готовы свести к минимуму ее последствия и быстрее восстановить свои операции. Именно здесь подготовка практического плана аварийного восстановления поможет вам сдержать или предотвратить катастрофу. Вы также можете уменьшить его последствия с точки зрения пользовательского опыта, затрат и времени простоя.

Кроме того, вы должны держать свои планы, людей, стратегии, оборудование и системы наготове, чтобы вернуть все в действие. Но для этого вы должны глубоко понимать аварийное восстановление.

В этой статье я подробно рассмотрю это вместе с ключевыми терминами аварийного восстановления, чтобы вы могли храбро дать отпор и стать сильнее в таких неблагоприятных условиях.

Давайте начнем!

Что такое катастрофа?

Катастрофа — это непредвиденное событие, которое может произойти где угодно, в том числе в ИТ-индустрии. Это происходит либо естественным образом, либо людьми и может мешать работе компании и нарушать структуру инфраструктуры.

В результате страдают организация и ее клиенты, поставщики, сотрудники и партнеры. Это оказывает давление на организацию с точки зрения финансов, репутации в отрасли, доверия клиентов и периметра безопасности.

Следовательно, вы должны быть готовы заранее преодолеть такой сценарий. Для этого вам необходимо мгновенно восстановить каждую операцию и данные. Проще говоря, вы должны подготовить свою организацию к восстановлению всего в кратчайшие сроки для ваших клиентов.

Катастрофы бывают разных типов, таких как кибератаки, саботаж, террористические атаки, программы-вымогатели или физические угрозы, ураганы, землетрясения, пожары, наводнения, промышленные аварии, перебои в подаче электроэнергии и многое другое.

Что вы подразумеваете под аварийным восстановлением?

Аварийное восстановление — это процесс восстановления нормальной работы после аварии. Это включает в себя возобновление доступа к оборудованию, программному обеспечению, оборудованию, подключению, сети, питанию и данным. Вы должны установить правила и процедуры в рамках документированного процесса, чтобы подготовить свою организацию к катастрофе.

Однако, если объекты вашей организации разрушены, вы должны расширить некоторые виды деятельности, работая над коммуникациями, транспортом, поиском поставщиков, рабочими местами и многим другим.

Почему важен план аварийного восстановления?

Составление идеального плана восстановления после стихийного бедствия или техногенной катастрофы необходимо для каждой ИТ-отрасли. Убедитесь, что у вас есть нужный сотрудник и инструменты в нужном месте, чтобы выполнить план гладко.

Давайте углубимся в то, почему аварийное восстановление имеет решающее значение.

Ограничить ущерб

Катастрофа непредсказуема. Никто не знает, когда оно приходит и уходит. Но вы заранее готовитесь контролировать ущерб, нанесенный вашей инфраструктуре.

Например, в районах, подверженных наводнениям, вы можете разместить свои основные документы и виды оборудования на верхнем этаже, чтобы избежать повреждений.

Точно так же создайте резервную копию ваших важных данных, прежде чем кибератаки смогут взломать данные или украсть их.

Восстановление служб

Если вы подготовите надежный план восстановления после сбоя, восстановление всех служб до их нормального состояния будет быстрым и легким. Это означает, что за короткий промежуток времени вы можете восстановить почти все основные активы и услуги.

Свести к минимуму прерывание

Вы не можете знать, что произойдет завтра или на следующем этапе операции. Но с идеальным планом восстановления вам не нужно сильно беспокоиться о последствиях. Ваша инфраструктура может продолжать работу с минимальными перерывами.

Обучение и подготовка

ИТ-инфраструктура состоит из множества сотрудников, работающих под одной крышей. Все должны знать о восстановлении, чтобы действовать немедленно, как требуется и ожидается в случае чрезвычайной ситуации.

Надлежащая подготовка также снизит уровень стресса у всех, кто связан с вашей организацией. Кроме того, вы можете обучить своих сотрудников предпринимать необходимые действия в случае возникновения непредвиденных обстоятельств.

Терминология аварийного восстановления

Давайте начнем с терминологии, чтобы лучше понять аварийное восстановление.

РТО

Целевое время восстановления (RTO) — это количество времени, которое организация устанавливает в соответствии с характером бизнеса, чтобы пережить бедствие, не влияя на финансовый рост.

При настройке RTO компания должна проверять время простоя, которое может повлиять на вашу организацию разными способами. Он используется для изучения жизнеспособных стратегий для продолжения ваших бизнес-операций даже после стихийного бедствия. Когда клиенты сталкиваются с какими-либо нарушениями в приложении, они спрашивают, сколько времени потребуется приложению, чтобы вернуться к действию. Ответ: RTO для каждой организации.

Пример. Предположим, вы — компания, занимающаяся онлайн-транзакциями, такая как PayPal или Pioneer, и сталкиваетесь с непредсказуемыми событиями. В этом случае ваш RTO будет достаточно быстр, чтобы восстановить операцию.

Другими словами, компания устанавливает RTO на час или два, чтобы избежать последствий в виде финансов или данных.

РПО

Целевые точки восстановления (RPO) — это потери данных, с которыми ИТ-инфраструктура может справиться с точки зрения времени и объема информации.

Сбивает с толку?

Возьмем пример базы данных, которая записывает транзакции банка, включая переводы, планирование, платежи и многое другое. В случае аварии база данных восстанавливается в режиме реального времени. Разница между базой данных в момент аварии и восстановлением базы данных после аварии в этом случае равна нулю.

Для некоторых компаний восстановление всей информации из резервной копии может занять около 24 часов, но иногда это может быть катастрофическим. Очень важно настроить вашу инфраструктуру в соответствии с требованиями RPO. Это включает в себя увеличение частоты резервного копирования, добавление резервной базы данных в вашу архитектуру и многое другое.

Отказоустойчивость

Представьте себе ситуацию, когда вы путешествуете на большое расстояние. Внезапно у вас спустило колесо по какой-то неожиданной причине. Вы благодарите запасную шину, имеющуюся в вашем автомобиле, и инструменты для замены неисправной шины.

Отказоустойчивость работает таким же образом.

Это означает, что вам нужно резервное соединение во время катастрофы. В двух словах, аварийное переключение означает наличие сетей и систем, которые вы можете использовать во время аварии для переключения вашей информации на систему восстановления.

Аварийное переключение обеспечивает бесперебойную работу всех ваших служб даже в случае сбоев инфраструктуры или оборудования. Таким образом, вы можете предотвратить потерю данных и доходов вашей организации, а также избежать перебоев в обслуживании конечных пользователей.

Вы можете установить его вручную или позволить ему работать автоматически для перемещения данных на резервный сервер.

отказоустойчивость

Отказоустойчивость ИТ — это простая операция, при которой исходная продукция возвращается в исходное место (систему) после устранения аварийной ситуации. Во время атаки компании выполняют операцию аварийного переключения, благодаря которой все рабочие нагрузки переносятся на реплику ВМ или систему резервного копирования.

Однако вы не можете просто пропустить следующий шаг возврата. Когда вы все восстановите и вернетесь к работе, вам необходимо перенести все рабочие нагрузки на исходные виртуальные машины или системы. Этот общий процесс возврата рабочих нагрузок на исходное рабочее место или в систему называется восстановлением после сбоя. Это означает, что вы возвращаетесь «назад» после атаки.

Failback также используется для планового обслуживания предприятия. Это правда, что отказоустойчивость всегда происходит после отработки отказа. Другими словами, отработка отказа — это первый шаг, а восстановление после отказа — второй шаг в восстановлении важных данных. Его можно настроить между облаком и облаком, между локальными и локальными средами, между локальными и облачными средами или любой их комбинацией.

ДР

Аварийное восстановление (DR) — это процесс, при котором у вас есть готовые планы по восстановлению ваших активов в установленные сроки.

Аварийное восстановление дает организации возможность быстро реагировать и восстанавливать каждую отдельную службу в случае непредвиденного события. Он также предоставляет официальную документацию, содержащую инструкции по принятию немедленных мер в случае непредвиденных инцидентов.

ПП

План обеспечения непрерывности бизнеса (BCP) — это один из наиболее приемлемых планов аварийного восстановления, который позволяет ИТ-инфраструктуре разрабатывать стратегии для устранения сбоев в работе серверов, мобильных устройств, персональных компьютеров и сетей.

BCP немного отличается от аварийного восстановления, поскольку помогает организации планировать восстановление корпоративного программного обеспечения и производительности для удовлетворения основных потребностей бизнеса.

Здесь компания создает систему восстановления для преодоления потенциальных угроз, таких как кибератаки или стихийные бедствия. Он предназначен для защиты активов и обеспечения быстрого возобновления работы всех служб после забастовки.

млрд кубометров

Управление непрерывностью бизнеса (BCM) — это процесс управления рисками, специально разработанный для защиты бизнес-процессов от угроз. BCM — это следующий шаг BCP, когда он проверяет планы восстановления, чтобы убедиться, что все в бизнесе мгновенно реагируют на план и восстанавливают все необходимое.

BCM действует как структура управления для выявления рисков инфраструктуры, когда она сталкивается с внешними и/или внутренними угрозами. Это также гарантирует, что инфраструктура работает эффективно с помощью регулярного тестирования, чтобы повысить предсказуемость, снизить риск и согласовать план будущих атак.

БМА

Анализ влияния на бизнес (BIA) — это процесс анализа выживаемости бизнеса путем выявления важнейших систем, операций и процессов. В нем рассказывается о влиянии стихийного бедствия на вашу организацию из-за перерыва в вашей деятельности.

BIA прогнозирует последствия до того, как атака действительно произойдет, чтобы собрать ключевую информацию, которая может помочь в разработке эффективных стратегий восстановления. Он также определяет затраты, связанные с отказами, такие как стоимость замены оборудования, потеря денежного потока, прибыль, заработная плата и многое другое.

При создании отчета BIA вы должны учитывать важные процессы, связанные с вашим бизнесом, влияние сбоев на различные области, приемлемую продолжительность, допустимые области, финансовые затраты и многое другое.

Дерево вызовов

Дерево вызовов — это процесс составления списка сотрудников, к которым можно обратиться в случае чрезвычайной ситуации. Это процедура, имеющая древовидную структуру.

Например, во время стихийного бедствия один человек свяжется с небольшой группой участников со срочным сообщением, эти сотрудники звонят каждой группе отдельно. Таким образом, весь персонал будет проинформирован во время угрозы и приступит к назначенной работе, чтобы вовремя восстановить все функции и процессы. Составление списка простое, но реализация его в режиме реального времени создает путаницу.

Вы должны выполнять регулярные действия по вызову, чтобы подготовить каждого сотрудника службы экстренной помощи к тому, чтобы оставаться начеку. Регулярное тестирование также может помочь определить измененные или отсутствующие числа, которые могут серьезно повлиять на производительность.

Дерево вызовов содержит информацию, которая будет использоваться во время чрезвычайной ситуации для доставки инструкций. Это также можно сделать вручную, но люди используют автоматизацию, чтобы ускорить процесс и уведомить участников в современном цифровом мире.

Командный центр / Центр управления

Это виртуальный или физический объект, специально подготовленный для обеспечения командования или контроля над планами восстановления во время кризиса. Он связывается с командой для управления системами и функциями во время стихийного бедствия.

Традиционно инфраструктура зависит от командного центра, который справляется с кризисами без какого-либо надлежащего подхода. В настоящее время организации идеально спроектировали свой центр управления, что превращает немедленный ответ в основную компетенцию.

Обнаружив бедствие, командный центр быстро переходит к этапу восстановления. Кроме того, он служит точкой отчета в случае услуг, прессы, поставок и многого другого. Это также объединяет людей из разных дисциплин во время таких сценариев.

Реагирование на инцидент

Реакция на инцидент — это тип ответа на атаку. Это делается с помощью правильных процедур и персонала для эффективного обеспечения безопасности сети и данных в нужное время.

Если у организации есть план инцидента до непредвиденного события, она может защитить свои данные от угроз в режиме реального времени. Специалисты по реагированию на инциденты всегда остаются в курсе проблем и действуют естественно во время инцидента. Они принимают определенные меры, чтобы избежать нарушений безопасности, гарантируя, что они не пропустят ни одного шага во время аварийного восстановления.

В начале вы должны определить критические данные и сохранить их в облаке или любом удаленном месте для обеспечения безопасности. Удовлетворяйте текущие потребности инфраструктуры и развивающиеся киберугрозы, регулярно обновляя планы реагирования на инциденты.

Резервное копирование

Решения для резервного копирования помогают ИТ-инфраструктуре поддерживать копии данных и безопасно хранить их в нужное время. Если вы столкнулись с повреждением базы данных, случайным удалением всех данных или любой другой проблемой, вы должны быть готовы к резервному копированию, чтобы мгновенно восстановить данные и продолжить работу с услугами.

Это включает в себя репликацию файлов и их хранение в безопасном месте, чтобы легко получить доступ ко всем данным после необычного события. Это поможет, если вы сделаете резервную копию своих данных в нескольких местах, чтобы гарантировать, что вы сможете восстановить их, даже если сайт выйдет из строя.

Устойчивость

Способность сообществ, штатов, организаций и отдельных лиц противостоять стихийным бедствиям или противостоять им без ущерба для услуг и систем известна как устойчивость к стихийным бедствиям.

Организация должна быть готова выдерживать большое количество стресса из-за опасностей. Убедитесь, что у вас есть возможность минимизировать свои потери с помощью лучшего планирования, а не ждать, пока кто-то придет и спасет вас. Это поможет вам справиться с авариями и эффективно восстановить вашу ИТ-инфраструктуру.

Здесь главная цель состоит в том, чтобы сохранить и восстановить основные функции и структуры в нужное время, когда это необходимо. Чтобы стать устойчивой к стихийным бедствиям организацией, вы должны заранее подготовиться и иметь возможность предвидеть риски, приспосабливаться к изменениям, обмениваться информацией и учиться, интегрировать различные сектора и управлять уровнями рисков.

Соглашение об уровне обслуживания

Соглашение об уровне обслуживания (SLA) — это план на случай чрезвычайной ситуации, в котором вы указываете конечным пользователям время, которое может потребоваться для восстановления услуг в случае чрезвычайной ситуации.

SLA гарантирует клиентам, что их данные в безопасности, не будут скомпрометированы или переданы третьим лицам. Это единственная точка контакта с проблемами конечного пользователя.

Каждая ИТ-инфраструктура гарантирует своим клиентам соблюдение SLA. Итак, убедитесь, что вы общаетесь со своими конечными пользователями заранее.

SPOF

Единая точка отказа (SPOF) — это часть оборудования, отдельный человек, ресурс или приложение, к которому подключено множество других систем или приложений.

Если такая часть оборудования или ресурса выходит из строя, все основные части, связанные с системой, выходят из строя вместе с ним. Таким образом, будут затронуты весь процесс и бизнес-операции.

Поэтому у вас должна быть стратегия для решения такой проблемы, чтобы ваша организация продолжала работать. Самое первое, что вы можете сделать, это определить тот отдельный элемент оборудования или системы, который может оказать большее влияние. Затем проведите анализ влияния на бизнес и получите оценку риска, чтобы быть в курсе событий, которые могут произойти. Покопайтесь и найдите их перед событием.

После того, как вы перечислите все SPOF, классифицируйте их в соответствии с процессом восстановления. Поместите каждый из SPOF в три разные категории:

Восстановление легко и напрямую с меньшими затратами времени и бюджета.
Восстановление будет трудным, но можно разработать надежный процесс восстановления.
Ничего нельзя сделать, чтобы восстановиться после того, как он упадет.

Вы можете действовать соответственно в зависимости от категории.

Восстановление системы

В случае сбоя оборудования необходимо запустить процесс восстановления, чтобы восстановить исходную форму конкретной системы или сервера. И чтобы восстановить всю систему, вы должны быть готовы к требованиям восстановления, резервным копиям, совместимости прошивки и совместимости оборудования.

Восстановление системы — это процесс, который сбрасывает машину к ее предыдущим настройкам или в то же состояние, в котором она была, когда она была новой. Это уничтожит все вирусные инфекции, вызванные установленным программным обеспечением или приложениями в вашей системе.

Этот процесс включает в себя планирование восстановления ИТ-инфраструктуры, которое устанавливает и следует определенным процедурам для обеспечения доступности данных от техногенных или естественных сбоев.

Восстановление системы

Восстановление системы — это инструмент восстановления, который позволяет в нужный момент восстановить определенные файлы и информацию до их предыдущего состояния.

С помощью восстановления системы вы можете восстановить ключи реестра, установленные программы, драйверы, системные файлы и многое другое до их предыдущей версии. Это действует как спасатель во многих бедствиях.

План тестирования

Он относится к документу, в котором хранится информация о стратегии тестирования, оценках, ресурсах, сроках, целях и графиках. Он работает как план, который запускает тесты для обеспечения безопасности оборудования и программного обеспечения.

Это включает в себя различные тесты в соответствии с процедурами и шагами, запланированными для управления последствиями стихийного бедствия. Проводите регулярные тесты, чтобы подготовить себя и свою организацию к тому, чтобы не пропустить ни одного шага в процессе работы. Таким образом, ИТ-инфраструктура может понять недостатки и быть готовой к борьбе.

Вывод

Никто не знает, когда случится беда. Поэтому надлежащие меры безопасности и защиты необходимы для каждого бизнеса.

Терминология аварийного восстановления поможет вам понять, как реагировать на атаки и аварии. Это также поможет вам заранее подготовиться, чтобы вы могли защитить свою инфраструктуру во время непредвиденного события. Вы сможете создать эффективную стратегию аварийного восстановления в режиме реального времени, чтобы сэкономить миллионы долларов и лишить доверия клиентов.