RTO x RPO: por que os objetivos de recuperação são importantes para o sucesso de TI

Publicados: 2021-01-25

As empresas estão cientes de que o tempo de inatividade de TI custará mais.

As empresas devem considerar as implicações do tempo de inatividade e se concentrar em manter a continuidade das operações de negócios. Para fazer isso, um plano de continuidade de negócios adequado precisa ser implementado para permitir que eles minimizem o tempo de inatividade ou o evitem completamente. Dessa forma, as empresas podem garantir que sua infraestrutura de TI seja resiliente.

Ao discutir o tempo de inatividade dos negócios, você ouvirá frequentemente sobre objetivos de tempo de recuperação (RTO) e objetivos de ponto de recuperação (RPO). É fundamental que todas as empresas tenham uma compreensão completa do RTO e do RPO para garantir uma rápida recuperação de um desastre.

Vamos discutir como medir RTO e RPO, o papel dessas métricas em um plano de continuidade de negócios de backup e como definir e atingir as metas de RTO e RPO de sua empresa.

O que é objetivo de tempo de recuperação (RTO)?

O objetivo de tempo de recuperação (RTO) é uma métrica importante que ajuda a calcular a rapidez com que um sistema ou aplicativo precisa ser recuperado após o tempo de inatividade para que não haja impacto significativo nas operações de negócios. Resumindo, RTO é a medida de quanto tempo de inatividade você pode tolerar.

Em caso de interrupções inesperadas, um ou dois sistemas podem falhar e você enfrentará um tempo de inatividade até que isso seja resolvido. Isso o coloca em uma situação em que você precisa determinar o tempo em que precisa restaurar o sistema para que suas operações comerciais não sejam interrompidas. É aí que entra o RTO.

Definir RTO envolve entender a tolerância de tempo de inatividade de cada sistema e, para cada aplicação, você provavelmente terá RTOs diferentes. Depois de definir a métrica de RTO, você está pronto para planejar a recuperação que inclui a estratégia e a tecnologia de recuperação que você precisa ter para uma restauração rápida e bem-sucedida do tempo de inatividade.

O que é objetivo de ponto de recuperação (RPO)?

O objetivo do ponto de recuperação (RPO) é uma métrica que você define para a quantidade de perda de dados que sua empresa pode suportar e continuar funcionando sem qualquer efeito nas operações de negócios.

Para determinar o RPO, você precisa avaliar a criticidade dos dados para saber se precisa recuperar todos os dados ou alguns deles e pode até haver dados relativamente menos significativos e que não precisam ser restaurados. Com base nisso, você poderá definir o RPO para o seu sistema: quanto maior a criticidade dos dados, menor deve ser o valor do RPO.

Determinar o RPO é uma parte essencial de um plano de backup, pois ajuda você a definir a frequência com que deseja fazer backup de seus dados com base em sua criticidade.

Diferenças entre RTO e RPO

RTO e RPO são elementos importantes associados aos planos de backup e recuperação de desastres. Tanto o RTO quanto o RPO são definidos e medidos em unidades de tempo. Embora RTO e RPO possam parecer semelhantes, existem algumas diferenças importantes:

Objetivo de tempo de recuperação (RTO)

Objetivo do ponto de recuperação (RPO)

Relacionado ao tempo de inatividade tolerável até a recuperação

Relacionado à perda de dados tolerável

Relacionado ao tempo necessário para restaurar

Relacionado à frequência de backup

Relacionado à restauração ao normal com os dados mais recentes

Relacionado a quão mais recentes serão os dados recuperados

Focado nas tecnologias de recuperação necessárias para atingir as metas, incluindo a restauração de todo o sistema ou apenas o aplicativo ou nível mais granular

Focado em automatizar os backups do seu sistema em intervalos adequados

Usando RTO e RPO para minimizar o tempo de inatividade dos negócios

O tempo de inatividade de TI ocorre devido a vários motivos, como falhas no sistema, falhas de rede ou de aplicativos, perda de dados devido a um ataque de ransomware ou desastres no local devido a calamidades naturais. Se algum dos imprevistos mencionados acima acontecer, isso pode interromper suas operações comerciais e pode custar mais.

Os aplicativos são cruciais e precisam estar sempre disponíveis. Uma falha de um aplicativo crítico do seu negócio leva a uma interrupção no serviço do aplicativo e também resulta em perda de dados. Isso tem um impacto direto em suas operações de negócios a curto e longo prazo e afeta sua produtividade, receita e marca. Em alguns casos extremos, pode até fazer com que sua empresa falir.

O tempo de inatividade de tolerância de um aplicativo pode variar dependendo do negócio, mas o fator crítico aqui é reduzir o tempo de inatividade restaurando rapidamente a disponibilidade do aplicativo.

Para colocar seus sistemas em funcionamento em tempo hábil, toda empresa precisa ter uma estratégia sólida de proteção de dados, ou seja, um plano de backup e recuperação de desastres implementado. Ao selecionar um plano de backup e recuperação de desastres para sua empresa, você deve procurar uma solução que ofereça um RTO e RPO mais curtos. Isso permite que você obtenha um tempo de inatividade mínimo e garanta a continuidade dos negócios restaurando o sistema quando necessário.

Riscos de ignorar as métricas de RTO e RPO

As métricas de RTO e RPO ajudarão você a minimizar os riscos associados ao tempo de inatividade se você as avaliar e definir corretamente. Essas métricas devem estar alinhadas com seus objetivos de recuperação de negócios e gerenciamento de acordo de nível de serviço (SLA).

Se você não definir RTO e RPO corretamente, isso pode levar a qualquer nível de risco, de menos a grave. Além disso, você não poderá restaurar os dados a partir do momento necessário, o que pode resultar na perda de dados e interromper as operações comerciais. Além disso, você não poderá ativar seu sistema dentro do tempo necessário. Se o sistema crítico estiver indisponível quando necessário, isso pode interromper as operações de negócios.

Em ambos os casos mencionados acima, a interrupção das operações comerciais pode levar à perda de produtividade. Nos piores casos, isso levará à perda de receita e pode causar sérias implicações, como perda de reputação comercial.

Como obter RTO e RPO com um plano de backup e recuperação de desastres

Quaisquer soluções de backup e recuperação de desastres que você esteja procurando especificarão seu RPO e RTO garantidos em seu SLA. Certifique-se sempre de que a solução de backup e recuperação de desastres que você escolher garanta seus objetivos de recuperação de negócios: RTO e RPO.

As soluções de backup e recuperação de desastres oferecem várias funcionalidades para atingir suas metas de RTO e RPO de negócios. Veremos algumas das funcionalidades importantes que você precisa procurar em uma solução de backup e recuperação de desastres que ajudará sua empresa a obter RTO e RPO quase zero.

Políticas de agendamento flexíveis

As soluções atuais de backup e recuperação de desastres oferecem políticas de agendamento flexíveis para definir RPO para seus aplicativos. As políticas de agendamento permitem que você execute um backup automatizado em intervalos regulares, como a cada poucos minutos, a cada poucas horas ou uma vez por dia. Isso torna a implementação do RPO muito mais fácil.

A proteção contínua de dados (CDP) garante que toda vez que uma alteração for feita em seu sistema/aplicativo, ela seja copiada ou replicada instantaneamente. Isso resolve o problema em que as empresas correm o risco de perder dados gerados entre dois backups agendados e permite que você alcance zero RPO. No entanto, quando você habilita o CDP para cargas de trabalho críticas, pode haver problemas de desempenho ou estabilidade, pois ele utiliza mais recursos. Por esses motivos, o CDP é amplamente usado para backups em nível de arquivo.

A proteção de dados quase contínua pode ser definida para quase zero e executada em intervalos regulares. Isso está próximo de atingir o efeito do CDP e pode ser ativado para executar backup/replicação em nível de imagem que usa tecnologia baseada em instantâneo ou outra. A maioria das soluções de backup e recuperação de desastres do mercado permite que você obtenha RPO quase zero de menos de 15 minutos para seu sistema crítico.

Recursos de recuperação instantânea

Sua empresa precisa de uma opção para atingir suas metas de RTO quase zero que podem ser alcançadas por meio de recuperação instantânea.

Um dos recursos de recuperação instantânea que toda empresa precisa como parte de seu plano de backup e recuperação de desastres é a capacidade de inicializar instantaneamente a máquina de backup diretamente do armazenamento de backup como uma máquina virtual de estado pronto para continuar suas operações comerciais.

Você pode iniciar imediatamente uma máquina no ambiente virtual a partir do backup mais recente ou de qualquer momento usando os dados de backup que ainda estão no formato criptografado e compactado em seu armazenamento de backup. Agora você pode colocar seu sistema crítico em funcionamento em poucos minutos e garantir a continuidade dos negócios enquanto atende a RTO quase zero.

Com isso, você pode minimizar o tempo de inatividade e todos os seus sistemas de missão crítica de nível 1 continuam operando sem impacto nos negócios. Mais tarde, você pode migrar a máquina virtual inicializada instantaneamente para a produção para recuperação permanente.

Recuperação granular

A função da recuperação granular em um plano de backup e recuperação de desastres desempenha um papel significativo. Ele fornece a capacidade de restaurar apenas os dados necessários.

Com esta opção, você pode restaurar seletivamente um arquivo ou um item de aplicativo diretamente do backup. Se você excluiu acidentalmente um arquivo, pode selecionar e restaurar facilmente esse arquivo específico. Além disso, você pode restaurar imediatamente um e-mail ou caixa de correio específico, em vez de precisar recuperar todo o banco de dados ou aplicativo. Agora, você poderá alcançar um RTO de alguns minutos. Isso economiza tempo e recursos, pois não é necessário restaurar uma máquina inteira toda vez para recuperar um item individual.

Replicação ao vivo com failover

A replicação em tempo real permite que você crie uma cópia exata de suas cargas de trabalho de produção em outro site e frequentemente replique as alterações na máquina de réplica configurando RPO quase zero.

Se sua máquina de origem ficar indisponível devido a qualquer interrupção ou corrupção, você poderá executar imediatamente uma operação de failover que alterna perfeitamente as operações de produção para sua máquina de réplica. Sem qualquer tempo de inatividade ou impacto, você poderá continuar suas operações de negócios enquanto cumpre suas metas de RTO quase nulas. Nos casos em que o RTO e o RPO são quase zero, você pode aproveitar as funcionalidades de replicação e failover e manter suas cargas de trabalho de produção sempre disponíveis.

Cópia fora do local para recuperação de desastres

Ninguém pode prever um desastre. Se houver uma falha em todo o site, até mesmo seus backups locais ficarão inacessíveis e colocarão sua empresa em risco sem poder recuperar seus dados.

Por esse motivo, é bom ter um plano de recuperação de desastres que permita criar uma cópia adicional do seu backup e armazená-lo em um local remoto que pode ser um data center local ou uma nuvem pública. Com backups externos, você pode recuperar seu sistema em caso de desastre e atender facilmente aos seus objetivos de recuperação de negócios.

Conclusão

Os planos de backup e recuperação de desastres são uma parte extremamente importante do processo geral de lidar com um cenário de desastre. Conforme discutido acima, um dos principais aspectos para garantir a continuidade das operações em caso de desastre é especificar corretamente as métricas de RTO e RPO em seu plano de backup e recuperação de desastres.

Decida os valores de RTO e RPO, implemente uma solução que atenda aos SLAs do seu negócio e mantenha seu negócio sempre disponível.