O que é RPO e RTO?

É um tanto estranho alguém pensar em implementar algum tipo de proteção de dados sem ter em mente dois conceitos básicos (mesmo que de forma não tão formal): RPO e RTO. Mas o que – definitivamente – isso significa?

Segundo o SNIA (Storage Networking Industry Association) as definições são as seguintes (tradução do editor):
Recovery Point Objective – RPO: O período de tempo máximo desejado antes de uma falha ou desastre durante o qual as alterações feitas aos dados podem ser perdidos como processo de uma recuperação.
Recovery Time Objective – RTO: O período de tempo máximo desejado para trazer um ou mais aplicativos, juntamente com seus dados, a um estado corretamente operacional.
Veja que são duas definições bastante formais. Em termos bastante práticos, RPO pode ser definido como “quanto de informação é tolerável perder em caso de falha ou desastre”, enquanto RTO pode ser definido como “quanto tempo leva para os sistemas voltarem ao normal após uma falha ou desastre”. É importante entender que o valor “0” (zero) para RPO e RTO é aceitável. Há negócios que precisam de total disponibilidade em qualquer circunstância. Empresas de Telecom, bancos e administradoras de cartão de crédito são exemplos desses ambientes.

Uma vez postas essas definições, como é possível pensar em uma solução de backup ou proteção de dados sem que essas duas métricas estarem definidas? Pensemos em uma solução muito trivial: um backup diário em fita, simples assim. Se o volume total de dados é de 300GB e a unidade de fita é capaz de transferir 245Gb/h (uma unidade simples LTO3), o tempo médio do backup é de aproximadamente 1h20min (na melhor hipótese). Provavelmente o tempo para restaurar as informações será superior a 1h30min. Em caso de falha ou pane, contando o tempo de troca de componente de hardware, e/ou reinstalação de sistema operacional e aplicativos, adicionado ao tempo de restauração dos dados, o tempo total para restabelecimento dos serviços pode ser superior a 2 ou 3 horas. Vamos então às perguntas:

O tempo de restabelecimento dos serviços de 2 ou 3 horas é aceitável para o negócio? No pior caso, qual é o tempo máximo para os serviços voltarem ao normal (se não houver peças sobressalentes, se a aplicação for complexa para ser reinstalada)? Esse tempo é aceitável? Esse questionamento responde à métrica RTO.
Se o backup é feito regularmente à meia-noite e uma pane acontece após o expediente, digamos, às 19hs, toda a informação gerada durante o dia será perdida. Essa perda é aceitável ao negócio? Seria possível fazer backups incrementais ao longo do dia (a cada 2hs, por exemplo)? 2hs de perda é aceitável? Esse questionamento responde à métrica RPO.
Definidas essas métricas é possível então pensar melhor qual estratégia de backup é mais adequada às necessidades do negócio.

Fonte: 3Consult