O que é o efeito dominó na recuperação por rollback?

Quando os processos realizam checkpoints sem coordenação, reverter um pode forçar um processo dependente a reverter também, o que pode se propagar para trás por toda a computação — potencialmente até o início. O checkpointing coordenado ou o registro de mensagens são usados para preveni-lo.

Checkpointing e Recuperação

O checkpointing salva periodicamente o estado de um sistema para que, após uma falha, ele possa reverter para um ponto consistente e retomar, em vez de reiniciar do zero.

Encontrar tema com PaperMindEm breveFind papers & topics

Tools & resources

Baixar slides

Learn & explore

VídeoEm breve

Definition

O checkpointing registra o estado de um ou mais processos em armazenamento estável; a recuperação por rollback usa esses checkpoints, possivelmente com mensagens registradas, para restaurar o sistema a um estado global consistente — uma linha de recuperação — após uma falha e reproduzir a partir daí.

Scope

Este tópico abrange a recuperação por rollback baseada em checkpoint e baseada em log: checkpointing não coordenado, coordenado e induzido por comunicação; o efeito dominó que checkpoints não coordenados podem causar; e o registro de mensagens pessimista, otimista e causal que permite a recuperação além do último checkpoint. Ele se conecta à teoria de cortes consistentes de instantâneos globais.

Core questions

Como os checkpoints entre processos podem ser combinados em uma linha de recuperação consistente?
O que é o efeito dominó e como a coordenação o previne?
Quando o registro de mensagens permite a recuperação após o checkpoint mais recente?

Key theories

Checkpointing coordenado: Os processos coordenam-se para que seus checkpoints juntos formem um estado global consistente, garantindo uma linha de recuperação utilizável e evitando rollbacks em cascata ao custo de sobrecarga de sincronização.
Checkpointing não coordenado e o efeito dominó: Se os processos realizam checkpoints independentemente, a recuperação pode exigir que cada um seja revertido para encontrar um conjunto consistente, potencialmente em cascata até o início (o efeito dominó), o que a coordenação ou o registro são projetados para evitar.
Registro de mensagens: O registro das mensagens que um processo recebe (pessimista, otimista ou causalmente) permite que um processo em recuperação as reproduza deterministicamente e avance além de seu último checkpoint, recuperando o trabalho recente sem rollback global.

Clinical relevance

O checkpoint/reinício mantém computações de alto desempenho e científicas de longa duração resilientes a falhas de nós, e o checkpointing assíncrono confere aos sistemas modernos de processamento de fluxo suas garantias de recuperação de falhas "exatamente uma vez".

History

Com base na teoria de instantâneos consistentes de Chandy e Lamport, Koo e Toueg formalizaram o checkpointing coordenado em 1987, e décadas de trabalho em registro e esquemas não coordenados foram consolidadas na pesquisa de Elnozahy e colegas em 2002, a referência padrão sobre recuperação por rollback.

Debates

Checkpointing coordenado versus não coordenado: O checkpointing coordenado garante uma linha de recuperação limpa, mas adiciona custo de sincronização e coordenação global; o checkpointing não coordenado é mais barato no momento do checkpoint, mas arrisca o efeito dominó e a recuperação complexa, então a escolha certa depende da taxa de falhas e da escala.

Key figures

K. Mani Chandy
Leslie Lamport
Sam Toueg
Lorenzo Alvisi

Seminal works

elnozahy2002
koo1987
chandy1985

Frequently asked questions

O que é o efeito dominó na recuperação por rollback?: Quando os processos realizam checkpoints sem coordenação, reverter um pode forçar um processo dependente a reverter também, o que pode se propagar para trás por toda a computação — potencialmente até o início. O checkpointing coordenado ou o registro de mensagens são usados para preveni-lo.