ScholarGate
Assistant

Point de contrôle et récupération

La sauvegarde par points de contrôle enregistre périodiquement l'état d'un système afin qu'après une défaillance, il puisse revenir à un point cohérent et reprendre son exécution, plutôt que de redémarrer à zéro.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

La sauvegarde par points de contrôle enregistre l'état d'un ou plusieurs processus sur un stockage stable ; la récupération par retour arrière utilise ces points de contrôle, éventuellement avec des messages journalisés, pour restaurer le système à un état global cohérent — une ligne de récupération — après une défaillance et rejouer à partir de là.

Scope

Ce sujet aborde la récupération par retour arrière basée sur des points de contrôle et sur des journaux : les points de contrôle non coordonnés, coordonnés et induits par la communication ; l'effet domino que peuvent provoquer les points de contrôle non coordonnés ; et l'enregistrement de messages pessimiste, optimiste et causal qui permet une récupération au-delà du dernier point de contrôle. Il est lié à la théorie des coupes cohérentes des instantanés globaux.

Core questions

  • Comment les points de contrôle de différents processus peuvent-ils être combinés pour former une ligne de récupération cohérente ?
  • Qu'est-ce que l'effet domino et comment la coordination l'empêche-t-elle ?
  • Quand l'enregistrement de messages permet-il une récupération au-delà du point de contrôle le plus récent ?

Key theories

Sauvegarde coordonnée par points de contrôle
Les processus se coordonnent afin que leurs points de contrôle forment ensemble un état global cohérent, garantissant une ligne de récupération utilisable et évitant les retours arrière en cascade, au prix d'une surcharge de synchronisation.
Sauvegarde non coordonnée par points de contrôle et l'effet domino
Si les processus effectuent des points de contrôle indépendamment, la récupération peut nécessiter de les faire revenir en arrière un par un pour trouver un ensemble cohérent, ce qui peut potentiellement se propager jusqu'au début (l'effet domino), ce que la coordination ou la journalisation vise à éviter.
Journalisation des messages
L'enregistrement des messages qu'un processus reçoit (de manière pessimiste, optimiste ou causale) permet à un processus en récupération de les rejouer de manière déterministe et d'avancer au-delà de son dernier point de contrôle, récupérant ainsi le travail récent sans retour arrière global.

Clinical relevance

Le point de contrôle/redémarrage permet aux calculs scientifiques et de haute performance de longue durée de résister aux défaillances de nœuds, et la sauvegarde asynchrone par points de contrôle confère aux systèmes modernes de traitement de flux leurs garanties de récupération après panne « exactement une fois ».

History

S'appuyant sur la théorie des instantanés cohérents de Chandy et Lamport, Koo et Toueg ont formalisé la sauvegarde coordonnée par points de contrôle en 1987, et des décennies de travaux sur la journalisation et les schémas non coordonnés ont été consolidées dans l'étude de 2002 d'Elnozahy et de ses collègues, la référence standard sur la récupération par retour arrière.

Debates

Sauvegarde coordonnée versus sauvegarde non coordonnée par points de contrôle
La sauvegarde coordonnée par points de contrôle garantit une ligne de récupération nette mais ajoute un coût de synchronisation et de coordination globale ; la sauvegarde non coordonnée par points de contrôle est moins coûteuse au moment de la sauvegarde mais risque l'effet domino et une récupération complexe, de sorte que le bon choix dépend du taux de défaillance et de l'échelle.

Key figures

  • K. Mani Chandy
  • Leslie Lamport
  • Sam Toueg
  • Lorenzo Alvisi

Related topics

Seminal works

  • elnozahy2002
  • koo1987
  • chandy1985

Frequently asked questions

Qu'est-ce que l'effet domino dans la récupération par retour arrière ?
Lorsque les processus effectuent des points de contrôle sans coordination, le retour arrière d'un processus peut forcer un processus dépendant à revenir en arrière également, ce qui peut se propager en cascade à travers l'ensemble du calcul — potentiellement jusqu'au tout début. La sauvegarde coordonnée par points de contrôle ou la journalisation des messages est utilisée pour l'éviter.

Methods for this concept

Related concepts