ScholarGate
Asistente

Puntos de Control y Recuperación

El establecimiento de puntos de control guarda periódicamente el estado de un sistema para que, después de un fallo, pueda revertir a un punto consistente y reanudar, en lugar de reiniciar desde cero.

Encontrar tema con PaperMindPróximamenteFind papers & topics
Tools & resources
Descargar diapositivas
Learn & explore
VídeoPróximamente

Definition

El establecimiento de puntos de control registra el estado de uno o más procesos en un almacenamiento estable; la recuperación por reversión utiliza estos puntos de control, posiblemente con mensajes registrados, para restaurar el sistema a un estado global consistente —una línea de recuperación— después de un fallo y reproducir hacia adelante desde allí.

Scope

Este tema abarca la recuperación por reversión basada en puntos de control y en registros: puntos de control no coordinados, coordinados y inducidos por la comunicación; el efecto dominó que pueden causar los puntos de control no coordinados; y el registro de mensajes pesimista, optimista y causal que permite la recuperación más allá del último punto de control. Se conecta con la teoría del corte consistente de las instantáneas globales.

Core questions

  • ¿Cómo se pueden combinar los puntos de control entre procesos en una línea de recuperación consistente?
  • ¿Qué es el efecto dominó y cómo lo previene la coordinación?
  • ¿Cuándo permite el registro de mensajes la recuperación más allá del punto de control más reciente?

Key theories

Establecimiento de puntos de control coordinados
Los procesos se coordinan para que sus puntos de control formen juntos un estado global consistente, garantizando una línea de recuperación utilizable y evitando reversiones en cascada a costa de la sobrecarga de sincronización.
Establecimiento de puntos de control no coordinados y el efecto dominó
Si los procesos establecen puntos de control de forma independiente, la recuperación puede requerir revertir cada uno para encontrar un conjunto consistente, lo que podría generar una cascada hasta el inicio (el efecto dominó), que la coordinación o el registro están diseñados para evitar.
Registro de mensajes
El registro de los mensajes que recibe un proceso (de forma pesimista, optimista o causal) permite que un proceso en recuperación los reproduzca de forma determinista y avance más allá de su último punto de control, recuperando el trabajo reciente sin una reversión global.

Clinical relevance

El punto de control/reinicio mantiene las computaciones científicas y de alto rendimiento de larga duración resistentes a los fallos de los nodos, y el establecimiento de puntos de control asíncronos otorga a los sistemas modernos de procesamiento de flujos sus garantías de recuperación de fallos "exactamente una vez".

History

Basándose en la teoría de las instantáneas consistentes de Chandy y Lamport, Koo y Toueg formalizaron el establecimiento de puntos de control coordinados en 1987, y décadas de trabajo sobre el registro y los esquemas no coordinados se consolidaron en la revisión de Elnozahy y sus colegas de 2002, la referencia estándar sobre la recuperación por reversión.

Debates

Establecimiento de puntos de control coordinados versus no coordinados
El establecimiento de puntos de control coordinados garantiza una línea de recuperación limpia, pero añade costos de sincronización y coordinación global; el establecimiento de puntos de control no coordinados es más económico en el momento del punto de control, pero conlleva el riesgo del efecto dominó y una recuperación compleja, por lo que la elección correcta depende de la tasa de fallos y la escala.

Key figures

  • K. Mani Chandy
  • Leslie Lamport
  • Sam Toueg
  • Lorenzo Alvisi

Related topics

Seminal works

  • elnozahy2002
  • koo1987
  • chandy1985

Frequently asked questions

¿Qué es el efecto dominó en la recuperación por reversión?
Cuando los procesos establecen puntos de control sin coordinación, la reversión de uno puede obligar a un proceso dependiente a revertir también, lo que puede generar una cascada hacia atrás a través de toda la computación, potencialmente hasta el principio. El establecimiento de puntos de control coordinados o el registro de mensajes se utilizan para prevenirlo.

Methods for this concept

Related concepts