Puntos de Control y Recuperación
El establecimiento de puntos de control guarda periódicamente el estado de un sistema para que, después de un fallo, pueda revertir a un punto consistente y reanudar, en lugar de reiniciar desde cero.
Definition
El establecimiento de puntos de control registra el estado de uno o más procesos en un almacenamiento estable; la recuperación por reversión utiliza estos puntos de control, posiblemente con mensajes registrados, para restaurar el sistema a un estado global consistente —una línea de recuperación— después de un fallo y reproducir hacia adelante desde allí.
Scope
Este tema abarca la recuperación por reversión basada en puntos de control y en registros: puntos de control no coordinados, coordinados y inducidos por la comunicación; el efecto dominó que pueden causar los puntos de control no coordinados; y el registro de mensajes pesimista, optimista y causal que permite la recuperación más allá del último punto de control. Se conecta con la teoría del corte consistente de las instantáneas globales.
Core questions
- ¿Cómo se pueden combinar los puntos de control entre procesos en una línea de recuperación consistente?
- ¿Qué es el efecto dominó y cómo lo previene la coordinación?
- ¿Cuándo permite el registro de mensajes la recuperación más allá del punto de control más reciente?
Key theories
- Establecimiento de puntos de control coordinados
- Los procesos se coordinan para que sus puntos de control formen juntos un estado global consistente, garantizando una línea de recuperación utilizable y evitando reversiones en cascada a costa de la sobrecarga de sincronización.
- Establecimiento de puntos de control no coordinados y el efecto dominó
- Si los procesos establecen puntos de control de forma independiente, la recuperación puede requerir revertir cada uno para encontrar un conjunto consistente, lo que podría generar una cascada hasta el inicio (el efecto dominó), que la coordinación o el registro están diseñados para evitar.
- Registro de mensajes
- El registro de los mensajes que recibe un proceso (de forma pesimista, optimista o causal) permite que un proceso en recuperación los reproduzca de forma determinista y avance más allá de su último punto de control, recuperando el trabajo reciente sin una reversión global.
Clinical relevance
El punto de control/reinicio mantiene las computaciones científicas y de alto rendimiento de larga duración resistentes a los fallos de los nodos, y el establecimiento de puntos de control asíncronos otorga a los sistemas modernos de procesamiento de flujos sus garantías de recuperación de fallos "exactamente una vez".
History
Basándose en la teoría de las instantáneas consistentes de Chandy y Lamport, Koo y Toueg formalizaron el establecimiento de puntos de control coordinados en 1987, y décadas de trabajo sobre el registro y los esquemas no coordinados se consolidaron en la revisión de Elnozahy y sus colegas de 2002, la referencia estándar sobre la recuperación por reversión.
Debates
- Establecimiento de puntos de control coordinados versus no coordinados
- El establecimiento de puntos de control coordinados garantiza una línea de recuperación limpia, pero añade costos de sincronización y coordinación global; el establecimiento de puntos de control no coordinados es más económico en el momento del punto de control, pero conlleva el riesgo del efecto dominó y una recuperación compleja, por lo que la elección correcta depende de la tasa de fallos y la escala.
Key figures
- K. Mani Chandy
- Leslie Lamport
- Sam Toueg
- Lorenzo Alvisi
Related topics
Seminal works
- elnozahy2002
- koo1987
- chandy1985
Frequently asked questions
- ¿Qué es el efecto dominó en la recuperación por reversión?
- Cuando los procesos establecen puntos de control sin coordinación, la reversión de uno puede obligar a un proceso dependiente a revertir también, lo que puede generar una cascada hacia atrás a través de toda la computación, potencialmente hasta el principio. El establecimiento de puntos de control coordinados o el registro de mensajes se utilizan para prevenirlo.