ScholarGate
Assistant

Systèmes Big Data et NoSQL

Les systèmes Big Data et NoSQL sont les technologies de gestion de données conçues pour gérer le volume, la vélocité et la variété avec lesquels les bases de données relationnelles rencontraient des difficultés, échangeant des garanties relationnelles strictes contre une évolutivité horizontale, des schémas flexibles et une haute disponibilité.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

Les systèmes Big Data sont des plateformes de gestion de données conçues pour des ensembles de données trop volumineux, rapides ou variés pour les bases de données traditionnelles à nœud unique ; les systèmes NoSQL sont des magasins non relationnels qui adoptent des modèles de données flexibles et une cohérence assouplie pour atteindre une évolutivité horizontale et une disponibilité.

Scope

Ce domaine couvre les systèmes de données conçus pour une échelle massive : les magasins NoSQL (clé-valeur, document, colonne large et graphe) et leurs modèles de données flexibles ; les frameworks de traitement de données parallèles dérivés de MapReduce ; les compromis cohérence-disponibilité décrits par le théorème CAP et le spectre des modèles de cohérence ; ainsi que l'entreposage de données (data warehousing) et l'OLAP pour l'analyse à grande échelle. Il examine comment ces systèmes assouplissent ou réorganisent les hypothèses relationnelles pour l'évolutivité. Il exclut les mécanismes internes de validation distribuée (distributed commit) et d'exécution de requêtes parallèles, qui sont traités dans le domaine des bases de données distribuées et parallèles.

Sub-topics

Core questions

  • Quels besoins en évolutivité et en flexibilité ont motivé le dépassement des bases de données relationnelles ?
  • Quels modèles de données les principales catégories NoSQL proposent-elles ?
  • Comment les frameworks de traitement de données parallèles traitent-ils d'énormes ensembles de données à travers des clusters ?
  • Quels compromis cohérence-disponibilité le théorème CAP décrit-il ?
  • Comment les entrepôts de données (data warehouses) et l'OLAP prennent-ils en charge les requêtes analytiques à grande échelle ?

Key concepts

  • magasins clé-valeur, document, colonne large, graphe
  • évolutivité horizontale
  • flexibilité des schémas
  • MapReduce et traitement de données parallèles
  • théorème CAP
  • cohérence éventuelle
  • BASE versus ACID
  • entreposage de données (data warehousing) et OLAP

Key theories

Magasins NoSQL à évolutivité horizontale
Les systèmes NoSQL abandonnent le modèle relationnel à nœud unique au profit de modèles clé-valeur, document, colonne large ou graphe qui fragmentent (shard) et répliquent les données à travers des clusters de serveurs standards, priorisant l'évolutivité et la disponibilité par rapport aux requêtes complexes et à la cohérence forte.
Traitement de données parallèles
Les frameworks suivant le modèle MapReduce expriment les calculs à grande échelle sous forme de phases parallèles de 'map' et de 'reduce' sur des données partitionnées, masquant la complexité de la distribution, de l'ordonnancement et de la tolérance aux pannes pour le programmeur.
Compromis CAP
Le théorème CAP stipule qu'un magasin de données distribué ne peut pas garantir simultanément la cohérence, la disponibilité et la tolérance aux partitions, obligeant les concepteurs à choisir, lors d'une partition réseau, entre la cohérence et la disponibilité.

Clinical relevance

Les systèmes Big Data et NoSQL alimentent l'infrastructure de données du web moderne : les magasins clé-valeur et à colonnes larges soutiennent les services à fort trafic, les frameworks de traitement de données parallèles traitent les journaux (logs) et les flux de clics (clickstreams) à grande échelle, et les entrepôts de données (data warehouses) servent l'analyse commerciale (business analytics), rendant ces systèmes centraux pour l'ingénierie des données et les applications à grande échelle.

History

Les charges de travail à l'échelle d'Internet dans les années 2000 ont dépassé ce que les bases de données relationnelles à nœud unique pouvaient gérer. MapReduce de Google (2004/2008) et l'écosystème open source Hadoop ont permis le traitement de données à l'échelle de clusters ; Dynamo d'Amazon (2007) et Bigtable de Google ont inspiré une vague de magasins NoSQL ; et le théorème CAP de Brewer a encadré les compromis cohérence-disponibilité que ces systèmes incarnent.

Debates

Cohérence forte versus cohérence éventuelle
Les systèmes NoSQL optent souvent pour la disponibilité et la cohérence éventuelle afin de rester réactifs en cas de partitions, mais cela reporte la gestion des conflits sur les applications ; le domaine débat de la pertinence de la cohérence éventuelle par rapport au moment où les systèmes plus récents devraient rétablir des garanties plus fortes.

Key figures

  • Jeffrey Dean
  • Sanjay Ghemawat
  • Eric Brewer
  • Werner Vogels

Related topics

Seminal works

  • dean2008
  • decandia2007
  • brewer2012

Frequently asked questions

NoSQL signifie-t-il 'pas de SQL du tout' ?
Non. NoSQL est généralement interprété comme 'pas seulement SQL'. Il fait référence à des magasins de données qui ne sont pas construits sur le modèle relationnel et ne sont pas centrés sur SQL, mais de nombreux systèmes NoSQL offrent des interfaces de requête de type SQL, et le terme couvre une vaste famille — bases de données clé-valeur, document, colonne large et graphe — plutôt qu'une technologie unique.
Quand devrais-je choisir un système NoSQL plutôt qu'une base de données relationnelle ?
Les systèmes NoSQL sont attrayants lorsque vous devez évoluer horizontalement sur de nombreuses machines, stocker des données flexibles ou en évolution rapide, ou maximiser la disponibilité pour des modèles d'accès simples. Les bases de données relationnelles restent préférables lorsque vous avez besoin de requêtes riches, de jointures complexes et d'une forte cohérence transactionnelle sur des données structurées.

Methods for this concept

Related concepts