ClaraVista


Le Mot de la Semaine – DataLake, Datamart & DataWarehouse

Publié le 18 février 2020 à 08:02

 

Chaque métier possède son jargon. Cette réalité semble être une évidence, mais peut créer parfois des surprises… Chez ClaraVista, les data-scientists côtoient les consultants en stratégie marketing, les professionnels de l’expérience et les développeurs en Intelligence Artificielle. Grâce au Edge Effect, cette collaboration entre plusieurs univers est source d’infinie richesse ; mais elle nécessite que tout le monde « parle la même langue » et comprenne les besoins et outils de chacun.

ClaraVista accompagne quotidiennement clients et prospects dans la découverte de ce vocabulaire et vous propose une série d’articles expliquant les termes employés couramment dans nos métiers.

 

DataLake (littéralement « lac de données ») DataWarehouse (littéralement « entrepôt de données ») et DataMart sont des outils de stockage de données.

 

Un DataLake

vise à stocker l’intégralité des données d’une entreprise - structurées ou non - sans présumer de leur utilisation future. Les données stockées dans un DataLake ne sont pas nettoyées ou agrégées (ou très peu). Elles seront structurées, agrégées, nettoyées lors de leur utilisation, en fonction de l'usage que l'on veut alors en faire.

Un des usages les plus courant du DataLake est de rendre les données accessibles aux data scientists de l'entreprise, qui pourront ensuite les utiliser pour établir des modèles ou des analyses. Si les DataLake, mettent à disposition des informations plus exhaustives que d’autres outils de stockage de données, il nécessite un travail préalable de structuration des données important.

 

Une DataWarehouse

stocke des données nettoyées, ordonnées, agrégées. Ces données peuvent éventuellement servir à un data scientist pour qu'il crée des modèles, mais ont plus souvent vocation à alimenter un système d'information dédié au reporting.

Les DataWarehouse sont rarement exhaustives, car structurer l’ensemble des informations collectées et/ou générées par une entreprise est un processus souvent lourd et coûteux. Il faut donc faire des choix en matière d’informations stockées. L’agrégation de données et leur traitement cause par ailleurs une perte d’informations inévitable. Ce type de base de données ne permet donc que rarement de répondre à une question pointue, car des informations utiles sont manquantes.  Elle reste par contre parfaitement exploitable pour identifier des tendances globales, et simplifie grandement l’exploration des équipes opérationnelles.

 

Un DataMart

stocke des données structurées, à l’image d’une DataWarehouse. Ils ne sont pas pour autant tout à fait équivalents. Là où les DataWarehouse structurent des données pour l'ensemble des métiers de l'entreprise (logistique, marketing…), le DataMart est dédié à une utilisation précise comme la gestion de la relation client.

Partager l'article