ClaraVista


Glossaire : Datalake

Publié le 29 mars 2018 à 15:03

Qu’est-ce qu’un Datalake ?

On en entend parler de la data du lac comme autrefois du monstre du Loch Ness. L’existence de cette créature-ci – le datalake – est bien avérée et nous en démystifions la teneur.

Structure

Un datalake permet de stocker une très grande quantité de données brutes dans leur format d’origine. Cette absence de contrainte d’harmonisation permet une grande flexibilité : tous types de données peuvent être agrégés en temps réel sans traitement.

Exploitation

Le datalake permet ensuite d’effectuer des analyses à grande échelle qui recoupent de nombreux éléments de sources diverses. L’absence de limite de quantité et la multiplicité des formats peuvent cependant rendre cette caverne d’Ali Baba fort obscure. L’utilisateur qui veut exploiter les données du datalake doit donc identifier clairement ses besoins. Il saura alors quoi sourcer et comment en faire sens. Le datalake permet également de faire progresser le Machine Learning puisque les algorithmes prédictifs s’affinent en continu à mesure qu’ils consomment de la donnée : de la récurrence naissent des schémas.

Le mot de ClaraVista

Si un datalake permet une grande flexibilité, il doit impérativement être conçu avec rigueur pour être exploitable. Une indexation précise des données de toute forme intégrées au fil de l’eau est ainsi incontournable.

Partager l'article