Définition : Data Lake

La notion de data lake ou lac de données peut être considérée comme l’héritière du datawarehouse à l’ère du big data.

Le terme de data lake peut parfois être vu comme un buzword de plus ou un mot à vocation marketing promu par les prestataires du domaine, mais il a cependant le mérite d’illustrer les évolutions au niveau du stockage et des traitements des données qui sont induites par l’explosion des volumes de données collectées et par leur hétérogénéité croissante.

Le data lake est en effet alimenté en continu par un ensemble de canaux marketing qui sont le plus souvent digitaux et qui amènent des données de natures hétérogènes pouvant être plus ou moins mélangées au sein du « lac » pour éviter des phénomènes de silos de données. Le terme de lac de données ou data lake évoque également le volume très important des données collectées.

Un exemple de témoignage sur l’usage d’un data lake alimenté, entre autres, par les données de web analytics :



Pour une illustration complémentaire, voir un petit article simple d’accès consacré la mise en place d’un data lake chez Mediamétrie.

Une présentation riche,calire et aboutie consacrée aux lacs de données ou data lakes :