Data Mesh vs Data Fabric : comprendre ces deux approches

Vous avez déjà entendu parler de Data Mesh et Data Fabric, sans vraiment comprendre la différence entre les deux ? On vous comprend : de prime abord, ces deux termes peuvent sembler complexes et mystérieux pour les non-initiés…

Vous avez envie d’en savoir plus et de creuser le sujet ? Ça tombe bien : dans cet article, on décortique ces deux approches particulièrement intéressantes pour démocratiser l’accès à la data. Plutôt que de les faire s’affronter, on verra en quoi leur philosophie et architecture peuvent être complémentaires !

Qu’est-ce que le Data Mesh ?

Le Data Mesh, ou maillage de données en français, est une approche de la data centrée sur le produit. Son principal objectif est en effet d’aider les équipes produit à résoudre les défis que pose l’hétérogénéité des sources de données dont elles disposent.

Avec les méthodes de stockage de données traditionnelles, comme les data lakes ou encore les data warehouses, la centralisation et la consolidation de l’ensemble de vos sources de données peut en effet finir par poser problème. Et cette situation rend l’accès aux informations pertinentes plus compliqué.

Dans ce cadre, le Data Mesh fait référence à une approche décentralisée de l’architecture des données. C’est précisément cette philosophie qui favorise l’agilité des équipes produits et permet aux créateurs (comme aux utilisateurs) d’accéder et exploiter plus facilement l’ensemble des données de leur organisation.

Ces quatre principes fondamentaux sont :

L’utilisation de plusieurs domaines de données, chacun ayant des objectifs et répondant à des besoins spécifiques ;
La data en tant que produit, ce qui suppose qu’à chaque étape du flux de travail des données, ces dernières doivent être facilement accessibles et utilisables pour les équipes internes comme pour les utilisateurs finaux ;
Une infrastructure autonome, créée par les data engineers et comprenant une plateforme en libre service, pour que toutes les parties prenantes puissent gagner en agilité ;
Une approche de gouvernance fédérée. Les équipes de chaque domaine se réunissent et définissent les règles qui régissent leurs données. Cette gouvernance prévoit des points de contrôle tout au long des workflows de données, pour garantir leur qualité ainsi que le respect des normes édictées.

Qu’est-ce que la Data Fabric ?

La Data Fabric, c’est un peu comme le ciment qui va venir unifier plusieurs systèmes disparates de données, pour permettre aux entreprises d’en tirer davantage de valeur. À mesure que les volumes de données dont dispose une organisation sont amenés à augmenter (en général, de manière exponentielle), la pertinence d’un système centralisé et unique se fait ressentir.

C’est tout l’intérêt de l’approche de Data Fabric, qui implique un référentiel cohérent basé sur les métadonnées et vise à connecter toutes les sources de données sous une seule et unique couche virtuelle. La centralisation facilite la gouvernance, l’accès aux données et leur intégration dans les processus de l’entreprise.

L’élément central de la Data Fabric, ce sont donc les métadonnées. Ce sont elles qui fournissent les informations sur les données dont dispose l’organisation. Mais elles permettent aussi d’établir le flux de données et créer les connexions entre différentes sources de data.

Autre caractéristique très importante : cette architecture de données est indépendante du cloud et n’est rattachée à aucune plateforme spécifique. Elle rend donc possible l’intégration transparente de sa Data Fabric sur plusieurs outils comme Azure, AWS ou encore Google Cloud.

Data Mesh vs Data Fabric : quelle architecture de données choisir ?

Le Data Mesh et la Data Fabric diffèrent dans la façon dont elles gèrent les données. Mais aussi dans celle dont elles stockent ces données et assurent leur gouvernance.

Pour vous aider à faire votre choix, voici les principales différences dont vous devez tenir compte pour déterminer quelle architecture répond le mieux à vos besoins.

Pour une approche centrée sur les personnes ou sur le produit

Le Data Mesh considère les données comme un produit. Toute sa philosophie est donc d’en faciliter l’accès, afin qu’elles puissent être faciles à trouver et à utiliser aussi bien par les équipes de l’entreprise que par ses clients et utilisateurs. Ainsi, son principal intérêt est de réduire les frictions en matière d’accès et de faire tomber les barrières techniques autour de l’usage des données.

De son côté, la Data Fabric mise sur une approche automatisée et très “technology-centric”. Elle est donc plus complexe à mettre en place et à comprendre pour des personnes qui n’ont pas de compétences techniques en matière de data.

Centralisé vs décentralisé : que choisir ?

Le sujet de la décentralisation est une autre grande différence entre Data Mesh et Data Fabric. L’approche de cette dernière consiste en effet à unifier plusieurs sources de données en un seul et même système virtuel. À l’inverse, le maillage de données suit la philosophie opposée, en créant plusieurs systèmes spécifiques à chaque domaine d’utilisation.

Cette architecture a un impact sur l’accès aux données. Pour le Data Mesh, elles sont accessibles via un jeu de données contrôlé par chaque “fédération”. Tandis que dans le cadre de la Data Fabric, les données sont mises à disposition via des API.

Gouvernance horizontale vs gouvernance descendante

Pour finir, la manière dont sont gérées les données est très différente entre le Data Mesh et la Data Fabric. Pour la première, la gouvernance des données implique la contribution de chaque domaine. Elle est donc plus participative, chaque service édictant ses propres règles et contrôlant le flux de travail de ses données.

La Data Fabric suppose une approche plus descendante de la gouvernance. C’est une autorité centrale, qui définit les directives en matière de politiques des données et les fait appliquer.

Data Mesh et Data Fabric : deux approches complémentaires

Au-delà de leurs antagonismes, ces deux approches sont beaucoup plus complémentaires qu’on pourrait le croire… De manière générale, une architecture de type Data Fabric sera beaucoup plus pertinente à un stade où les compétences en matière de données en interne ne sont pas suffisantes pour qu’un système décentralisé et horizontal soit pertinent.

Mais à mesure que les différents services de l’entreprise deviennent plus à l’aise avec la data et mieux à même de l’utiliser dans la conception de produits ainsi que la relation avec vos utilisateurs finaux, le maillage de données sera un bon moyen de s’assurer qu’elles ne restent pas uniquement entre les mains des data engineers… Tout est donc une question de mesure et de contexte.

À vous de faire un bilan de votre niveau de maturité et de vos besoins, avant d’opter pour l’approche qui correspond le mieux à votre situation et à vos besoins !

Ceci devrait vous intéresser

Concepts clés

31 mai 2023

Les small data : qu'est-ce que c'est ?

Savez-vous ce que sont les Small Data ? Alors que nous parlons aujourd'hui sans cesse de Big data, nous avons décidé de consacrer un article à ses petites sœurs : les small data. Définition, avantages et bénéfices sont à retrouver dans cet article.

Outils et Technologies

11 avril 2023

Snowflake : le data warehousing version cloud

Cet article, explore la solution cloud Snowflake, ses fonctionnalités, son coût, un cas d'usage concret et surtout les solutions alternatives à cet outil.

Outils et Technologies

20 mars 2023

ETL vs ELT : quelle solution choisir pour mon projet ?

Savez-vous quelle solution choisir entre ETL et ELT pour votre projet d'intégration de données ? Si la réponse est non, n'attendez plus pour lire notre article. Nous vous donnons les clés pour faire le bon choix.

Connect

Pour recevoir nos derniers articles sur la Data et l'Intelligence Artificielle, abonnez vous à Connect, l’email qui fait du bien à vos données.

Data Mesh vs Data Fabric : comprendre ces deux approches

Qu’est-ce que le Data Mesh ?

Qu’est-ce que la Data Fabric ?

Data Mesh vs Data Fabric : quelle architecture de données choisir ?

Pour une approche centrée sur les personnes ou sur le produit

Centralisé vs décentralisé : que choisir ?

Gouvernance horizontale vs gouvernance descendante

Data Mesh et Data Fabric : deux approches complémentaires

Les sujets data vous intéresse ?

Ceci devrait vous intéresser

Les small data : qu'est-ce que c'est ?

Snowflake : le data warehousing version cloud

ETL vs ELT : quelle solution choisir pour mon projet ?

Connect