Les bases de données décisionnelles (Infocentre, Datawarehouse, Datamart, …) sont le plus souvent alimentées grâce à un logiciel de la famille des ETL (Extraction, Transformation, Load). Ces outils ETL proposent donc des fonctionnalités globalement équivalentes, mais se différencient sur certains points. Nous vous proposons un tour d’horizon de 3 d’entre eux : IBM DataStage, Informatica PowerCenter et Talend Open Studio.
Architecture retenue
DataStage est intégré dans la suite IBM Infosphere Information Server, qui utilise une architecture centralisant les fonctionnalités telles que la gestion des comptes et des droits, la génération des documentations, … Il comprend un serveur dédié pour l’exécution des traitements et des postes de développement avec des logiciels de type client lourd, donc installés sur le poste.
PowerCenter est une solution propriétaire entièrement autonome, proposée par un éditeur spécialiste du traitement de la donnée. Il comporte également un serveur dédié et des postes client lourd.
Pour sa part, Talend Open Studio est ouvert, car conçu avec l’environnement Open Source Eclipse. Il peut fonctionner sans déploiement d’un serveur, le poste de développement de type client lourd pouvant prendre en charge l’exécution des traitements dès lors que ceux-ci ne nécessitent pas trop de ressources.
Un serveur devient nécessaire pour les volumes importants de données, les traitements complexes, ainsi que pour la gestion de plusieurs comptes de développeurs avec les droits de chacun.
Interface de développement
Le développeur PowerCenter parcourt 4 modules : Repository Manager pour gérer les métadonnées, Designer pour créer les sources, les cibles et les mappings, Workflow Manager pour créer et exécuter les flux, Workflow Supervisor pour superviser les flux.
Talend Open Studio ne comprend qu’un seul module qui donne accès à l’ensemble des phases de développement. De plus, les perspectives Eclipse permettent de disposer, au sein de ce module, de différents environnements de travail, selon que l’on souhaite mettre en œuvre des projets d’intégration de données (ETL), de Meta Data Management (MDM), Data Quality Management, Business Process Management (BPM), …
DataStage se compose de 2 modules : Designer permet de gérer les métadonnées et développer, Director d’exécuter et superviser les traitements.
Composants d’accès aux données
Ces 3 outils ETL fournissent une interface graphique permettant de modéliser les traitements au moyen de composants.
Dans tous les cas, l’accès aux données est fonction de la technologie de stockage. Ainsi il y a un composant pour chaque moteur de base de données (Oracle, SQL Server, My Sql, …), ainsi que pour chaque type de fichier (séquentiel, Xml, …).
Informatica PowerCenter et Talend Open Studio différencient le composant qui permet de récupérer des données de celui qui les écrit. Par contre IBM DataStage met à disposition du développeur un seul composant qui joue les 2 rôles.
Composants de traitement des données
Dans ce domaine, nos trois outils ETL proposent chacun des fonctionnalités très proches. Ils permettent de transformer tous les types de données, de les dédoublonner, de les filtrer, de réaliser des rapprochements de données provenant de sources différentes, …
Langage de programmation
Malgré le nombre important de composants mis à la disposition des développeurs, chacun de ces logiciels permet de développer occasionnellement avec un langage de programmation.
En raison de son architecture ouverte, Talend Open Studio s’appuie sur le langage Java, tandis que DataStage et PowerCenter ont un langage propriétaire.
En conclusion
Voilà en quelques mots un aperçu des différences ou ressemblances entre ces 3 outils ETL.
En ce qui concerne les performances, les quelques comparatifs dont nous avons pu connaissance montrent des résultats disparates. Comme dans toutes les familles de logiciels, chacun a des points forts et d’autres points qui sont moins à son avantage.
Si vous participez prochainement à un projet mettant en œuvre l’une de ces technologies, les formations ci-dessous vous permettront d’entrer rapidement dans le vif du sujet :
- DataStage Server – Développeur
- DataStage PX – Développeur
- Informatica PowerCenter – Développeur
- Talend – Data Integration – Basics
- Talend – Data Integration -Enterprise
Ces articles devraient vous intéresser
Connect
Chaque semaine dans votre boite mail, un condensé de conseils et de nouvelles entreprises qui recrutent
Comprendre les Processus ETL et ELT : Quel Outil Utiliser et Quand ?
Pour optimiser vos processus décisionnels et de gestion des données, il est crucial de comprendre les différences entre les méthodes ETL (Extract/Transform/Load) et ELT (Extract/Load/Transform). Cette fiche pratique vous fournira les clés pour choisir la méthode la plus adaptée à vos besoins spécifiques.