Ref: SIHA001

Data Analyst - Analyse de données en environnement Hadoop

E-learning - Synchrone - 21h

Objectifs

Cette formation Data Analyst – Analyse de données en environnement Hadoop vous permettra de :



  • Identifier le fonctionnement d'Hadoop Distributed File System (HDFS) et YARN/MapReduce 

  • Explorer HDFS

  • Suivre l'exécution d'une application YARN

  • Définir le fonctionnent et utiliser les différents outils de manipulation de la donnée :

  • Hue : Utilisation de l'interface unifiée

  • Hive, Pig : Les générateurs de MapReduce

  • Tez : L'optimisation des générateurs de MapReduce

  • Sqoop : Comment importer les données de l'entreprise dans un cluster Hadoop?

  • Oozie : Comment organiser les exécutions des différentes applications ?

Syllabus

Introduction



  • Présentation générale d'Hadoop

  • Exemples d'utilisation dans différents secteurs

  • Historique et chiffres clés : Quand parle-t-on de Big Data ?


L'écosystème d'Hadoop



  • Le système de fichier HDFS

  • Le paradigme MapReduce et l'utilisation à travers YARN


Manipulation des données dans un cluster Hadoop



  • Hue : Comment fonctionne cette interface web ?

  • Hive : Pourquoi Hive n'est pas une base de données ?

  • Requête sur Hive

  • Utilisation de HCatalog

  • Utilisation avancée sur Hive

  • Utilisation de fonctions utilisateurs

  • Paramétrage de requête

  • Pig : Fonctionnement de Pig

  • Programmation avec Pig Latin

  • Utilisation du mode Local

  • Utilisation de fonctions utilisateurs

  • Tez : Qu'est-ce que Tez ?

  • Comment et quand l'utiliser ?

  • Oozie : Fonctionnement de Oozie

  • Création de Workflows avec Oozie

  • Manipulation des Workflows

  • Ajout d'éléments d'exploitation dans les Workflows

  • Ajout de conditions d'exécution

  • Paramétrage des Workflows

  • Sqoop : A quoi sert Sqoop ?

  • Chargement des données depuis une base de données relationnelle

  • Chargement des données depuis Hadoop

  • Utilisation et paramétrage avancée

  • Les particularités des distributions : Impala, Hawq

  • Quelles sont les bonnes pratiques d'utilisation des différents outils ?

Comment ?

Méthodes pédagogiques

1 poste et 1 support par stagiaire


8 à 10 stagiaires par salle


Remise d'une documentation pédagogique papier ou numérique pendant le stage


La formation est constituée d'apports théoriques, d'exercices pratiques, de réflexions et de retours d'expérience

Évaluation

Auto-évaluation des acquis par le stagiaire via un questionnaire en ligne


Attestation de fin de stage remise au stagiaire

Participez à la prochaine session !

S'inscrire

Admission

A qui s’adresse cette formation

Cette formation Data Analyst - Analyse de données en environnement Hadoop est destinée aux personnes qui devront manipuler les données dans un cluster Apache Hadoop.

Prérequis

Cette formation Data Analyst - Analyse de données en environnement Hadoop nécessite d'avoir une expérience dans la manipulation de données. Une connaissance préliminaire d'Hadoop n'est pas exigée.

Coût de la formation

Frais pédagogiques

2400€ HT

Tarif Inter-entreprise par personne

Aides au financement

Des dispositifs variés et aides au fnancement existent. N’hésitez pas à nous constulter pour en savoir plus.

En savoir plus sur les dispositifs de financement.

Le Pont Learning