> Formations > Technologies numériques > Intelligence Artificielle, Big Data > Big Data > Formation Hadoop, installation et administration

Formation : Hadoop, installation et administration

Hadoop, installation et administration

Télécharger au format pdf Partager cette formation par e-mail 2


La plateforme Apache Hadoop est la première solution a avoir réellement rendu possibles des traitements (distribués) sur d'énormes quantités de données. Ce cours vous montrera comment installer, configurer et administrer un cluster Hadoop ainsi que d'autres composants de l'écosystème (Hive, Pig, HBase, Flume...).


Inter
Intra
Sur mesure

Cours pratique en présentiel ou en classe à distance

Réf. HOD
Prix : 2860 € H.T.
  4j - 28h00




La plateforme Apache Hadoop est la première solution a avoir réellement rendu possibles des traitements (distribués) sur d'énormes quantités de données. Ce cours vous montrera comment installer, configurer et administrer un cluster Hadoop ainsi que d'autres composants de l'écosystème (Hive, Pig, HBase, Flume...).

Objectifs pédagogiques
À l’issue de la formation, le participant sera en mesure de :
  • Découvrir les concepts et les enjeux liés à Hadoop
  • Comprendre le fonctionnement de la plateforme et de ses composants
  • Installer la plateforme et la gérer
  • Optimiser la plateforme

Public concerné
Administrateurs de cluster Hadoop, développeurs.

Prérequis
Bonnes connaissances de l'administration Linux. Expérience requise.
Vérifiez que vous avez les prérequis nécessaires pour profiter pleinement de cette formation en faisant  ce test.

Programme de la formation

Présentation du framework Apache Hadoop

  • Enjeux du Big Data et apports du framework Hadoop.
  • Présentation de l'architecture Hadoop.
  • Description des principaux composants de la plateforme Hadoop.
  • Présentation des distributions principales du marché on-premise et on-Cloud, et l’approche hybride.
  • Avantages/inconvénients de la plateforme vs les solutions alternatives.
  • Synthèse des différents composants natifs, complémentaires, et comparatif (Storm, Flink, Spark…).

Préparations et configuration du cluster Hadoop

  • Principes de fonctionnement de Hadoop Distributed File System (HDFS).
  • Principes de fonctionnement de MapReduce.
  • Design "type" du cluster.
  • Critères de choix du matériel.
Travaux pratiques
Configuration du cluster Hadoop.

Installation d'une plateforme Hadoop

  • Type de déploiement.
  • Installation d'Hadoop.
  • Installation d'autres composants (Hive, Pig, HBase, Nifi...).
  • Présentation et comparatif des piles logicielles historiques (HDP, HDF, CDH) et actuelles (CDP/CDSW…).
  • Architectures Kappa, Lambda, SMACK (Spark, Mesos, Akka, Cassandra, Kafka).
Travaux pratiques
Installation d'une plateforme Hadoop et des composants principaux.

Gestion d'un cluster Hadoop

  • Gestion des nœuds du cluster Hadoop.
  • MapReduce V2 (Yarn, Resource Manager, Application Master, Node Manager…).
  • Gestionnaires de ressources (Yarn vs Mesos).
  • Gestion des tâches via les schedulers.
  • Gestion des logs.
  • Ordonnancement des traitements (Oozie...).
  • Utiliser un manager.
Travaux pratiques
Lister les jobs, statut des queues, statut des jobs, gestion des tâches, accès à la Web UI.

Gestion des données dans HDFS

  • Import de données externes (fichiers, bases de données relationnelles) vers HDFS.
  • Manipulation des fichiers HDFS.
  • Les formats de fichiers (SequenceFile, ORC, Parquet…), leurs usages et leurs relations avec les performances.
  • Le stockage sous forme de base de données (structurée ou non) : NoSQL Hbase, SQL avec Impala, Hive, Hive LLAP…
Travaux pratiques
Importer des données externes avec Flume ou Nifi, importer des données des bases de données relationnelles avec Sqoop.

Configuration avancée

  • Autorisations et sécurité : administration, authentification, autorisations, audit, protection des données.
  • Les composants impliqués dans la sécurité : Ranger, Knox, Kerberos, KMS...
  • NameNode high availability (MRV2/YARN).
Travaux pratiques
Configuration d'un service-level authentication (SLA) et d'un Access Control List (ACL).

Monitoring et optimisation/Tuning

  • Monitoring (Ambari, Cloudera Manager, Ganglia...).
  • Les types de benchmark (DFSIO, Teragen/TeraSort/TeraValidate) et les résultats disponibles en ligne (TPCx-HS, …)
  • Comparatif entre MapReduce et TEZ.
  • Exemples d’optimisation et d’outils d’aide à l’optimisation (CDP advisor…).
  • Choix de la taille des blocs.
  • Autres options de tuning (utilisation de la compression, configuration mémoire...).
Travaux pratiques
Paramétrer, lancer et analyser des Bench, Appréhender les commandes au fil de l'eau de monitoring et d'optimisation de cluster.

Les apports de Hadoop v3

  • Les approches de type stockage Objet (Ozone).
  • Erasure coding.
  • Yarn Federation.
  • Scénarios de migration, les aspects à prendre en compte, et quelques exemples (Hortonworks vers Cloudera...).


Modalités pratiques
Travaux pratiques
Installation du cluster Hadoop et paramétrage.
Méthodes pédagogiques;
Méthode pédagogique de type "magistral" avec des exercices pratiques à l'appui, après chaque notion ou groupe de notions exposées.

Modalités d'évaluation
Le formateur évalue la progression pédagogique du participant tout au long de la formation au moyen de QCM, mises en situation, travaux pratiques…
Le participant complète également un test de positionnement en amont et en aval pour valider les compétences acquises.

Avis clients
5 / 5
Les avis clients sont issus des évaluations de fin de formation. La note est calculée à partir de l’ensemble des évaluations datant de moins de 12 mois. Seules celles avec un commentaire textuel sont affichées.
ERIC M.
24/10/23
5 / 5

Très bonne pédagogie avec un support très clair et des exercices très équilibrés.
STEPHANE R.
24/10/23
5 / 5

Formation fort sympathique et dynamique par un passionné du sujet. Excellent
HENG N.
24/10/23
5 / 5

Très pédagogue, interactif et bon équilibre entre théorie et pratique




Dates et lieux
Sélectionnez votre lieu ou optez pour la classe à distance puis choisissez votre date.
Classe à distance