> Formations > Technologies numériques > Développement logiciel > Python > Formation Spark Python, développer des applications pour le big data
Formation incontournable

Formation : Spark Python, développer des applications pour le big data

Spark Python, développer des applications pour le big data

Télécharger au format pdf Partager cette formation par e-mail 2


Spark est un framework de calcul distribué permettant de manipuler des données volumineuses. Conçu au départ pour accélérer les traitements d'Hadoop, il est devenu un système autonome. Il peut se programmer avec quatre langages, dont Python, devenu prédominant. Ce cours vous fait découvrir Spark Python.


Inter
Intra
Sur mesure

Cours pratique en présentiel ou en classe à distance

Réf. QNC
Prix : 1870 € H.T.
  3j - 21h00




Spark est un framework de calcul distribué permettant de manipuler des données volumineuses. Conçu au départ pour accélérer les traitements d'Hadoop, il est devenu un système autonome. Il peut se programmer avec quatre langages, dont Python, devenu prédominant. Ce cours vous fait découvrir Spark Python.

Objectifs pédagogiques
À l’issue de la formation, le participant sera en mesure de :
  • Découvrir les concepts fondamentaux de Spark
  • Utiliser le concept des RDD de Spark
  • Exploiter des données avec Spark SQL
  • Effectuer de l’analyse en temps réel avec Spark Streaming
  • Utiliser Spark avec les notebooks Jupyter, manipuler les données avec Pyspark comme avec Pandas
  • Aborder le machine learning avec Spark

Public concerné
Toute personne connaissant Python souhaitant découvrir le framework Spark de la fondation Apache.

Prérequis
Bonne pratique du langage Python.
Vérifiez que vous avez les prérequis nécessaires pour profiter pleinement de cette formation en faisant  ce test.

Programme de la formation

Présentation d’Apache Spark

  • Historique du framework.
  • Les quatre principaux composants : Spark SQL, Spark Streaming, MLlib et GraphX.
  • Les outils et les librairies Python pour Spark : PySpark, notebooks Jupyter, Koalas.
  • Les concepts de programmation de Spark.
  • Exécuter Spark dans un environnement distribué.
Travaux pratiques
Mise en place de l’environnement Python pour Spark. Mise en œuvre de scripts manipulant des concepts de Spark.

Utiliser Spark avec Python : les resilient distributed datasets (RDD)

  • Configurer son environnement Python.
  • Se connecter à Spark avec Python : les contextes et les sessions.
  • Présentation des RDD. Créer, manipuler et réutiliser des RDD.
  • Les principales fonctions/transformations, mise en œuvre d’algorithmes de type map/reduce.
  • Accumulateurs et variables broadcastées.
  • Utiliser des partitions.
  • Utiliser les notebooks et soumettre des jobs Python.
Travaux pratiques
Manipulation de contextes et de sessions. Création et réutilisation de RDD. Soumission de travaux.

Manipuler des données structurées

  • Présentation de Spark SQL et des DataFrames et datasets.
  • Les différents types/formats de sources de données.
  • Interopérabilité avec les RDD.
  • Utiliser la librairie PySpark Pandas.
Travaux pratiques tutorés
Exécution de requêtes avec Spark SQL. Mise en œuvre de DataFrames et datasets. Manipulation de DataFrame.

Machine learning avec Spark

  • Introduction au machine learning.
  • Les différentes classes d'algorithmes.
  • Présentation de MLlib.
  • Implémentation des différents algorithmes dans MLlib.
Travaux pratiques
Mise en œuvre d’apprentissages supervisés au travers d’une classification.

Analyser en temps réel avec Spark Streaming

  • Comprendre l’architecture du streaming.
  • Présentation des Discretized Streams (DStreams).
  • Les différents types de sources.
  • Manipulation de l'API (agrégations, watermarking...).
  • Machine learning en temps réel.
Travaux pratiques
Création de statistiques en temps réel à partir d’une source de données et prédictions à l’aide du machine learning.

Théorie des graphes

  • Introduction à la théorie des graphes (nœuds, arêtes, graphes orientés, chemins, principaux algorithmes).
  • Utilisation de l’API.
  • Présentation des librairies GraphX et GraphFrame.
Travaux pratiques
Mise en œuvre d’un algorithme de recherche du plus court chemin ou page rank et visualisation du graphe.


Modalités pratiques
Exercice
De nombreux exercices sont réalisés pour illustrer les sujets.
Méthodes pédagogiques;
Chaque sujet est illustré par des démonstrations se déroulant sur un cluster dans le cloud. Les participants réalisent des exercices après la présentation des concepts.

Modalités d'évaluation
Le formateur évalue la progression pédagogique du participant tout au long de la formation au moyen de QCM, mises en situation, travaux pratiques…
Le participant complète également un test de positionnement en amont et en aval pour valider les compétences acquises.

Parcours certifiants associés
Pour aller plus loin et renforcer votre employabilité, découvrez les parcours certifiants qui contiennent cette formation :

Avis clients
4,6 / 5
Les avis clients sont issus des évaluations de fin de formation. La note est calculée à partir de l’ensemble des évaluations datant de moins de 12 mois. Seules celles avec un commentaire textuel sont affichées.
APOLLINAIRE B.
20/03/24
5 / 5

Formation intéressante avec un très bon formateur.
CHRISTOPHE R.
20/03/24
4 / 5

Aperçu de tout ce qui tourne autour de PySpark. Même si sans connaître Python cela n à pas été évident. La partie sur les graph est peut être à retirer pour passer plus de temps sur les fonctions full PySpark
HIBA M.
04/12/23
5 / 5

Le contenu est intéressant et varié. La formatrice était pédagogue, technique et à l’écoute.




Dates et lieux
Sélectionnez votre lieu ou optez pour la classe à distance puis choisissez votre date.
Classe à distance