Spark Python - Développer des applications pour le Big Data

Formation créée le 11/12/2025.
Version du programme : 1

Type de formation

Présentiel

Accessibilité

Oui
Besoin d’adapter cette formation à vos besoins ? N’hésitez pas à nous contacter afin d’obtenir un devis sur mesure ! Nous contacter

Spark Python - Développer des applications pour le Big Data


Cette formation de 21 heures permet de comprendre et d’exploiter Spark en environnement Python (PySpark) pour traiter des données volumineuses. Elle couvre l’architecture distribuée de Spark, le traitement des DataFrames, les optimisations et la réalisation d’un mini-projet d’analyse Big Data.

Objectifs de la formation

  • Comprendre l’architecture de Spark et ses concepts fondamentaux
  • Manipuler des DataFrames PySpark pour le traitement de données distribuées
  • Appliquer des opérations de transformation, jointure, filtrage et agrégation
  • Optimiser les traitements Spark (plan d’exécution, cache, UDF) et structurer une application Big Data

Profil des bénéficiaires

Pour qui
  • Développeurs Python
  • Data analysts
  • Ingénieurs data
  • Profils techniques en reconversion vers la data
Prérequis
  • Maîtrise de Python
  • Connaissances de pandas
  • Notions de SQL recommandées

Contenu de la formation

Jour 1 – Introduction à Spark et PySpark
  • Architecture Spark : cluster, exécuteurs, DAG, RDD vs DataFrame
  • Démarrer avec SparkSession, chargement de données (CSV, JSON)
  • Exploration de données : show, schema, select, filter
Jour 2 – Transformations avancées et SQL
  • Fonctions Spark : withColumn, groupBy, join, agg
  • Gestion des types, conversions, gestion des null
  • Intégration avec SQL : createOrReplaceTempView, requêtes SQL
  • Export des résultats (CSV, parquet)
Jour 3 – Optimisation & mini-projet
  • Plan d’exécution (explain), cache, persist
  • UDF (User Defined Functions)
  • Initiation à Spark MLlib (modèle simple de classification)
  • Mini-projet : traitement d’un corpus big data + restitution

Équipe pédagogique

Les formateurs intervenant dans cette formation sont des experts reconnus dans leur domaine. Sélectionnés avec soin, ils répondent à des critères stricts définis par nos équipes pédagogiques, tant sur le plan de l'expertise métier que sur celui des compétences pédagogiques. Chaque formateur : Possède au minimum 5 à 10 ans d'expérience professionnelle dans son domaine d'activité. A occupé ou occupe encore des postes à responsabilité en entreprise, apportant une vision concrète et actualisée des réalités du terrain. Est formé à des méthodes pédagogiques interactives pour garantir un apprentissage efficace et adapté aux besoins des participants.

Suivi de l'exécution et évaluation des résultats

  • Exercices corrigés à chaque module
  • Mini-projet individuel ou binôme
  • Feuille de présence
  • Questionnaire de satisfaction

Ressources techniques et pédagogiques

  • Support de cours PDF
  • Scripts .py ou notebooks PySpark
  • Jeux de données fournis (CSV volumineux)
  • Documentation d’installation locale / cloud

Qualité et satisfaction

Questionnaire de satisfaction à chaud. Questionnaire de satisfaction à froid

Capacité d'accueil

Entre 1 et 8 apprenants

Délai d'accès

2 semaines

Accessibilité

Nous accordons une attention particulière à l'accueil des personnes en situation de handicap. Si vous êtes concerné(e) et souhaitez suivre cette formation, nous vous invitons à nous contacter dès que possible. Ensemble, nous étudierons vos besoins spécifiques et mettrons en place les adaptations nécessaires pour garantir votre accès à la formation dans les meilleures conditions.