Développer des traitements Big Data avec Apache Spark (Java & Python)

Formation créée le 13/01/2026.
Version du programme : 4

Type de formation

Mixte

Durée de formation

21 heures (3 jours)

Accessibilité

Oui
Besoin d’adapter cette formation à vos besoins ? N’hésitez pas à nous contacter afin d’obtenir un devis sur mesure ! Nous contacter

Développer des traitements Big Data avec Apache Spark (Java & Python)


Développez des applications Big Data performantes avec Apache Spark (Java ou Python) pour traiter, transformer et analyser de grands volumes de données en temps réel ou batch.

Objectifs de la formation

  • Comprendre les principes de traitement distribué avec Apache Spark
  • Développer des applications batch et temps réel avec Spark Core et Spark Streaming
  • Manipuler des données structurées avec Spark SQL
  • Découvrir Spark MLlib pour les traitements analytiques avancés
  • Mettre en œuvre un cluster Spark et déployer des jobs

Profil des bénéficiaires

Pour qui
  • Développeurs, data engineers, architectes techniques, chefs de projets Big Data
Prérequis
  • Bonne maîtrise du langage Java (ou Python si volet PySpark activé)
  • Notions de Big Data et de bases de données

Contenu de la formation

Introduction à Spark et aux architectures Big Data
  • Comparatif Spark vs Hadoop (MapReduce)
  • Versions disponibles (Java, Scala, Python) – introduction à PySpark
  • Cas d’usage typiques : log, IoT, ETL, IA, BI, temps réel
Programmation avec Spark RDD
  • Rappels sur les concepts de résilience, partitionnement, persistance
  • Manipulation des RDD (transformations, actions)
  • Broadcast, Accumulateurs, gestion de la mémoire
  • Travaux pratiques en Java (et introduction à équivalent PySpark)
Spark SQL et DataFrames
  • Schéma, Datasets, DataFrames : différences et usages
  • Connexion à des sources structurées : CSV, JSON, JDBC, Hive
  • Écriture de requêtes SQL sur DataFrames
  • Optimisation avec Catalyst & Tungsten
Déploiement sur cluster
  • Architecture Spark : Standalone, YARN, Mesos
  • Installation mono-node & multi-node (simulation Docker possible)
  • spark-submit, gestion des dépendances, logs
  • Monitoring avec Spark UI
Traitement en temps réel avec Spark Streaming
  • DStreams & micro-batch
  • Connexion à Kafka, sockets, fichiers live
  • Fenêtrage, état, logique métier temps réel
  • Comparatif avec Structured Streaming (v2)
Machine Learning avec MLlib
  • Présentation des algorithmes disponibles
  • Pipelines de transformation, évaluation, tuning
  • Régression, classification, clustering
  • Atelier : mini-projet de modélisation ML sur Spark
(Optionnel) PySpark
  • API Python pour Spark
  • Similitudes et différences avec l’API Java
  • Atelier : transformation et agrégation de données en PySpark

Équipe pédagogique

Nos formations sont animées par des experts reconnus dans leur domaine possédant une expérience sur le terrain significative et des compétences pédagogiques reconnues.

Suivi de l'exécution et évaluation des résultats

  • Feuilles de présence.
  • Questionnaire de positionnement
  • Évaluations intermédiaires
  • Formulaires d'évaluation de la formation.
  • Certificat de réalisation de l’action de formation.
  • Projet final évalué avec soutenance

Ressources techniques et pédagogiques

  • Apports théoriques et cas pratiques
  • Utilisation d’environnements Spark simulés (local, cloud, Docker)
  • Code partagé avec corrections et retours en direct
  • Mini-projets fil rouge

Qualité et satisfaction

Merci de consulter notre site internet.

Délai d'accès

2 semaines

Accessibilité

Les personnes atteintes de handicap souhaitant suivre cette formation sont invitées à nous contacter directement, afin d’étudier ensemble les possibilités de suivre la formation.