Développer des traitements Big Data avec Apache Spark (Java & Python)

Formation créée le 13/01/2026.
Version du programme : 4

Type de formation

Mixte

Durée de formation

21 heures (3 jours)

Accessibilité

Oui

€ HT

S'inscrire

€ HT

S'inscrire

€ HT

S'inscrire

Besoin d’adapter cette formation à vos besoins ? N’hésitez pas à nous contacter afin d’obtenir un devis sur mesure ! Nous contacter

Développer des traitements Big Data avec Apache Spark (Java & Python)

Développez des applications Big Data performantes avec Apache Spark (Java ou Python) pour traiter, transformer et analyser de grands volumes de données en temps réel ou batch.

Comprendre les principes de traitement distribué avec Apache Spark
Développer des applications batch et temps réel avec Spark Core et Spark Streaming
Manipuler des données structurées avec Spark SQL
Découvrir Spark MLlib pour les traitements analytiques avancés
Mettre en œuvre un cluster Spark et déployer des jobs

Pour qui

Développeurs, data engineers, architectes techniques, chefs de projets Big Data

Prérequis

Bonne maîtrise du langage Java (ou Python si volet PySpark activé)
Notions de Big Data et de bases de données

Comparatif Spark vs Hadoop (MapReduce)
Versions disponibles (Java, Scala, Python) – introduction à PySpark
Cas d’usage typiques : log, IoT, ETL, IA, BI, temps réel

Rappels sur les concepts de résilience, partitionnement, persistance
Manipulation des RDD (transformations, actions)
Broadcast, Accumulateurs, gestion de la mémoire
Travaux pratiques en Java (et introduction à équivalent PySpark)

Schéma, Datasets, DataFrames : différences et usages
Connexion à des sources structurées : CSV, JSON, JDBC, Hive
Écriture de requêtes SQL sur DataFrames
Optimisation avec Catalyst & Tungsten

Architecture Spark : Standalone, YARN, Mesos
Installation mono-node & multi-node (simulation Docker possible)
spark-submit, gestion des dépendances, logs
Monitoring avec Spark UI

DStreams & micro-batch
Connexion à Kafka, sockets, fichiers live
Fenêtrage, état, logique métier temps réel
Comparatif avec Structured Streaming (v2)

Présentation des algorithmes disponibles
Pipelines de transformation, évaluation, tuning
Régression, classification, clustering
Atelier : mini-projet de modélisation ML sur Spark

API Python pour Spark
Similitudes et différences avec l’API Java
Atelier : transformation et agrégation de données en PySpark

Nos formations sont animées par des experts reconnus dans leur domaine possédant une expérience sur le terrain significative et des compétences pédagogiques reconnues.

Feuilles de présence.
Questionnaire de positionnement
Évaluations intermédiaires
Formulaires d'évaluation de la formation.
Certificat de réalisation de l’action de formation.
Projet final évalué avec soutenance

Apports théoriques et cas pratiques
Utilisation d’environnements Spark simulés (local, cloud, Docker)
Code partagé avec corrections et retours en direct
Mini-projets fil rouge

Merci de consulter notre site internet.

2 semaines

Les personnes atteintes de handicap souhaitant suivre cette formation sont invitées à nous contacter directement, afin d’étudier ensemble les possibilités de suivre la formation.

Résultats de la recherche

Développer des traitements Big Data avec Apache Spark (Java & Python)

Objectifs de la formation

Profil des bénéficiaires

Contenu de la formation

Équipe pédagogique

Suivi de l'exécution et évaluation des résultats

Ressources techniques et pédagogiques

Qualité et satisfaction

Délai d'accès

Accessibilité