Spark Python - Développer des applications pour le Big Data
Version du programme : 1
Type de formation
PrésentielAccessibilité
OuiSpark Python - Développer des applications pour le Big Data
Cette formation de 21 heures permet de comprendre et d’exploiter Spark en environnement Python (PySpark) pour traiter des données volumineuses. Elle couvre l’architecture distribuée de Spark, le traitement des DataFrames, les optimisations et la réalisation d’un mini-projet d’analyse Big Data.
Objectifs de la formation
- Comprendre l’architecture de Spark et ses concepts fondamentaux
- Manipuler des DataFrames PySpark pour le traitement de données distribuées
- Appliquer des opérations de transformation, jointure, filtrage et agrégation
- Optimiser les traitements Spark (plan d’exécution, cache, UDF) et structurer une application Big Data
Profil des bénéficiaires
- Développeurs Python
- Data analysts
- Ingénieurs data
- Profils techniques en reconversion vers la data
- Maîtrise de Python
- Connaissances de pandas
- Notions de SQL recommandées
Contenu de la formation
Jour 1 – Introduction à Spark et PySpark
- Architecture Spark : cluster, exécuteurs, DAG, RDD vs DataFrame
- Démarrer avec SparkSession, chargement de données (CSV, JSON)
- Exploration de données : show, schema, select, filter
Jour 2 – Transformations avancées et SQL
- Fonctions Spark : withColumn, groupBy, join, agg
- Gestion des types, conversions, gestion des null
- Intégration avec SQL : createOrReplaceTempView, requêtes SQL
- Export des résultats (CSV, parquet)
Jour 3 – Optimisation & mini-projet
- Plan d’exécution (explain), cache, persist
- UDF (User Defined Functions)
- Initiation à Spark MLlib (modèle simple de classification)
- Mini-projet : traitement d’un corpus big data + restitution
Équipe pédagogique
Suivi de l'exécution et évaluation des résultats
- Exercices corrigés à chaque module
- Mini-projet individuel ou binôme
- Feuille de présence
- Questionnaire de satisfaction
Ressources techniques et pédagogiques
- Support de cours PDF
- Scripts .py ou notebooks PySpark
- Jeux de données fournis (CSV volumineux)
- Documentation d’installation locale / cloud
Qualité et satisfaction
Capacité d'accueil
Délai d'accès
Accessibilité
Nous accordons une attention particulière à l'accueil des personnes en situation de handicap. Si vous êtes concerné(e) et souhaitez suivre cette formation, nous vous invitons à nous contacter dès que possible. Ensemble, nous étudierons vos besoins spécifiques et mettrons en place les adaptations nécessaires pour garantir votre accès à la formation dans les meilleures conditions.