Spark Java - Développer des applications pour le Big Data
Besoin d’adapter cette formation à vos besoins ?
N’hésitez pas à nous contacter afin d’obtenir un devis sur mesure !
Formation créée le 21/11/2022. Dernière mise à jour le 23/08/2023.
Version du programme : 2
Programme de la formation
Souvent présenté comme le successeur de Hadoop, SPARK simplifie la programmation des traitements BigData permettant l'utilisation de scala, Python ou Java . Cette formation apprendra aux programmeurs à traiter un flux de données en temps réel et à effectuer des traitements batch (du SQL jusqu'au Machine Learning).
Objectifs de la formation
- Maîtriser les concepts fondamentaux de Spark
- Développer des applications avec Spark Streaming
- Mettre en œuvre un cluster Spark
- Exploiter des données avec Spark SQL
- Avoir une première approche du Machine Learning
Profil des bénéficiaires
- Chefs de projet, data scientists, développeurs, architectes.
- Bonnes connaissances du langage Java.
- Connaissances en Big Data.
Contenu de la formation
-
Présentation d'Apache Spark
- Historique du Framework.
- Les différentes versions de Spark (Scala, Python et Java).
- Comparaison avec l'environnement Apache Hadoop.
- Les différents modules de Spark.
-
Programmer avec les Resilient Distributed Dataset (RDD)
- Présentation des RDD.
- Créer, manipuler et réutiliser des RDD.
- Accumulateurs et variables broadcastées.
- Utiliser des partitions.
-
Manipuler des données structurées avec Spark SQL
- SQL, DataFrames et Datasets.
- Les différents types de sources de données.
- Interopérabilité avec les RDD.
- Performance de Spark SQL.
- JDBC/ODBC server et Spark SQL CLI.
-
Spark sur un cluster
- Les différents types d'architecture : Standalone, Apache Mesos ou Hadoop YARN.
- Configurer un cluster en mode Standalone.
- Packager une application avec ses dépendances.
- Déployer des applications avec Spark-submit.
- Dimensionner un cluster .
-
Analyser en temps réel avec Spark Streaming
- Principe de fonctionnement.
- Présentation des Discretized Streams (DStreams).
- Les différents types de sources.
- Manipulation de l'API.
- Comparaison avec Apache Storm.
-
Manipuler des graphes avec GraphX
- Présentation de GraphX.
- Les différentes opérations.
- Créer des graphes.
- Vertex and Edge RDD.
- Présentation de différents algorithmes.
-
Machine Learning avec Spark
- Introduction au Machine Learning.
- Les différentes classes d'algorithmes.
- Présentation de SparkML et MLlib.
- Implémentations des différents algorithmes dans MLlib.
Nos formations sont animées par des experts reconnus dans leur domaine possédant une expérience sur le terrain significative et des compétences pédagogiques reconnues.
- Feuilles de présence.
- Questions orales ou écrites (QCM).
- Mises en situation.
- Formulaires d'évaluation de la formation.
- Certificat de réalisation de l’action de formation.
- Accueil des apprenants dans une salle dédiée à la formation.
- Documents supports de formation projetés.
- Exposés théoriques
- Etude de cas concrets
- Quiz en salle
- Mise à disposition en ligne de documents supports à la suite de la formation.
Qualité et satisfaction
Modalités de certification
- Attestation de fin de formation
- Voir le catalogue de certification