Objectifs
À l'issue de cette formation Fondamentaux et architecture Big Data, vous serez capable de valider les objectifs d’apprentissages suivants :
➤Comprendre le rôle stratégique de la gestion des données pour l’entreprise.
➤Identifier ce qu’est la donnée, et en quoi consiste le fait d’assurer la qualité de données.
➤Synthétiser le cycle de vie de la donnée.
➤Assurer l’alignement des usages métiers avec le cycle de vie de la donnée.
➤Découvrir les bonnes pratiques en matière de contrôle de qualité des données.
➤Asurer la mise en œuvre de la gouvernance de la donnée.
Prérequis
➤Si aucune connaissance technique particulière n’est nécessaire, il est toutefois recommandé d’avoir suivi le module "Big Data - Enjeux et perspectives". (BD500) pour suivre cette formation dans des conditions optimales.
➤Une connaissance de SQL est un plus pour suivre cette formation.
Programme
1. Introduction à la formation Big Data :
➤Présentation générale et objectifs de cette formation Big Data.
➤Comprendre les enjeux et perspectives du Big Data.
➤Chiffres clés en France et à l’international.
➤La donnée en tant que matière première : « data is the new oil » ?
➤Différents types, structures et sources de données.
➤Panorama des solutions et acteurs du marché : l’écosystème Big Data Les nouveaux métiers de la data.
2. La collecte des données BIG DATA :
➤Big Data, Data Science, Machine Learning, etc : définitions et concepts clés .
➤Caractéristiques des données dites massives (les dimensions en V du Big Data).
➤Les architectures Big Data orientées stockage, calcul, temps réel….
➤Enjeux juridiques et éthiques liés à la collecte, au traitement et à l’analyse de données.
➤Cycle de vie de la donnée Assurer la qualité des données.
➤Créer de la valeur à partir des données : vue d’ensemble d’un processus de Data Science.
3. Méthodologie pour l’implémentation d’un projet Big Data :
➤Définir les besoins métiers et objectifs d’un projet.
➤Spécificités d’un projet Big Data : incertitude, budget, délais, gestion organisationnelle….
➤Sélectionner les bons outils .
➤Poser les bonnes questions Obtenir les données.
➤Explorer et prétraiter les données.
➤Analyser les données : planifier et construire un modèle viable Communiquer les résultats.
➤Transformer les résultats en décisions et en actions.
4. Outils et technologies Big Data : démarrer avec Hadoop :
➤L’écosystème Apache Hadoop et les principales distributions (Hortonworks,Cloudera…).
➤Clusters Hadoop, HDFS, YARN et MapReduce : comprendre les principes de fonctionnement.
➤Introduction aux composants HBase, Pig et Hive, Spark… .
➤Cas d’utilisation et exemples de mises en œuvre de la plateforme Hadoop.
5. Collecte, stockage et traitement des données :
➤Connaître les différentes sources de données .
➤Analyser les caractéristiques d’un jeu de données.
➤Principes ETL (Extract Transform Load) : présentation et prise en main de Talend.
➤Gérer les spécificités des données semi et non-structurées .
➤Rappels des principes du stockage distribué.
➤Intérêt et vue d’ensemble des bases de données NoSQL (Cassandra, Neo4j, MongoDB…).
➤Prise en main d’HDFS et du modèle MapReduce.
➤Utiliser les fonctionnalités de Pig et Hive pour requêter et traiter les données .
➤ElasticSearch pour l’indexation et la recherche de données.
6. Analyse des données issues du Big Data :
➤Vue d’ensemble des différentes méthodes et techniques d’analyse .
➤Notions d’analyse statistique et prédictive.
➤Analyser un ensemble de données avec l’environnement Apache Spark .
➤Comprendre les apports de la convergence entre Big Data et intelligence artificielle.
➤Introduction aux principes de Machine Learning.
➤Les différentes familles de modèles : régression, classification, clustering, reinforcement learning, NLP.
➤Technique de feature engineering pour préparer les données .
➤Sélectionner, entraîner et tester un algorithme de Machine Learning .
➤Principes du Deep Learning : apprentissage profond et réseaux neuronaux.
7. Datavisualisation : apprendre à communiquer sur les données :
➤Les enjeux et objectifs d’une bonne communication .
➤Principes fondamentaux de la représentation visuelle .
➤La Datavisualisation tout au long du processus Big Data.
➤Techniques et outils principaux pour la visualisation de données (Tableau, Qlik, etc).
➤Sélectionner une solution de datavisualisation selon l’objectif recherché .
➤Connaître les bonnes pratiques de Dataviz : utilisation des couleurs, graphiques, tableaux de bord, infographies, notebooks….
➤Visualisation interactive