fbpx

Fondamentaux et Architecture Big Data

 Objectifs

À l'issue de cette formation Fondamentaux et architecture Big Data, vous serez capable de valider les objectifs d’apprentissages suivants :
➤Comprendre le rôle stratégique de la gestion des données pour l’entreprise.
➤Identifier ce qu’est la donnée, et en quoi consiste le fait d’assurer la qualité de données.
➤Synthétiser le cycle de vie de la donnée.
➤Assurer l’alignement des usages métiers avec le cycle de vie de la donnée.
➤Découvrir les bonnes pratiques en matière de contrôle de qualité des données.
➤Asurer la mise en œuvre de la gouvernance de la donnée.

 Prérequis

➤Si aucune connaissance technique particulière n’est nécessaire, il est toutefois recommandé d’avoir suivi le module "Big Data - Enjeux et perspectives". (BD500) pour suivre cette formation dans des conditions optimales.
➤Une connaissance de SQL est un plus pour suivre cette formation.

 Programme

mon programme

1. Introduction à la formation Big Data :

➤Présentation générale et objectifs de cette formation Big Data.
➤Comprendre les enjeux et perspectives du Big Data.
➤Chiffres clés en France et à l’international.
➤La donnée en tant que matière première : « data is the new oil » ?
➤Différents types, structures et sources de données.
➤Panorama des solutions et acteurs du marché : l’écosystème Big Data Les nouveaux métiers de la data.

2. La collecte des données BIG DATA :

➤Big Data, Data Science, Machine Learning, etc : définitions et concepts clés .
➤Caractéristiques des données dites massives (les dimensions en V du Big Data).
➤Les architectures Big Data orientées stockage, calcul, temps réel….
➤Enjeux juridiques et éthiques liés à la collecte, au traitement et à l’analyse de données.
➤Cycle de vie de la donnée Assurer la qualité des données.
➤Créer de la valeur à partir des données : vue d’ensemble d’un processus de Data Science.

3. Méthodologie pour l’implémentation d’un projet Big Data :

➤Définir les besoins métiers et objectifs d’un projet.
➤Spécificités d’un projet Big Data : incertitude, budget, délais, gestion organisationnelle….
➤Sélectionner les bons outils .
➤Poser les bonnes questions Obtenir les données.
➤Explorer et prétraiter les données.
➤Analyser les données : planifier et construire un modèle viable Communiquer les résultats.
➤Transformer les résultats en décisions et en actions.

4. Outils et technologies Big Data : démarrer avec Hadoop :

➤L’écosystème Apache Hadoop et les principales distributions (Hortonworks,Cloudera…).
➤Clusters Hadoop, HDFS, YARN et MapReduce : comprendre les principes de fonctionnement.
➤Introduction aux composants HBase, Pig et Hive, Spark… .
➤Cas d’utilisation et exemples de mises en œuvre de la plateforme Hadoop.

5. Collecte, stockage et traitement des données :

➤Connaître les différentes sources de données .
➤Analyser les caractéristiques d’un jeu de données.
➤Principes ETL (Extract Transform Load) : présentation et prise en main de Talend.
➤Gérer les spécificités des données semi et non-structurées .
➤Rappels des principes du stockage distribué.
➤Intérêt et vue d’ensemble des bases de données NoSQL (Cassandra, Neo4j, MongoDB…).
➤Prise en main d’HDFS et du modèle MapReduce.
➤Utiliser les fonctionnalités de Pig et Hive pour requêter et traiter les données .
➤ElasticSearch pour l’indexation et la recherche de données.

6. Analyse des données issues du Big Data :

➤Vue d’ensemble des différentes méthodes et techniques d’analyse .
➤Notions d’analyse statistique et prédictive.
➤Analyser un ensemble de données avec l’environnement Apache Spark .
➤Comprendre les apports de la convergence entre Big Data et intelligence artificielle.
➤Introduction aux principes de Machine Learning.
➤Les différentes familles de modèles : régression, classification, clustering, reinforcement learning, NLP.
➤Technique de feature engineering pour préparer les données .
➤Sélectionner, entraîner et tester un algorithme de Machine Learning .
➤Principes du Deep Learning : apprentissage profond et réseaux neuronaux.

7. Datavisualisation : apprendre à communiquer sur les données :

➤Les enjeux et objectifs d’une bonne communication .
➤Principes fondamentaux de la représentation visuelle .
➤La Datavisualisation tout au long du processus Big Data.
➤Techniques et outils principaux pour la visualisation de données (Tableau, Qlik, etc).
➤Sélectionner une solution de datavisualisation selon l’objectif recherché .
➤Connaître les bonnes pratiques de Dataviz : utilisation des couleurs, graphiques, tableaux de bord, infographies, notebooks….
➤Visualisation interactive