Pour suivre cette formation fondamentaux et architecture big data dans de bonnes conditions, il faut avoir une connaissance de SQL est un plus pour suivre cette formation et aucune connaissance technique particulière n’est nécessaire, il est toutefois recommandé d’avoir suivi le module « Big Data – Enjeux et perspectives » (BD500) pour suivre cette formation dans des conditions optimales.
À l’issue de cette formation Fondamentaux et architecture Big Data, vous serez capable de valider les objectifs d’apprentissages suivants :
➤Présentation générale et objectifs de cette formation Big Data.
➤Comprendre les enjeux et perspectives du Big Data.
➤Chiffres clés en France et à l’international.
➤La donnée en tant que matière première : « data is the new oil » ?
➤Différents types, structures et sources de données.
➤Panorama des solutions et acteurs du marché : l’écosystème Big Data Les nouveaux métiers de la data.
➤Big Data, Data Science, Machine Learning, etc : définitions et concepts clés .
➤Caractéristiques des données dites massives (les dimensions en V du Big Data).
➤Les architectures Big Data orientées stockage, calcul, temps réel….
➤Enjeux juridiques et éthiques liés à la collecte, au traitement et à l’analyse de données.
➤Cycle de vie de la donnée Assurer la qualité des données.
➤Créer de la valeur à partir des données : vue d’ensemble d’un processus de Data Science.
➤Définir les besoins métiers et objectifs d’un projet.
➤Spécificités d’un projet Big Data : incertitude, budget, délais, gestion organisationnelle….
➤Sélectionner les bons outils .
➤Poser les bonnes questions Obtenir les données.
➤Explorer et prétraiter les données.
➤Analyser les données : planifier et construire un modèle viable Communiquer les résultats.
➤Transformer les résultats en décisions et en actions.
➤L’écosystème Apache Hadoop et les principales distributions (Hortonworks,Cloudera…).
➤Clusters Hadoop, HDFS, YARN et MapReduce : comprendre les principes de fonctionnement.
➤Introduction aux composants HBase, Pig et Hive, Spark… .
➤Cas d’utilisation et exemples de mises en œuvre de la plateforme Hadoop.
➤Connaître les différentes sources de données .
➤Analyser les caractéristiques d’un jeu de données.
➤Principes ETL (Extract Transform Load) : présentation et prise en main de Talend.
➤Gérer les spécificités des données semi et non-structurées .
➤Rappels des principes du stockage distribué.
➤Intérêt et vue d’ensemble des bases de données NoSQL (Cassandra, Neo4j, MongoDB…).
➤Prise en main d’HDFS et du modèle MapReduce.
➤Utiliser les fonctionnalités de Pig et Hive pour requêter et traiter les données .
➤ElasticSearch pour l’indexation et la recherche de données.
➤Vue d’ensemble des différentes méthodes et techniques d’analyse .
➤Notions d’analyse statistique et prédictive.
➤Analyser un ensemble de données avec l’environnement Apache Spark .
➤Comprendre les apports de la convergence entre Big Data et intelligence artificielle.
➤Introduction aux principes de Machine Learning.
➤Les différentes familles de modèles : régression, classification, clustering, reinforcement learning, NLP.
➤Technique de feature engineering pour préparer les données .
➤Sélectionner, entraîner et tester un algorithme de Machine Learning .
➤Principes du Deep Learning : apprentissage profond et réseaux neuronaux.
➤Les enjeux et objectifs d’une bonne communication .
➤Principes fondamentaux de la représentation visuelle .
➤La Datavisualisation tout au long du processus Big Data.
➤Techniques et outils principaux pour la visualisation de données (Tableau, Qlik, etc).
➤Sélectionner une solution de datavisualisation selon l’objectif recherché .
➤Connaître les bonnes pratiques de Dataviz : utilisation des couleurs, graphiques, tableaux de bord, infographies, notebooks….
➤Visualisation interactive