Kennis van de concepten en uitdagingen van Big Data
- Oorsprong en definitie van Big Data.
- De kerncijfers van de markt in de wereld en in Frankrijk.
- De uitdagingen van Big Data: ROI, organisatie, vertrouwelijkheid van de gegevens.
- Een voorbeeld van een Big Data-architectuur.
Big Data-technologieën
- Beschrijving van de architectuur en de componenten van het Hadoop-platform.
- Opslagmethoden (NoSQL, HDFS).
- Werkingsprincipes van MapReduce, Spark, Storm...
- Belangrijkste namen op de markt (Hortonworks, Cloudera, MapR, Elastic Map Reduce, Biginsights).
- Een Hadoop-platform installeren.
- De technologieën van de datascientist.
- Presentatie van specifieke technologieën voor Big Data (Tableau, Talend, Qlikview, ...).
Oefening
Installatie van een Hadoop Big Data-platform (via Cloudera QuickStart of ander).
Beheer van de gestructureerde en niet-gestructureerde gegevens
- Werkingsprincipes van Hadoop Distributed File System (HDFS).
- Externe gegevens importeren naar HDFS.
- SQL-query's uitvoeren met HIVE.
- Gebruik van PIG om de gegevens te verwerken.
- Het principe van ETL-tools (Talend...).
- Streamingbeheer van massale gegevensstromen (NIFI, Kafka, Spark, Storm...)
Oefening
Implementatie van massale gegevensstromen.
Technieken en methoden voor Big Data Analytics
- Machine Learning, een onderdeel van artificiële intelligentie.
- Kennismaking met de drie families: Regressie, Classificatie en Clustering.
- Voorbereiding van de gegevens (data preparation, feature engineering).
- Modellen genereren in R of Python.
- Ensemble Learning.
- Kennismaking met de tools op de markt: Jupyter Notebook, Dataïku, Amazon Machine Learning...
Oefening
Uitvoering van analyses met een van de bestudeerde tools.
Datavisualisatie en concrete gebruikssituaties
- De behoefte aan datavisualisatie bepalen.
- Analyse en visualisatie van de gegevens.
- Kan betrekking hebben op alle soorten gegevens in DataViz?
- DataViz-tools op de markt.
Oefening
Installatie en gebruik van een datavisualisatietool om dynamische analyses samen te stellen.
Conclusie
- Wat moeten we onthouden?
- Samenvatting van goede praktijken.
- Bibliografie.