1
De concepten en uitdagingen van Big Data begrijpen
- Oorsprong en definitie van Big Data.
- Belangrijke marktcijfers wereldwijd en in Frankrijk.
- De uitdagingen van Big Data: ROI, organisatie, vertrouwelijkheid van gegevens.
- Een voorbeeld van Big Data architectuur.
2
Big Data-technologieën
- Beschrijving van de architectuur en componenten van het Hadoop-platform.
- Opslagmodi (NoSQL, HDFS).
- Werkingsprincipes van MapReduce, Spark, Storm...
- Belangrijkste marktdistributies (Hortonworks, Cloudera, MapR, Elastic Map Reduce, Biginsights).
- Een Hadoop-platform installeren.
- Technologieën voor datawetenschappers.
- Presentatie van specifieke technologieën voor Big Data (Tableau, Talend, Qlikview, enz.).
Oefening
Installatie van een Big Data Hadoop-platform (via Cloudera QuickStart of een ander platform).
3
Gestructureerde en ongestructureerde gegevens beheren
- Bedieningsprincipes van het Hadoop Distributed File System (HDFS).
- Externe gegevens importeren in HDFS.
- SQL-query's uitvoeren met HIVE.
- Gebruik PIG om de gegevens te verwerken.
- Het ETL-principe (Talend, enz.).
- Beheer van massale datastreaming (NIFI, Kafka, Spark, Storm...)
Oefening
Implementatie van massale gegevensstromen.
4
Technieken en methoden voor big data-analyse
- Machine Learning, een onderdeel van kunstmatige intelligentie.
- Ontdek de drie families: Regressie, Classificatie en Clustering.
- Datavoorbereiding en feature engineering.
- Genereer modellen in R of Python.
- Ensemble leren.
- Ontdek de tools op de markt: Jupyter Notebook, Dataïku, Amazon Machine Learning, enz.
Oefening
Zet analyses op met een van de bestudeerde tools.
5
Datavisualisatie en praktijkvoorbeelden
- Definieer de behoefte aan datavisualisatie.
- Gegevensanalyse en visualisatie.
- Kunnen alle soorten gegevens worden gebruikt in DataViz?
- DataViz-tools op de markt.
Oefening
Installatie en gebruik van een tool voor gegevensvisualisatie om dynamische analyses te maken.
6
Conclusie
- Dingen om te onthouden.
- Samenvatting van best practices.
- Bibliografie.