Inleiding tot modellering
- Inleiding tot de Python-taal.
- Inleiding tot Jupiter Notebook-software.
- Stappen om een model te bouwen.
- Gesuperviseerde en niet gesuperviseerde algoritmen.
- De keuze tussen regressie en classificatie.
Praktisch werk
Installatie van Python 3, Anaconda en Jupiter Notebook.
Evaluatieprocedures voor modellen
- Technieken op het gebied van steekproeftrekking met teruglegging in leer-, validatie- en testsets.
- Test van de representativiteit van de trainingsgegevens.
- Prestatiemetingen van voorspellende modellen.
- Verwarringsmatrix, kostenmatrix en ROC-curve en AUC.
Praktisch werk
Implementatie van steekproeftrekking van datasets. Evaluatietests uitvoeren op verschillende geleverde modellen.
Gesuperviseerde algoritmen
- Het principe van univariate lineaire regressie.
- Multivariate regressie.
- Polynomiale regressie.
- Geregulariseerde regressie.
- Naive Bayes.
- Logistische regressie.
Praktisch werk
Toepassing van regressies en classificaties op verschillende soorten gegevens.
Niet-gesuperviseerde algoritmen
- Hiërarchische clustering.
- Niet-hiërarchische clustering.
- Gemengde benaderingen.
Praktisch werk
Niet-gesuperviseerde clusteringverwerkingen van verschillende datasets.
Componentenanalyse
- Hoofdcomponentenanalyse
- Factoriële correspondentieanalyse.
- Meervoudige correspondentieanalyse.
- Factoranalyse voor gemengde gegevens.
- Hiërarchische classificatie van hoofdcomponenten.
Praktisch werk
Implementatie van variabelenreductie en identificatie van factoren die ten grondslag liggen aan dimensies die verband houden met een significante variabiliteit.
Analyse van tekstgegevens
- Verzameling en voorverwerking van tekstgegevens.
- Extractie van primaire entiteiten, entiteiten met een naam en referentiële resolutie.
- Part-of-speech tagging, syntactische analyse, semantische analyse.
- Lemmatisering.
- Vectorweergave van teksten.
- TF-IDF-weging.
- Word2Vec.
Praktisch werk
De inhoud van een tekstdatabase doorzoeken met behulp van latente semantische analyse.