Opleiding : Gegevensanalyse met Python

gegevensmodellering en -representatie

Gegevensanalyse met Python

gegevensmodellering en -representatie

4,5 / 5

Big Bata Analytics berust op de beheersing van fundamentele dataminingtechnieken: beschrijvende, voorspellende of verkennende statistieken. In deze praktische cursus maakt u kennis met methoden zoals regressies en PCA’s, en leert u hoe u ze kunt implementeren met Python-software.

Inter

Intra

Op maat

Praktijkcursus ter plaatse of via klasverband op afstand

Ref. BDA

Prijs : 2860 € V.B.

4d - 28u00

Data en Inschrijving

Neem contact met ons op

Pedagogische doelstellingen

Aan het einde van de training is de deelnemer in staat om:

Het principe van statistische modellering begrijpen
Kiezen tussen regressie en classificatie naargelang van het soort gegevens
De voorspellende kracht van een algoritme beoordelen
Selecties en classificaties in grote hoeveelheden gegevens maken, om trends te ontdekken

Doelgroep

Infocentrummanagers (Datamining, Marketing, Kwaliteit, ...), gebruikers en bedrijfsbeheerders van databases.

Voorafgaande vereisten

Basiskennis van statistieken of de cursus "Statistieken, beheersing van de grondbeginselen" (ref. STA) hebben gevolgd. Basiskennis van Python.

Opleidingsprogramma

Inleiding tot modellering

Inleiding tot de Python-taal.
Inleiding tot Jupiter Notebook-software.
Stappen om een model te bouwen.
Gesuperviseerde en niet gesuperviseerde algoritmen.
De keuze tussen regressie en classificatie.

Praktisch werk

Installatie van Python 3, Anaconda en Jupiter Notebook.

Evaluatieprocedures voor modellen

Technieken op het gebied van steekproeftrekking met teruglegging in leer-, validatie- en testsets.
Test van de representativiteit van de trainingsgegevens.
Prestatiemetingen van voorspellende modellen.
Verwarringsmatrix, kostenmatrix en ROC-curve en AUC.

Praktisch werk

Implementatie van steekproeftrekking van datasets. Evaluatietests uitvoeren op verschillende geleverde modellen.

Gesuperviseerde algoritmen

Het principe van univariate lineaire regressie.
Multivariate regressie.
Polynomiale regressie.
Geregulariseerde regressie.
Naive Bayes.
Logistische regressie.

Praktisch werk

Toepassing van regressies en classificaties op verschillende soorten gegevens.

Niet-gesuperviseerde algoritmen

Hiërarchische clustering.
Niet-hiërarchische clustering.
Gemengde benaderingen.

Praktisch werk

Niet-gesuperviseerde clusteringverwerkingen van verschillende datasets.

Componentenanalyse

Hoofdcomponentenanalyse
Factoriële correspondentieanalyse.
Meervoudige correspondentieanalyse.
Factoranalyse voor gemengde gegevens.
Hiërarchische classificatie van hoofdcomponenten.

Praktisch werk

Implementatie van variabelenreductie en identificatie van factoren die ten grondslag liggen aan dimensies die verband houden met een significante variabiliteit.

Analyse van tekstgegevens

Verzameling en voorverwerking van tekstgegevens.
Extractie van primaire entiteiten, entiteiten met een naam en referentiële resolutie.
Part-of-speech tagging, syntactische analyse, semantische analyse.
Lemmatisering.
Vectorweergave van teksten.
TF-IDF-weging.
Word2Vec.

Praktisch werk

De inhoud van een tekstdatabase doorzoeken met behulp van latente semantische analyse.

Praktische modaliteiten

Praktisch werk

Ontwikkeling/realisatie van analyses op Python-software, met de modules pandas, NumPy, SciPy, MatPlotLib, seaborn, scikit-learn en statsmodels.

Feedback van klanten

4,5 / 5

De feedback van klanten is afkomstig van eindevaluaties na de opleiding. De score wordt berekend op basis van alle evaluaties die minder dan 12 maanden oud zijn. Alleen die met een tekstcommentaar worden weergegeven.

Data en plaats

Selecteer uw locatie of kies voor de les op afstand en kies vervolgens uw datum.

Klas op afstand