Data-Mining mit Python

Praxis-Workshop für die Analyse großer Datenmengen

In Zusammenarbeit mit der Gesellschaft für Informatik (GI)

Beschreibung

Unter Data Mining versteht man einen Prozess, mit dem aus sehr großen Datenmengen relevante Informationen, in den Daten verborgenes Wissen oder auffällige Muster extrahiert werden.

Der Prozess stellt die zentrale Komponente sämtlicher Big Data-Anwendungen dar. Dabei liegt der Fokus auf der Gewinnung von Wissen aus bereits vorhandenen Daten.
Dieses bisher unbekannte Wissen ist potenziell nützlich. Mithilfe von Algorithmen lassen sich Gesetzmäßigkeiten und verborgene Zusammenhänge erkennen.

Die elementaren Schritte in diesem Prozess umfassen Datenzugriff, Datenauswahl, Datentransformation und Merkmalextraktion, Modellbildung, Visualisierung sowie letztendlich eine sinnvolle Interpretation.

Ziel der Weiterbildung

Das Seminar vermittelt die Implementierung einer kompletten Data Mining-Prozesskette. Es zeigt auf, welche Methoden für jeden dieser Prozessschritte eingesetzt werden, und wie diese Methoden schnell und effizient in Python implementiert werden.
Alle beschriebenen Methoden werden anhand gängiger Python-Module vorgeführt, u.a. Numpy, Scipy, Pandas, Scikit-Learn, NLTK und Matplotlib.

Sie erhalten Qualität
Das Qualitätsmanagementsystem der Technischen Akademie Esslingen ist nach DIN EN ISO 9001 und AZAV zertifiziert.

Teilnehmerkreis

Das Seminar richtet sich an alle, die Zugriff auf große Datenbestände haben, und die vor der Aufgabe stehen, neues Wissen aus diesen Daten zu extrahieren.

Voraussetzung
grundlegende Programmierkenntnisse

Inhalte

Stand der letzten Durchführung:

Montag, 2 bis Mittwoch, 4. März 2020
9:00 bis 12:15 und 13:45 bis 17:00 Uhr

Datenzugriff
> Zugriff auf Daten in Dateien
> Zugriff auf Daten in Datenbanken
> Zugriff auf Daten aus dem Internet – über APIs und direkt aus HTML-Seiten

Datenauswahl und Bereinigung
> Filtermethoden
> Umgang mit fehlerhaften und fehlenden Daten
> Bereinigung
> Bereinigung von HTML-Seiten und Extraktion des Rohtextes
> Segmentierung von Text in sprachliche Einheiten

Merkmalsauswahl und Transformation
> Methoden der Merkmalsauswahl: Informationsgehalt, Entropie, Korrelationen, Wrapper u.a.
> Merkmalsextraktion und Dimensionsreduktionstechniken mit statistischen Verfahren, zum Beispiel PCA, LDA, t-SNE, multidimensionale Skalierung u.a.
> Merkmalsmodellierung für Zeitreihen-Daten
> Merkmalsmodellierung für natürlich-sprachliche Dokumente

Modellbildung
> Clustering
> Assoziationsanalyse
> Outlier Detection
> Maschinelles Lernen von Klassifikationsmodellen und Regressionsmodellen: Support Vector-Maschinen, Neuronale Netze, Entscheidungsbäume, Random Forests
> Zeitreihenvorhersagen
> Semantische Dokumentmodellierung/Topic Extraction

Visualisierung
> 2D- und 3D-Visualisierung mit Matplotlib
> Einbindung der Plots in .pdf oder .html

Termine & Preise

Extras
Die Seminarteilnahme beinhaltet Verpflegung und ausführliche Seminarunterlagen.

Die Teilnehmerzahl ist begrenzt, um den optimalen Lernerfolg zu garantieren.

Fördermöglichkeiten
weniger bezahlen – so geht´s

Die nächsten Termine

neuer Termin in Planung

© Technische Akademie Esslingen e.V., An der Akademie 5, 73760 Ostfildern  | Impressum