Masterspezialisierung

Data Science & Analytics

(Vorbehaltlich Genehmigung wird die Spezialisierung Data Science & Analytics ab Herbst 2017 die Spezialisierung E-Health ablösen.)

Daten zu Wissen machen

Unter dem Begriff Digitalisierung wird die zunehmende Erfassung und Speicherung von Daten aus verschiedensten Lebens- und Anwendungsbereichen verstanden. Sensoren, Kameras oder unsere Aktivitäten im Internet per se erzeugen so einen Datenfriedhof von immensen Ausmaßen. Oder ist das ein Schatz, der nur gehoben werden muss, um neue Anwendungen und Optimierungen zu erschließen?

Dazu sind die Kenntnisse und Fähigkeiten eines Data Scientists gefragt, dem „Sexiest Job of the 21st Century“.

Data Science als Begriff bezeichnet die Anwendung von maschinellem Lernen, Mustererkennung und Datenmodellierung mit dem Ziel, wertvolles Wissen aus Daten zu extrahieren. Data Scientists agieren damit an der Schnittstelle zwischen Mathematik und Statistik, Scientific
Computing und Algorithmik. Es entstehen intelligente Systeme, welche aus unstrukturierten (beispielsweise natürlichsprachlichen Dokumenten oder Bilddaten) und strukturierten (Messreihen, Tabellen, o.ä.) Daten, Informationen extrahieren können um darauf basierend  Entscheidungen zu treffen.

Anwendungsgebiete reichen von der Erkennung von Betriebszuständen in Industrie 4.0 Anwendungen, der Extraktion von Meinungen in sozialen Netzwerken über autonomes Fahren und Roboter, die Sehen lernen, bis hin zur Erkennung von Anomalien in medizinischen Bilddaten. Kenntnisse dieser Methoden sind auch wichtig zum kritischen Umgang mit den Möglichkeiten moderner Marktforschung im Hinblick auf Privacy - so sind etwa Verbindungsdaten von Telekommunikationsbetreibern durchaus geeignet, Rückschlüsse über die Persönlichkeit (Big-Five Modell) der Kunden abzuleiten.
Als Data Scientist ist man  in der Lage, Daten aus verschiedensten Quellen - inkl. sogenannter Big-Data Lösungen - geeignet zu prozessieren und aufzubereiten.  Mit den erhaltenen Informationen können robuste und zuverlässige Entscheidungs- und Prognostizierungssysteme designt und umgesetzt werden. Eine Fülle von Masterarbeitsthemen und F&E-Projektanfragen unserer Wirtschaftspartner zeigen die starke Nachfrage nach dieser Kompetenz am Arbeitsmarkt und ermöglichen die intensive Auseinandersetzung mit realen Fragestellungen schon während der Ausbildung.

 



Aufbau

Ziel des ersten Semesters ist die Extraktion von Merkmalen (engl. Features) aus Bilddaten und aus natürlichsprachigen Dokumenten (z.B. Webseiten) und deren unmittelbare Vorverarbeitung mit dem Ziel einer kompakten Repräsentation des in den Daten enthaltenen Wissens. Die besprochenen Algorithmen und Methoden der Bildverarbeitung erlauben eine Reduktion der Datenmenge um mehrere Größenordnungen unter Erhalt des für die Aufgabenstellung notwendigen Informationsgehaltes. Das Preprocessing und die wichtigsten Repräsentationsmodelle für natürlichsprachige Dokumente erlauben eine Transformation der Inhalte in reellwertige Vektoren als Basis für die folgenden Verarbeitungsschritte.

Im zweiten Semester werden die Bereiche überwachtes (supervised) und unüberwachtes (unsupervised) Lernen besprochen. Methoden zur Mustererkennung, Klassifikation, Regression und zum Clustering verwenden die Features aus dem ersten Semester um Informationen aus den Daten zu extrahieren, Strukturen zu entdecken, Entscheidungen zu treffen oder Prognosen zu erstellen. Darüber hinaus können so noch exaktere Repräsentationsmodelle (Density Estimators, word vectors,...) aus den Daten trainiert werden.

Im dritten Semester stehen Methoden des Deep Learnings im Mittelpunkt: Mit convolutional neural networks, Autoencodern und ähnlichen Ansätzen findet im Bereich des maschinellen Lernens derzeit eine kleine Revolution statt. Sie ermöglicht etwa Robotern Sehen und Erkennen von Objekten in  Echtzeit, und erlaubt es, Texte automatisch zu übersetzen und dabei sinnerfassende Analysen auszuführen. Auch können so komplizierte medizinische Objekte aus Bildern segmentiert werden. Wir besprechen die aktuellen Ansätze und erproben diese in use-cases mit Echtdaten.