Data Science umfasst laut Wikipedia wissenschaftlich fundierte Methoden, Prozesse, Algorithmen und Systeme zur Extraktion von Erkenntnissen, Mustern und Schlüssen sowohl aus strukturierten als auch unstrukturierten Daten. Im allgemeinen Gebrauch geht es meist um Methoden der fortgeschrittenen Analytik („Advanced Analytics“), konkret um Machine Learning oder Deep Learning Modelle. Bei Künstlicher Intelligenz handelt es sich um die Automatisierung von Prozessen, der meist Machine Learning oder Deep Learning Modelle zu Grunde liegen.
Data Science
Machine Learning Modelle
Viele Projekte gehören – je nach Datengrundlage und Fragestellung – zu einem der vier Kategorien:
Supervised Learning (Ziel ist bekannt) | Unsupervised Learning (Ziel ist nicht bekannt) | |
Zielvariable nicht kontinuierlich | Klassifikation | Clustering |
Zielvariable kontinuierlich | Regression | Assoziation, Dimensionsreduktion |
Klassifikation
- Zuordnung eines Objekts zu einer (für die Modellentwicklung bekannte) Klasse.
- Beispiele: Zuordnung einer E-Mail in einen thematischen Ordner, Modell zur Kündigung (Churn) eines Kunden.
- Typische Modelle: Support Vector Classification, Random Forest Classification, Neural Networks.
Regression
- Modell zur Ermittlung eines kontinuierlichen Werts
- Beispiel: Umsatz in Euro pro Monat
- Typische Modelle: Lineare Regression, Decision Tree / Random Forest
Clustering
- Segmentierung, bei der die Anzahl und Größe der Segmente durch die Daten ermittelt werden
- Beispiel: Kundensegmentierung
- Typisches Modell: k-means Clustering
Assoziation, Dimensionsreduktion
- Reduktion vorhandener Variablen auf sogenannte Hauptkomponenten
- Beispiel: Reduktion einer großen Zahl von Sensorvariablen oder Produktvariablen
- Typisches Modell: Hauptkomponentenanalyse
Weitere Typen des Machine Learnings sind das Semi-supervised Learning und das Reinforcement Learning
Daten
Mit Data Science Modellen können sowohl strukturierte als auch unstrukturierte Daten verarbeitet werden. Das heißt, neben den typischen Daten im Tabellenformat können Analysen auch auf Texten (Textmining, Natural Language Processing) und Fotos / Bildern basieren. Voraussetzungen sind entsprechende Speicherplätze für unstrukturierte Daten (z.B. Datalake) und die entsprechende Rechenpower für (tiefe) Neuronale Netze.