Data Science umfasst laut Wikipedia wissenschaftlich fundierte Methoden, Prozesse, Algorithmen und Systeme zur Extraktion von Erkenntnissen, Mustern und Schlüssen sowohl aus strukturierten als auch unstrukturierten Daten. Im allgemeinen Gebrauch geht es meist um Methoden der fortgeschrittenen Analytik („Advanced Analytics“), konkret um Machine Learning oder Deep Learning Modelle. Bei Künstlicher Intelligenz handelt es sich um die Automatisierung von Prozessen, der meist Machine Learning oder Deep Learning Modelle zu Grunde liegen.

Machine Learning Modelle

Viele Projekte gehören – je nach Datengrundlage und Fragestellung – zu einem der vier Kategorien:

Supervised Learning (Ziel ist bekannt) Unsupervised Learning (Ziel ist nicht bekannt)
Zielvariable nicht kontinuierlich Klassifikation Clustering
Zielvariable kontinuierlich Regression Assoziation, Dimensionsreduktion

Klassifikation

  • Zuordnung eines Objekts zu einer (für die Modellentwicklung bekannte) Klasse.
  • Beispiele: Zuordnung einer E-Mail in einen thematischen Ordner, Modell zur Kündigung (Churn) eines Kunden.
  • Typische Modelle: Support Vector Classification, Random Forest Classification, Neural Networks.

Regression

  • Modell zur Ermittlung eines kontinuierlichen Werts
  • Beispiel: Umsatz in Euro pro Monat
  • Typische Modelle: Lineare Regression, Decision Tree / Random Forest

Clustering

  • Segmentierung, bei der die Anzahl und Größe der Segmente durch die Daten ermittelt werden
  • Beispiel: Kundensegmentierung
  • Typisches Modell: k-means Clustering

Assoziation, Dimensionsreduktion

  • Reduktion vorhandener Variablen auf sogenannte Hauptkomponenten
  • Beispiel: Reduktion einer großen Zahl von Sensorvariablen oder Produktvariablen
  • Typisches Modell: Hauptkomponentenanalyse

Weitere Typen des Machine Learnings sind das Semi-supervised Learning und das Reinforcement Learning

Daten

Mit Data Science Modellen können sowohl strukturierte als auch unstrukturierte Daten verarbeitet werden. Das heißt, neben den typischen Daten im Tabellenformat können Analysen auch auf Texten (Textmining, Natural Language Processing) und Fotos / Bildern basieren. Voraussetzungen sind entsprechende Speicherplätze für unstrukturierte Daten (z.B. Datalake) und die entsprechende Rechenpower für (tiefe) Neuronale Netze.

Technologie

Für die Entwicklung von Machine Learning Modellen können unterschiedliche Softwarelösungen eingesetzt werden.
Kostenlos verfügbar sind zum Beispiel Python  und R

Weiter mit Data & Leadership