Data Science
Was das ist - und warum es wichtig ist
Data Science ist ein multidisziplinäres Gebiet, das im weitesten Sinne die Nutzung von Daten zur Informationsgewinnung beschreibt. Im Gegensatz zu spezialisierteren datenbezogenen Bereichen wie Data Mining oder Data Engineering umfasst Data Science den gesamten Lebenszyklus der Umwandlung von Rohdaten in verwertbare Informationen und deren Anwendung zu produktiven Zwecken in einer breiten Palette von Anwendungen.
Die Entwicklung von Data Science
Wenn man den Ursprung von Data Science zurückverfolgt, denken viele an das Jahr 1962, als der Mathematiker John Tukey in seinem bahnbrechenden Aufsatz „The Future of Data Analysis“ die Disziplin andeutete. Darin beschrieb er die Existenz einer „unerkannten Wissenschaft“, die sich mit dem Lernen aus Daten beschäftigt.
Es ist jedoch hilfreicher, Data Science in der modernen Welt zu betrachten. Das Aufkommen von Big Data – ermöglicht durch die sprunghafte Verbesserung der Verarbeitungs- und Speicherkapazitäten – hat Unternehmen ungeahnte Möglichkeiten eröffnet, verborgene Muster in Daten aufzudecken und diese Erkenntnisse zur Verbesserung der Entscheidungsfindung zu nutzen. Doch dazu müssen sie diese Daten zunächst sammeln, verarbeiten, analysieren und weitergeben. Die Verwaltung dieses Datenlebenszyklus ist der Kern von Data Science.
Heutzutage ist Data Science in der Geschäftswelt – und darüber hinaus – allgegenwärtig. So sehr, dass die Harvard Business Review den Data Scientist als den attraktivsten Job des 21. Jahrhunderts bezeichnete. Wenn Data Scientists die Praktiker sind, dann ist Data Science die Technik und Technologie.
Einsatz des besten Modells in der Produktionsumgebung
Als globaler Hersteller von Baumaterialien muss USG qualitativ hochwertige Produkte zu erschwinglichen Preisen herstellen. Durch den Einsatz von SAS® Model Manager kann der Hersteller von Rigipsplatten die optimale Rezeptur von Rohstoffen ermitteln und seinen Produktionsprozess nahezu in Echtzeit anpassen, um dieses Ziel zu erreichen.
Data Science in der Welt von heute
Erhalten Sie einen Einblick in die moderne Welt von Data Science.
Gartners magischer Quadrant für Data Science
Sind Sie neugierig, wie die verschiedenen Data Science-Plattformen abschneiden? In Gartners Magic Quadrant für Data Science- und Machine Learning-Plattformen können Sie die 20 besten Angebote vergleichen.
Wer nutzt Data Science?
Es gibt kaum eine Branche, in der Data Science nicht in wichtige Geschäftsfunktionen integriert ist. Hier sind ein paar der interessantesten Anwendungsfälle.
Data Science Ergebnisse
Um zu verstehen, auf welch‘ vielfältige Weise Data Science ein Unternehmen beeinflussen kann, ist es hilfreich, einige der üblichen Ziele und Ergebnisse von Data Science zu untersuchen.
- Vorhersage (wann ein Vermögenswert ausfallen wird)
- Klassifizierung (neuer oder bestehender Kunde)
- Empfehlungen (wenn Sie das mögen, probieren Sie dies)
- Erkennung von Anomalien (betrügerische Käufe).
- Erkennung (Bild, Text, Audio, Video, usw.)
- Umsetzbare Erkenntnisse (Dashboards, Berichte, Visualisierungen)
- Automatisierte Prozesse und Entscheidungsfindung (Kreditkartengenehmigung)
- Scoring und Ranking (Kreditwürdigkeit)
- Segmentierung (gezieltes Marketing).
- Optimierung (Verbesserungen in der Fertigung)
- Prognosen (Vorhersage von Verkäufen und Einnahmen).
Bridging the data science skills gap
The demand for advanced analytical skills has skyrocketed, leaving countries scrambling to bridge the talent gap. By using SAS® Education Analytical Suite and SAS® Viya®, North-West University is providing innovative data science education. This is transforming South Africa's workforce by helping students gain vital firsthand experience in problem formulation, business etiquette and writing, and value delivery.
Data science outputs
To understand the many ways data science can affect an organization, it’s helpful to examine some of the common data science goals and deliverables.
- Prediction (when an asset will fail).
- Classification (new or existing customer).
- Recommendations (if you like that, try this).
- Anomaly detection (fraudulent purchases).
- Recognition (image, text, audio, video, etc.).
- Practical insights (dashboards, reports, visualizations).
- Automated processes and decision making (credit card approval).
- Scoring and ranking (credit score).
- Segmentation (targeted marketing).
- Optimization (manufacturing improvements).
- Forecasts (predicting sales and revenue).
Wenn Sie Ihre Data Science Arbeit mit einem besseren Verständnis für die Auswahl, den Einsatz und die Verwaltung von Modellen ergänzen möchten, dann ist eine Weiterbildung in KI und ML ideal. Ronald van Loon Principal Analyst CEO von Intelligent World
Kombinierte KI
Die meisten KI-Projekte stützen sich heute auf mehrere Data-Science-Technologien. Laut Gartner wird die Kombination verschiedener KI-Techniken, um das beste Ergebnis zu erzielen, als „Composite AI“ (dt. Kombinierte KI) bezeichnet
Bei der kombinierten KI beginnt man mit dem Problem und wendet dann die richtigen Daten und Werkzeuge an, um das Problem zu lösen. Dazu gehört oft eine Kombination von Data-Science-Techniken, darunter Machine Learning, Statistik, Advanced Analytics, Data Mining, Forecasting, Optimierung, Natural Language Processing (NLP), Computer Vision, etc.
Kombinierte KI ist zunehmend ein Synonym für Data Science. Das liegt daran, dass die Wahl der richtigen KI-Technologie nicht immer ganz einfach ist. Sie erfordert ein fundiertes Verständnis des Geschäftsproblems, das Sie zu lösen versuchen, und der Daten, die zur Lösung dieses Problems zur Verfügung stehen. Diese Kombination aus geschäftlichem und technologischem Fachwissen ist die Essenz von Data Science.
Wie Data Science funktioniert
Data Science umfasst den Einsatz verschiedener Tools und Technologien, um aus strukturierten und unstrukturierten Daten aussagekräftige Informationen abzuleiten. Im Folgenden sind einige der gängigen Verfahren aufgeführt, die von Data Scientists verwendet werden, um Rohdaten in unternehmensrelevante Informationen umzuwandeln.
Bei Data Management handelt es sich um Verwaltung von Daten, um deren Potenzial für ein Unternehmen freizusetzen. Eine effektive Datenverwaltung erfordert eine Datenstrategie und zuverlässige Methoden für den Zugriff, die Integration, Bereinigung, Verwaltung, Speicherung und Aufbereitung von Daten für Analysen.
Maschinelles Lernen automatisiert die Erstellung analytischer Modelle. Beim unüberwachten maschinellen Lernen nutzt die Technologie Methoden aus den Bereichen neuronale Netze, Statistik, Unternehmensforschung und Physik, um in den Daten verborgene Erkenntnisse zu finden, ohne dass explizit programmiert wird, wo man suchen oder welche Schlussfolgerungen man ziehen soll.
Ein neuronales Netz ist eine Art des maschinellen Lernens, das von der Funktionsweise des menschlichen Gehirns inspiriert ist. Es ist ein Computersystem, das aus miteinander verbundenen Einheiten (wie Neuronen) besteht, die Informationen verarbeiten, indem sie auf externe Eingaben reagieren und Informationen zwischen den einzelnen Einheiten weiterleiten.
Beim Deep Learningwerden riesige neuronale Netze mit vielen Schichten von Verarbeitungseinheiten eingesetzt, die sich die Fortschritte bei der Rechenleistung und verbesserte Trainingstechniken zunutze machen, um komplexe Muster in großen Datenmengen zu lernen. Zu den gängigen Anwendungen gehören Bild- und Spracherkennung.
Computer Vision stützt sich auf Mustererkennung und Deep Learning, um zu erkennen, was auf einem Bild oder Video zu sehen ist. Wenn Maschinen Bilder verarbeiten, analysieren und verstehen können, können sie Bilder oder Videos in Echtzeit aufnehmen und ihre Umgebung interpretieren.
Natural Language Processing (Natürliche Sprachverarbeitung) ist die Fähigkeit von Computern, menschliche Sprache, einschließlich der Spracherkennung, zu analysieren, zu verstehen und zu erzeugen. Die nächste Stufe der NLP ist die natürlichsprachliche Interaktion, die es Menschen ermöglicht, mit Computern in der Alltagssprache zu kommunizieren, um Aufgaben zu erfüllen.
Datenvisualisierung ist die Darstellung von Daten in einem bildlichen oder grafischen Format, damit sie leicht analysiert werden können. Dies ist besonders wichtig, um Unternehmen in die Lage zu versetzen, Geschäftsentscheidungen auf der Grundlage der Ergebnisse von Data Science zu treffen.
Beliebte Programmiersprachen für Data Scientists
So wie Menschen eine Vielzahl von Sprachen verwenden, gilt dies auch für Data Scientists. Bei den Hunderten von Programmiersprachen, die heute zur Verfügung stehen, kommt es bei der Wahl der richtigen Sprache darauf an, was Sie erreichen wollen. Hier ein Blick auf einige der beliebtesten Programmiersprachen für Data Science.
Python ist eine interpretierte, objektorientierte High-Level-Programmiersprache mit dynamischer Semantik. Die eingebauten High-Level-Datenstrukturen, kombiniert mit dynamischer Typisierung und dynamischer Bindung, machen sie sehr attraktiv für die schnelle Anwendungsentwicklung sowie als Skript- oder Klebesprache zur Verbindung bestehender Komponenten.
R ist eine freie Softwareumgebung für statistische Berechnungen und Grafiken, die von der R Foundation for Statistical Computing unterstützt wird. Die Sprache R ist unter Statistikern und Data Minern für die Entwicklung statistischer Software und Datenanalyse weit verbreitet.
SQL ist eine domänenspezifische Programmiersprache, die für die Verwaltung von Daten in einem relationalen Datenbankmanagementsystem (RDBMS) oder für die Datenstromverarbeitung in einem relationalen Datenstrommanagementsystem (RDSMS) entwickelt wurde. Sie ist besonders nützlich bei der Verarbeitung strukturierter Daten, d. h. von Daten, die Beziehungen zwischen Entitäten und Variablen enthalten.
SAS ist eine Programmiersprache, der Hunderttausende von Datenwissenschaftlern weltweit vertrauen. Die SAS Viya Plattform ermöglicht es Ihnen, die Vorteile jedes Technologiesystems und jeder Programmiersprache in Ihrem Unternehmen zu kombinieren, um analytische Modelle besser zu entwickeln und einzusetzen. Lesen Sie, wie SAS Viya® Ihnen dabei helfen kann, aus Ihrem Modellierungsschmelztiegel intelligentere Geschäftsentscheidungen zu treffen.
Nächste Schritte
Wenn Sie Data Science lernen wollen, ist SAS der richtige Ort dafür.
Data Science Lösungen
Die Data-Science-Angebote von SAS Viya bieten robuste Datenmanagement-, Visualisierungs-, Advanced-Analytics- und Modellmanagement-Funktionen, um Data Science in jedem Unternehmen zu beschleunigen.
SAS Visual Data Mining und Machine Learning ermöglichen Ihnen, die komplexesten analytischen Probleme mit einer einzigen, integrierten, kollaborativen Lösung zu lösen – jetzt mit einer eigenen API für die automatische Modellierung.
SAS Visual Analytics bietet Ihnen die Möglichkeit, Berichte schnell und interaktiv zu erstellen, Ihre Daten durch visuelle Darstellungen zu erkunden und Ihre Analysen im Selbstbedienungsmodus durchzuführen.
Diese und weitere Lösungen werden von SAS Viya unterstützt, der marktführenden Data-Science-Plattform von SAS, die auf einer modernen, skalierbaren, cloudfähigen Architektur läuft.