Zurück zum Hauptinhalt

SAS ausprobieren

Software
Learn
Support
Über SAS

SAS Viya Platform
Mehr über SAS Viya erfahren
Testen und kaufen
SAS Viya Migration

Lösungen
Fraud
IoT
Marketing
Risikomanagement
Alle Produkte & Lösungen

Branchen
Banken
Öffentliche Verwaltung
Versicherungen
Life Sciences
Einzelhandel & Konsumgüter
Alle Branchen

Vertiefen
Testen / kaufen
Warum SAS?
Referenzen
Partner
Consulting

Warum SAS lernen?

Die Nachfrage nach SAS-Kenntnissen wächst.Bringen Sie Ihre Karriere voran und schulen Sie Ihr Team in gefragten Fähigkeiten

Warum SAS lernen?

Training
Überblick
Für Unternehmen
Kurskatalog
Kostenlose Schulungen
Bücher
Meine Schulungen

Hochschulen
Hochschulprogramme
Kostenlose Hochschulsoftware
Lehrkräfte
Studenten

Zertifizierung
Alle Zertifizierungen
Warum sich zertifizieren?
Zertifizierungsvorbereitung
Rabatte
Meine Zertifizierung

Vertiefen
Communitys
Veranstaltungen
Lehrvideos
YouTube-Kanal
AI Podcast

Communitys
SAS Viya
SAS Programmierung
Statistische Verfahren
Neue SAS Anwender
Administratoren
Alle Communitys

Dokumentation
Nach Produkt
Installation & Konfiguration
SAS Viya Administration
SAS Viya Programmierung
Systemvoraussetzungen
Alle Dokumentationen

Support & Services
Downloads
Knowledge Base
Starter-Kit
Support nach Produkt
Support-Services
Support-Startseite

Vertiefen
Blogs
Anwendergruppen
Webinare
Lehrvideos
YouTube-Kanal
Mein SAS

Übersicht
Partnerprogramm
Partner finden
Am PartnerNet anmelden

Warum SAS?

Erfahren Sie, warum SAS die zuverlässigste Analytics-Plattform der Welt ist und warum Analysten, Kunden und Branchenexperten SAS lieben.

Mehr Informationen über SAS

Unternehmen
Übersicht
Jahresbericht
Leadership
Vision & Mission
Standorte

Karriere
Übersicht
Unternehmenskultur
Praktika
Stellenangebote suchen

News & Events
Nachrichten
Newsletter
Blogs
Veranstaltungen

Vertiefen
Brand
Social
Trust Center
Kontakt

sas.com
support.sas.com
documentation.sas.com
blogs.sas.com
communities.sas.com
developer.sas.com

Suchen

Wählen Sie Ihre Region

Besuchen Sie die Website der Unternehmenszentrale in Cary, NC, USA

Amerika

Europa

Naher Osten & Afrika

Asien-Pazifik

Sehen Sie sich unsere weltweite Kontaktübersicht an, um Ihre Region zu finden.

Amerika

Brasil
Canada (English)

Canada (Français)
Colombia

México
United States

Europa

Belgium
Česká Republika
Danmark
Deutschland
España
France

Iceland
Ireland
Italia
Nederland
Norge
Österreich

Polska
Portugal
România
Россия
Schweiz (Deutsch)
Suisse (Français)

Suomi
Sverige
Türkiye
Україна
United Kingdom

Naher Osten & Afrika

Middle East

Saudi Arabia

South Africa

Asien-Pazifik

Australia
中国 (简体中文)
Hong Kong
India
日本

대한민국
Malaysia
New Zealand
Philippines
Singapore

台灣 (繁體中文)
Thailand (English)
ประเทศไทย (ภาษาไทย)

Kontakt

Hallo !

Profil erstellen

Hier bekommen Sie Zugriff auf My SAS, Testversionen, Communities und mehr.

Profil bearbeiten

Hier bekommen Sie Zugriff auf My SAS, Testversionen, Communities und mehr.

SAS Sites

This page exists on your local site.

Go there now

Stay here

X

SAS Insights
Articles

Warum sind Data Lakes wichtig?

Abstract technology midnight blue and pink

Was ist ein Data Lake und warum ist er wichtig?

Von: Jim Harris, Blogger-in-Chief, Obsessive-Compulsive Data Quality (OCDQ)

Ein Data Lake ist ein Speicher, der schnell große Mengen von Rohdaten in ihrem ursprünglichen Format aufnehmen kann. So können Fachanwender bei Bedarf schnell darauf zugreifen und Data Scientists Analysen durchführen, um wichtige Informationen zu erhalten. Im Gegensatz zu seinem älteren Cousin – dem Data Warehouse – ist ein Data Lake ideal für die Speicherung unstrukturierter Big Data wie Tweets, Bilder, Sprach- und Streaming-Daten. Es können jedoch alle Arten von Daten gespeichert werden, unabhängig von Quelle, Größe, Geschwindigkeit und Struktur.

Einige der Formate für in Data Lakes gespeicherte Informationen sind:

Strukturierte Daten, wie z. B. Zeilen und Spalten aus verwandten Datenbanktabellen;
Semistrukturierte Daten, wie z.B. abgegrenzte flache Textdateien und in Schemata eingebettete Dateien.
Unstrukturierte Daten - einschließlich Inhalte aus sozialen Medien und Daten aus dem Internet der Dinge (IoT) - sowie Dokumente, Bilder, Sprache und Videos.

Geschichte der Data Lakes: Wie alles begann

Die ersten Versionen, die wir heute als Data Lakes bezeichnen, waren den Wasserlöchern des kleinen gelben Elefanten – Hadoop – nachempfunden. Bei seiner ersten Veröffentlichung war Hadoop eine Sammlung von Open-Source-Software-Lösungen, die für die verteilte Speicherung, Verarbeitung und Analyse von Big Data. verwendet wurden. Sie war besonders nützlich für neu entstehende Quellen von semistrukturierten und unstrukturierten Daten, die zu dieser Zeit immer häufiger auftraten. Data Lakes wurden auch für die Skalierung strukturierter Daten verwendet, deren Volumen schnell ansteigen sollte.

Leider brachte der frühe Hype um Hadoop die Idee mit sich, dass man beliebig große Datenmengen in einen See werfen und einfach den Benutzern überlassen könnte. Zahlreiche Fehlschläge bewiesen, dass dieser Ansatz falsch war. Einige frühe Anwender sahen, wie sich ihre Data Lakes schnell in schlecht verwaltete und unkontrollierte Müllhalden verwandelten, die einem Datensumpf glichen. Dies führte zu:

Einer Redundanz, die die Analyseergebnisse verzerrte
Nicht prüfbaren Daten, denen niemand vertraute
Schlechter Performance, die den ursprünglichen Primärzweck des Data Lakes - leistungsstarke Recherche und Ermittlung - zunichtemachte

Man konnte diese schlecht dokumentierten und unorganisierten frühen Data Lakes kaum durchsuchen. Die Kennzeichnung von Metadaten entwickelte somit zu einem der wichtigsten Parameter für die Verwaltung von Data Lakes, da die Daten auf diese Weise leichter zu finden waren. Die Governance von Data Lakes verbesserte die Überprüfbarkeit und Vertrauenswürdigkeit, wodurch die Nutzbarkeit der Daten für mehr Unternehmens-anwendungen sichergestellt wurde.

Die für die Implementierung eines Data Lake verwendeten Technologien und Methoden haben sich im Laufe der Zeit weiterentwickelt. Heute umfassen sie nicht nur Hadoop, sondern auch andere traditionelle und Big Data-Technologien.

Schnellere Einblicke aus schnelleren Daten: Ein TDWI Best Practices Bericht

Um Wettbewerbsvorteile zu erzielen, müssen Unternehmen schnelle, datengesteuerte Entscheidungen treffen. Data Lakes sind flexible Plattformen, die sich für jede Art von Daten eignen – einschließlich Betriebs-, Zeitreihen- und Fast-Echtzeit-Daten. Erfahren Sie, mit welchen Technologien Sie schneller Informationen erhalten und bessere Entscheidungen treffen können.

Der frühe Hype ist vorbei

Als der Hype um die ersten Data Lakes abflaute, wurde ein Data Lake nicht mehr mit einer Datenplattform verwechselt. Stattdessen wurde er als ein Container für mehrere Sammlungen unterschiedlicher Daten erkannt, die an einem praktischen Ort nebeneinander existieren.

Heutzutage sind Data Lakes ein fester Bestandteil der Daten- und Analysestrategien von Unternehmen. Die Geschäftswelt weiß, dass sich der Begriff „Data Lake“ nur auf einen Teil des Unternehmens-Ökosystems bezieht, das Folgendes umfasst:

Quellensysteme,
Ingestion-Pipelines,
Integrations- und Datenverarbeitungstechnologien,
Datenbanken,
Metadaten,
Analysetools und
Datenzugriffsebenen.

Um eine umfassende Business Intelligence-Plattform zu sein, die einen hohen geschäftlichen Mehrwert generiert, ist eine eine Data Lake-Integration, Bereinigung, Metadatenmanagement und Governance erforderlich. Führende Unternehmen verfolgen jetzt diesen ganzheitlichen Ansatz für das Data-Lake-Management. Dadurch sind sie in der Lage, mit Hilfe von Analytics, Daten aus den unterschiedlichsten Quellen in den vielfältige Anwendungsbereichen zu kombinieren. Dies bedeutet umfassendere Erkenntnisse für das Unternehmen, auf die es bei seinen Entscheidungen zurückgreifen kann.

Warum sind Data Lakes wichtig?

Da ein Data Lake alle Arten von neuen Daten schnell aufnehmen kann und gleichzeitig einen Self-Service-Zugang sowie Untersuchungs- und Visualisierungsmöglichkeiten bietet, können Unternehmen neue Informationen schneller erkennen und darauf reagieren. Außerdem haben sie Zugriff auf Daten, an die sie früher nicht herankommen konnten.

Diese neuen Datentypen und -quellen stehen für Datenermittlung, Proofs of Concept, Visualisierungen und Advanced Analytics zur Verfügung. So ist beispielsweise ein Data Lake die häufigste Datenquelle für Machine Learning – eine Technik, die häufig auf Protokolldateien, Clickstream-Daten von Websites, Social-Media-Inhalte, Streaming-Sensoren und Daten von anderen mit dem Internet verbundenen Geräten angewendet wird.

Viele Unternehmen wünschen sich seit langem die Möglichkeit, entdeckungsorientierte Untersuchungen, erweiterte Analysen und Berichte durchführen zu können. Ein Data Lake bietet schnell die dafür notwendige Größe und Vielfalt an Daten. Er kann auch als Konsolidierungspunkt sowohl für Big Data als auch für herkömmliche Daten dienen und analytische Korrelationen über alle Daten hinweg ermöglichen.

Obwohl ein Data Lake in der Regel zur Speicherung von Rohdaten verwendet wird, kann er auch einige der zwischengeschalteten oder vollständig transformierten, umstrukturierten oder aggregierten Daten speichern, die von einem Data Warehouse und seinen nachgeschalteten Prozessen erzeugt werden. Dies geschieht häufig, um viel Zeit zu sparen, die Data Scientists heute immer noch für die Datenaufbereitung investieren müssen.

Der gleiche Ansatz wird manchmal verwendet, um persönlich identifizierbare Informationen (PII) oder andere sensible Daten, die nicht für Analysen benötigt werden, zu verbergen oder zu anonymisieren. Dies hilft Unternehmen bei der Einhaltung von Datensicherheits- und Datenschutzrichtlinien. Dazu kommen Zugriffskontrollen, die eine weitere Methode für Unternehmen darstellen, Sicherheit zu gewährleisten.

Female programmer at desktop computer at night

Damit eine umfassende Business-Intelligence-Plattform einen hohen Unternehmenswert liefert, umfasst ein Data Lake Ansatz auch eine effektive Daten Integration, Datenbereinigung, ein Metadaten-Management und ein passendes Governance Modell. Viele erfolgreiche Unternehmen verfolgen daher diesen ganzheitlichen Ansatz für ihr Data-Lake-Management.

Data Lake versus Data Warehouse

Sie fragen sich, was Sie beim Vergleich zwischen einem Data Lake und einem Data Warehouse beachten müssen? Eine der wichtigsten Überlegungen betrifft das Design bzw. die Architektur des Datenspeichers.

Relationale Datenbanken und andere strukturierte Datenspeicher verwenden ein schemaorientiertes Design. Das bedeutet, dass alle Daten, die ihnen hinzugefügt werden, mit der durch das architektonische Schema vorgegebenen Struktur übereinstimmen oder in dieses umgewandelt werden müssen. Das Schema ist auf die geschäftlichen Anforderungen bestimmter Anwendungen abgestimmt. Das einfachste Beispiel für diese Art von Design ist ein Data Warehouse.

Ein Data Lake hingegen verwendet ein datengesteuertes Design. Dies ermöglicht die schnelle Aufnahme neuer Daten, bevor die Datenstrukturen und die geschäftlichen Anforderungen für deren Verwendung definiert werden. Manchmal werden Data Lakes und Data Warehouses durch die Begriffe Schema-on-Write (Data Warehouse) und Schema-on-Read (Data Lake) unterschieden.

Schema-on-Write (Data Warehouse) begrenzt oder verlangsamt das Einlesen neuer Daten. Es wurde für einen bestimmten Zweck der Daten sowie für bestimmte zugehörige Metadaten entwickelt. Die meisten Daten können jedoch für die unterschiedlichsten Zwecke verwendet werden.
Bei Schema-on-Read (Data Lake) bleiben die Rohdaten erhalten, sodass sie leicht wiederverwendet werden können. Außerdem können so mehrere Metadaten-Tags für dieselben Daten zugewiesen werden.

Da er nicht auf eine einzige Struktur beschränkt ist, kann ein Data Lake multistrukturierte Daten für denselben Themenbereich aufnehmen. Data Lakes können zum Beispiel strukturierte Verkaufstransaktionen mit unstrukturierten Kundenstimmungen kombinieren. Und da sich ein Data Lake auf die Speicherung konzentriert, benötigt er weniger Rechenleistung als ein Data Warehouse. Außerdem lassen sich Data Lakes im Laufe der Zeit viel einfacher, schneller und kostengünstiger skalieren.

Ein Nachteil eines Data Lakes ist, dass die Daten nicht standardisiert, nicht dupliziert, qualitätsgeprüft beziehungsweise umgewandelt sind. Als Reaktion darauf haben einige Leute den Trend aufgegriffen, Data Lakes anders zu nutzen. Data Lakes können einen neuen, verbesserten Bereich für die Aufnahme und das Staging von Daten bieten, bevor diese für das Einspielen in das Data Warehouse vorbereitet, integriert und transformiert werden.

Diese Beispiele verdeutlichen, warum ein Data Lake ein Data Warehouse nicht ersetzt, sondern es ergänzt. Neben der Verwendung als Staging Area können Data Lakes auch als Archiv dienen. In diesem Szenario werden veraltete Daten archiviert, aber für Audits und historische Analysen leicht zugänglich gehalten.

Data Lakes in der Anfangsphase: Ein tieferer Einblick

Die ersten Data Lakes nutzten das „Open Source Hadoop Distributed File System(HDFS)“ als Rahmen für die Datenspeicherung auf vielen verschiedenen Speichergeräten, als ob es sich um eine einzige Datei handelte. HDFS arbeitete zusammen mit MapReduce als Datenverarbeitungs- und Ressourcenmanagement-Framework, das große Berechnungsaufgaben – wie analytische Aggregationen – in kleinere Aufgaben aufteilte. Diese kleineren Aufgaben wurden parallel auf Rechenclustern mit Standardhardware ausgeführt.

In der zweiten Hadoop-Generation wurde das Ressourcenmanagement von MapReduce entkoppelt und durch „Yet Another Resource Negotiator (YARN)“ ersetzt. Dies wurde im Wesentlichen das Betriebssystem von Hadoop. Am wichtigsten ist, dass YARN-Alternativen zu MapReduce als Verarbeitungsrahmen unterstützt. Dadurch wurden die Anwendungen (sowie die Data Management und Governance-Funktionen), die ursprünglich in Hadoop ausgeführt werden können, erheblich erweitert.

Sehen Sie sich einige verwandte Inhalte an

Data Lakes sind heute ein fester Bestandteil der Daten- und Analysestrategien vieler Unternehmen.

Sind Sie bereit, mehr über einige verwandte Themen zu erfahren? Über die rechte Box erfahren Sie, wie sich die Datenintegration entwickelt hat - und erhalten Tipps zum Aufbau besserer Data Lakes. Erfahren Sie, warum Governance so wichtig ist, und informieren Sie sich über die neuesten Best Practices zur Datenkennzeichnung. Oder lesen Sie alles über die Vor- und Nachteile von Cloud Computing.

Data Lake Governance – brauche ich das?

Sollte ein Datenpool Governance unterliegen? Die Antwort lautet ja. Wenn die Daten als Entscheidungsgrundlage für Ihr Business dienen, ist Governance unerlässlich. Erfahren Sie mehr in diesem Blogbeitrag über Data Lake Governance.
3 Tipps für den Aufbau eines besseren Data Lake

Kennen Sie die häufigsten Fallstricke beim Aufbau eines Data Lake? Lesen Sie diesen Blogbeitrag, um Tipps zu erhalten, wie Sie die Fehler, die andere gemacht haben, vermeiden können.
Cloud Computing

Cloud-Plattformen sind heute ein wesentlicher Bestandteil der Datenstrategien vieler Unternehmen, einschließlich der Entscheidung, einen Data Lake in der Cloud zu platzieren. In dieser Einführung erfahren Sie alles über Cloud Computing und warum es eine wichtige Kraft für geschäftliche Innovationen ist.
4 Best Practices für das Data Tagging

Die Kennzeichnung von Metadaten ist sehr wichtig für die Verwaltung von Data Lakes, da die „Daten im See“ dadurch leichter zu finden sind. In diesem Blog-Beitrag erfahren Sie mehr über Best Practices für die Kennzeichnung von Daten und warum es so wichtig ist, Ihre Daten richtig zu kennzeichnen.
Datenintegration ist nicht mehr das, was es einmal war

Da Unternehmen immer größere Mengen an strukturierten und unstrukturierten Daten aufnehmen, verschieben viele von ihnen die Daten in einen Data Lake, der auf einem zugrunde liegenden Objektspeicher und benutzerdefinierten Metadaten basiert. In diesem Artikel erfahren Sie, wie sich die Datenintegrationstechniken im Laufe der Zeit entwickelt haben.

Wie Data Lakes heute funktionieren

Die schnelle Aufnahme von Daten und die Möglichkeit, Rohdaten in ihrem nativen Format zu speichern, waren schon immer die Hauptvorteile von Data Lakes. Aber was genau bedeutet das? Und wie funktioniert es?

Rohdaten bedeuten, dass die Daten nicht für eine bestimmte Verwendung verarbeitet oder aufbereitet wurden. Einige Datenquellen haben jedoch bereits eine gewisse Verarbeitung oder Aufbereitung ihrer Daten vorgenommen. Ein Data Lake speichert also Rohdaten in dem Sinne, dass die Daten vor der Speicherung nicht verarbeitet oder aufbereitet werden. Eine bemerkenswerte Ausnahme stellt die Formatierung dar.
Natives Format bedeutet, dass die Daten im Format des Quellsystems oder der Anwendung bleiben, die sie erstellt hat. Dies ist jedoch nicht immer die beste Option für die Speicherung im Data Lake. In der Tat bedeutet eine schnelle Aufnahme selten, dass die Daten einfach in ein Dateisystemverzeichnis kopiert werden, das vom Data Lake verwendet wird.

Eine Microsoft Excel-Kalkulationstabelle liegt beispielsweise standardmäßig in ihrem ursprünglichen XLS-Format vor. Die meisten Data Lakes würden es jedoch vorziehen, sie als durch Kommata getrennte Textdatei (CSV) zu speichern. Transaktionsdaten aus relationalen Datenbanken werden für die Speicherung im Data Lake ebenfalls häufig in CSV-Dateien konvertiert.

Eingebettetes Schema und granulare Daten

Eine weitere gängige Alternative ist die Verwendung eines Dateiformats mit eingebetteten Schemainformationen, wie z. B. JavaScript Object Notation (JSON). So werden beispielsweise Clickstream-Daten, Social-Media-Inhalte und Sensordaten aus dem IoT in der Regel in JSON-Dateien für die Speicherung im Data Lake konvertiert. JSON-Dateien sind auch ein gutes Beispiel dafür, dass die Aufnahme von Daten in den Data Lake häufig eine Konvertierung der Daten aus ihrem ursprünglichen Format in ein granulareres Format erfordert.

Granulare Daten, insbesondere mit eingebetteten Schemainformationen wie Schlüssel-Wert-Paaren (KVP), ermöglichen schnellere Lese- und Schreibvorgänge. Das bedeutet:

Vergeudet keinen unnötigen Speicherplatz für Platzhalter-, Default- oder fehlende Werte
Kann aggregiert oder aufgelöst werden, um den Anforderungen verschiedener Situationen gerecht zu werden.
Es wird einfacher, nur die Daten abzurufen, die für eine bestimmte Verwendung relevant sind.

Darüber hinaus gibt es weitere, optimierte Speicherformate für Data Lakes. Einige dieser Speicherformate ermöglichen eine bessere Skalierbarkeit und Parallelverarbeitung und betten gleichzeitig Schemainformationen ein. Daten können konvertiert werden in:

Spaltenspeicher (z. B. Redshift, Vertica, Snowflake),
Komprimierte spaltenorientierte Formate (z. B. Parquet für Spark oder ORC für Hive),
Konventionelle zeilenorientierte Formate (z. B. PostgreSQL, MySQL oder andere relationale Datenbanken),.
Komprimierte zeilenorientierte Formate (z. B. Avro für Kafka),
In-Memory-Speicher (z. B. SingleStore, Redis, VoltDB) oder
NoSQL-Speicher (z. B. MongoDB, Elasticsearch, Cassandra).

Wann sollten Sie verschiedene Datenspeicheroptionen verwenden?s

Die meisten Data Lakes verwenden eine Vielzahl von Speicheroptionen, abhängig von den Datenquellen oder Anwendungsgebieten. Dies gilt insbesondere im Bezug auf Datenzugriff und Analysen. Zum Beispiel:

Die spaltenorientierte Speicherung eignet sich am besten, wenn schnelles Abrufen und beschleunigte Aggregation am wichtigsten sind.
Die zeilenorientierte Speicherung eignet sich am besten, wenn es eine große Schemavariabilität gibt, wie es bei Streaming-Anwendungen häufig der Fall ist. Sie ist auch ideal, wenn der Data Lake als Staging-Bereich für ein Data Warehouse verwendet wird.
In-Memory-Speicher eignen sich am besten für analytische Echtzeitanwendungen.
NoSQL-Speicher eignen sich am besten für Analyseszenarien, die eine schnelle Erstellung von Metriken für große Datensätze erfordern.

Data Lakes und die Bedeutung der Architektur

Unterm Strich ist ein Data Lake nicht einfach nur ein riesiger Fundus – er erfordert eine gut konzipierte Datenarchitektur. Es ist möglich, eine breite Palette von Tools für die Implementierung einer schnellen Aufnahme von Rohdaten in den Data Lake zu verwenden. Zu diesen Tools gehören die Datenintegrations- und ETL-Tools (Extract-Transform-Load), über die Ihr Unternehmen wahrscheinlich bereits verfügt. Bestimmte neue Big-Data-Technologien (einschließlich einiger der oben genannten Beispiele) bieten diese Funktionalität ebenfalls.

Unabhängig davon, wie Sie die Eingabe und Speicherung implementieren, können Data Lakes den Einsatz von Back-End-Technologien erfordern, mit denen Sie weniger vertraut sind – insbesondere „Non-relational Database Management Systems (Non-RDBMS)“. Glücklicherweise verfügen viele dieser Technologien über benutzerfreundliche Front-End-Schnittstellen. Einige bieten beispielsweise SQL-ähnliche Abfragefunktionen, die viele Benutzer erwarten und mit denen sie bereits vertraut sind.

Lernen Sie SAS® Viya® kennen

Die Daten um uns herum verändern sich ständig – und unsere Entscheidungen müssen schnell angepasst werden. Um Rohdaten in sinnvolle Entscheidungen umzuwandeln, müssen Unternehmen zunächst auf Daten zugreifen, sie untersuchen, umwandeln und für die Analyse vorbereiten.

Der Data Lake bietet Anwendern und Data Scientists gleichermaßen Zugang zu Daten, die sie in der Vergangenheit nicht erhalten konnten, und ermöglicht es ihnen, die Daten von einem zentralen Ort aus anzuzeigen und zu untersuchen. Im Gegenzug können sie neue Informationen schneller erkennen und darauf reagieren.

Data Lakes ergänzen SAS Viya – die SAS Plattform für künstliche Intelligenz, Analytics und Data Management, darin Rohdaten in operative Erkenntnisse zu verwandeln. SAS Viya unterstützt alle Arten von Entscheidungen, die ein Unternehmen treffen muss. Sehen Sie sich das Video an und erfahren Sie mehr.

Hier geht es zum Video

Video-Player wird geladen.

Aktueller Zeitpunkt 0:00

/

Dauer 0:00

Geladen: 0%

0:00

Streamtyp LIVE

Verbleibende Zeit -0:00

1x

2x
1.75x
1.5x
1.25x
1x, ausgewählt
0.75x
0.5x

Kapitel

Beschreibungen aus, ausgewählt

Untertiteleinstellungen, öffnet Einstellungen für Untertitel
Untertitel aus, ausgewählt
English Untertitel

This is a modal window.

Anfang des Dialogfensters. Esc bricht ab und schließt das Fenster.

SchriftFarbeDeckkraft

TexthintergrundFarbeDeckkraft

Hintergrund des UntertitelbereichsFarbeDeckkraft

Schriftgröße

Textkantenstil

Schriftfamilie

Ende des Dialogfensters.

This is a modal window. Durch Drücken der Esc-Taste bzw. Betätigung der Schaltfläche "Schließen" wird dieses modale Fenster geschlossen.

This is a modal window. Durch Drücken der Esc-Taste bzw. Betätigung der Schaltfläche "Schließen" wird dieses modale Fenster geschlossen.

This is a modal window. Durch Drücken der Esc-Taste bzw. Betätigung der Schaltfläche "Schließen" wird dieses modale Fenster geschlossen.

This is a modal window. Durch Drücken der Esc-Taste bzw. Betätigung der Schaltfläche "Schließen" wird dieses modale Fenster geschlossen.

video thumbnail

Data Lake und Cloud

Ein Data Lake kann als zentraler Speicherort dienen, durch den relevanten alle Unternehmensdaten fließen. Als solcher wird er zu einem leicht zugänglichen Staging-Bereich, aus dem alle Unternehmensdaten bezogen werden können. Dazu gehören Daten, die von Anwendungen vor Ort genutzt werden, sowie Cloud-basierte Anwendungen, die die Größe, Geschwindigkeit und Komplexität von Big Data bewältigen können. Dies alles führt zur Frage: Data Lake oder Cloud? Wo soll der Data Lake angesiedelt werden?

Cloud Data Lake

Für einige Unternehmen kann die Cloud die beste Option für die Datenspeicherung sein. Das liegt daran, dass sie ergänzende Vorteile bietet – elastische Skalierbarkeit, schnellere Servicebereitstellung und IT-Effizienz – zusammen mit einem Abrechnungsmodell auf Abonnementbasis.

Vor-Ort Data Lake

Unternehmen können sich aus ähnlichen Gründen wie bei der Verwaltung einer privaten Cloud vor Ort dafür entscheiden, ihren Data Lake in ihren eigenen vier Wänden zu verankern. Dieser Ansatz bietet ein Höchstmaß an Sicherheit und Kontrolle und schützt gleichzeitig das geistige Eigentum und geschäftskritische Anwendungen. Außerdem können so sensible Daten in Übereinstimmung mit den gesetzlichen Vorschriften geschützt werden.

Die Nachteile der Verwaltung einer privaten Cloud vor Ort gelten jedoch auch für einen Data Lake. Beides kann zu einer erhöhten internen Wartung der Data-Lake-Architektur, der Hardware-Infrastruktur und der zugehörigen Software und Dienste führen.

Hybrid Data Lake

Manchmal entscheiden sich Unternehmen für einen hybriden Data Lake, bei dem der Data Lake zwischen dem Standort und der Cloud aufgeteilt wird. In diesen Architekturen speichert der Cloud Data Lake normalerweise keine geschäftskritischen Daten. Und wenn sie persönlich identifizierbare Informationen (PII) oder andere sensible Daten enthalten, werden sie unkenntlich gemacht oder anonymisiert. Dies hilft dem Unternehmen, die Richtlinien für Datensicherheit und Datenschutz einzuhalten. Um die Kosten für die Cloud-Speicherung zu minimieren, können die in der Cloud gespeicherten Daten regelmäßig oder nach Abschluss von Pilotprojekten gelöscht werden.

Über Jim Harris

Jim Harris ist ein anerkannter Vordenker auf dem Gebiet der Datenqualität und verfügt über 25 Jahre Erfahrung im Bereich der Unternehmensdatenverwaltung. Er ist ein unabhängiger Berater, Redner und freiberuflicher Autor. Harris ist der Chef-Blogger von Obsessive-Compulsive Data Quality, einem unabhängigen Blog, der eine herstellerneutrale Sichtweise auf Datenqualität und die damit verbundenen Disziplinen, einschließlich Data Governance, Master Data Management und Business Intelligence, bietet.

Empfohlene Lektüre

Data quality management: What you need to knowData quality isn’t simply good or bad. Data quality management puts quality in context to improve fitness of the data you use for analysis and decision-making.
10 ways analytics can make your city smarter From child welfare to transportation, read 10 examples of analytics being used to solve problems or simplify tasks for government organizations.
Detect and prevent banking application fraudCredit fraud often starts with a falsified application. That’s why it’s important to use analytics starting at the entrance point. Learn how analytics and machine learning can detect fraud at the point of application by recognizing the biggest challenge – synthetic identities.

Jetzt Insights abonnieren?

Teal background with radiance graphic

SAS^® Viya^™

Make analytics accessible to everyone and bridge the talent gap in your organization

Please leave this field blank

Thank you for subscribing to Insights!

Enter email address*

*

Subscribe to Insights newsletter

Start
SAS Insights
Articles
Was ist ein Data Lake und warum ist er wichtig?

Start
SAS Insights
Articles
Was ist ein Data Lake und warum ist er wichtig?

Neugierde ist unser Code. SAS Analytics-Lösungen verwandeln Daten in Intelligenz und inspirieren Kunden auf der ganzen Welt zu kühnen neuen Entdeckungen, die den Fortschritt vorantreiben.

Follow Us

Facebook
Twitter
LinkedIn
YouTube
RSS

Vertiefen

Branchen
Communitys
Dokumentation
Entwickler
Erreichbarkeit
Events
Karriere

Für Lehrkräfte
Lehrvideos
Lösungen
Mein SAS
Nachrichten
Produkte
SAS Viya

Studenten
Support & Services
Testen/Kaufen
Training
Unternehmen
Warum SAS?
Zertifizierung

Was ist...

Was ist...

Analytics
Cloud Computing
Data Science
Generative AI
Internet der Dinge
Künstliche Intelligenz

Cookie Preferences
Datenschutz
Nutzungsbedingungen
Impressum
Trust Center
©2025 SAS Institute Inc. Alle Rechte vorbehalten.

Kontakt
Share
Abonnieren

Teilen Sie dies
Teilen Sie diese Seite mit Freunden oder Kollegen.

Back to Top

About cookies on this site

This site uses cookies and related technologies for site operation, analytics and third-party advertising purposes, as described in our SAS Privacy Statement. You may consent to our use of these technologies, reject non-essential technologies or further manage your preferences. To opt out of SAS making information relating to cookies and similar technologies available to third parties for advertising purposes, select "Required only." To exercise other rights you may have related to cookies, select "Manage cookies."

SAS Privacy Statement | Powered by:

| Truste