Was ist ein Data Lake und warum ist er wichtig?

Von: Jim Harris, Blogger-in-Chief, Obsessive-Compulsive Data Quality (OCDQ)

Ein Data Lake ist ein Speicher, der schnell große Mengen von Rohdaten in ihrem ursprünglichen Format aufnehmen kann. So können Fachanwender bei Bedarf schnell darauf zugreifen und Data Scientists Analysen durchführen, um wichtige Informationen zu erhalten. Im Gegensatz zu seinem älteren Cousin – dem Data Warehouse – ist ein Data Lake ideal für die Speicherung unstrukturierter Big Data wie Tweets, Bilder, Sprach- und Streaming-Daten. Es können jedoch alle Arten von Daten gespeichert werden, unabhängig von Quelle, Größe, Geschwindigkeit und Struktur.

Einige der Formate für in Data Lakes gespeicherte Informationen sind:

Strukturierte Daten, wie z. B. Zeilen und Spalten aus verwandten Datenbanktabellen;
Semistrukturierte Daten, wie z.B. abgegrenzte flache Textdateien und in Schemata eingebettete Dateien.
Unstrukturierte Daten - einschließlich Inhalte aus sozialen Medien und Daten aus dem Internet der Dinge (IoT) - sowie Dokumente, Bilder, Sprache und Videos.

Geschichte der Data Lakes: Wie alles begann

Die ersten Versionen, die wir heute als Data Lakes bezeichnen, waren den Wasserlöchern des kleinen gelben Elefanten – Hadoop – nachempfunden. Bei seiner ersten Veröffentlichung war Hadoop eine Sammlung von Open-Source-Software-Lösungen, die für die verteilte Speicherung, Verarbeitung und Analyse von Big Data. verwendet wurden. Sie war besonders nützlich für neu entstehende Quellen von semistrukturierten und unstrukturierten Daten, die zu dieser Zeit immer häufiger auftraten. Data Lakes wurden auch für die Skalierung strukturierter Daten verwendet, deren Volumen schnell ansteigen sollte.

Leider brachte der frühe Hype um Hadoop die Idee mit sich, dass man beliebig große Datenmengen in einen See werfen und einfach den Benutzern überlassen könnte. Zahlreiche Fehlschläge bewiesen, dass dieser Ansatz falsch war. Einige frühe Anwender sahen, wie sich ihre Data Lakes schnell in schlecht verwaltete und unkontrollierte Müllhalden verwandelten, die einem Datensumpf glichen. Dies führte zu:

Einer Redundanz, die die Analyseergebnisse verzerrte
Nicht prüfbaren Daten, denen niemand vertraute
Schlechter Performance, die den ursprünglichen Primärzweck des Data Lakes - leistungsstarke Recherche und Ermittlung - zunichtemachte

Man konnte diese schlecht dokumentierten und unorganisierten frühen Data Lakes kaum durchsuchen. Die Kennzeichnung von Metadaten entwickelte somit zu einem der wichtigsten Parameter für die Verwaltung von Data Lakes, da die Daten auf diese Weise leichter zu finden waren. Die Governance von Data Lakes verbesserte die Überprüfbarkeit und Vertrauenswürdigkeit, wodurch die Nutzbarkeit der Daten für mehr Unternehmens-anwendungen sichergestellt wurde.

Die für die Implementierung eines Data Lake verwendeten Technologien und Methoden haben sich im Laufe der Zeit weiterentwickelt. Heute umfassen sie nicht nur Hadoop, sondern auch andere traditionelle und Big Data-Technologien.

Schnellere Einblicke aus schnelleren Daten: Ein TDWI Best Practices Bericht

Um Wettbewerbsvorteile zu erzielen, müssen Unternehmen schnelle, datengesteuerte Entscheidungen treffen. Data Lakes sind flexible Plattformen, die sich für jede Art von Daten eignen – einschließlich Betriebs-, Zeitreihen- und Fast-Echtzeit-Daten. Erfahren Sie, mit welchen Technologien Sie schneller Informationen erhalten und bessere Entscheidungen treffen können.

Zum Bericht

Der frühe Hype ist vorbei

Als der Hype um die ersten Data Lakes abflaute, wurde ein Data Lake nicht mehr mit einer Datenplattform verwechselt. Stattdessen wurde er als ein Container für mehrere Sammlungen unterschiedlicher Daten erkannt, die an einem praktischen Ort nebeneinander existieren.

Heutzutage sind Data Lakes ein fester Bestandteil der Daten- und Analysestrategien von Unternehmen. Die Geschäftswelt weiß, dass sich der Begriff „Data Lake“ nur auf einen Teil des Unternehmens-Ökosystems bezieht, das Folgendes umfasst:

Quellensysteme,
Ingestion-Pipelines,
Integrations- und Datenverarbeitungstechnologien,
Datenbanken,
Metadaten,
Analysetools und
Datenzugriffsebenen.

Um eine umfassende Business Intelligence-Plattform zu sein, die einen hohen geschäftlichen Mehrwert generiert, ist eine eine Data Lake-Integration, Bereinigung, Metadatenmanagement und Governance erforderlich. Führende Unternehmen verfolgen jetzt diesen ganzheitlichen Ansatz für das Data-Lake-Management. Dadurch sind sie in der Lage, mit Hilfe von Analytics, Daten aus den unterschiedlichsten Quellen in den vielfältige Anwendungsbereichen zu kombinieren. Dies bedeutet umfassendere Erkenntnisse für das Unternehmen, auf die es bei seinen Entscheidungen zurückgreifen kann.

Warum sind Data Lakes wichtig?

Da ein Data Lake alle Arten von neuen Daten schnell aufnehmen kann und gleichzeitig einen Self-Service-Zugang sowie Untersuchungs- und Visualisierungsmöglichkeiten bietet, können Unternehmen neue Informationen schneller erkennen und darauf reagieren. Außerdem haben sie Zugriff auf Daten, an die sie früher nicht herankommen konnten.

Diese neuen Datentypen und -quellen stehen für Datenermittlung, Proofs of Concept, Visualisierungen und Advanced Analytics zur Verfügung. So ist beispielsweise ein Data Lake die häufigste Datenquelle für Machine Learning – eine Technik, die häufig auf Protokolldateien, Clickstream-Daten von Websites, Social-Media-Inhalte, Streaming-Sensoren und Daten von anderen mit dem Internet verbundenen Geräten angewendet wird.

Viele Unternehmen wünschen sich seit langem die Möglichkeit, entdeckungsorientierte Untersuchungen, erweiterte Analysen und Berichte durchführen zu können. Ein Data Lake bietet schnell die dafür notwendige Größe und Vielfalt an Daten. Er kann auch als Konsolidierungspunkt sowohl für Big Data als auch für herkömmliche Daten dienen und analytische Korrelationen über alle Daten hinweg ermöglichen.

Obwohl ein Data Lake in der Regel zur Speicherung von Rohdaten verwendet wird, kann er auch einige der zwischengeschalteten oder vollständig transformierten, umstrukturierten oder aggregierten Daten speichern, die von einem Data Warehouse und seinen nachgeschalteten Prozessen erzeugt werden. Dies geschieht häufig, um viel Zeit zu sparen, die Data Scientists heute immer noch für die Datenaufbereitung investieren müssen.

Der gleiche Ansatz wird manchmal verwendet, um persönlich identifizierbare Informationen (PII) oder andere sensible Daten, die nicht für Analysen benötigt werden, zu verbergen oder zu anonymisieren. Dies hilft Unternehmen bei der Einhaltung von Datensicherheits- und Datenschutzrichtlinien. Dazu kommen Zugriffskontrollen, die eine weitere Methode für Unternehmen darstellen, Sicherheit zu gewährleisten.

Damit eine umfassende Business-Intelligence-Plattform einen hohen Unternehmenswert liefert, umfasst ein Data Lake Ansatz auch eine effektive Daten Integration, Datenbereinigung, ein Metadaten-Management und ein passendes Governance Modell. Viele erfolgreiche Unternehmen verfolgen daher diesen ganzheitlichen Ansatz für ihr Data-Lake-Management.

Data Lake versus Data Warehouse

Sie fragen sich, was Sie beim Vergleich zwischen einem Data Lake und einem Data Warehouse beachten müssen? Eine der wichtigsten Überlegungen betrifft das Design bzw. die Architektur des Datenspeichers.

Relationale Datenbanken und andere strukturierte Datenspeicher verwenden ein schemaorientiertes Design. Das bedeutet, dass alle Daten, die ihnen hinzugefügt werden, mit der durch das architektonische Schema vorgegebenen Struktur übereinstimmen oder in dieses umgewandelt werden müssen. Das Schema ist auf die geschäftlichen Anforderungen bestimmter Anwendungen abgestimmt. Das einfachste Beispiel für diese Art von Design ist ein Data Warehouse.

Ein Data Lake hingegen verwendet ein datengesteuertes Design. Dies ermöglicht die schnelle Aufnahme neuer Daten, bevor die Datenstrukturen und die geschäftlichen Anforderungen für deren Verwendung definiert werden. Manchmal werden Data Lakes und Data Warehouses durch die Begriffe Schema-on-Write (Data Warehouse) und Schema-on-Read (Data Lake) unterschieden.

Schema-on-Write (Data Warehouse) begrenzt oder verlangsamt das Einlesen neuer Daten. Es wurde für einen bestimmten Zweck der Daten sowie für bestimmte zugehörige Metadaten entwickelt. Die meisten Daten können jedoch für die unterschiedlichsten Zwecke verwendet werden.
Bei Schema-on-Read (Data Lake) bleiben die Rohdaten erhalten, sodass sie leicht wiederverwendet werden können. Außerdem können so mehrere Metadaten-Tags für dieselben Daten zugewiesen werden.

Da er nicht auf eine einzige Struktur beschränkt ist, kann ein Data Lake multistrukturierte Daten für denselben Themenbereich aufnehmen. Data Lakes können zum Beispiel strukturierte Verkaufstransaktionen mit unstrukturierten Kundenstimmungen kombinieren. Und da sich ein Data Lake auf die Speicherung konzentriert, benötigt er weniger Rechenleistung als ein Data Warehouse. Außerdem lassen sich Data Lakes im Laufe der Zeit viel einfacher, schneller und kostengünstiger skalieren.

Ein Nachteil eines Data Lakes ist, dass die Daten nicht standardisiert, nicht dupliziert, qualitätsgeprüft beziehungsweise umgewandelt sind. Als Reaktion darauf haben einige Leute den Trend aufgegriffen, Data Lakes anders zu nutzen. Data Lakes können einen neuen, verbesserten Bereich für die Aufnahme und das Staging von Daten bieten, bevor diese für das Einspielen in das Data Warehouse vorbereitet, integriert und transformiert werden.

Diese Beispiele verdeutlichen, warum ein Data Lake ein Data Warehouse nicht ersetzt, sondern es ergänzt. Neben der Verwendung als Staging Area können Data Lakes auch als Archiv dienen. In diesem Szenario werden veraltete Daten archiviert, aber für Audits und historische Analysen leicht zugänglich gehalten.

Data Lakes in der Anfangsphase: Ein tieferer Einblick

Die ersten Data Lakes nutzten das „Open Source Hadoop Distributed File System(HDFS)“ als Rahmen für die Datenspeicherung auf vielen verschiedenen Speichergeräten, als ob es sich um eine einzige Datei handelte. HDFS arbeitete zusammen mit MapReduce als Datenverarbeitungs- und Ressourcenmanagement-Framework, das große Berechnungsaufgaben – wie analytische Aggregationen – in kleinere Aufgaben aufteilte. Diese kleineren Aufgaben wurden parallel auf Rechenclustern mit Standardhardware ausgeführt.

In der zweiten Hadoop-Generation wurde das Ressourcenmanagement von MapReduce entkoppelt und durch „Yet Another Resource Negotiator (YARN)“ ersetzt. Dies wurde im Wesentlichen das Betriebssystem von Hadoop. Am wichtigsten ist, dass YARN-Alternativen zu MapReduce als Verarbeitungsrahmen unterstützt. Dadurch wurden die Anwendungen (sowie die Data Management und Governance-Funktionen), die ursprünglich in Hadoop ausgeführt werden können, erheblich erweitert.

Sehen Sie sich einige verwandte Inhalte an

Data Lakes sind heute ein fester Bestandteil der Daten- und Analysestrategien vieler Unternehmen.

Sind Sie bereit, mehr über einige verwandte Themen zu erfahren? Über die rechte Box erfahren Sie, wie sich die Datenintegration entwickelt hat - und erhalten Tipps zum Aufbau besserer Data Lakes. Erfahren Sie, warum Governance so wichtig ist, und informieren Sie sich über die neuesten Best Practices zur Datenkennzeichnung. Oder lesen Sie alles über die Vor- und Nachteile von Cloud Computing.

Wie Data Lakes heute funktionieren

Die schnelle Aufnahme von Daten und die Möglichkeit, Rohdaten in ihrem nativen Format zu speichern, waren schon immer die Hauptvorteile von Data Lakes. Aber was genau bedeutet das? Und wie funktioniert es?

Rohdaten bedeuten, dass die Daten nicht für eine bestimmte Verwendung verarbeitet oder aufbereitet wurden. Einige Datenquellen haben jedoch bereits eine gewisse Verarbeitung oder Aufbereitung ihrer Daten vorgenommen. Ein Data Lake speichert also Rohdaten in dem Sinne, dass die Daten vor der Speicherung nicht verarbeitet oder aufbereitet werden. Eine bemerkenswerte Ausnahme stellt die Formatierung dar.
Natives Format bedeutet, dass die Daten im Format des Quellsystems oder der Anwendung bleiben, die sie erstellt hat. Dies ist jedoch nicht immer die beste Option für die Speicherung im Data Lake. In der Tat bedeutet eine schnelle Aufnahme selten, dass die Daten einfach in ein Dateisystemverzeichnis kopiert werden, das vom Data Lake verwendet wird.

Eine Microsoft Excel-Kalkulationstabelle liegt beispielsweise standardmäßig in ihrem ursprünglichen XLS-Format vor. Die meisten Data Lakes würden es jedoch vorziehen, sie als durch Kommata getrennte Textdatei (CSV) zu speichern. Transaktionsdaten aus relationalen Datenbanken werden für die Speicherung im Data Lake ebenfalls häufig in CSV-Dateien konvertiert.

Eingebettetes Schema und granulare Daten

Eine weitere gängige Alternative ist die Verwendung eines Dateiformats mit eingebetteten Schemainformationen, wie z. B. JavaScript Object Notation (JSON). So werden beispielsweise Clickstream-Daten, Social-Media-Inhalte und Sensordaten aus dem IoT in der Regel in JSON-Dateien für die Speicherung im Data Lake konvertiert. JSON-Dateien sind auch ein gutes Beispiel dafür, dass die Aufnahme von Daten in den Data Lake häufig eine Konvertierung der Daten aus ihrem ursprünglichen Format in ein granulareres Format erfordert.

Granulare Daten, insbesondere mit eingebetteten Schemainformationen wie Schlüssel-Wert-Paaren (KVP), ermöglichen schnellere Lese- und Schreibvorgänge. Das bedeutet:

Vergeudet keinen unnötigen Speicherplatz für Platzhalter-, Default- oder fehlende Werte
Kann aggregiert oder aufgelöst werden, um den Anforderungen verschiedener Situationen gerecht zu werden.
Es wird einfacher, nur die Daten abzurufen, die für eine bestimmte Verwendung relevant sind.

Darüber hinaus gibt es weitere, optimierte Speicherformate für Data Lakes. Einige dieser Speicherformate ermöglichen eine bessere Skalierbarkeit und Parallelverarbeitung und betten gleichzeitig Schemainformationen ein. Daten können konvertiert werden in:

Spaltenspeicher (z. B. Redshift, Vertica, Snowflake),
Komprimierte spaltenorientierte Formate (z. B. Parquet für Spark oder ORC für Hive),
Konventionelle zeilenorientierte Formate (z. B. PostgreSQL, MySQL oder andere relationale Datenbanken),.
Komprimierte zeilenorientierte Formate (z. B. Avro für Kafka),
In-Memory-Speicher (z. B. SingleStore, Redis, VoltDB) oder
NoSQL-Speicher (z. B. MongoDB, Elasticsearch, Cassandra).

Wann sollten Sie verschiedene Datenspeicheroptionen verwenden?s

Die meisten Data Lakes verwenden eine Vielzahl von Speicheroptionen, abhängig von den Datenquellen oder Anwendungsgebieten. Dies gilt insbesondere im Bezug auf Datenzugriff und Analysen. Zum Beispiel:

Die spaltenorientierte Speicherung eignet sich am besten, wenn schnelles Abrufen und beschleunigte Aggregation am wichtigsten sind.
Die zeilenorientierte Speicherung eignet sich am besten, wenn es eine große Schemavariabilität gibt, wie es bei Streaming-Anwendungen häufig der Fall ist. Sie ist auch ideal, wenn der Data Lake als Staging-Bereich für ein Data Warehouse verwendet wird.
In-Memory-Speicher eignen sich am besten für analytische Echtzeitanwendungen.
NoSQL-Speicher eignen sich am besten für Analyseszenarien, die eine schnelle Erstellung von Metriken für große Datensätze erfordern.

Data Lakes und die Bedeutung der Architektur

Unterm Strich ist ein Data Lake nicht einfach nur ein riesiger Fundus – er erfordert eine gut konzipierte Datenarchitektur. Es ist möglich, eine breite Palette von Tools für die Implementierung einer schnellen Aufnahme von Rohdaten in den Data Lake zu verwenden. Zu diesen Tools gehören die Datenintegrations- und ETL-Tools (Extract-Transform-Load), über die Ihr Unternehmen wahrscheinlich bereits verfügt. Bestimmte neue Big-Data-Technologien (einschließlich einiger der oben genannten Beispiele) bieten diese Funktionalität ebenfalls.

Unabhängig davon, wie Sie die Eingabe und Speicherung implementieren, können Data Lakes den Einsatz von Back-End-Technologien erfordern, mit denen Sie weniger vertraut sind – insbesondere „Non-relational Database Management Systems (Non-RDBMS)“. Glücklicherweise verfügen viele dieser Technologien über benutzerfreundliche Front-End-Schnittstellen. Einige bieten beispielsweise SQL-ähnliche Abfragefunktionen, die viele Benutzer erwarten und mit denen sie bereits vertraut sind.

Lernen Sie SAS® Viya® kennen

Die Daten um uns herum verändern sich ständig – und unsere Entscheidungen müssen schnell angepasst werden. Um Rohdaten in sinnvolle Entscheidungen umzuwandeln, müssen Unternehmen zunächst auf Daten zugreifen, sie untersuchen, umwandeln und für die Analyse vorbereiten.

Der Data Lake bietet Anwendern und Data Scientists gleichermaßen Zugang zu Daten, die sie in der Vergangenheit nicht erhalten konnten, und ermöglicht es ihnen, die Daten von einem zentralen Ort aus anzuzeigen und zu untersuchen. Im Gegenzug können sie neue Informationen schneller erkennen und darauf reagieren.

Data Lakes ergänzen SAS Viya – die SAS Plattform für künstliche Intelligenz, Analytics und Data Management, darin Rohdaten in operative Erkenntnisse zu verwandeln. SAS Viya unterstützt alle Arten von Entscheidungen, die ein Unternehmen treffen muss. Sehen Sie sich das Video an und erfahren Sie mehr.

Data Lake und Cloud

Ein Data Lake kann als zentraler Speicherort dienen, durch den relevanten alle Unternehmensdaten fließen. Als solcher wird er zu einem leicht zugänglichen Staging-Bereich, aus dem alle Unternehmensdaten bezogen werden können. Dazu gehören Daten, die von Anwendungen vor Ort genutzt werden, sowie Cloud-basierte Anwendungen, die die Größe, Geschwindigkeit und Komplexität von Big Data bewältigen können. Dies alles führt zur Frage: Data Lake oder Cloud? Wo soll der Data Lake angesiedelt werden?

Cloud Data Lake

Für einige Unternehmen kann die Cloud die beste Option für die Datenspeicherung sein. Das liegt daran, dass sie ergänzende Vorteile bietet – elastische Skalierbarkeit, schnellere Servicebereitstellung und IT-Effizienz – zusammen mit einem Abrechnungsmodell auf Abonnementbasis.

Vor-Ort Data Lake

Unternehmen können sich aus ähnlichen Gründen wie bei der Verwaltung einer privaten Cloud vor Ort dafür entscheiden, ihren Data Lake in ihren eigenen vier Wänden zu verankern. Dieser Ansatz bietet ein Höchstmaß an Sicherheit und Kontrolle und schützt gleichzeitig das geistige Eigentum und geschäftskritische Anwendungen. Außerdem können so sensible Daten in Übereinstimmung mit den gesetzlichen Vorschriften geschützt werden.

Die Nachteile der Verwaltung einer privaten Cloud vor Ort gelten jedoch auch für einen Data Lake. Beides kann zu einer erhöhten internen Wartung der Data-Lake-Architektur, der Hardware-Infrastruktur und der zugehörigen Software und Dienste führen.

Hybrid Data Lake

Manchmal entscheiden sich Unternehmen für einen hybriden Data Lake, bei dem der Data Lake zwischen dem Standort und der Cloud aufgeteilt wird. In diesen Architekturen speichert der Cloud Data Lake normalerweise keine geschäftskritischen Daten. Und wenn sie persönlich identifizierbare Informationen (PII) oder andere sensible Daten enthalten, werden sie unkenntlich gemacht oder anonymisiert. Dies hilft dem Unternehmen, die Richtlinien für Datensicherheit und Datenschutz einzuhalten. Um die Kosten für die Cloud-Speicherung zu minimieren, können die in der Cloud gespeicherten Daten regelmäßig oder nach Abschluss von Pilotprojekten gelöscht werden.

Über Jim Harris

Jim Harris ist ein anerkannter Vordenker auf dem Gebiet der Datenqualität und verfügt über 25 Jahre Erfahrung im Bereich der Unternehmensdatenverwaltung. Er ist ein unabhängiger Berater, Redner und freiberuflicher Autor. Harris ist der Chef-Blogger von Obsessive-Compulsive Data Quality, einem unabhängigen Blog, der eine herstellerneutrale Sichtweise auf Datenqualität und die damit verbundenen Disziplinen, einschließlich Data Governance, Master Data Management und Business Intelligence, bietet.