Data Lakehouse

Das Data Lakehouse ist eine Datenmanagementarchitektur, welche die Vorteile eines Data Warehouse mit denen eines Data Lakes kombiniert. areto bietet Data Lakehouse Referenzarchitekturen auf Basis von Microsoft Azure, AWS, Databricks.

Was ist ein Data Lakehouse?

Ein Data Lakehouse ist eine offene Datenmanagementarchitektur, welche die Vorteile eines Data Lakes, mit denen eines Data Warehouse verbindet. Dabei wird eine hohe Flexibilität, Skalierbarkeit sowie Kosteneffizienz von Data Lakes mit der Datenverwaltung und ACID Transaktionen (Atomicity, Consistency, Isolation, und Durability) eines Data Warehouses kombiniert. Dadurch wird der Zugriff für Datenteams schneller ermöglicht, als auch die Integration von Business Intelligence Tools und Machine Learning auf die vorhandenen Daten einer Plattform vereinfacht.

Die Erstverwendung des Begriffs Data Lakehouse wird dem Unternehmen Jellyvision im Jahr 2017 zugeschrieben. AWS nutzte darauf den Namen, um seine Daten- und Analyseservices in der Lakehouse Architektur zu beschreiben. Seit 2017 findet die Architektur Anwendung, da Data Warehouses durch die wachsenden Mengen an Daten oft an ihre Limitierungen stoßen und nicht flexibel zu skalieren sind. Seitdem revolutionieren Data Lakehouses die Industrie durch eine hohe Nachfrage an flexiblen Infrastrukturen in Kombination mit Geschwindigkeit und operationaler Effizienz.

Vorteile eines Data Warehouse

Ein Data Warehouse erfasst strukturierte Daten in meist tabellarischer Form. Dabei muss das Datenmodell vorab festgelegt werden, damit die Architektur an die spezifischen Anforderungen des Unternehmens angepasst werden kann.

Data Warehouses bieten eine hohe Robustheit und eine einfache Datenpflege. Sie greifen auf das ETL-Modell zurück und sind besonders geeignet für Business Analysts und KPI Reporting bzw. für die analytische Weiterverwendung. Sie bestehen aus den verschiedenen Layern: Staging, Storage, Data Marts und Serve. Data Warehouses sind on-premise, hybrid sowie in der Cloud verfügbar und bieten eine allumfängliche Lösung für Big Data.

Vorteile eines Data Lake

Ein Data Lake nimmt Daten aus unterschiedlichen Quellen und verschiedenen Verarbeitungsstufen auf, legt diese Daten im Rohformat unstrukturiert ab. Somit wird eine flache Hierarchie der Daten gewährleistet. Die Rohdaten haben einen hohen Informationswert, da durch die fehlende Aufbereitung keine wichtigen Werte verloren gehen.

Eine Speicherung der Daten kann genauso wie der Speicherort unabhängig davon erfolgen, wie und ob diese Daten zu einem späteren Zeitpunkt benötigt werden. Dabei folgt der Data Lake dem ELT-Modell. Durch die Speicherung findet eine einfache Demokratisierung der Daten statt, so dass Datensilos nicht entstehen können. Außerdem bieten sie eine hohe Skalierbarkeit. Data Lakes können on-premise, hybrid oder in der Cloud genutzt werden.

Data Warehouse vs. Data Lake vs. Data Lakehouse

Vergleich areto DWH DL DLH 1

Warum ein Data Lakehouse?

Unternehmen im heutigen Wettbewerb können es sich nicht leisten, lange auf Daten oder Analyseergebnisse zu warten, mit fehlenden Daten zu arbeiten. Sie können auch nicht regelmäßig die Datenarchitektur an aktuelle Anforderungen anpassen. Datenmanagement verschiedenster Tools fordert immer mehr Ressourcen und die Menge an Daten steigt stetig.

Comparison DWH Data Lake Data Lakehouse areto

Ein Data Lakehouse vereint Vorteile eines Data Lakes mit denen eines Data Warehouse. Es bietet somit für data-driven-companies einen großen Vorteil und Sicherheit für wachsende Datenmengen und Analysetools der Zukunft. Die Dateninfrastruktur in Unternehmen wird vereinfacht und Innovationen gefördert, besonders im Hinblick auf Notwendigkeiten von Machine Learning sowie künstlicher Intelligenz. Dabei muss nicht auf Reliabilität, Performance und Qualität der Daten verzichtet werden. Alle Daten werden vereint, bei Bedarf bereinigt, aufgearbeitet und sind an einem Single Point-of-Truth für alle Data-Teams als auch das Management verfügbar.

Data Lakehouse Features

Skalierbarkeit

Das Modell bedient sich der Cloud Elastizität. Es ist daher kosteneffizient skalierbar, ohne bestehende Architektur aufzugeben.

Kein Vendor Lock-in

Durch Open Standards können die Daten unabhängig der Tools abgespeichert und weiterverarbeitet werden.

Performance

Durch (Apache Spark’s) verteilte Verarbeitungs-Power geht keine Geschwindigkeit verloren.

Einbindung in die eigene Umgebung

Das Modell lässt sich durch die Möglichkeit verschiedenster Schnittstellen in die eigene Umgebung einbinden.

Sicherheit

Durch fein abgestufte Zugriffskontrollen sind die Compliance Notwendigkeiten gewährleistet.

Reliabilität

Durch ACID Transaktionen werden alle Operationen transaktional protokolliert durchgeführt, so dass Fehler einfach festzustellen sind. Historische Daten werden automatisch gespeichert.

Teamübergeifende Plattform

Verschiedene Daten-Teams können auf Daten zugreifen und diese nutzen. Data Scientists, Data Analysts, Data Engineers arbeiten auf einer Plattform.

Flexibler Speicher

Die Möglichkeit, Rechen- und Speicherressourcen zu trennen, erleichtert die Skalierung des Speichers nach Bedarf.

Data Lakehouse Architektur

Data Lakehouses bauen auf bestehenden Data Lakes auf, die oft mehr als 90% der Daten im Unternehmen enthalten und erweitern diese um traditionelle Data Warehouse Funktionen.

Der Grundlayer eines Data Lakehouses basiert auf einem Data Lake. Dafür ist die Nutzung eines kostengünstiges Multicloud Objektspeichers mit Verwendung des Standarddateiformats (z.B. Apache Paquet) wie Microsoft Azure oder AWS S3. Dort können strukturierte, semi-strukturierte und unstrukturierte Daten gespeichert werden.

Darüber folgt der transaktionale Metadata und Governance Layer, welcher ACID-Transaktionen bereits in der Datenschicht ermöglicht. Datapipelines wie Apache Spark, Kafka und Azure bereiten die Rohdaten in dem Layer auf. Sie bieten einen effizienten und sicheren Datentransfer. Durch leistungsstarke Software im Serve-Layer wie bspw. Snowflake werden Daten aufbereitet und zur Verfügung gestellt.

Die Daten können über viele Schnittstellen für Analytics, Business Intelligence und Machine Learning genutzt werden. Dies erfolgt über Lösungen wie, Power BI, Tableau, R und Python. Diese stellen die Daten grafisch dar und bietet somit einen Mehrwert für Ihr Unternehmen, um Ihre Daten noch effizienter zu nutzen.

 

 

Data Lakehouse Process areto

Vorteile eines Data Lakehouses

Kosteneffizientes Speichern

Datenspeicherung im Data Lake mit kostengünstigen Speichern wie Amazon S3 oder Microsoft Azure Blob Storage.

Optimierung der Leistung

Optimierungstechniken wie Caching, mehrdimensionales Clustering, Data Skipping durch Datenstatistiken und -verdichtung können zur Minimierung der Datengrößen genutzt werden.

Open Standard Formate

Eine offene API für direkten Datenzugriff ohne Vendor Lock-in mit Sprachunterstützung für Python- und R-Bibliotheken.

Zuverlässigkeit und Qualität

Zuverlässigkeit und Qualität in dem Datalake durch Transaktionsunterstützung von ACID-Transaktionen mit SQL für das gleichzeitige Datenlesen oder Schreiben für mehrere Parteien. Schema-Unterstützung für Datawarehouse Architekturen wie Snowflake für robuste Governance und Auditing Mechanismen.

 Governance und Sicherheitskontrollen

DML Unterstützung durch Java, Python und SQL zum Aktualisieren und Löschen von Datensätzen. Die Datenhistorie erfasst alle Änderungen und bietet einen vollständigen Prüfpfad. Zusätzlich ermöglichen Daten Snapshots den Entwickler*innen Zugriff auf vorherige Datenversionen für Audits oder der Reproduktion von Experimenten. Die rollenbasierte Zugriffskontrolle ermöglicht feinkörnige Abstufungen für Zeilen- und Spaltenebenen.

Unterstützung für Machine Learning

Unterstützung für verschiedenste Datentypen zum Speichern, Analysieren und Zugreifen auch für Bilder, Video, Audio und halbstrukturierte Dateien. Auch das Lesen von großen Datenmengen mit bspw. Python- oder R-Bibliotheken ist effizient möglich. Zusätzlich werden Datenzugriffe in ML-Workloads durch eine integrierte DataFrame-API (Application Programming Interface) unterstützt.

Delta Lake: Data Lakehouse von Databricks

Der Delta Lake von Databricks ist ein open source Storage Layer, der den Aufbau einer Lakehouse-Architektur auf Grundlage eines Data Lakes ermöglicht. Dieser sorgt für Zuverlässigkeit, Sicherheit und Leistung auf dem Data Lake.

Der Delta Lake Layer bietet ACID-Transaktionen, Schemaerzwingung und skalierbare Metadatenverarbeitung. Dadurch werden Streaming und Batch-Vorgänge ermöglicht. Die gespeicherten Daten werden im Apache Parquet Format gespeichert, so dass diese von jedem kompatiblen Programm gelesen und weiterverarbeitet werden können.

Databricks Lakehouse Platform Delta Lake areto

The Modern Cloud Data Platform

Kombinieren Sie Data-Warehouse-Leistung mit Datalake-Flexibilität. Die Databricks-Plattform, die auf der Lakehouse-Architektur aufbaut, bringt Data Warehouse-Qualität und Zuverlässigkeit in offene, flexible Data Lakes. Diese vereinfachte Architektur bietet eine einzige Umgebung für Analysen, Streaming-Daten, Data Science und maschinelles Lernen.

aretos Azure Lakehouse Referenzarchitektur

Microsoft Azure Referenzarchitektur Datalake areto

Die von areto entwickelte Azure Data Lakehouse Referenzarchitektur bietet viele Vorteile.

Die Verwendung der Data Lakehouse Referenzarchitektur von areto bietet den Kund*innen Best Practices für die Entwicklung und den Betrieb zuverlässiger, sicherer, effizienter und kostengünstiger Systeme. aretos Azure Data Lakehouse Architekturlösungen werden dabei konsequent an Microsoft Best Practices gemessen, um so den Kund*innen den höchsten Nutzen zu liefern.

Die areto Azure Referenzarchitektur basiert auf fünf Säulen: Operational Excellence, Sicherheit, Zuverlässigkeit, Leistungseffizienz, Kostenoptimierung.

Operational Excellence
optimale Gestaltung von Betrieb und Monitoring der Systeme sowie kontinuierliche Verbesserung unterstützender Prozesse und Verfahren

Security
Schutz von Informationen, Systemen, Anlagen, Risikobewertungen und Strategien zur Risikominderung

Kostenoptimierung
Maximierung des ROI durch den kontinuierlichen Prozess der Verbesserung des Systems über seinen gesamten Lebenszyklus.

Zuverlässigkeit
Gewährleistung von Sicherheit, Notfallwiederherstellung, zur Geschäftskontinuität, da Daten an mehreren redundanten Standorten gespiegelt werden.

Leistungseffizienz
effiziente Nutzung von Computerressourcen, Skalierbarkeit um kurzfristige Anforderungspeaks zu erfüllen, Zukunftsfähigkeit

Data Lakehouses - Business Intelligence & Machine Learning

Die Vereinheitlichung der Daten und Bündelung an einem Point-of-Truth ermöglicht es, Analysen mit Machine Learning an einem einzigen Ort auszuführen, ohne zusätzliche Architektur. Durch das Speichern von Rohdaten und das Transformieren, wenn diese Daten benötigt werden, gehen keine wichtigen Informationen verloren. Somit werden die nötigen Voraussetzungen für Business Intelligence geboten.

Auch Machine Learning benötigt große Mengen an Rohdaten, die mit Hilfe von Open Source Tooling manipuliert werden können. Daher unterstützt der unstrukturierte Teil des Data Lakehouses direkten Zugriff auf die Rohdaten in verschiedenen Formaten und unterstützt das ETL sowie das ELT-Modell.

Mit den areto Data Lakehouse-Expert*innen zur data-driven-company!

Überholen Sie den Wettbewerb durch schnellere und bessere Entscheidungen!

Finden Sie heraus, wo Ihr Unternehmen aktuell auf dem Weg zur data-driven-company steht.
Wir analysieren den Status Quo und zeigen Ihnen, welche Potenziale vorhanden sind.
Wie wollen Sie starten?

kostenfreie Beratung & Demotermine

Haben Sie schon eine Strategie für Ihre zukünftige Data Lakehouse Lösung? Nutzen Sie bereits die Vorteile moderner Cloudplattformen und Automatisierungen? Gern zeigen wir Ihnen Beispiele, wie unsere Kund*innen die agilen und skalierbaren Architekturlösungen von areto bereits nutzen.

Workshops / Coachings

Sie erhalten in unseren Workshops und Coachings das nötige Know-how für den Aufbau einer modernen Data Lakehouse Architektur. Das areto Data Lakehouse-TrainingCenter bietet eine breite Auswahl an Lerninhalten.

Proof of Concepts

Welche Architektur ist für uns  richtig? Sind die Rahmenbedingungen dafür geeignet? Welche Voraussetzungen müssen geschaffen werden? Proof of Concepts (POCs) beantworten diese und weitere Fragen, um dann die richtigen Investitionsentscheidungen zu treffen. So starten Sie bestens vorbereitet in Ihr Projekt.

Data Lakehouse Know-how Videothek

Data Lakehouse Explained in 5 Minutes

Why Lakehouse Architecture Now?

SQL Analytics and the Lakehouse Architecture | Ali Ghodsi

Creating a Lakehouse on AWS

What is Lakehouse and why it matters | AWS Events

AWS Summit ANZ 2021-Lakehouse architecture:

Nutzen Sie Ihre Daten. Entdecken Sie Chancen. Gewinnen Sie neue Erkenntnisse.

Wir freuen uns auf Ihren Kontakt !

Till Sander CTO areto