Wie man Apache Iceberg Lakehouse fuer SAP-Projekte einrichtet: 7 Schritte (2026)

Nach SAPs Uebernahme von Dremio im Mai 2026 ist Apache Iceberg zum strategischen Standard fuer SAP-Datenarchitekturen geworden. Unternehmen, die agentische KI, Echtzeit-Analysen und Multi-Source-Datenintegration in SAP-Umgebungen umsetzen wollen, brauchen ein Iceberg-basiertes Data Lakehouse. Doch wie richtet man das konkret ein? In diesem Leitfaden fuehren wir Sie in 7 praxiserprobten Schritten von der Architekturplanung bis zum produktiven Betrieb – mit konkreten Beispielen aus deutschen Unternehmen, SAP BTP, HANA Cloud und Dremio.

Schritt 1: Architektur planen – Datenquellen, Cloud-Strategie und Zieldefinition

Enterprise-Beispiel: Ein DAX-40-Industriekonzern mit SAP S/4HANA, Salesforce und IoT-Sensoren

Bevor Sie eine einzige Zeile Code schreiben, muessen Sie drei fundamentale Fragen beantworten: Welche Datenquellen sollen ins Lakehouse? Ein typisches deutsches Grossunternehmen hat 15-30 Datenquellen – SAP S/4HANA (ERP), SAP SuccessFactors (HR), Salesforce (CRM), Azure Blob Storage (IoT-Daten), diverse Legacy-Datenbanken und Excel-basierte Prozesse. Listen Sie alle relevanten Quellen auf und kategorisieren Sie sie nach Prioritaet und Komplexitaet.

Welchen Cloud-Anbieter nutzen Sie? Fuer deutsche Unternehmen mit SAP-Landschaft empfehlen wir primaer Microsoft Azure (engste SAP-Partnerschaft, Azure Data Lake Storage Gen2 als Iceberg-Storage) oder AWS (S3 als bewaeherter Iceberg-Standard, umfangreichstes Oekosystem). Google Cloud ist moeglich, hat aber in der DACH-Region weniger SAP-Integrationserfahrung.

Was ist das Ziel? Definieren Sie 2-3 konkrete Use Cases fuer Ihr Lakehouse. Beispiele: (1) Vereinheitlichte Kundenanalyse ueber SAP und Salesforce hinweg, (2) Echtzeit-Lieferketten-Monitoring mit IoT-Daten und SAP-Bestelldaten, (3) Datenbasis fuer KI-Agenten, die autonome Beschaffungsentscheidungen treffen. Beginnen Sie mit dem Use Case, der den hoechsten Business Impact bei moderater Komplexitaet hat.

Erstellen Sie ein Architektur-Dokument (Architecture Decision Record, ADR), das diese drei Fragen beantwortet und von allen Stakeholdern – IT, Fachbereich, Datenschutz und Geschaeftsfuehrung – freigegeben wird. Ohne dieses Alignment scheitern 80% der Lakehouse-Projekte bereits in den ersten 3 Monaten.

Schritt 2: Cloud-Speicher einrichten – S3, Azure Blob oder GCS als Iceberg-Foundation

Enterprise-Beispiel: Mittelstaendischer Maschinenbauer aus Baden-Wuerttemberg mit Azure-Strategie

Apache Iceberg speichert Daten auf Cloud-Objektspeichern – das ist einer seiner groessten Vorteile, denn Storage ist billig und nahezu unbegrenzt skalierbar. Der erste technische Schritt ist die Einrichtung des Speichers.

Fuer Azure (empfohlen fuer SAP-Kunden): Erstellen Sie ein Azure Storage Account mit Data Lake Storage Gen2 (hierarchischer Namespace aktiviert). Legen Sie Container an: raw-data (Rohdaten aus SAP), curated-data (bereinigte und transformierte Daten), analytics (aggregierte Daten fuer Reporting und KI). Aktivieren Sie Versionierung und Soft Delete fuer Compliance. Fuer DSGVO-Konformitaet waehlen Sie die Region „Germany West Central“ (Frankfurt).

Fuer AWS: Erstellen Sie einen S3-Bucket mit Server-Side Encryption (SSE-KMS fuer DSGVO-Compliance). Nutzen Sie S3-Lifecycle-Policies, um aeltere Iceberg-Snapshots automatisch in Glacier zu verschieben. Empfohlene Region: eu-central-1 (Frankfurt).

Kostenplanung: Cloud-Storage fuer Iceberg ist ueberraschend guenstig. Ein typisches mittelstaendisches Unternehmen mit 5 TB SAP-Daten zahlt fuer S3-Storage ca. 115 Euro/Monat. Die Compute-Kosten (Dremio, Spark) sind deutlich hoeher – rechnen Sie mit 500-3.000 Euro/Monat je nach Abfragevolumen. Planen Sie von Anfang an ein Kostenmonitoring mit AWS Cost Explorer oder Azure Cost Management ein.

Schritt 3: Iceberg-Katalog aufbauen – Nessie, Hive Metastore oder AWS Glue

Enterprise-Beispiel: Versicherungskonzern aus Muenchen mit Multi-Team-Datennutzung

Der Iceberg-Katalog ist das Nervensystem Ihres Lakehouse. Er verwaltet Metadaten: Welche Tabellen existieren, wo liegen die Daten, welche Schema-Versionen gibt es, wer hat Zugriff? Ohne einen robusten Katalog wird Ihr Lakehouse schnell zum Data Swamp.

Unsere Empfehlung fuer SAP-Projekte: Project Nessie. Nessie ist ein Git-aehnlicher Katalog fuer Iceberg-Tabellen, der von Dremio entwickelt wurde. Der entscheidende Vorteil: Nessie unterstuetzt Branching und Tagging – genau wie Git fuer Code. Das bedeutet: Ihr Data-Engineering-Team kann Aenderungen an Tabellenschemata in einem Branch vornehmen, testen und erst nach Review in den Haupt-Branch mergen. Fuer Enterprise-Umgebungen mit strengen Governance-Anforderungen ist das ein Game-Changer.

Alternative: AWS Glue Catalog. Wenn Sie auf AWS setzen und bereits Glue nutzen, ist der Glue Catalog eine pragmatische Wahl. Er integriert nativ mit Athena, EMR und Redshift Spectrum. Nachteile: Kein Branching, eingeschraenkte Schema-Evolution-Kontrolle. Fuer einfachere Setups ausreichend.

Alternative: Hive Metastore. Der Klassiker, der in vielen bestehenden Hadoop-Umgebungen bereits laeuft. Funktional, aber veraltet und ohne die modernen Features von Nessie. Nur empfehlenswert, wenn bereits eine Hive-Infrastruktur existiert und nicht migriert werden soll.

Praktisch: Deployen Sie Nessie als Docker-Container (Dremio liefert offizielle Images) oder nutzen Sie den managed Nessie-Service ueber Dremio Cloud. Konfigurieren Sie RBAC (Role-Based Access Control) von Anfang an – der Versicherungskonzern in Muenchen hat von Anfang an 12 verschiedene Rollen definiert: Data Engineers (read/write), Data Scientists (read), Business Analysts (read, nur curated), Compliance (audit-read) und weitere. Das spart spaeter Monate an Nacharbeit.

Schritt 4: SAP-Daten extrahieren – BTP, CDS Views, ODP und SLT

Enterprise-Beispiel: Automobilzulieferer aus Stuttgart mit S/4HANA und SuccessFactors

Dies ist der kritischste Schritt fuer SAP-Kunden: Wie bekommen Sie Ihre SAP-Daten zuverlaessig, performant und DSGVO-konform ins Iceberg-Lakehouse? Es gibt vier Hauptwege, jeder mit eigenen Vor- und Nachteilen.

Weg 1: SAP BTP Integration Suite (empfohlen). Die SAP Integration Suite auf BTP bietet vorgefertigte Konnektoren fuer S/4HANA, SuccessFactors, Ariba und andere SAP-Systeme. Sie koennen Daten ueber OData-APIs oder RFC-Calls extrahieren und direkt in Cloud-Storage (S3/Azure Blob) als Parquet-Dateien schreiben. Von dort werden die Daten per Apache Spark in Iceberg-Tabellen konvertiert. Vorteil: Geringer Entwicklungsaufwand, native SAP-Unterstuetzung. Nachteil: Lizenzkosten fuer BTP.

Weg 2: CDS Views + ODP (Operational Data Provisioning). Definieren Sie CDS Views in S/4HANA, die genau die Daten bereitstellen, die Sie im Lakehouse brauchen. ODP kuemmert sich um Delta-Extraktion – also nur geaenderte Datensaetze werden uebertragen. Das ist extrem effizient fuer grosse Datenmengen. Kombinieren Sie ODP mit einem Middleware-Tool wie Theobald Xtract oder SNP Glue, um die Daten nach S3/Azure zu schreiben.

Weg 3: SAP SLT (SAP Landscape Transformation). SLT repliziert SAP-Tabellen in Echtzeit ueber Trigger-basiertes Change Data Capture (CDC). Ideal fuer Use Cases, die Echtzeit-Daten erfordern (z.B. Lieferketten-Monitoring). SLT kann direkt nach HANA Cloud oder ueber einen Umweg nach S3 replizieren.

Weg 4: SAP HANA Smart Data Integration (SDI). Fuer Kunden mit HANA Cloud: SDI kann Daten aus On-Premise-SAP-Systemen in die Cloud replizieren und von dort per Spark/Dremio ins Lakehouse ueberfuehren.

DSGVO-Hinweis: Bei der Extraktion von SAP-Daten muessen Sie personenbezogene Daten (HR-Daten aus SuccessFactors, Kundendaten aus S/4HANA) besonders behandeln. Implementieren Sie Pseudonymisierung oder Anonymisierung bereits waehrend der Extraktion – nicht erst im Lakehouse. Nutzen Sie die SAP Data Privacy Integration fuer automatische Klassifizierung sensibler Felder. Fuer deutsche Unternehmen ist dies nicht optional, sondern gesetzlich vorgeschrieben. Lesen Sie dazu auch unseren Leitfaden zu SAP-Integrationen und API-Policy v4 Migration.

Brauchen Sie Data Engineers fuer Ihr Lakehouse-Projekt?

Wir vermitteln vorab gepruefte Entwickler mit Apache Iceberg, Dremio, SAP BTP und Spark-Erfahrung. Kostenlose Erstberatung fuer deutsche Unternehmen.

Kostenloses Angebot in 24h

Schritt 5: Dremio als Query Engine verbinden – Semantische Schicht und SQL-Zugriff

Enterprise-Beispiel: Einzelhandelskonzern aus Duesseldorf mit SAP- und Salesforce-Daten

Nachdem Ihre SAP-Daten im Iceberg-Format auf Cloud-Storage liegen, brauchen Sie eine Query Engine, die schnelle SQL-Abfragen ermoeglicht und eine semantische Schicht ueber die technischen Daten legt. Hier kommt Dremio ins Spiel.

Dremio-Deployment: Sie haben drei Optionen: (1) Dremio Cloud (Managed Service, geringster Operationsaufwand, empfohlen fuer den Einstieg), (2) Dremio Enterprise Self-Managed (auf Kubernetes in Ihrer eigenen Cloud, volle Kontrolle), oder (3) Dremio Community Edition (Open Source, kostenlos, ideal fuer PoC). Fuer den Einzelhandelskonzern in Duesseldorf haben wir Dremio Enterprise auf Azure Kubernetes Service (AKS) deployed – in der Region Germany West Central fuer DSGVO-Konformitaet.

Datenquellen verbinden: Konfigurieren Sie in Dremio die Verbindung zu Ihrem Iceberg-Katalog (Nessie oder Glue). Dremio erkennt automatisch alle Iceberg-Tabellen und macht sie per SQL abfragbar. Zusaetzlich koennen Sie Nicht-Iceberg-Quellen direkt anbinden – z.B. eine Salesforce-Datenbank oder einen PostgreSQL-Server fuer Legacy-Daten. Dremio foederiert alle Abfragen transparent.

Semantische Schicht aufbauen: Das ist der entscheidende Schritt fuer KI-Readiness. Erstellen Sie in Dremio virtuelle Datasets (Views), die geschaeftliche Begriffe verwenden statt technische Feldnamen. Beispiel: Statt VBAK.NETWR und VBAK.WAERK erstellen Sie ein virtuelles Dataset Bestellungen mit den Feldern Netto_Auftragswert und Waehrung. Diese semantische Schicht ermoeglicht es spaeter KI-Agenten (Joule), geschaeftliche Fragen in natuerlicher Sprache zu beantworten.

Reflections fuer Performance: Dremio bietet ein einzigartiges Feature namens „Reflections“ – automatisch verwaltete, materialisierte Views, die Abfragen um den Faktor 10-100x beschleunigen. Erstellen Sie Reflections fuer Ihre haeufigsten Abfragemuster. Der Einzelhandelskonzern hat z.B. Reflections fuer die tagesaktuelle Umsatzanalyse erstellt und die Antwortzeit von 45 Sekunden auf 0,3 Sekunden reduziert.

Schritt 6: KI-Pipeline integrieren – Joule, ML-Modelle und agentische Workflows

Enterprise-Beispiel: Logistikunternehmen aus Hamburg mit KI-gestuetzter Routenoptimierung

Mit einem funktionierenden Iceberg-Lakehouse und Dremio als Query Engine haben Sie die Datenbasis fuer agentische KI. Jetzt geht es darum, KI-Modelle und Agenten anzubinden.

SAP AI Core als ML-Plattform: Wenn Sie SAP BTP nutzen, ist SAP AI Core der natuerliche Ort fuer Ihre ML-Modelle. Trainieren Sie Modelle mit Daten aus dem Lakehouse (ueber Dremios JDBC/ODBC-Schnittstelle) und deployen Sie sie als REST-APIs auf AI Core. Der Logistik-Konzern in Hamburg hat ein Demand-Forecasting-Modell trainiert, das SAP-Bestelldaten mit Wetterdaten und Verkehrsdaten aus dem Lakehouse kombiniert – und die Prognosegenauigkeit um 23% verbessert.

Joule-Integration: SAPs KI-Assistent Joule wird ueber die semantische Schicht von Dremio auf Ihre Lakehouse-Daten zugreifen. Nach der Dremio-Uebernahme wird diese Integration voraussichtlich nativ unterstuetzt. Bis dahin koennen Sie Joule ueber SAP Datasphere mit Dremio verbinden – Datasphere fungiert als Bruecke zwischen der SAP-Welt und dem offenen Lakehouse.

n8n fuer agentische Workflows: Fuer komplexere KI-Agenten, die mehrstufige Entscheidungen treffen, nutzen Sie n8n als Workflow-Orchestrator. Beispiel-Workflow: (1) Agent erhaelt Echtzeit-Alert aus dem Lakehouse (Lagerbestand unter Schwellenwert), (2) Agent fragt ueber Dremio historische Bestellmuster ab, (3) Agent kalkuliert optimale Nachbestellmenge via ML-Modell, (4) Agent erstellt automatisch eine Bestellung in S/4HANA. Dieser End-to-End-Workflow laeuft autonom – ohne menschliches Eingreifen.

Python/PySpark fuer Custom ML: Fuer Data Scientists, die ausserhalb der SAP-Welt arbeiten: Dremio bietet native Python- und Arrow-Flight-Integration. Sie koennen Iceberg-Tabellen direkt in Pandas DataFrames laden oder ueber PySpark verarbeiten. Das ermoeglicht nahtlose Integration mit Scikit-learn, TensorFlow, PyTorch und beliebigen ML-Frameworks.

Schritt 7: Governance, Monitoring und Betrieb – DSGVO-konform und produktionsreif

Enterprise-Beispiel: Finanzdienstleister aus Frankfurt mit strengen Compliance-Anforderungen

Ein Lakehouse im Produktionsbetrieb erfordert robuste Governance- und Monitoring-Prozesse. Fuer deutsche Unternehmen ist das keine Option – es ist eine gesetzliche Pflicht. Dieser letzte Schritt stellt sicher, dass Ihr Lakehouse DSGVO-konform, zuverlaessig und wartbar ist.

Datenschutz und DSGVO: Implementieren Sie ein Datenklassifizierungssystem, das automatisch personenbezogene Daten (PII) erkennt und entsprechend behandelt. Nutzen Sie Iceberg's Partition Evolution, um sensible Daten physisch zu isolieren. Konfigurieren Sie Dremio's Column-Level Security, sodass nur autorisierte Benutzer auf PII-Spalten zugreifen koennen. Der Finanzdienstleister in Frankfurt hat ein Vier-Augen-Prinzip implementiert: Aenderungen an Datenzugriffsrechten erfordern die Genehmigung von zwei unabhaengigen Personen.

Monitoring: Setzen Sie drei Monitoring-Ebenen auf: (1) Infrastruktur-Monitoring (Dremio-Cluster-Gesundheit, Spark-Job-Status, Storage-Nutzung) mit Prometheus und Grafana. (2) Datenqualitaets-Monitoring (Schema-Drift-Erkennung, Null-Wert-Anomalien, Freshness-Checks) mit Great Expectations oder dbt Tests. (3) Kosten-Monitoring (Cloud-Kosten, Compute-Stunden, Storage-Wachstum) mit nativen Cloud-Tools.

CI/CD fuer Data Pipelines: Behandeln Sie Ihre Lakehouse-Konfiguration als Code. Nutzen Sie Terraform fuer Infrastruktur, dbt fuer Transformationen und Git (bzw. Nessie fuer Iceberg-Tabellen) fuer Versionierung. Automatisieren Sie Deployments ueber GitHub Actions oder Azure DevOps Pipelines. Der Finanzdienstleister hat einen Review-Prozess implementiert, bei dem jede Aenderung an Datenpipelines von mindestens einem Senior Data Engineer geprueft und freigegeben werden muss.

Disaster Recovery: Iceberg's Time-Travel-Feature ermoeglicht es, den Zustand jeder Tabelle zu jedem historischen Zeitpunkt wiederherzustellen. Konfigurieren Sie Snapshot-Retention-Policies (wir empfehlen 30 Tage fuer die meisten Szenarien, 90 Tage fuer Compliance-relevante Daten). Testen Sie den Recovery-Prozess regelmaessig – mindestens quartalsweise.

Team und Kompetenzaufbau: Fuer den laufenden Betrieb benoetigen Sie typischerweise 2-4 Data Engineers (Iceberg/Dremio/Spark), 1 Data Governance Manager (DSGVO-Expertise), und 1 Cloud-Infrastruktur-Spezialist (Kubernetes/Terraform). Investieren Sie in regelmaessige Weiterbildung – Apache Iceberg entwickelt sich schnell, und mit SAPs Dremio-Integration werden staendig neue Features verfuegbar. Wer sein Team fuer solche Projekte aufbauen moechte, findet in unserem Leitfaden SAP-Entwickler fuer KI-Projekte umschulen und einstellen praktische Tipps.

Zusammenfassung: Ihr Fahrplan zum SAP-Iceberg-Lakehouse

Die sieben Schritte zusammengefasst: (1) Architektur planen mit klaren Use Cases und Stakeholder-Alignment. (2) Cloud-Storage in einer deutschen Region einrichten. (3) Iceberg-Katalog (idealerweise Nessie) aufbauen mit RBAC. (4) SAP-Daten ueber BTP, CDS Views oder SLT extrahieren – DSGVO-konform. (5) Dremio als Query Engine verbinden und semantische Schicht aufbauen. (6) KI-Pipelines integrieren mit Joule, n8n und Custom ML. (7) Governance, Monitoring und CI/CD fuer den Produktionsbetrieb implementieren.

Der zeitliche Rahmen: Ein Proof of Concept ist in 2-4 Wochen machbar. Ein produktionsreifes Setup dauert 3-6 Monate, je nach Komplexitaet und Team-Erfahrung. Die Investition lohnt sich: Unternehmen, die jetzt ein Iceberg-Lakehouse aufbauen, schaffen die Datenbasis fuer agentische KI – und sichern sich einen massiven Wettbewerbsvorteil gegenueber Konkurrenten, die noch in Daten-Silos denken.

Weitergehende Ressourcen finden Sie in unseren verwandten Artikeln: Die SAP-Integrationen und API-Policy v4 migrieren in 7 Schritten und SAP-Entwickler fuer KI-Projekte umschulen und einstellen.

Haeufig gestellte Fragen

Was kostet die Einrichtung eines Apache Iceberg Lakehouse fuer SAP-Projekte?▼

Die Kosten variieren stark je nach Umfang und Cloud-Anbieter. Ein typisches Proof-of-Concept mit Dremio Community Edition und AWS S3 kostet ca. 500-2.000 Euro/Monat fuer Compute und Storage. Ein produktionsreifes Enterprise-Setup mit SAP BTP, Dremio Enterprise und mehreren Datenquellen liegt bei 5.000-20.000 Euro/Monat. Hinzu kommen Personalkosten fuer 2-3 Data Engineers (85.000-130.000 Euro/Jahr pro Person). Die Gesamtkosten fuer das erste Jahr liegen typischerweise bei 150.000-500.000 Euro.

Brauche ich SAP BTP fuer ein Apache Iceberg Lakehouse?▼

Nein, Apache Iceberg ist ein offenes Format, das unabhaengig von SAP funktioniert. Sie koennen ein Iceberg Lakehouse mit Open-Source-Tools wie Dremio Community Edition, Apache Spark und MinIO aufbauen. Wenn Sie jedoch SAP-Daten integrieren moechten, ist SAP BTP der einfachste Weg, da es native Konnektoren bietet. Nach SAPs Uebernahme von Dremio wird die Integration zwischen BTP und Dremio voraussichtlich nativ und nahtlos.

Wie lange dauert die Einrichtung eines Iceberg Lakehouse fuer SAP?▼

Ein Proof-of-Concept mit einer einzelnen SAP-Datenquelle und Dremio Community Edition ist in 2-4 Wochen umsetzbar. Ein produktionsreifes Setup mit mehreren SAP- und Nicht-SAP-Datenquellen, Governance, Sicherheit und CI/CD dauert typischerweise 3-6 Monate. Faktoren: Anzahl der Datenquellen, Datenqualitaet, DSGVO-Anforderungen, Team-Erfahrung. Mit 3-4 erfahrenen Data Engineers und klarem Scope ist ein MVP in 8-12 Wochen realistisch.

Welche Alternativen gibt es zu Apache Iceberg fuer SAP-Daten?▼

Die Hauptalternativen sind: Delta Lake (Databricks) – leistungsfaehig, aber proprietaerer als Iceberg. Apache Hudi – gut fuer Streaming, aber weniger Enterprise-Adoption. SAP Datasphere allein – native SAP-Loesung, aber eingeschraenkt bei Nicht-SAP-Daten. Snowflake – Cloud-DWH mit Iceberg-Support, aber teuer. Nach SAPs Dremio-Uebernahme ist Apache Iceberg fuer SAP-Kunden die strategisch sicherste Wahl, da es das offizielle Format der SAP Business Data Cloud wird.

Bereit, Ihr Apache Iceberg Lakehouse aufzubauen?

Von der Architekturplanung bis zum produktiven Betrieb: Wir vermitteln erfahrene Data Engineers mit Apache Iceberg, Dremio und SAP-Erfahrung. Kostenlose Erstberatung. Ueber 500 erfolgreiche Tech-Vermittlungen in Deutschland seit 2024.

Kostenlose Erstberatung starten

Für Unternehmen

Für Talente

Wie man Apache Iceberg Lakehouse fuer SAP-Projekte einrichtet: 7 Schritte

Schritt 1: Architektur planen – Datenquellen, Cloud-Strategie und Zieldefinition

Schritt 2: Cloud-Speicher einrichten – S3, Azure Blob oder GCS als Iceberg-Foundation

Schritt 3: Iceberg-Katalog aufbauen – Nessie, Hive Metastore oder AWS Glue

Schritt 4: SAP-Daten extrahieren – BTP, CDS Views, ODP und SLT

Brauchen Sie Data Engineers fuer Ihr Lakehouse-Projekt?

Schritt 5: Dremio als Query Engine verbinden – Semantische Schicht und SQL-Zugriff

Schritt 6: KI-Pipeline integrieren – Joule, ML-Modelle und agentische Workflows

Schritt 7: Governance, Monitoring und Betrieb – DSGVO-konform und produktionsreif

Zusammenfassung: Ihr Fahrplan zum SAP-Iceberg-Lakehouse

Haeufig gestellte Fragen

Aehnliche Artikel

SAP-Entwickler fuer KI umschulen

SAP API-Policy v4 migrieren

SAP uebernimmt Dremio

Entwickler einstellen — 3 geprüfte Profile in 48h