Technisch

Datenstrategie für Unternehmen — Grundlage jeder AI-Initiative

Datenqualität, Governance, Architektur und Pipelines — was Unternehmen aufbauen müssen, bevor AI funktioniert.

Seiten·PDF-Leitfaden·guides.updatedAt

Inhaltsverzeichnis

1.Einleitung: Warum Ihre AI-Strategie an den Daten scheitert
2.Kapitel 1: Daten-Assessment — Verstehen, bevor Sie planen
3.Kapitel 2: Datenarchitektur — Die richtige Plattform für Ihre Realität
4.Kapitel 3: Data Governance — Regeln, die gelebt werden
5.Kapitel 4: Datenqualitätsmanagement — Automatisch statt manuell
6.Kapitel 5: Daten-Pipelines für AI — Von der Quelle bis zum Feature Store
7.Fazit: Ihre 6-Monats-Roadmap — Konkret und umsetzbar

Einleitung: Warum Ihre AI-Strategie an den Daten scheitert

Ohne Datenstrategie keine AI-Strategie. Das klingt wie eine Binsenweisheit — und doch erleben wir in unserer Beratungspraxis bei cierra immer wieder dasselbe Muster: Unternehmen investieren sechsstellige Beträge in AI-Pilotprojekte und stellen nach drei Monaten fest, dass die eigentliche Herausforderung nicht der Algorithmus war, sondern die Daten darunter.

Dieser Leitfaden ist kein akademisches Framework. Er ist ein praxisorientiertes Whitepaper, das auf unserer Erfahrung aus über 40 Datenstrategie-Projekten in mittelständischen und großen Unternehmen basiert. Es richtet sich an CDOs, Data Engineers und IT-Leiter — auch und gerade an solche, die keine Data Scientists sind, aber die strategischen Entscheidungen treffen müssen.

Die Kosten einer fehlenden Datenstrategie

Die Zahlen sind ernüchternd — und wir können sie aus eigener Erfahrung bestätigen:

40–60 % der AI-Projektzeit wird für Datenbereinigung aufgewendet — nicht für Modellentwicklung
3 von 4 AI-Pilotprojekten verzögern sich aufgrund von Datenproblemen um mindestens 8 Wochen
85 % der gescheiterten AI-Projekte hatten kein Datenproblem erkannt — bis das Budget aufgebraucht war
2,4 Millionen Euro beträgt der durchschnittliche jährliche Verlust durch schlechte Datenqualität in mittelständischen Unternehmen (Gartner, 2025)

Ein konkretes Beispiel aus unserer Praxis: Ein Automobilzulieferer mit 2.000 Mitarbeitenden und Daten in 12 verschiedenen Systemen wollte eine Predictive-Maintenance-Lösung einführen. Nach 4 Monaten und 180.000 Euro stellte sich heraus: Die Sensordaten aus der Produktion waren in drei verschiedenen Zeitzonen-Formaten gespeichert, Wartungsprotokolle existierten nur als gescannte PDFs, und die Maschinenbezeichnungen im MES stimmten in 40 % der Fälle nicht mit dem ERP überein. Das Projekt wurde pausiert — nicht weil das ML-Modell schlecht war, sondern weil die Daten nicht zusammenpassten.

Eine Datenstrategie ist keine Voraussetzung für den ersten AI-Piloten. Aber sie ist die Voraussetzung dafür, dass der zweite, dritte und vierte Pilot nicht jedes Mal bei null anfangen. In unserer Erfahrung amortisiert sich eine saubere Datenstrategie ab dem zweiten Projekt.

Was dieser Leitfaden abdeckt

Wir führen Sie durch fünf Kernbereiche, die zusammen eine belastbare Datenstrategie ergeben:

Daten-Assessment — Verstehen, wo Sie stehen, bevor Sie planen
Datenarchitektur — Die richtige Plattform für Ihre Größe und Ihre Ziele
Data Governance — Regeln, die gelebt werden statt in Schubladen zu verstauben
Datenqualität — Automatisierte Prüfungen, die Probleme finden bevor Ihr ML-Modell es tut
Daten-Pipelines — Von der Quelle bis zum Feature Store, produktionsreif

Jedes Kapitel enthält konkrete Templates, Code-Beispiele und Entscheidungshilfen, die Sie direkt in Ihrem Unternehmen einsetzen können.

Kapitel 1: Daten-Assessment — Verstehen, bevor Sie planen

Was wir immer wieder sehen: Unternehmen überspringen das Assessment und springen direkt in die Architektur. Das Ergebnis sind teure Plattformen, die an der Realität der vorhandenen Daten vorbeigehen. Ein gründliches Assessment dauert 3–6 Wochen, spart aber Monate an Fehlallokation.

1.1 Das cierra Daten-Assessment-Framework

In unserer Beratungspraxis nutzen wir ein strukturiertes Vier-Phasen-Assessment, das sich in Unternehmen von 200 bis 15.000 Mitarbeitenden bewährt hat:

Phase 1: Stakeholder-Mapping (Woche 1)

Bevor Sie eine einzige Datenquelle katalogisieren, identifizieren Sie die Menschen. Daten existieren nicht im Vakuum — sie werden von Fachbereichen erzeugt, verwaltet und genutzt.

Stakeholder	Rolle im Assessment	Typische Fragen
Fachbereichsleiter	Data Owner identifizieren	"Welche Berichte brauchen Sie wöchentlich?"
IT-Leitung	Systemlandschaft dokumentieren	"Welche Integrationen existieren bereits?"
Datenschutzbeauftragter	Compliance-Anforderungen	"Wo liegen personenbezogene Daten?"
Controlling	Datennutzung für Entscheidungen	"Welchen Daten vertrauen Sie nicht?"
Produktion / Operations	Operative Datenströme	"Welche Daten erfassen Sie manuell?"

Praxis-Tipp: Die letzte Frage — "Welchen Daten vertrauen Sie nicht?" — ist die aufschlussreichste. Fachbereiche wissen intuitiv, wo die Qualitätsprobleme liegen. Fragen Sie danach in jedem Stakeholder-Interview.

Phase 2: Dateninventar erstellen (Woche 2–3)

Erstellen Sie ein vollständiges Inventar aller relevanten Datenquellen. Nutzen Sie dieses Template:

Datenquelle	System	Typ	Format	Volumen	Aktualisierung	Data Owner	Schnittstelle	DSGVO-Relevanz
Kundenstammdaten	SAP CRM	Master Data	Strukturiert (DB)	50.000 Datensätze	Echtzeit	Vertrieb (Müller)	RFC/BAPI, OData	Ja — Art. 6
Produktionsdaten	MES/SCADA	Zeitreihen	Semi-strukturiert	10 GB/Tag	Echtzeit	OT-Team (Schmidt)	OPC-UA, REST	Nein
Rechnungen	DMS	Dokumente	PDF / XML / ZUGFeRD	200.000/Jahr	Täglich	Buchhaltung (Weber)	API, SFTP	Ja — Art. 6
Support-Tickets	Zendesk	Transaktional	JSON (semi-strukt.)	5.000/Monat	Echtzeit	Kundenservice (Fischer)	REST API	Ja — Art. 6
Sensor-Daten	IoT-Plattform	Zeitreihen	Parquet / CSV	50 GB/Tag	Echtzeit	OT-Team (Schmidt)	MQTT, Kafka	Nein
Web-Analytics	GA4 / Matomo	Events	JSON	2 GB/Tag	Echtzeit	Marketing (Braun)	BigQuery Export, API	Ja — Consent
HR-Daten	Personio	Master Data	Strukturiert	2.000 Datensätze	Wöchentlich	HR (Klein)	REST API	Ja — Art. 9

Häufige Erkenntnis: In unserer Erfahrung haben mittelständische Unternehmen durchschnittlich 15–25 relevante Datenquellen, von denen die IT nur 60 % kennt. Die restlichen 40 % sind Schatten-Datenbanken in Excel, Access oder lokalen SQLite-Files, die Fachbereiche selbst pflegen.

Phase 3: Qualitäts-Assessment der Top-Datenquellen (Woche 3–4)

Bewerten Sie nicht alle Quellen gleich intensiv. Priorisieren Sie die Top-5-Quellen nach Business Impact und AI-Relevanz. Für jede dieser Quellen führen Sie eine Bewertung auf sechs Dimensionen durch:

Dimension	Definition	Messmethode	Zielwert	Kritisch ab
Vollständigkeit	Anteil fehlender Werte	`COUNT(NULL) / COUNT(*)` pro Feld	> 95 %	< 80 %
Genauigkeit	Korrektheit der Werte	Stichprobe (n=200) gegen Quelle	> 98 %	< 90 %
Konsistenz	Übereinstimmung cross-system	Automated Cross-System-Join	> 95 %	< 85 %
Aktualität	Latenz Quelle → Ziel	Timestamp-Differenz	< 24h (Batch)	> 72h
Eindeutigkeit	Keine Duplikate	Deduplizierungs-Check auf PK	> 99 %	< 95 %
Konformität	Einhaltung definierter Formate	Regex/Schema-Validierung	> 98 %	< 90 %

Phase 4: Gap-Analyse und Priorisierung (Woche 5–6)

Mappen Sie Ihre AI-Use-Cases gegen die vorhandenen Daten:

AI-Use-Case	Benötigte Daten	Vorhanden?	Qualität	Lücke	Aufwand Schließung
Bedarfsprognose	24+ Monate Bestellhistorie	Teilweise (12 Mo.)	Mittel	12 Monate fehlen	2 Wochen (Historisierung)
Qualitätskontrolle	Bilder + Fehlerklassifikation	Bilder ja, Labels nein	Hoch (Bilder)	Labeling nötig	6 Wochen (Labeling-Kampagne)
Kundenabwanderung	Interaktions- + Vertragsdaten	In Silos	Niedrig (inkonsistent)	Integration nötig	4 Wochen (Pipeline)
Predictive Maintenance	Sensordaten + Wartungsprotokolle	Sensoren ja, Protokolle PDF	Mittel	OCR + Strukturierung	8 Wochen (OCR-Pipeline)

1.2 Assessment-Deliverables

Am Ende des Assessments haben Sie vier konkrete Ergebnisse:

Dateninventar — Vollständige Übersicht aller Datenquellen mit Metadaten
Qualitäts-Scorecard — Bewertung der Top-5-Quellen auf 6 Dimensionen
Gap-Analyse — Mapping Use-Cases → Daten → Lücken → Aufwand
Priorisierte Maßnahmenliste — Quick Wins vs. strategische Investitionen

Was wir unseren Kunden immer sagen: Das Assessment ist kein Selbstzweck. Es ist die Entscheidungsgrundlage für die nächsten 12 Monate. Wenn Sie hier 4 Wochen investieren, sparen Sie später 4 Monate — das haben wir in jedem einzelnen Projekt erlebt.

Die Architekturentscheidung ist eine der teuersten und langfristigsten, die Sie treffen. In unserer Beratungspraxis erleben wir zwei Extreme: Unternehmen, die zu klein denken (und nach 18 Monaten alles neu bauen) und Unternehmen, die zu groß denken (und ein Snowflake-Enterprise-Cluster betreiben, um 50 GB zu verarbeiten). Dieses Kapitel hilft Ihnen, die richtige Mitte zu finden.

2.1 Das Daten-Silo-Problem

In den meisten mittelständischen Unternehmen sieht die Realität so aus:

┌─────────┐  ┌─────────┐  ┌─────────┐  ┌─────────┐  ┌─────────┐
│   ERP   │  │   CRM   │  │   MES   │  │   DMS   │  │  Excel  │
│  (SAP)  │  │(Salesf.)│  │(Siemens)│  │(ShareP.)│  │ (lokal) │
└────┬────┘  └────┬────┘  └────┬────┘  └────┬────┘  └────┬────┘
     │            │            │            │            │
     │     ┌──────┘            │            │            │
     │     │  manuelle Exporte │            │            │
     │     │  per CSV/SFTP     │            │            │
     └─────┴───────────────────┴────────────┴────────────┘
              Keine zentrale Integration
              Gleiche Kunden-ID in 4 Formaten
              Kein einheitliches Datenmodell

Die messbaren Folgen:

Gleiche Kundendaten in 4+ Systemen, alle leicht unterschiedlich — Dublettenrate oft 15–30 %
Kein einheitliches Bild der Produktionsqualität — OEE-Berechnung weicht je nach System um 5–12 % ab
Jedes AI-Projekt baut seine eigene Daten-Pipeline von Grund auf — Kosten: 40.000–80.000 € pro Pipeline
Reporting-Wahrheit variiert je nach Quelle — Management misstraut den eigenen Zahlen

Fallbeispiel: Ein mittelständischer Lebensmittelproduzent mit 800 Mitarbeitenden hatte Kundendaten in SAP, Salesforce, einem selbstentwickelten Webshop und drei Excel-Listen der Außendienstmitarbeiter. Die gleiche Firma "Müller GmbH" existierte unter 7 verschiedenen Schreibweisen. Bevor eine Churn-Prediction auch nur ansetzen konnte, mussten 6 Wochen in Master Data Consolidation investiert werden.

2.2 Zielarchitektur: Das Lakehouse-Modell

Für den deutschen Mittelstand empfehlen wir eine Lakehouse-Architektur — eine pragmatische Kombination aus Data Lake (flexibel, günstig für Rohdaten) und Data Warehouse (strukturiert, performant für Analysen). Das Medallion-Pattern mit Bronze/Silver/Gold hat sich als Standard etabliert:

Datenquellen          Ingestion              Lakehouse                    Consumption
                                                                         
┌─────────┐        ┌──────────────┐      ┌─────────────────────────┐    ┌──────────────┐
│ ERP     │───CDC─▶│              │      │  Bronze (Rohdaten)      │    │ BI/Reporting │
│ CRM     │──API──▶│  Ingestion   │──────│  ├─ append-only         │───▶│ (Power BI,   │
│ MES     │──MQTT─▶│  Layer       │      │  ├─ exaktes Quellenabbild│   │  Looker)     │
│ IoT     │──Kafka▶│              │      │  └─ partitioniert nach  │    └──────────────┘
│ DMS     │──SFTP─▶│  - Batch     │      │    Ladedatum            │    ┌──────────────┐
│ Web     │──API──▶│    (Airflow) │      │                         │    │ AI/ML        │
│ Excel   │──Upload│  - Streaming │      │  Silver (Bereinigt)     │───▶│ Training &   │
└─────────┘        │    (Kafka    │      │  ├─ dedupliziert        │    │ Feature Store│
                   │     Connect) │      │  ├─ standardisiert      │    └──────────────┘
                   │  - CDC       │      │  ├─ Schema enforced     │    ┌──────────────┐
                   │    (Debezium)│      │  └─ Quality-Checked     │    │ APIs /       │
                   └──────────────┘      │                         │───▶│ Applikationen│
                                         │  Gold (Business-Ready)  │    └──────────────┘
                                         │  ├─ aggregiert          │    ┌──────────────┐
                                         │  ├─ KPI-berechnet       │───▶│ Data Products│
                                         │  └─ domänenspezifisch   │    │ (intern/ext.)│
                                         └─────────────────────────┘    └──────────────┘

Die drei Schichten im Detail:

Bronze: Rohdaten, exakt wie aus der Quelle, append-only, partitioniert nach Ladedatum. Keinerlei Transformation. Dient als Audit-Trail und ermöglicht Re-Processing. Speicherformat: Parquet oder Delta Lake.
Silver: Bereinigt, dedupliziert, standardisiert — die AI-ready Schicht. Hier laufen automatische Qualitäts-Checks. Schema ist enforced, Datentypen sind einheitlich, Zeitstempel in UTC. Dies ist die Schicht, gegen die Data Scientists und ML-Engineers arbeiten.
Gold: Aggregiert und Business-ready — für Dashboards, KPI-Reports und Data Products. Domänenspezifische Sichten (Finance, Sales, Production). Hier liegen vorberechnete Metriken wie Revenue per Customer, OEE per Machine, Churn Score.

2.3 Plattformvergleich: Databricks vs. Snowflake vs. BigQuery

Die drei dominierenden Plattformen im Markt haben unterschiedliche Stärken. Hier ein ehrlicher Vergleich basierend auf unserer Projekterfahrung:

Kriterium	Databricks	Snowflake	Google BigQuery
Stärke	ML/AI-Workloads, Spark-basiert	SQL-Analytics, BI-Workloads	Serverless, Google-Ökosystem
Schwäche	SQL-Performance hinter Snowflake	ML-Integration weniger nativ	Vendor Lock-in, Egress-Kosten
Lakehouse-Support	Nativ (Delta Lake, Unity Catalog)	Iceberg Support, Hybrid	Eher Warehouse als Lakehouse
Streaming	Spark Structured Streaming	Snowpipe, begrenzt	Pub/Sub Integration, nativ
ML-Integration	MLflow nativ, Feature Store	Snowpark ML, wachsend	Vertex AI, Gemini-Integration
Kosten (100 TB, typisch)	3.000–8.000 €/Monat	4.000–12.000 €/Monat	2.500–7.000 €/Monat
Kosten (10 TB, Einstieg)	800–2.000 €/Monat	1.000–3.000 €/Monat	500–1.500 €/Monat
EU-Datenresidenz	Azure/AWS Frankfurt	AWS/Azure Frankfurt	eu-west / eu-central
Learning Curve	Steil (Spark, Notebooks)	Flach (SQL-zentriert)	Mittel (SQL + Google-Cloud)
Ideal für	ML-heavy, Streaming, Data Science	BI-heavy, SQL-Teams, Multi-Cloud	Google-Shop, Serverless-Präferenz

Unsere Empfehlung: Für Unternehmen mit starkem AI/ML-Fokus und einem Data-Engineering-Team: Databricks. Für Unternehmen mit starkem BI/Reporting-Fokus und SQL-affinen Teams: Snowflake. Für Unternehmen im Google-Ökosystem oder mit starkem Serverless-Wunsch: BigQuery. Wenn Sie unsicher sind: Starten Sie mit Databricks Community Edition oder Snowflake Trial (30 Tage, kostenlos) und testen Sie mit Ihren echten Daten.

2.4 Kostenplanung Datenarchitektur

Ein realistisches Budget für den Aufbau einer Datenplattform im Mittelstand:

Posten	Einmalig	Monatlich laufend
Plattform-Setup & Konfiguration	15.000–40.000 €	—
Erste 3 Pipelines (Bronze→Silver→Gold)	30.000–60.000 €	—
Plattform-Lizenz/Compute (10–50 TB)	—	1.500–8.000 €
Storage (Cloud, 10–50 TB)	—	200–1.000 €
Monitoring & Observability	5.000–10.000 €	200–500 €
Gesamt Jahr 1	50.000–110.000 €	23.000–114.000 €

Fallbeispiel: Ein Maschinenbauer mit 3.000 Mitarbeitenden entschied sich für Databricks auf Azure. Initiales Setup mit 5 Datenquellen: 85.000 € einmalig, 4.500 €/Monat laufend. Nach 12 Monaten: 8 Datenquellen, 3 ML-Modelle in Produktion, 6.200 €/Monat. ROI durch automatisierte Qualitätskontrolle: ca. 350.000 €/Jahr Einsparung bei Ausschuss.

Leitfaden herunterladen

Geben Sie Ihre E-Mail-Adresse ein, um den vollständigen Leitfaden als PDF zu erhalten.

← Alle Leitfäden