Technisch

Datenstrategie für Unternehmen — Grundlage jeder AI-Initiative

Datenqualität, Governance, Architektur und Pipelines — was Unternehmen aufbauen müssen, bevor AI funktioniert.

Seiten·PDF-Leitfaden·guides.updatedAt

Inhaltsverzeichnis

  1. 1.Einleitung: Warum Ihre AI-Strategie an den Daten scheitert
  2. 2.Kapitel 1: Daten-Assessment — Verstehen, bevor Sie planen
  3. 3.Kapitel 2: Datenarchitektur — Die richtige Plattform für Ihre Realität
  4. 4.Kapitel 3: Data Governance — Regeln, die gelebt werden
  5. 5.Kapitel 4: Datenqualitätsmanagement — Automatisch statt manuell
  6. 6.Kapitel 5: Daten-Pipelines für AI — Von der Quelle bis zum Feature Store
  7. 7.Fazit: Ihre 6-Monats-Roadmap — Konkret und umsetzbar

Einleitung: Warum Ihre AI-Strategie an den Daten scheitert

Ohne Datenstrategie keine AI-Strategie. Das klingt wie eine Binsenweisheit — und doch erleben wir in unserer Beratungspraxis bei cierra immer wieder dasselbe Muster: Unternehmen investieren sechsstellige Beträge in AI-Pilotprojekte und stellen nach drei Monaten fest, dass die eigentliche Herausforderung nicht der Algorithmus war, sondern die Daten darunter.

Dieser Leitfaden ist kein akademisches Framework. Er ist ein praxisorientiertes Whitepaper, das auf unserer Erfahrung aus über 40 Datenstrategie-Projekten in mittelständischen und großen Unternehmen basiert. Es richtet sich an CDOs, Data Engineers und IT-Leiter — auch und gerade an solche, die keine Data Scientists sind, aber die strategischen Entscheidungen treffen müssen.

Die Kosten einer fehlenden Datenstrategie

Die Zahlen sind ernüchternd — und wir können sie aus eigener Erfahrung bestätigen:

  • 40–60 % der AI-Projektzeit wird für Datenbereinigung aufgewendet — nicht für Modellentwicklung
  • 3 von 4 AI-Pilotprojekten verzögern sich aufgrund von Datenproblemen um mindestens 8 Wochen
  • 85 % der gescheiterten AI-Projekte hatten kein Datenproblem erkannt — bis das Budget aufgebraucht war
  • 2,4 Millionen Euro beträgt der durchschnittliche jährliche Verlust durch schlechte Datenqualität in mittelständischen Unternehmen (Gartner, 2025)

Ein konkretes Beispiel aus unserer Praxis: Ein Automobilzulieferer mit 2.000 Mitarbeitenden und Daten in 12 verschiedenen Systemen wollte eine Predictive-Maintenance-Lösung einführen. Nach 4 Monaten und 180.000 Euro stellte sich heraus: Die Sensordaten aus der Produktion waren in drei verschiedenen Zeitzonen-Formaten gespeichert, Wartungsprotokolle existierten nur als gescannte PDFs, und die Maschinenbezeichnungen im MES stimmten in 40 % der Fälle nicht mit dem ERP überein. Das Projekt wurde pausiert — nicht weil das ML-Modell schlecht war, sondern weil die Daten nicht zusammenpassten.

Eine Datenstrategie ist keine Voraussetzung für den ersten AI-Piloten. Aber sie ist die Voraussetzung dafür, dass der zweite, dritte und vierte Pilot nicht jedes Mal bei null anfangen. In unserer Erfahrung amortisiert sich eine saubere Datenstrategie ab dem zweiten Projekt.

Was dieser Leitfaden abdeckt

Wir führen Sie durch fünf Kernbereiche, die zusammen eine belastbare Datenstrategie ergeben:

  1. Daten-Assessment — Verstehen, wo Sie stehen, bevor Sie planen
  2. Datenarchitektur — Die richtige Plattform für Ihre Größe und Ihre Ziele
  3. Data Governance — Regeln, die gelebt werden statt in Schubladen zu verstauben
  4. Datenqualität — Automatisierte Prüfungen, die Probleme finden bevor Ihr ML-Modell es tut
  5. Daten-Pipelines — Von der Quelle bis zum Feature Store, produktionsreif

Jedes Kapitel enthält konkrete Templates, Code-Beispiele und Entscheidungshilfen, die Sie direkt in Ihrem Unternehmen einsetzen können.


Kapitel 1: Daten-Assessment — Verstehen, bevor Sie planen

Was wir immer wieder sehen: Unternehmen überspringen das Assessment und springen direkt in die Architektur. Das Ergebnis sind teure Plattformen, die an der Realität der vorhandenen Daten vorbeigehen. Ein gründliches Assessment dauert 3–6 Wochen, spart aber Monate an Fehlallokation.

1.1 Das cierra Daten-Assessment-Framework

In unserer Beratungspraxis nutzen wir ein strukturiertes Vier-Phasen-Assessment, das sich in Unternehmen von 200 bis 15.000 Mitarbeitenden bewährt hat:

Phase 1: Stakeholder-Mapping (Woche 1)

Bevor Sie eine einzige Datenquelle katalogisieren, identifizieren Sie die Menschen. Daten existieren nicht im Vakuum — sie werden von Fachbereichen erzeugt, verwaltet und genutzt.

Stakeholder Rolle im Assessment Typische Fragen
Fachbereichsleiter Data Owner identifizieren "Welche Berichte brauchen Sie wöchentlich?"
IT-Leitung Systemlandschaft dokumentieren "Welche Integrationen existieren bereits?"
Datenschutzbeauftragter Compliance-Anforderungen "Wo liegen personenbezogene Daten?"
Controlling Datennutzung für Entscheidungen "Welchen Daten vertrauen Sie nicht?"
Produktion / Operations Operative Datenströme "Welche Daten erfassen Sie manuell?"

Praxis-Tipp: Die letzte Frage — "Welchen Daten vertrauen Sie nicht?" — ist die aufschlussreichste. Fachbereiche wissen intuitiv, wo die Qualitätsprobleme liegen. Fragen Sie danach in jedem Stakeholder-Interview.

Phase 2: Dateninventar erstellen (Woche 2–3)

Erstellen Sie ein vollständiges Inventar aller relevanten Datenquellen. Nutzen Sie dieses Template:

Datenquelle System Typ Format Volumen Aktualisierung Data Owner Schnittstelle DSGVO-Relevanz
Kundenstammdaten SAP CRM Master Data Strukturiert (DB) 50.000 Datensätze Echtzeit Vertrieb (Müller) RFC/BAPI, OData Ja — Art. 6
Produktionsdaten MES/SCADA Zeitreihen Semi-strukturiert 10 GB/Tag Echtzeit OT-Team (Schmidt) OPC-UA, REST Nein
Rechnungen DMS Dokumente PDF / XML / ZUGFeRD 200.000/Jahr Täglich Buchhaltung (Weber) API, SFTP Ja — Art. 6
Support-Tickets Zendesk Transaktional JSON (semi-strukt.) 5.000/Monat Echtzeit Kundenservice (Fischer) REST API Ja — Art. 6
Sensor-Daten IoT-Plattform Zeitreihen Parquet / CSV 50 GB/Tag Echtzeit OT-Team (Schmidt) MQTT, Kafka Nein
Web-Analytics GA4 / Matomo Events JSON 2 GB/Tag Echtzeit Marketing (Braun) BigQuery Export, API Ja — Consent
HR-Daten Personio Master Data Strukturiert 2.000 Datensätze Wöchentlich HR (Klein) REST API Ja — Art. 9

Häufige Erkenntnis: In unserer Erfahrung haben mittelständische Unternehmen durchschnittlich 15–25 relevante Datenquellen, von denen die IT nur 60 % kennt. Die restlichen 40 % sind Schatten-Datenbanken in Excel, Access oder lokalen SQLite-Files, die Fachbereiche selbst pflegen.

Phase 3: Qualitäts-Assessment der Top-Datenquellen (Woche 3–4)

Bewerten Sie nicht alle Quellen gleich intensiv. Priorisieren Sie die Top-5-Quellen nach Business Impact und AI-Relevanz. Für jede dieser Quellen führen Sie eine Bewertung auf sechs Dimensionen durch:

Dimension Definition Messmethode Zielwert Kritisch ab
Vollständigkeit Anteil fehlender Werte COUNT(NULL) / COUNT(*) pro Feld > 95 % < 80 %
Genauigkeit Korrektheit der Werte Stichprobe (n=200) gegen Quelle > 98 % < 90 %
Konsistenz Übereinstimmung cross-system Automated Cross-System-Join > 95 % < 85 %
Aktualität Latenz Quelle → Ziel Timestamp-Differenz < 24h (Batch) > 72h
Eindeutigkeit Keine Duplikate Deduplizierungs-Check auf PK > 99 % < 95 %
Konformität Einhaltung definierter Formate Regex/Schema-Validierung > 98 % < 90 %

Phase 4: Gap-Analyse und Priorisierung (Woche 5–6)

Mappen Sie Ihre AI-Use-Cases gegen die vorhandenen Daten:

AI-Use-Case Benötigte Daten Vorhanden? Qualität Lücke Aufwand Schließung
Bedarfsprognose 24+ Monate Bestellhistorie Teilweise (12 Mo.) Mittel 12 Monate fehlen 2 Wochen (Historisierung)
Qualitätskontrolle Bilder + Fehlerklassifikation Bilder ja, Labels nein Hoch (Bilder) Labeling nötig 6 Wochen (Labeling-Kampagne)
Kundenabwanderung Interaktions- + Vertragsdaten In Silos Niedrig (inkonsistent) Integration nötig 4 Wochen (Pipeline)
Predictive Maintenance Sensordaten + Wartungsprotokolle Sensoren ja, Protokolle PDF Mittel OCR + Strukturierung 8 Wochen (OCR-Pipeline)

1.2 Assessment-Deliverables

Am Ende des Assessments haben Sie vier konkrete Ergebnisse:

  • Dateninventar — Vollständige Übersicht aller Datenquellen mit Metadaten
  • Qualitäts-Scorecard — Bewertung der Top-5-Quellen auf 6 Dimensionen
  • Gap-Analyse — Mapping Use-Cases → Daten → Lücken → Aufwand
  • Priorisierte Maßnahmenliste — Quick Wins vs. strategische Investitionen

Was wir unseren Kunden immer sagen: Das Assessment ist kein Selbstzweck. Es ist die Entscheidungsgrundlage für die nächsten 12 Monate. Wenn Sie hier 4 Wochen investieren, sparen Sie später 4 Monate — das haben wir in jedem einzelnen Projekt erlebt.


Die Architekturentscheidung ist eine der teuersten und langfristigsten, die Sie treffen. In unserer Beratungspraxis erleben wir zwei Extreme: Unternehmen, die zu klein denken (und nach 18 Monaten alles neu bauen) und Unternehmen, die zu groß denken (und ein Snowflake-Enterprise-Cluster betreiben, um 50 GB zu verarbeiten). Dieses Kapitel hilft Ihnen, die richtige Mitte zu finden.

2.1 Das Daten-Silo-Problem

In den meisten mittelständischen Unternehmen sieht die Realität so aus:

┌─────────┐  ┌─────────┐  ┌─────────┐  ┌─────────┐  ┌─────────┐
│   ERP   │  │   CRM   │  │   MES   │  │   DMS   │  │  Excel  │
│  (SAP)  │  │(Salesf.)│  │(Siemens)│  │(ShareP.)│  │ (lokal) │
└────┬────┘  └────┬────┘  └────┬────┘  └────┬────┘  └────┬────┘
     │            │            │            │            │
     │     ┌──────┘            │            │            │
     │     │  manuelle Exporte │            │            │
     │     │  per CSV/SFTP     │            │            │
     └─────┴───────────────────┴────────────┴────────────┘
              Keine zentrale Integration
              Gleiche Kunden-ID in 4 Formaten
              Kein einheitliches Datenmodell

Die messbaren Folgen:

  • Gleiche Kundendaten in 4+ Systemen, alle leicht unterschiedlich — Dublettenrate oft 15–30 %
  • Kein einheitliches Bild der Produktionsqualität — OEE-Berechnung weicht je nach System um 5–12 % ab
  • Jedes AI-Projekt baut seine eigene Daten-Pipeline von Grund auf — Kosten: 40.000–80.000 € pro Pipeline
  • Reporting-Wahrheit variiert je nach Quelle — Management misstraut den eigenen Zahlen

Fallbeispiel: Ein mittelständischer Lebensmittelproduzent mit 800 Mitarbeitenden hatte Kundendaten in SAP, Salesforce, einem selbstentwickelten Webshop und drei Excel-Listen der Außendienstmitarbeiter. Die gleiche Firma "Müller GmbH" existierte unter 7 verschiedenen Schreibweisen. Bevor eine Churn-Prediction auch nur ansetzen konnte, mussten 6 Wochen in Master Data Consolidation investiert werden.

2.2 Zielarchitektur: Das Lakehouse-Modell

Für den deutschen Mittelstand empfehlen wir eine Lakehouse-Architektur — eine pragmatische Kombination aus Data Lake (flexibel, günstig für Rohdaten) und Data Warehouse (strukturiert, performant für Analysen). Das Medallion-Pattern mit Bronze/Silver/Gold hat sich als Standard etabliert:

Datenquellen          Ingestion              Lakehouse                    Consumption
                                                                         
┌─────────┐        ┌──────────────┐      ┌─────────────────────────┐    ┌──────────────┐
│ ERP     │───CDC─▶│              │      │  Bronze (Rohdaten)      │    │ BI/Reporting │
│ CRM     │──API──▶│  Ingestion   │──────│  ├─ append-only         │───▶│ (Power BI,   │
│ MES     │──MQTT─▶│  Layer       │      │  ├─ exaktes Quellenabbild│   │  Looker)     │
│ IoT     │──Kafka▶│              │      │  └─ partitioniert nach  │    └──────────────┘
│ DMS     │──SFTP─▶│  - Batch     │      │    Ladedatum            │    ┌──────────────┐
│ Web     │──API──▶│    (Airflow) │      │                         │    │ AI/ML        │
│ Excel   │──Upload│  - Streaming │      │  Silver (Bereinigt)     │───▶│ Training &   │
└─────────┘        │    (Kafka    │      │  ├─ dedupliziert        │    │ Feature Store│
                   │     Connect) │      │  ├─ standardisiert      │    └──────────────┘
                   │  - CDC       │      │  ├─ Schema enforced     │    ┌──────────────┐
                   │    (Debezium)│      │  └─ Quality-Checked     │    │ APIs /       │
                   └──────────────┘      │                         │───▶│ Applikationen│
                                         │  Gold (Business-Ready)  │    └──────────────┘
                                         │  ├─ aggregiert          │    ┌──────────────┐
                                         │  ├─ KPI-berechnet       │───▶│ Data Products│
                                         │  └─ domänenspezifisch   │    │ (intern/ext.)│
                                         └─────────────────────────┘    └──────────────┘

Die drei Schichten im Detail:

  • Bronze: Rohdaten, exakt wie aus der Quelle, append-only, partitioniert nach Ladedatum. Keinerlei Transformation. Dient als Audit-Trail und ermöglicht Re-Processing. Speicherformat: Parquet oder Delta Lake.
  • Silver: Bereinigt, dedupliziert, standardisiert — die AI-ready Schicht. Hier laufen automatische Qualitäts-Checks. Schema ist enforced, Datentypen sind einheitlich, Zeitstempel in UTC. Dies ist die Schicht, gegen die Data Scientists und ML-Engineers arbeiten.
  • Gold: Aggregiert und Business-ready — für Dashboards, KPI-Reports und Data Products. Domänenspezifische Sichten (Finance, Sales, Production). Hier liegen vorberechnete Metriken wie Revenue per Customer, OEE per Machine, Churn Score.

2.3 Plattformvergleich: Databricks vs. Snowflake vs. BigQuery

Die drei dominierenden Plattformen im Markt haben unterschiedliche Stärken. Hier ein ehrlicher Vergleich basierend auf unserer Projekterfahrung:

Kriterium Databricks Snowflake Google BigQuery
Stärke ML/AI-Workloads, Spark-basiert SQL-Analytics, BI-Workloads Serverless, Google-Ökosystem
Schwäche SQL-Performance hinter Snowflake ML-Integration weniger nativ Vendor Lock-in, Egress-Kosten
Lakehouse-Support Nativ (Delta Lake, Unity Catalog) Iceberg Support, Hybrid Eher Warehouse als Lakehouse
Streaming Spark Structured Streaming Snowpipe, begrenzt Pub/Sub Integration, nativ
ML-Integration MLflow nativ, Feature Store Snowpark ML, wachsend Vertex AI, Gemini-Integration
Kosten (100 TB, typisch) 3.000–8.000 €/Monat 4.000–12.000 €/Monat 2.500–7.000 €/Monat
Kosten (10 TB, Einstieg) 800–2.000 €/Monat 1.000–3.000 €/Monat 500–1.500 €/Monat
EU-Datenresidenz Azure/AWS Frankfurt AWS/Azure Frankfurt eu-west / eu-central
Learning Curve Steil (Spark, Notebooks) Flach (SQL-zentriert) Mittel (SQL + Google-Cloud)
Ideal für ML-heavy, Streaming, Data Science BI-heavy, SQL-Teams, Multi-Cloud Google-Shop, Serverless-Präferenz

Unsere Empfehlung: Für Unternehmen mit starkem AI/ML-Fokus und einem Data-Engineering-Team: Databricks. Für Unternehmen mit starkem BI/Reporting-Fokus und SQL-affinen Teams: Snowflake. Für Unternehmen im Google-Ökosystem oder mit starkem Serverless-Wunsch: BigQuery. Wenn Sie unsicher sind: Starten Sie mit Databricks Community Edition oder Snowflake Trial (30 Tage, kostenlos) und testen Sie mit Ihren echten Daten.

2.4 Kostenplanung Datenarchitektur

Ein realistisches Budget für den Aufbau einer Datenplattform im Mittelstand:

Posten Einmalig Monatlich laufend
Plattform-Setup & Konfiguration 15.000–40.000 €
Erste 3 Pipelines (Bronze→Silver→Gold) 30.000–60.000 €
Plattform-Lizenz/Compute (10–50 TB) 1.500–8.000 €
Storage (Cloud, 10–50 TB) 200–1.000 €
Monitoring & Observability 5.000–10.000 € 200–500 €
Gesamt Jahr 1 50.000–110.000 € 23.000–114.000 €

Fallbeispiel: Ein Maschinenbauer mit 3.000 Mitarbeitenden entschied sich für Databricks auf Azure. Initiales Setup mit 5 Datenquellen: 85.000 € einmalig, 4.500 €/Monat laufend. Nach 12 Monaten: 8 Datenquellen, 3 ML-Modelle in Produktion, 6.200 €/Monat. ROI durch automatisierte Qualitätskontrolle: ca. 350.000 €/Jahr Einsparung bei Ausschuss.


Leitfaden herunterladen

Geben Sie Ihre E-Mail-Adresse ein, um den vollständigen Leitfaden als PDF zu erhalten.

Bereit für den nächsten Schritt?

Lassen Sie uns gemeinsam herausfinden, wie KI Ihr Unternehmen voranbringt.

Projekt besprechen →