Die Architekturentscheidung ist eine der teuersten und langfristigsten, die Sie treffen. In unserer Beratungspraxis erleben wir zwei Extreme: Unternehmen, die zu klein denken (und nach 18 Monaten alles neu bauen) und Unternehmen, die zu groß denken (und ein Snowflake-Enterprise-Cluster betreiben, um 50 GB zu verarbeiten). Dieses Kapitel hilft Ihnen, die richtige Mitte zu finden.
2.1 Das Daten-Silo-Problem
In den meisten mittelständischen Unternehmen sieht die Realität so aus:
┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐
│ ERP │ │ CRM │ │ MES │ │ DMS │ │ Excel │
│ (SAP) │ │(Salesf.)│ │(Siemens)│ │(ShareP.)│ │ (lokal) │
└────┬────┘ └────┬────┘ └────┬────┘ └────┬────┘ └────┬────┘
│ │ │ │ │
│ ┌──────┘ │ │ │
│ │ manuelle Exporte │ │ │
│ │ per CSV/SFTP │ │ │
└─────┴───────────────────┴────────────┴────────────┘
Keine zentrale Integration
Gleiche Kunden-ID in 4 Formaten
Kein einheitliches Datenmodell
Die messbaren Folgen:
- Gleiche Kundendaten in 4+ Systemen, alle leicht unterschiedlich — Dublettenrate oft 15–30 %
- Kein einheitliches Bild der Produktionsqualität — OEE-Berechnung weicht je nach System um 5–12 % ab
- Jedes AI-Projekt baut seine eigene Daten-Pipeline von Grund auf — Kosten: 40.000–80.000 € pro Pipeline
- Reporting-Wahrheit variiert je nach Quelle — Management misstraut den eigenen Zahlen
Fallbeispiel: Ein mittelständischer Lebensmittelproduzent mit 800 Mitarbeitenden hatte Kundendaten in SAP, Salesforce, einem selbstentwickelten Webshop und drei Excel-Listen der Außendienstmitarbeiter. Die gleiche Firma "Müller GmbH" existierte unter 7 verschiedenen Schreibweisen. Bevor eine Churn-Prediction auch nur ansetzen konnte, mussten 6 Wochen in Master Data Consolidation investiert werden.
2.2 Zielarchitektur: Das Lakehouse-Modell
Für den deutschen Mittelstand empfehlen wir eine Lakehouse-Architektur — eine pragmatische Kombination aus Data Lake (flexibel, günstig für Rohdaten) und Data Warehouse (strukturiert, performant für Analysen). Das Medallion-Pattern mit Bronze/Silver/Gold hat sich als Standard etabliert:
Datenquellen Ingestion Lakehouse Consumption
┌─────────┐ ┌──────────────┐ ┌─────────────────────────┐ ┌──────────────┐
│ ERP │───CDC─▶│ │ │ Bronze (Rohdaten) │ │ BI/Reporting │
│ CRM │──API──▶│ Ingestion │──────│ ├─ append-only │───▶│ (Power BI, │
│ MES │──MQTT─▶│ Layer │ │ ├─ exaktes Quellenabbild│ │ Looker) │
│ IoT │──Kafka▶│ │ │ └─ partitioniert nach │ └──────────────┘
│ DMS │──SFTP─▶│ - Batch │ │ Ladedatum │ ┌──────────────┐
│ Web │──API──▶│ (Airflow) │ │ │ │ AI/ML │
│ Excel │──Upload│ - Streaming │ │ Silver (Bereinigt) │───▶│ Training & │
└─────────┘ │ (Kafka │ │ ├─ dedupliziert │ │ Feature Store│
│ Connect) │ │ ├─ standardisiert │ └──────────────┘
│ - CDC │ │ ├─ Schema enforced │ ┌──────────────┐
│ (Debezium)│ │ └─ Quality-Checked │ │ APIs / │
└──────────────┘ │ │───▶│ Applikationen│
│ Gold (Business-Ready) │ └──────────────┘
│ ├─ aggregiert │ ┌──────────────┐
│ ├─ KPI-berechnet │───▶│ Data Products│
│ └─ domänenspezifisch │ │ (intern/ext.)│
└─────────────────────────┘ └──────────────┘
Die drei Schichten im Detail:
- Bronze: Rohdaten, exakt wie aus der Quelle, append-only, partitioniert nach Ladedatum. Keinerlei Transformation. Dient als Audit-Trail und ermöglicht Re-Processing. Speicherformat: Parquet oder Delta Lake.
- Silver: Bereinigt, dedupliziert, standardisiert — die AI-ready Schicht. Hier laufen automatische Qualitäts-Checks. Schema ist enforced, Datentypen sind einheitlich, Zeitstempel in UTC. Dies ist die Schicht, gegen die Data Scientists und ML-Engineers arbeiten.
- Gold: Aggregiert und Business-ready — für Dashboards, KPI-Reports und Data Products. Domänenspezifische Sichten (Finance, Sales, Production). Hier liegen vorberechnete Metriken wie Revenue per Customer, OEE per Machine, Churn Score.
2.3 Plattformvergleich: Databricks vs. Snowflake vs. BigQuery
Die drei dominierenden Plattformen im Markt haben unterschiedliche Stärken. Hier ein ehrlicher Vergleich basierend auf unserer Projekterfahrung:
| Kriterium |
Databricks |
Snowflake |
Google BigQuery |
| Stärke |
ML/AI-Workloads, Spark-basiert |
SQL-Analytics, BI-Workloads |
Serverless, Google-Ökosystem |
| Schwäche |
SQL-Performance hinter Snowflake |
ML-Integration weniger nativ |
Vendor Lock-in, Egress-Kosten |
| Lakehouse-Support |
Nativ (Delta Lake, Unity Catalog) |
Iceberg Support, Hybrid |
Eher Warehouse als Lakehouse |
| Streaming |
Spark Structured Streaming |
Snowpipe, begrenzt |
Pub/Sub Integration, nativ |
| ML-Integration |
MLflow nativ, Feature Store |
Snowpark ML, wachsend |
Vertex AI, Gemini-Integration |
| Kosten (100 TB, typisch) |
3.000–8.000 €/Monat |
4.000–12.000 €/Monat |
2.500–7.000 €/Monat |
| Kosten (10 TB, Einstieg) |
800–2.000 €/Monat |
1.000–3.000 €/Monat |
500–1.500 €/Monat |
| EU-Datenresidenz |
Azure/AWS Frankfurt |
AWS/Azure Frankfurt |
eu-west / eu-central |
| Learning Curve |
Steil (Spark, Notebooks) |
Flach (SQL-zentriert) |
Mittel (SQL + Google-Cloud) |
| Ideal für |
ML-heavy, Streaming, Data Science |
BI-heavy, SQL-Teams, Multi-Cloud |
Google-Shop, Serverless-Präferenz |
Unsere Empfehlung: Für Unternehmen mit starkem AI/ML-Fokus und einem Data-Engineering-Team: Databricks. Für Unternehmen mit starkem BI/Reporting-Fokus und SQL-affinen Teams: Snowflake. Für Unternehmen im Google-Ökosystem oder mit starkem Serverless-Wunsch: BigQuery. Wenn Sie unsicher sind: Starten Sie mit Databricks Community Edition oder Snowflake Trial (30 Tage, kostenlos) und testen Sie mit Ihren echten Daten.
2.4 Kostenplanung Datenarchitektur
Ein realistisches Budget für den Aufbau einer Datenplattform im Mittelstand:
| Posten |
Einmalig |
Monatlich laufend |
| Plattform-Setup & Konfiguration |
15.000–40.000 € |
— |
| Erste 3 Pipelines (Bronze→Silver→Gold) |
30.000–60.000 € |
— |
| Plattform-Lizenz/Compute (10–50 TB) |
— |
1.500–8.000 € |
| Storage (Cloud, 10–50 TB) |
— |
200–1.000 € |
| Monitoring & Observability |
5.000–10.000 € |
200–500 € |
| Gesamt Jahr 1 |
50.000–110.000 € |
23.000–114.000 € |
Fallbeispiel: Ein Maschinenbauer mit 3.000 Mitarbeitenden entschied sich für Databricks auf Azure. Initiales Setup mit 5 Datenquellen: 85.000 € einmalig, 4.500 €/Monat laufend. Nach 12 Monaten: 8 Datenquellen, 3 ML-Modelle in Produktion, 6.200 €/Monat. ROI durch automatisierte Qualitätskontrolle: ca. 350.000 €/Jahr Einsparung bei Ausschuss.