KI im eigenen Haus. Keine OpenAI. Keine US-Server. Keine Kompromisse.
Wir installieren leistungsfähige Sprach-, Vision- und RAG-Modelle direkt auf Ihrer Hardware oder in Ihrem deutschen Rechenzentrum. Llama 3, Mistral, Qwen — gehärtet, gemonitort, gewartet. Volle Datenhoheit, AI-Act-konform, keine externe API.
Kostenloses Discovery Call buchen →- ✓ 100 % On-Premise oder Private Cloud DE
- ✓ DSGVO + EU AI Act konform
- ✓ Llama 3 70B, Mistral, Qwen, eigene Fine-Tunes
Warum Mittelständler, Behörden und Healthcare KI nicht in die US-Cloud werfen können.
Schrems II / III
Datentransfer in die USA ist juristisch hochriskant. Ein AVV reicht nicht.
EU AI Act
Ab 2026 strikte Anforderungen für High-Risk-Systeme — Logging, Auditierbarkeit, Erklärbarkeit. SaaS-Black-Boxes erfüllen das nicht.
Geschäftsgeheimnisse
Wer Konstruktionspläne, Patientenakten oder Mandantendaten in OpenAI-Prompts wirft, hat sie verloren.
Vendor Lock-In
OpenAI-Preise verdoppeln sich? API-Outage? Compliance-Änderung? Sie hängen fest.
Sie entscheiden, wo die KI läuft.
Bare-Metal On-Prem
Llama 3 70B oder Mistral Large auf Ihrer GPU-Hardware. Vollständig isoliert, kein Internet erforderlich.
Wann sinnvoll: Kritische Daten · Healthcare · Verteidigung · Finance
Private Cloud DE
Dedicated GPU-Instanz in deutschem Rechenzentrum, nur Sie haben Zugriff. Single-Tenant, keine geteilten Ressourcen.
Wann sinnvoll: Mittelstand ohne eigene GPU-Server, aber mit DSGVO-Anforderungen
Hybrid
Sensible Daten on-prem, generische Anfragen in der Private Cloud. Intelligentes Routing über uns.
Wann sinnvoll: Mischbetrieb, Best-of-Both-Worlds
Was Sie konkret bekommen
- Hardware-Sizing & Empfehlung (oder bestehende Hardware nutzen)
- Modell-Auswahl & Fine-Tuning auf Ihre Daten
- OpenAI-kompatibler API-Layer (Ihre Apps merken keinen Unterschied)
- Monitoring, Logging, Audit-Trails
- Wartung & Update-Pipeline
Wer schon mit On-Premise KI arbeitet.
Klinik (5.000 MA): RAG auf Patientenakten
Llama 3 70B on-prem, 2× H100-GPUs. Ärzte sparen 40 % Anamnese-Zeit. Daten verlassen nie die Klinik.
Anwaltskanzlei (Top 50 DACH): Akten-Suche
Mistral Large in Private Cloud Frankfurt. 60 % schnellere Recherche, Mandantengeheimnis bleibt gewahrt.
Industriekonzern: Engineering-Chatbot
Custom Fine-Tune auf Llama 3 70B mit 30 Jahren Konstruktionsdaten. 23 % weniger Stillstände, Know-how bleibt im Haus.
Versicherung: Schadensanalyse
On-Premise-Modell mit Vertragsverständnis und Rechtswissen. Erst-Evaluationen in Sekunden, vollständig auditierbar.
Was Sie für welche Use-Cases brauchen.
| Use-Case | Empfohlene Hardware | Investitionsrahmen |
|---|---|---|
| Internes Wiki + RAG (50-100 User) | 1× NVIDIA L40S 48GB oder Mac Studio M3 Ultra | €8.000 – €15.000 |
| Voice-Agent + Chat (200-500 User) | 1× H100 80GB oder 2× A100 80GB | €25.000 – €40.000 |
| Klinik / Konzern RAG + Vision (1k+ User) | 2-4× H100 oder MI300X Cluster | €80.000 – €250.000 |
Plus Implementierungs-Aufwand: typisch €15-50k je nach Komplexität.
Alternative: Private-Cloud-Setup ab €1.200/Monat (keine CapEx).
Drei Gründe, warum Sie uns Cloud-AI-Anbietern vorziehen.
Wir sind Hardware-affin, nicht nur API-Wrapper.
Wir kennen H100 vs. H200 vs. MI300, vLLM vs. TGI, ROCm vs. CUDA. Wir helfen beim Hardware-Kauf oder konfigurieren Ihre bestehende Infrastruktur — wir liefern nicht nur Software, wir liefern den Stack.
Wir öffnen die Blackbox.
Sie bekommen die Modell-Gewichte. Sie bekommen den Code. Sie bekommen das Know-how, das System selbst zu betreiben — oder Sie lassen uns das übernehmen. Ihre Wahl, jederzeit revidierbar.
Wir sind keine US-Tochter.
Cierra ist eine deutsche GmbH mit Sitz in Göttingen. Wir unterliegen ausschließlich deutschem Recht. Der CLOUD Act betrifft uns nicht — und damit auch nicht Ihre Daten.
Häufige Fragen zu On-Premise KI.
Sind Open-Source-Modelle wirklich gut genug?
Llama 3.3 70B und Mistral Large schlagen GPT-3.5 in den meisten B2B-Benchmarks und liegen nahe an GPT-4 für viele konkrete Use-Cases. Für die meisten Mittelstands-Anwendungen mehr als ausreichend. Wir benchmarken Ihren konkreten Use-Case im Discovery Call — mit echten Daten, nicht mit Hype.
Was ist mit Updates? Open Source bleibt doch zurück?
Wir liefern eine Update-Pipeline. Neue Modell-Versionen werden getestet, validiert und ausgerollt. Sie sind immer auf dem aktuellen Stand — ohne Vendor-Risk.
Können wir bestehende GPU-Server nutzen?
Ja. Wir prüfen Ihre Hardware und sagen, was geht. Oft ist mehr möglich als Sie denken — auch ältere A100-Setups laufen noch für viele Workloads.
Was kostet der laufende Betrieb?
Strom + Wartung. Bei einer H100-Workstation typisch €150-400/Monat Strom. Wartung als Festpreis oder pay-per-call. Keine API-Kosten, keine Token-Abrechnung, keine bösen Überraschungen am Monatsende.
Wie lange dauert die Implementierung?
Discovery → 1 Woche. Hardware-Beschaffung → 2-6 Wochen. Setup + Integration → 3-6 Wochen. Gesamt: 6-12 Wochen je nach Komplexität.
Funktioniert das mit unseren bestehenden Apps?
Ja. Wir liefern einen OpenAI-kompatiblen API-Layer. Ihre existierenden Tools (ChatGPT-Plugins, Custom-Apps, Workflows) funktionieren unverändert — sie sprechen jetzt nur mit Ihrem eigenen Server statt mit OpenAI.
Was passiert wenn cierra mal nicht mehr ist?
Sie haben die Modell-Gewichte, den Code und die Doku. Ihr System läuft weiter, auch ohne uns. Wir liefern Open-Source-Software auf Open-Source-Modellen — keine Black Box, kein Vendor Lock-In.
Sprechen wir 20 Minuten — danach wissen Sie, ob On-Prem für Sie geht.
Wir analysieren Ihren Use-Case, Ihre Compliance-Anforderungen und Ihre Hardware-Situation. Sie bekommen eine ehrliche Einschätzung — auch wenn die heißt „Cloud ist für Sie billiger".
Discovery Call kostenlos buchen →Related case studies
Sanofi — International Ad Campaign Management.
A complete platform for managing, controlling, and analyzing international advertising campaigns — tailored for the pharmaceutical industry.
Read more →cierraDocument Generator — Create Documents Automatically.
An intelligent document generator: template-based creation of contracts, proposals, and reports with dynamic data sources and PDF export.
Read more →carGO!carGO! — Insurance Platform Fully Digitized.
A complete insurance platform: from contract creation to claims management and damage processing to enterprise dashboard with affiliate system and digital POS.
Read more →