On-Premise KI · DSGVO-First · Keine US-Cloud

KI im eigenen Haus. Keine OpenAI. Keine US-Server. Keine Kompromisse.

Wir installieren leistungsfähige Sprach-, Vision- und RAG-Modelle direkt auf Ihrer Hardware oder in Ihrem deutschen Rechenzentrum. Llama 3, Mistral, Qwen — gehärtet, gemonitort, gewartet. Volle Datenhoheit, AI-Act-konform, keine externe API.

Kostenloses Discovery Call buchen →

✓ 100 % On-Premise oder Private Cloud DE
✓ DSGVO + EU AI Act konform
✓ Llama 3 70B, Mistral, Qwen, eigene Fine-Tunes

0externe API-Calls

DERechtsraum & Server

AI Actkonform by design

70B+Llama / Mistral Modelle

Das Problem

Warum Mittelständler, Behörden und Healthcare KI nicht in die US-Cloud werfen können.

Schrems II / III

Datentransfer in die USA ist juristisch hochriskant. Ein AVV reicht nicht.

EU AI Act

Ab 2026 strikte Anforderungen für High-Risk-Systeme — Logging, Auditierbarkeit, Erklärbarkeit. SaaS-Black-Boxes erfüllen das nicht.

Geschäftsgeheimnisse

Wer Konstruktionspläne, Patientenakten oder Mandantendaten in OpenAI-Prompts wirft, hat sie verloren.

Vendor Lock-In

OpenAI-Preise verdoppeln sich? API-Outage? Compliance-Änderung? Sie hängen fest.

Drei Deployment-Optionen

Sie entscheiden, wo die KI läuft.

Bare-Metal On-Prem

Llama 3 70B oder Mistral Large auf Ihrer GPU-Hardware. Vollständig isoliert, kein Internet erforderlich.

Wann sinnvoll: Kritische Daten · Healthcare · Verteidigung · Finance

Private Cloud DE

Dedicated GPU-Instanz in deutschem Rechenzentrum, nur Sie haben Zugriff. Single-Tenant, keine geteilten Ressourcen.

Wann sinnvoll: Mittelstand ohne eigene GPU-Server, aber mit DSGVO-Anforderungen

Hybrid

Sensible Daten on-prem, generische Anfragen in der Private Cloud. Intelligentes Routing über uns.

Wann sinnvoll: Mischbetrieb, Best-of-Both-Worlds

Was Sie konkret bekommen

Hardware-Sizing & Empfehlung (oder bestehende Hardware nutzen)
Modell-Auswahl & Fine-Tuning auf Ihre Daten
OpenAI-kompatibler API-Layer (Ihre Apps merken keinen Unterschied)
Monitoring, Logging, Audit-Trails
Wartung & Update-Pipeline

Aus der Praxis

Wer schon mit On-Premise KI arbeitet.

Klinik (5.000 MA): RAG auf Patientenakten

Llama 3 70B on-prem, 2× H100-GPUs. Ärzte sparen 40 % Anamnese-Zeit. Daten verlassen nie die Klinik.

Anwaltskanzlei (Top 50 DACH): Akten-Suche

Mistral Large in Private Cloud Frankfurt. 60 % schnellere Recherche, Mandantengeheimnis bleibt gewahrt.

Industriekonzern: Engineering-Chatbot

Custom Fine-Tune auf Llama 3 70B mit 30 Jahren Konstruktionsdaten. 23 % weniger Stillstände, Know-how bleibt im Haus.

Versicherung: Schadensanalyse

On-Premise-Modell mit Vertragsverständnis und Rechtswissen. Erst-Evaluationen in Sekunden, vollständig auditierbar.

Hardware-Referenz · Stand 2026

Was Sie für welche Use-Cases brauchen.

Use-Case	Empfohlene Hardware	Investitionsrahmen
Internes Wiki + RAG (50-100 User)	1× NVIDIA L40S 48GB oder Mac Studio M3 Ultra	€8.000 – €15.000
Voice-Agent + Chat (200-500 User)	1× H100 80GB oder 2× A100 80GB	€25.000 – €40.000
Klinik / Konzern RAG + Vision (1k+ User)	2-4× H100 oder MI300X Cluster	€80.000 – €250.000

Plus Implementierungs-Aufwand: typisch €15-50k je nach Komplexität.
Alternative: Private-Cloud-Setup ab €1.200/Monat (keine CapEx).

Was uns unterscheidet

Drei Gründe, warum Sie uns Cloud-AI-Anbietern vorziehen.

Wir sind Hardware-affin, nicht nur API-Wrapper.

Wir kennen H100 vs. H200 vs. MI300, vLLM vs. TGI, ROCm vs. CUDA. Wir helfen beim Hardware-Kauf oder konfigurieren Ihre bestehende Infrastruktur — wir liefern nicht nur Software, wir liefern den Stack.

Wir öffnen die Blackbox.

Sie bekommen die Modell-Gewichte. Sie bekommen den Code. Sie bekommen das Know-how, das System selbst zu betreiben — oder Sie lassen uns das übernehmen. Ihre Wahl, jederzeit revidierbar.

Wir sind keine US-Tochter.

Cierra ist eine deutsche GmbH mit Sitz in Göttingen. Wir unterliegen ausschließlich deutschem Recht. Der CLOUD Act betrifft uns nicht — und damit auch nicht Ihre Daten.

FAQ

Häufige Fragen zu On-Premise KI.

Sind Open-Source-Modelle wirklich gut genug?

Llama 3.3 70B und Mistral Large schlagen GPT-3.5 in den meisten B2B-Benchmarks und liegen nahe an GPT-4 für viele konkrete Use-Cases. Für die meisten Mittelstands-Anwendungen mehr als ausreichend. Wir benchmarken Ihren konkreten Use-Case im Discovery Call — mit echten Daten, nicht mit Hype.

Was ist mit Updates? Open Source bleibt doch zurück?

Wir liefern eine Update-Pipeline. Neue Modell-Versionen werden getestet, validiert und ausgerollt. Sie sind immer auf dem aktuellen Stand — ohne Vendor-Risk.

Können wir bestehende GPU-Server nutzen?

Ja. Wir prüfen Ihre Hardware und sagen, was geht. Oft ist mehr möglich als Sie denken — auch ältere A100-Setups laufen noch für viele Workloads.

Was kostet der laufende Betrieb?

Strom + Wartung. Bei einer H100-Workstation typisch €150-400/Monat Strom. Wartung als Festpreis oder pay-per-call. Keine API-Kosten, keine Token-Abrechnung, keine bösen Überraschungen am Monatsende.

Wie lange dauert die Implementierung?

Discovery → 1 Woche. Hardware-Beschaffung → 2-6 Wochen. Setup + Integration → 3-6 Wochen. Gesamt: 6-12 Wochen je nach Komplexität.

Funktioniert das mit unseren bestehenden Apps?

Ja. Wir liefern einen OpenAI-kompatiblen API-Layer. Ihre existierenden Tools (ChatGPT-Plugins, Custom-Apps, Workflows) funktionieren unverändert — sie sprechen jetzt nur mit Ihrem eigenen Server statt mit OpenAI.

Was passiert wenn cierra mal nicht mehr ist?

Sie haben die Modell-Gewichte, den Code und die Doku. Ihr System läuft weiter, auch ohne uns. Wir liefern Open-Source-Software auf Open-Source-Modellen — keine Black Box, kein Vendor Lock-In.

Sprechen wir 20 Minuten — danach wissen Sie, ob On-Prem für Sie geht.

Wir analysieren Ihren Use-Case, Ihre Compliance-Anforderungen und Ihre Hardware-Situation. Sie bekommen eine ehrliche Einschätzung — auch wenn die heißt „Cloud ist für Sie billiger".

Discovery Call kostenlos buchen →

Related case studies

Sanofi