Mistral Medium 3.5 ist technisch eines der staerksten Modelle des Fruehjahrs 2026 — 128B dense Parameter, 256k Kontext, 77.6 Prozent auf SWE-Bench Verified. Fuer deutsche Unternehmen, die Datensouveraenitaet und DSGVO-Konformitaet ernst nehmen, ist Self-Hosting die einzige Option, die volle Kontrolle ueber Daten und Inferenz garantiert. Aber der Weg dorthin ist komplexer als bei einem Docker-Pull.
In diesem Leitfaden fuehre ich Sie durch die 7 Schritte, die ein deutsches Unternehmen vom Entschluss bis zum produktiven Self-Hosted-Betrieb braucht. Jeder Schritt enthaelt konkrete Empfehlungen fuer deutsche Staedte, Anbieter und Gehaltsbaender — kein theoretisches Whitepaper, sondern ein operativer Fahrplan.
Schritt 1 — Modified MIT Lizenz pruefen und dokumentieren (Tag 1-5)
Bevor Sie einen einzigen Euro in GPU-Hardware investieren, muss die Lizenzfrage geklaert sein. Mistral Medium 3.5 steht unter einer Modified MIT License mit Revenue-Carve-out — kein Apache 2.0, kein klassisches Open Source. Fuer eine detaillierte Analyse der Lizenz-Implikationen empfehlen wir unseren Artikel zur Modified MIT Lizenz.
Konkret brauchen Sie in den ersten 5 Tagen:
- Rechtsabteilung einbinden: Termin mit einem Juristen, der Open-Source-Lizenzen im KI-Kontext kennt. In Berlin empfehlen wir Kanzleien wie Osborne Clarke oder CMS, in Muenchen Noerr oder Hogan Lovells.
- Revenue-Schwelle ermitteln: Direkte Anfrage an Mistrals Enterprise-Team, ob Ihr Unternehmen unter oder ueber der Schwelle liegt.
- Lizenz-Dokumentation erstellen: Ein internes Dokument, das die Lizenz, die Einschaetzung der Rechtsabteilung und die Entscheidung (frei oder kommerziell) festhalt. Diese Dokumentation wird spaeter fuer NIS2 benoetigt.
Ein Stuttgarter Industrieunternehmen, mit dem wir zusammenarbeiten, hat diese Pruefung in 3 Werktagen abgeschlossen — mit einem vorbereiteten Template und einem bereits bekannten Anwalt. Ohne Vorbereitung dauert es 2-3 Wochen.
Schritt 2 — GPU-Infrastruktur in Deutschland beschaffen (Tag 3-14)
Mistral Medium 3.5 hat 128B dense Parameter. In FP16 benoetigt das Modell ca. 256 GB GPU-Speicher. Die Hardware-Optionen fuer deutsche Unternehmen:
- 4x NVIDIA H100 (80 GB): Gesamt 320 GB, genuegend Headroom fuer KV-Cache und Batch-Processing. Verfuegbar bei STACKIT (Heilbronn), IONOS (Frankfurt), Hetzner (Falkenstein).
- 3x NVIDIA H200 (141 GB): Gesamt 423 GB, mehr Speicher pro Karte, weniger Karten. Ab Q2 2026 bei STACKIT und OVHcloud Frankfurt verfuegbar.
- 2x H100 mit FP8-Quantisierung: Speicherbedarf sinkt auf ca. 128 GB, passt auf 2 Karten. Leichter Qualitaetsverlust (ca. 1-2 Prozent auf Benchmarks), aber deutlich guenstiger.
- On-Premise: Eigene Server mit H100/H200. Lieferzeit 6-12 Wochen bei NVIDIA-Partnern wie Thomas Krenn (Muenchen) oder Bechtle (Stuttgart). Einmalinvestition 120.000-200.000 EUR fuer 4x H100.
Empfehlung fuer Berliner Startups: Hetzner bietet das beste Preis-Leistungs-Verhaeltnis fuer GPU-Compute in Deutschland. Fuer Muenchner Industrieunternehmen mit Compliance-Anforderungen ist STACKIT (Teil der Schwarz-Gruppe, Lidl/Kaufland) die souveraenste Option. Hamburger Unternehmen im Logistik- und Handelsbereich waehlen haeufig IONOS wegen der Naehe zum Frankfurter Rechenzentrum.
Schritt 3 — DSGVO-konforme Deployment-Architektur entwerfen (Tag 5-10)
Self-Hosting loest das DSGVO-Problem nur, wenn die Architektur stimmt. Die zentralen Anforderungen:
- Server-Standort: Nur Deutschland oder EU. Keine US-Cloud-Regionen, auch nicht fuer Backups oder Logs.
- Verschluesselung: TLS 1.3 fuer alle API-Aufrufe, AES-256 fuer gespeicherte Daten, verschluesselte GPU-Kommunikation bei Multi-Node-Setups.
- Zugriffskontrolle: RBAC (Role-Based Access Control) mit SSO-Integration. Kein direkter SSH-Zugang zu GPU-Nodes fuer Endnutzer.
- Protokollierung: Alle Anfragen und Antworten loggen (ohne personenbezogene Inhalte), Aufbewahrung gemaess interner Policy (typisch 90 Tage).
- Verarbeitungsverzeichnis: Art. 30 DSGVO erfordert die Dokumentation aller Verarbeitungstaetigkeiten. Das LLM-Inferenz-System ist eine Verarbeitungstaetigkeit.
Ein Berliner Fintech, das wir beraten, hat diese Architektur als Kubernetes-Cluster auf IONOS Frankfurt implementiert: 4x H100 Nodes, Istio Service Mesh fuer mTLS, Keycloak fuer RBAC, und ein dedizierter Logging-Node mit Elasticsearch. Gesamtkosten Infrastruktur: ca. 18.000 EUR pro Monat inklusive Netzwerk und Storage.
Schritt 4 — vLLM oder TensorRT-LLM Inferenz-Stack aufsetzen (Tag 8-14)
Der Inferenz-Stack ist das Herzstueck des Self-Hosting. Die zwei dominanten Frameworks fuer LLM-Inference in 2026 sind vLLM (Open Source, Python-basiert, breite Community) und TensorRT-LLM (NVIDIA, maximale Performance auf NVIDIA-Hardware, komplexere Einrichtung).
Fuer Mistral Medium 3.5 empfehlen wir:
- vLLM fuer Teams mit Python-Staerke und schneller Iteration. Setup in 1-2 Tagen, Community-Support, breite Modell-Kompatibilitaet.
- TensorRT-LLM fuer maximale Durchsatzoptimierung. 2-4 Tage Setup, 15-30 Prozent besserer Durchsatz als vLLM bei gleicher Hardware, aber komplexeres Debugging.
Unabhaengig vom Framework brauchen Sie folgende Konfigurationen:
- Modell-Download: Gewichte von Hugging Face herunterladen (ca. 250 GB). In Stuttgarter Rechenzentren mit 10 Gbit/s Anbindung dauert das ca. 30-45 Minuten.
- Quantisierung: FP8 reduziert den Speicherbedarf um 50 Prozent bei ca. 1-2 Prozent Qualitaetsverlust. Fuer die meisten Enterprise-Use-Cases akzeptabel.
- Serving-Layer: HTTP/gRPC-API mit Health Checks, Rate Limiting, und API-Key-Authentifizierung. vLLM bringt einen eingebauten OpenAI-kompatiblen Server mit.
- Batch-Processing: Continuous Batching aktivieren fuer maximale GPU-Auslastung. Bei 4x H100 und FP8 erreichen Sie ca. 800-1.200 Tokens pro Sekunde.
"Wir haben in Hamburg vLLM mit FP8-Quantisierung auf 2x H100 deployt. Setup hat 2 Tage gedauert, inklusive Health Checks und Load Testing. Die P95-Latenz liegt bei 180ms fuer 500-Token-Anfragen — voellig ausreichend fuer unsere internen Use-Cases." — Anna Berger, Cloud-Infrastruktur-Spezialistin
Schritt 5 — Monitoring und Observability einrichten (Tag 10-14)
Ein Self-Hosted-LLM ohne Monitoring ist ein blindes Deployment. Die vier Metriken, die Sie ab Tag 1 messen muessen:
- Latenz (P50, P95, P99): Wie schnell antwortet das Modell? Ziel fuer interaktive Use-Cases: P95 unter 300ms fuer 500-Token-Anfragen.
- Durchsatz (Tokens pro Sekunde, Anfragen pro Minute): Wie viel Last kann das System verarbeiten? Wichtig fuer Kapazitaetsplanung.
- GPU-Auslastung: Soll dauerhaft bei 70-85 Prozent liegen. Unter 50 Prozent ist die Hardware unterdimensioniert (verschwendetes Budget). Ueber 90 Prozent drohen Latenz-Spitzen.
- Kosten pro Anfrage: GPU-Kosten dividiert durch Anfragen. Vergleich mit Mistral-API-Preis als Benchmark.
Tech-Stack fuer Monitoring: Prometheus fuer Metriken, Grafana fuer Dashboards, OpenTelemetry fuer Traces. Ein Muenchner Automobilzulieferer, den wir betreuen, hat zusaetzlich Alertmanager mit PagerDuty-Integration fuer On-Call-Benachrichtigungen eingerichtet — bei GPU-Auslastung ueber 95 Prozent oder Latenz-Spitzen ueber 500ms wird automatisch alarmiert.
Schritt 6 — NIS2-Dokumentation und Sicherheits-Haertung (Tag 12-18)
Fuer NIS2-pflichtige Unternehmen (ca. 30.000 in Deutschland) ist die Dokumentation des Self-Hosted-LLM-Stacks Pflicht. Die Mindestanforderungen:
- Supply-Chain-Dokumentation: Woher kommt das Modell (Mistral, Frankreich)? Welche Lizenz? Welche Abhaengigkeiten (vLLM, PyTorch, CUDA)? SBOM (Software Bill of Materials) fuer den gesamten Stack.
- Zugriffsprotokollierung: Wer hat wann auf das System zugegriffen? Audit-Logs mit mindestens 6 Monaten Aufbewahrung.
- Incident-Response-Plan: Was passiert bei einem Sicherheitsvorfall? Wer wird benachrichtigt? Wie wird das System isoliert? Meldepflicht an BSI innerhalb von 24 Stunden bei kritischen Vorfaellen.
- Patch-Management: Wie werden Sicherheits-Updates fuer vLLM, PyTorch, CUDA eingespielt? Automatische CVE-Ueberwachung einrichten.
Fuer eine vollstaendige NIS2-Checkliste fuer Entwicklerteams verweisen wir auf unseren 7-Schritte-Leitfaden zur NIS2-Konformitaet.
Sicherheits-Haertung in der Praxis: Ein Hamburger Logistikunternehmen hat seinen Mistral-Stack mit Network Policies in Kubernetes isoliert (kein Egress ausser zu internen Services), Pod Security Standards auf "restricted" gesetzt, und einen woechentlichen Trivy-Scan fuer Container-Schwachstellen eingerichtet. Aufwand: 3 Tage fuer einen erfahrenen DevSecOps-Ingenieur.
Schritt 7 — Team aufbauen und Betrieb skalieren (ab Tag 14)
Self-Hosting ist kein einmaliges Setup — es ist ein laufender Betrieb. Die drei Rollen, die Sie langfristig brauchen:
1. Inferenz-Ingenieur (Senior IC): Verantwortlich fuer Modell-Performance, Quantisierung, Throughput-Optimierung. Gehaltsband Berlin: 95K-135K EUR. Muenchen: 100K-140K EUR (Lebenshaltungskosten-Aufschlag). Sourcing: ex-Aleph-Alpha, Hugging Face Contributors, DeepMind Berlin Alumni.
2. MLOps-Engineer: Kubernetes, CI/CD fuer Modell-Updates, Monitoring, On-Call. Gehaltsband Stuttgart: 85K-120K EUR. Hamburg: 80K-115K EUR. Sourcing: DevOps-Engineers mit Kubernetes-Erfahrung, die in den KI-Bereich wechseln wollen.
3. KI-Compliance-Rolle (Teilzeit oder Vollzeit): NIS2-Dokumentation, DSGVO-Verarbeitungsverzeichnis, Lizenz-Monitoring. Kann bei kleineren Teams vom CTO oder Legal Counsel uebernommen werden. Ab 50+ Mitarbeitern empfehlen wir eine dedizierte Rolle. Gehaltsband: 85K-120K EUR.
On-Call-Rotation: Bei einem Self-Hosted-LLM brauchen Sie mindestens 2 Personen in der On-Call-Rotation. Ein Single Point of Failure (nur ein Ingenieur kennt den Stack) ist das groesste Risiko fuer den Betrieb. In Berliner Startups sehen wir haeufig den Fehler, dass der Gruender selbst On-Call macht — das skaliert nicht ueber 6 Monate hinaus.
Inferenz-Team fuer Ihr Mistral Self-Hosting?
Wir vermitteln vorgepruefte Senior-Inferenz-Ingenieure und MLOps-Engineers aus dem DACH-Raum — sofort verfuegbar fuer Ihren Self-Hosted-Stack.
Pool anfragenKostenvergleich: Self-Hosting vs. Mistral API
Die zentrale Frage fuer deutsche CFOs: Wann lohnt sich Self-Hosting gegenueber der Mistral API?
- Unter 50.000 Anfragen pro Tag: Die Mistral API ist guenstiger. Keine Hardware-Kosten, kein Wartungsaufwand, kein On-Call.
- 50.000-200.000 Anfragen pro Tag: Break-Even-Zone. Self-Hosting lohnt sich, wenn Sie bereits GPU-Infrastruktur und ein erfahrenes Team haben.
- Ueber 200.000 Anfragen pro Tag: Self-Hosting ist deutlich guenstiger — bei 500.000 Anfragen pro Tag sparen Sie ca. 40-60 Prozent gegenueber der API.
Achtung: Diese Rechnung beruecksichtigt nur die direkten Kosten. Die indirekten Kosten (Personal, Ausfallrisiko, Compliance-Aufwand) sind bei Self-Hosting hoeher. Fuer NIS2-pflichtige Unternehmen, die ohnehin Compliance-Dokumentation erstellen muessen, relativiert sich dieser Nachteil.
FAQ
Was kostet das Self-Hosting von Mistral Medium 3.5 in Deutschland?
Minimum 12.000-18.000 EUR pro Monat fuer 4x H100 bei deutschen Cloud-Anbietern. Dazu Personal, Netzwerk, Storage. Bei hoher Auslastung (200.000+ Anfragen/Tag) guenstiger als die Mistral API.
Brauche ich eine kommerzielle Lizenz von Mistral?
Abhaengig vom Umsatz. Modified MIT License hat Revenue-Carve-out. Rechtsabteilung einbinden, bei Mistral anfragen, Ergebnis dokumentieren.
Ist Self-Hosting DSGVO-konform?
Ja, wenn der Server in Deutschland oder der EU steht, Verschluesselung aktiv ist, Zugriffskontrolle implementiert ist und ein Verarbeitungsverzeichnis gemaess Art. 30 DSGVO gefuehrt wird.
Welche GPU-Hardware brauche ich?
Minimum 4x H100 (FP16) oder 2x H100 (FP8). Fuer Produktion mit niedriger Latenz: 4x H100 oder 2x H200 mit NVLink.
Wie lange dauert die Einrichtung?
2-4 Wochen mit erfahrenem Team. Engpaesse: GPU-Beschaffung (1-3 Wochen Cloud, 6-12 Wochen On-Premise) und Lizenzpruefung (1-2 Wochen).
Self-Hosting-Beratung in 30 Minuten
Wir besprechen Ihren Use-Case, die optimale Hardware-Konfiguration und die Lizenzfrage — kostenlos und unverbindlich.
Discovery-Call buchen