Nach der Veroeffentlichung von DeepSeek V4-Pro am 24. April 2026 stellen deutsche Unternehmen Senior-KI-Inferenz-Ingenieure schneller ein als jemals zuvor. Hier ist der 7-Schritte-Leitfaden, mit dem wir bei Programmier-Anfang Hiring Manager in Berlin, Muenchen und Hamburg in 8-14 Wochen zum Erfolg bringen.
Schritt 1 — Stellen-Scorecard mit V4-Pro-Spezifika erstellen (Woche 1)
Eine generische ML-Engineer-Stellenausschreibung verliert Zeit. Erstellen Sie eine Scorecard mit 8-12 Must-haves:
- vLLM oder TensorRT-LLM Production-Erfahrung.
- GPU-Quantisierung (FP8, INT4) und MoE-Routing-Optimierung.
- NVIDIA Triton oder KServe Deployment auf Kubernetes.
- Capacity Planning auf H100/H200 oder MI300X.
- Latency-Budget Verstaendnis (P50/P95/P99 unter Last).
- Hugging Face Ecosystem (Transformers, Accelerate, PEFT).
- Observability: Prometheus, Grafana, OpenTelemetry fuer LLM Stack.
- Incident Response: On-Call-Disziplin, Post-Mortems.
Schritt 2 — Kanaele in Parallel ansprechen (Wochen 1-2)
Der Kandidatenpool ist klein. Setzen Sie auf 4 Kanaele gleichzeitig:
- LinkedIn mit Boolean fuer "DeepSeek" OR "vLLM" AND "production".
- Hugging Face Top Contributors zu Inference Endpoints.
- ML Berlin Forum und Munich AI Meetup Alumni.
- Ex-Aleph-Alpha, ex-Mistral, ex-DeepMind Berlin Netzwerk.
Durchschnittlicher Kanal-Mix in 2026: 40 Prozent LinkedIn, 25 Prozent Hugging Face, 20 Prozent Meetups, 15 Prozent Empfehlungen.
Schritt 3 — Vorinterview mit Live-Benchmark (Wochen 2-3)
Das Vorinterview filtert 80-90 Prozent der Inbound. Verwenden Sie eine 60-Minuten Live-Coding-Session mit einem realen V4-Pro Inferenz-Setup auf einem H100. Der Kandidat soll:
- Modell-Lade-Zeit von 8 Minuten auf unter 3 Minuten reduzieren.
- P95-Latency-Issue auf einer realen Anfrage diagnostizieren.
- Quantisierungs-Trade-off (FP16 vs FP8) sauber argumentieren.
Wer in 60 Minuten nicht zwei der drei Punkte adressiert, geht nicht ins On-Site. Diese Disziplin spart durchschnittlich 12 Stunden Interview-Zeit pro Loop.
Schritt 4 — On-Site Architektur-Interview (Wochen 4-5)
Das On-Site geht ueber Coding hinaus. Ein 90-Min Architektur-Interview mit folgenden Szenarien:
- Kapazitaetsplanung fuer V4-Pro auf STACKIT mit 2.000 RPM Spitzenlast.
- MoE-Quantisierung fuer Multi-Tenant-Deployment.
- Incident: Modell antwortet pleotzlich mit 500-Fehler bei 0.3 Prozent der Anfragen - was tun?
- EU AI Act Compliance fuer einen produktiven LLM-Stack.
Bewerten Sie Urteilsvermoegen und Risk Awareness, nicht nur Code-Qualitaet.
Schritt 5 — Vergutungs-Paket vorbereiten (Woche 5)
Vor dem On-Site ein vorbereitetes Angebots-Template haben. Komponenten:
- Grundgehalt: 95.000-135.000 EUR fuer Senior IC.
- Zielbonus: 10-20 Prozent.
- Aktien (Scale-ups) oder Sonderzulage (Konzerne).
- Heimburo-Optionen: 100 Prozent oder hybrid.
- GPU-Cluster-Zugang: persoenlicher H100 oder Shared-Quota.
- Sign-on bei Relocation: 25.000-50.000 EUR plus Visum-Logistik.
- Weiterbildungs-Budget: 5.000 EUR pro Jahr fuer Konferenzen.
Vergleich: DIFC Stablecoin-Engineer-Pakete sind cash-aequivalent ca. 25 Prozent hoeher netto wegen Steuer-Effekten.
Sofort-Pool: 14 vorgepruefte V4-Pro-Inferenz-Profile
Wir haben einen kuratierten Pool von Senior-Profilen aus dem DACH-Raum, sofort vorstellbar.
Pool anfragenSchritt 6 — Referenzen telefonisch pruefen (Woche 6)
Telefon-Referenzen, keine schriftlichen. Fragen Sie 2 Ex-Manager nach:
- Operations-Disziplin waehrend Inzidenten.
- Kommunikation unter Stress.
- Compliance-Reflexe bei zweifelhaften Architektur-Entscheidungen.
- Ownership: Eigeninitiative oder Aufgaben abwarten?
Schritt 7 — 90-Tage-Onboarding mit V4-Pro Stack (Wochen 7-14)
Ein Senior-Inferenz-Ingenieur sollte am Tag 75 semi-autonom arbeiten. Plan:
- Tag 1-15: Codebase-Tour, V4-Pro Stack Architektur, On-Call Shadow.
- Tag 16-30: erstes Inzident-Szenario in Simulationsumgebung.
- Tag 31-60: erste Production-Aenderung (kleiner Scope, supervidiert).
- Tag 61-75: erstes Solo-Deployment mit Rollback-Generalprobe.
- Tag 76-90: Review, Kalibrierung, Q3-Ziele.
Diese Onboarding-Kadenz funktioniert auch in Singapur und DIFC — Operations-Disziplin reist gut zwischen Jurisdiktionen.
FAQ
Wie lange dauert die Einstellung in Berlin?
8 bis 14 Wochen vom Kickoff bis zum ersten Arbeitstag. Vorbereitung von Blue-Card-Paket spart 3-5 Wochen bei internationalen Kandidaten.
Was ist eine faire Vergutung?
Senior IC: 95K-135K EUR Grundgehalt plus 10-20 Prozent Bonus plus Aktien oder Sonderzulage. Sign-on Relocation: 25K-50K EUR. Staff: 145K-180K EUR.
Spezialist oder Generalist einstellen?
Bei kleinem Team (bis 6 Personen): Spezialist. Bei groesserem Team mit bestehender Expertise: Generalist mit Lernkurve in 4-6 Monaten.
Was sind die haeufigsten Fehler?
Drei: zu lange Loop (8 Wochen vs Markt-Erwartung 14 Tage), zu wenig praktischer Inhalt im Interview, zu enges Profil das ex-Big-Tech-Kandidaten ausschliesst.
Wir co-piloten Ihren naechsten V4-Pro-Hire
Sourcing, Scorecard, Interviews, Vergutungs-Grid, Onboarding - Festpreis, volle Lieferung in 12 Wochen.
Discovery-Call buchen