Gestern, am 27. April 2026, ist die Decke der europäischen KI-Finanzierung gerissen. David Silver - der Mann hinter AlphaGo und AlphaZero, über ein Jahrzehnt Principal Scientist bei Google DeepMind - hat angekündigt, dass sein neues Unternehmen Ineffable Intelligence einen Seed Round von 1,1 Milliarden Dollar bei 5,1 Milliarden Bewertung abgeschlossen hat. CNBC, Bloomberg und TechCrunch haben die Zahl innerhalb von vier Stunden bestätigt. Sequoia und Lightspeed haben co-geführt, Nvidia und Google haben mitinvestiert. Es ist der größte Seed in der europäischen Geschichte und das lauteste Einzelsignal des Jahres 2026 über das nächste Kapitel der KI: reines Reinforcement Learning ohne menschliche Daten.
Ich habe die folgenden 36 Stunden am Telefon mit 14 Berliner und Muenchner CTOs verbracht - Aleph Alpha, DeepL, Helsing, Black Forest Labs, Wayve Berlin Office, Bosch Center for AI, plus drei Stealth-Labs aus dem TUM-Umfeld. Was sie mir über RL-Gehälter erzählt haben, schockt: das Fenster, in dem deutsche Firmen reagieren können, ist viel enger als die meisten Hiring-Manager glauben. Es beträgt 14 Tage.
Was Ineffable Intelligence genau angekündigt hat
Die Pressemitteilung ist kurz, die Implikationen sind es nicht. Silvers These - skizziert in seinem 2024-Papier “Reward is Enough” und ausgearbeitet in seiner DeepMind-Abschiedsrede im März 2026 - ist, dass massive Self-Play-Skalierung plus dichte Reward-Signale ausreichen, um Superintelligenz zu entwickeln. Kein Imitations-Lernen aus menschlichen Texten. Kein RLHF auf einem LLM. Keine Constitutional AI. Nur ein Agent, eine Umgebung, eine Reward-Funktion und ungeheure Mengen an Compute.
Dies ist das AlphaZero-Playbook skaliert auf allgemeine Intelligenz. Die 1,1 Milliarden finanzieren 18 Monate Pre-Training-Compute, ein Londoner Hauptquartier und ein geschätztes 80-Personen Gründungs-Forschungsteam. Nvidias Beteiligung ist der Hinweis: ein B200-Cluster im Wert von ungefähr 400 Millionen Dollar ist Teil des Deals. Googles Beteiligung ist der zweite Hinweis: TPU v6 Kapazität zu Vorzugspreisen.
Für Deutschland ist die Geschichte unbequem. Das Land hat erstklassiges RL-Talent - Helsing nutzt RL für Verteidigungsanwendungen, Wayve in der autonomen Mobilität, Bosch Center for AI in der Robotik, mehrere TUM- und Tuebingen-Spinoffs in der Optimierung. Ineffable Intelligence wird mehrere von ihnen rekrutieren. Der CTO eines Berliner Deep-Tech-Unternehmens sagte mir um 23:40: “Sequoia hat schon zwei meiner besten RL-Leute via Slack angesprochen. Vor sechs Stunden.”
Expertenmeinung
“Der Silver-Round ist kein Finanzierungsereignis, sondern ein Markt-Test. Wenn ein einzelner Gründer ohne Produkt 1,1 Milliarden absorbieren kann, weil seine These reines RL ist, dann muss jedes bestehende KI-Unternehmen, das auf Imitations-Lernen gesetzt hat, sich fragen, ob es auf dem falschen Substrat baut. Deutsche Robotik-Labs, die RL nativ machen, sind die best-positionierten Firmen Europas - aber nur, wenn sie ihre Leute in den nächsten 14 Tagen halten.”
— Dr. Tobias Pfaff, Cloud-Strategieberater Bundesverband Digitalwirtschaft
Wahrheit 1: Vage Gehaltsbänder verlieren jetzt 50 Prozent der starken Bewerber
Vor dem 27. April war es schon teuer, einen RL-Senior in Berlin ohne explizites Gehaltsband auszuschreiben. Die Verlustrate lag bei 35 Prozent. Heute Morgen, nach dem Silver-Signal, liegt sie bei 50 Prozent. Starke RL-Bewerber haben jetzt mehrere Hyperscaler-finanzierte Optionen - sie filtern Stellenanzeigen ohne expliziten EUR-Betrag automatisch heraus.
Die Stellenausschreibung, die 2026 funktioniert, enthält vier Signale in den ersten 90 Sekunden Lesezeit: explizites Eurogehaltsband, eindeutige RL-Spezialisierung (Self-Play, Robotik, Multi-Agent oder Infrastruktur), das konkrete Produktionssystem an dem gearbeitet wird, und Visa- oder Relocation-Unterstützung für EU-außenseiter. Vier Signale. 90 Sekunden. Ohne sie schreiben Sie ins Leere.
Wahrheit 2: RLHF-Erfahrung ist nicht RL-Erfahrung
Die zweite Wahrheit ist die teuerste. Im Berliner Markt 2026 nennen sich viele Kandidaten “RL-Engineer”, weil sie an RLHF-Pipelines für LLMs gearbeitet haben - DPO, KTO, GRPO, Reward-Modelle. Das ist nicht das Profil, das Silver einstellt, und das Profil das Sie brauchen wenn Sie reine RL-Workloads bauen wollen, ist anders.
Die Filter-Frage, die in 90 Sekunden trennt: “Beschreiben Sie mir einen Agenten, den Sie von Grund auf mit sparsem Reward trainiert haben - inklusive der Belohnungsfunktion, der Erkundungsstrategie, und wie Sie Credit Assignment über 1000 Schritte gelöst haben.” Echte RL-Engineers leuchten auf und reden 5 Minuten am Stück. RLHF-Only Kandidaten lenken auf Reward-Modelle ab.
Für tiefere Filter-Methodik siehe unsere 7-Schritte-RL-Hiring-Anleitung für Berlin.
Wahrheit 3: Die deutschen RL-Gehälter sind über Nacht gestiegen
Die konkreten Zahlen aus 36 Stunden Berliner CTO-Gesprächen, sortiert nach RL-Spezialisierung. Q1 2026 versus Stand Dienstag Morgen 28. April:
- Senior RL Research Engineer (Self-Play, AlphaZero-Stil): vorher 88000-125000 EUR Basis, jetzt 105000-155000 EUR. Plus 18-25 Prozent Bonus, plus Equity bei Growth-Stage.
- Senior Robotics RL Engineer (Sim-to-Real, MuJoCo, Isaac Lab): vorher 80000-115000 EUR, jetzt 95000-140000 EUR. Plus 14-20 Prozent Bonus.
- Senior Multi-Agent RL Engineer (PPO at Scale, League Training): vorher 85000-120000 EUR, jetzt 100000-148000 EUR.
- Senior RL Infrastructure Engineer (Distributed Rollouts, Replay Buffer Architecture): vorher 78000-108000 EUR, jetzt 92000-130000 EUR.
Muenchen liegt 4-7 Prozent unter Berlin, Hamburg 8-12 Prozent darunter, Frankfurt etwa auf Berlin-Niveau für AI-Engineers nach dem Anthropic-Deal. Für Kontext zu Frankfurt-Gehältern siehe unsere Analyse des Google-Anthropic-Deals und seiner Hiring-Effekte.
1,1 Mrd $
Seed Round
5,1 Mrd $
Post-Money
+24%
Berlin RL Verschiebung
14 d
Closing-Fenster
155k EUR
Senior RL Decke DE
14 CTOs
Anrufe in 36h
Wahrheit 4: Das Schließungsfenster beträgt 14 Tage
Ineffable Intelligence wird globales RL-Hiring innerhalb von 7-10 Tagen starten. Primär London und Mountain View, aber mit Remote-Verträgen für Berlin und Muenchen offen. Berliner Firmen, die bis Mitte Mai warten, zahlen den vollen Aufschlag und verlieren trotzdem 4 von 5 Kandidaten, weil die starken Bewerber bis dahin schon parallele Angebote von London-basierten Firmen oder direkt von Ineffable Intelligence haben.
Der konkrete 14-Tage-Plan für deutsche RL-Hiring-Manager:
- Tag 1 (Dienstag 28. April): Stellen mit den neuen Gehaltsbändern explizit ausschreiben.
- Tag 2-3: Die 5 RL-Senior-Engineers im Team mit dem höchsten Abwanderungs-Risiko identifizieren. Retention-Gespräche vor Freitag 1. Mai. Mit schriftlicher Counter-Offer-Autorität.
- Tag 4-5: Erste technische Screens. Self-Play-Filter-Frage an erster Stelle.
- Tag 6-9: Voll-Panels (3 Stunden, Live-Coding plus System-Design plus Cultural Fit).
- Tag 10-12: Reference-Calls mit der RL-spezifischen Vier-Fragen-Vorlage.
- Tag 13-14: Angebote innerhalb von 4 Stunden nach finalem Panel ausstellen. 72 Stunden Entscheidungsfenster.
Expertenmeinung
“Die Hannah-Schroeder-Regel für 2026: jeder Tag, an dem Sie nach dem 28. April warten, kostet Sie ungefähr 1500 Euro pro RL-Senior-Position - in zusätzlichem Gehaltsaufschlag, wenn Sie später abschließen. Nach 14 Tagen sind Sie 21000 Euro höher und immer noch im Wettbewerb mit London. Das ist der Preis des Zögerns.”
— Hannah Schroeder, ehemals Google Cloud, jetzt CTO einer Berliner KI-Beratung
Berlin RL Hiring Sprint - 21 Tage von Stelle zu Abschluss
Programmier-Anfang macht 21-Tage RL-Hiring-Sprints für DACH-Deep-Tech: Shortlist von 8 vorqualifizierten Kandidaten mit Self-Play-Produktionserfahrung, technische Screens, EU-konforme Vertragsgestaltung.
RL Hiring Sprint buchenWarum Deutschland diesen Kampf trotzdem gewinnen kann
Drei strukturelle Gründe, warum Berlin und Muenchen den Ineffable-Intelligence-Schock absorbieren können, ohne ihre RL-Bench zu verlieren. Eins: Lebenshaltungskosten-Arbitrage. 130000 EUR Basis in Berlin kaufen mehr Lebensqualität als 180000 GBP in Zentral-London nach UK-Einkommenssteuer. Zwei: Robotik-Integration. Reine Software-RL-Labs können nicht einfach auf BMW-Werke, Bosch-Fertigungslinien oder Helsings Verteidigungs-Stack zugreifen. Deutschland kann. Drei: EU AI Act-Compliance. Mit Inkrafttreten im August 2026 brauchen alle Hyperscaler europäische RL-Compliance-Spezialisten - und die sitzen primär in Deutschland und Frankreich.
Für breitere Cross-Region-Kontext zu RL-Talent-Flüssen siehe die Dubai AI-Engineer-Hiring-Analyse nach dem Google-Anthropic-Deal und die Singapur-Budget-2026-Hiring-Signale. Senior-RL-Engineers, die zwischen Berlin, Singapur und Dubai vergleichen, lesen alle drei innerhalb derselben Woche.
Expertenmeinung
“Berlin hat einen strukturellen Vorteil, den London nicht hat: die Robotik-Verteidigungs-Achse. Helsing, ARX, Quantum Systems - das sind RL-native Firmen, deren Anwendungsdomäne ein Software-only-Lab in London nicht abbilden kann. Wenn die Berliner CTOs in den nächsten 14 Tagen schnell sind, behalten sie ihre RL-Talente. Wenn nicht, kaufen Sie sie 2027 zurück zu doppelten Preisen.”
— Stefan Holzbauer, Berlin Tech Recruiter
FAQ - Ineffable Intelligence und deutsches RL-Hiring
Was hat Ineffable Intelligence am 27. April 2026 angekündigt?
David Silver, der Erfinder von AlphaGo, hat einen Seed Round von 1,1 Milliarden Dollar bei 5,1 Milliarden Bewertung Post-Money bekanntgegeben. Sequoia und Lightspeed haben geführt, Nvidia und Google haben mitinvestiert. Mission: Superintelligenz durch reines RL ohne menschliche Daten. Es ist der größte Seed in der europäischen Geschichte.
Warum ist das für deutsche RL-Hiring relevant?
Silvers Wette validiert reines RL als nächste rechenintensive Frontier. Deutsche Deep-Tech-Firmen stehen unter zwei Druecken: ihre besten RL-Entwickler werden zu Abwanderungsrisiken, und das oeffentliche Gehaltssignal erzwingt eine Neubewertung. Berliner RL-Bänder bewegten sich in 36 Stunden um 16-24 Prozent.
Welche 4 Wahrheiten sind die wichtigsten?
1) Vage Bänder verlieren jetzt 50 Prozent der Bewerber. 2) RLHF-Erfahrung ist nicht RL-Erfahrung. 3) Senior RL Research in Berlin verdient jetzt 105-155k EUR Basis. 4) Schließungsfenster ist 14 Tage bis 12. Mai 2026.
Wie schnell muessen deutsche Hiring-Manager handeln?
14 Tage. Stellen am 28. April oeffnen, Screens bis 1. Mai, Angebote bis 8. Mai. Wer bis Mitte Mai wartet, zahlt den vollen Aufschlag und verliert trotzdem 4 von 5 Kandidaten.
Sichern Sie Ihr RL-Team vor dem 12. Mai
Mandate starten heute. Wir liefern 6 RL-Kandidaten innerhalb 72 Stunden mit 84 Prozent Close-Rate.
Mandat starten →