programmier-anfang()

Ineffable Intelligence 1,1 Milliarden Seed am 27. April 2026 - 4 Wahrheiten, die deutsche KI-Startups jetzt ihre RL-Entwickler kosten

Ineffable Intelligence 1,1 Milliarden Seed deutsche RL-Entwickler einstellen
Stefan Holzbauer

Stefan Holzbauer

Berlin Tech Recruiter · 28. April 2026 · 12 Min. Lesezeit

TL;DR

  • • Am 27. April 2026: David Silver (AlphaGo-Erfinder) sammelt 1,1 Milliarden Dollar Seed bei 5,1 Milliarden Bewertung ein. Sequoia, Lightspeed, Nvidia, Google. Größter Seed Europas.
  • • Mission: Superintelligenz durch reines RL - keine menschlichen Daten. Self-Play und Reward-Signale.
  • • Ich habe in 36 Stunden 14 Berliner CTOs befragt. RL-Gehälter sind über Nacht 16 bis 24 Prozent gestiegen.
  • • Schließungsfenster: 14 Tage bis zum 12. Mai 2026. Danach härtet sich der Aufschlag.

Gestern, am 27. April 2026, ist die Decke der europäischen KI-Finanzierung gerissen. David Silver - der Mann hinter AlphaGo und AlphaZero, über ein Jahrzehnt Principal Scientist bei Google DeepMind - hat angekündigt, dass sein neues Unternehmen Ineffable Intelligence einen Seed Round von 1,1 Milliarden Dollar bei 5,1 Milliarden Bewertung abgeschlossen hat. CNBC, Bloomberg und TechCrunch haben die Zahl innerhalb von vier Stunden bestätigt. Sequoia und Lightspeed haben co-geführt, Nvidia und Google haben mitinvestiert. Es ist der größte Seed in der europäischen Geschichte und das lauteste Einzelsignal des Jahres 2026 über das nächste Kapitel der KI: reines Reinforcement Learning ohne menschliche Daten.

Ich habe die folgenden 36 Stunden am Telefon mit 14 Berliner und Muenchner CTOs verbracht - Aleph Alpha, DeepL, Helsing, Black Forest Labs, Wayve Berlin Office, Bosch Center for AI, plus drei Stealth-Labs aus dem TUM-Umfeld. Was sie mir über RL-Gehälter erzählt haben, schockt: das Fenster, in dem deutsche Firmen reagieren können, ist viel enger als die meisten Hiring-Manager glauben. Es beträgt 14 Tage.

Was Ineffable Intelligence genau angekündigt hat

Die Pressemitteilung ist kurz, die Implikationen sind es nicht. Silvers These - skizziert in seinem 2024-Papier “Reward is Enough” und ausgearbeitet in seiner DeepMind-Abschiedsrede im März 2026 - ist, dass massive Self-Play-Skalierung plus dichte Reward-Signale ausreichen, um Superintelligenz zu entwickeln. Kein Imitations-Lernen aus menschlichen Texten. Kein RLHF auf einem LLM. Keine Constitutional AI. Nur ein Agent, eine Umgebung, eine Reward-Funktion und ungeheure Mengen an Compute.

Dies ist das AlphaZero-Playbook skaliert auf allgemeine Intelligenz. Die 1,1 Milliarden finanzieren 18 Monate Pre-Training-Compute, ein Londoner Hauptquartier und ein geschätztes 80-Personen Gründungs-Forschungsteam. Nvidias Beteiligung ist der Hinweis: ein B200-Cluster im Wert von ungefähr 400 Millionen Dollar ist Teil des Deals. Googles Beteiligung ist der zweite Hinweis: TPU v6 Kapazität zu Vorzugspreisen.

Für Deutschland ist die Geschichte unbequem. Das Land hat erstklassiges RL-Talent - Helsing nutzt RL für Verteidigungsanwendungen, Wayve in der autonomen Mobilität, Bosch Center for AI in der Robotik, mehrere TUM- und Tuebingen-Spinoffs in der Optimierung. Ineffable Intelligence wird mehrere von ihnen rekrutieren. Der CTO eines Berliner Deep-Tech-Unternehmens sagte mir um 23:40: “Sequoia hat schon zwei meiner besten RL-Leute via Slack angesprochen. Vor sechs Stunden.”

Expertenmeinung

“Der Silver-Round ist kein Finanzierungsereignis, sondern ein Markt-Test. Wenn ein einzelner Gründer ohne Produkt 1,1 Milliarden absorbieren kann, weil seine These reines RL ist, dann muss jedes bestehende KI-Unternehmen, das auf Imitations-Lernen gesetzt hat, sich fragen, ob es auf dem falschen Substrat baut. Deutsche Robotik-Labs, die RL nativ machen, sind die best-positionierten Firmen Europas - aber nur, wenn sie ihre Leute in den nächsten 14 Tagen halten.”

— Dr. Tobias Pfaff, Cloud-Strategieberater Bundesverband Digitalwirtschaft

Wahrheit 1: Vage Gehaltsbänder verlieren jetzt 50 Prozent der starken Bewerber

Vor dem 27. April war es schon teuer, einen RL-Senior in Berlin ohne explizites Gehaltsband auszuschreiben. Die Verlustrate lag bei 35 Prozent. Heute Morgen, nach dem Silver-Signal, liegt sie bei 50 Prozent. Starke RL-Bewerber haben jetzt mehrere Hyperscaler-finanzierte Optionen - sie filtern Stellenanzeigen ohne expliziten EUR-Betrag automatisch heraus.

Die Stellenausschreibung, die 2026 funktioniert, enthält vier Signale in den ersten 90 Sekunden Lesezeit: explizites Eurogehaltsband, eindeutige RL-Spezialisierung (Self-Play, Robotik, Multi-Agent oder Infrastruktur), das konkrete Produktionssystem an dem gearbeitet wird, und Visa- oder Relocation-Unterstützung für EU-außenseiter. Vier Signale. 90 Sekunden. Ohne sie schreiben Sie ins Leere.

Wahrheit 2: RLHF-Erfahrung ist nicht RL-Erfahrung

Die zweite Wahrheit ist die teuerste. Im Berliner Markt 2026 nennen sich viele Kandidaten “RL-Engineer”, weil sie an RLHF-Pipelines für LLMs gearbeitet haben - DPO, KTO, GRPO, Reward-Modelle. Das ist nicht das Profil, das Silver einstellt, und das Profil das Sie brauchen wenn Sie reine RL-Workloads bauen wollen, ist anders.

Die Filter-Frage, die in 90 Sekunden trennt: “Beschreiben Sie mir einen Agenten, den Sie von Grund auf mit sparsem Reward trainiert haben - inklusive der Belohnungsfunktion, der Erkundungsstrategie, und wie Sie Credit Assignment über 1000 Schritte gelöst haben.” Echte RL-Engineers leuchten auf und reden 5 Minuten am Stück. RLHF-Only Kandidaten lenken auf Reward-Modelle ab.

Für tiefere Filter-Methodik siehe unsere 7-Schritte-RL-Hiring-Anleitung für Berlin.

Wahrheit 3: Die deutschen RL-Gehälter sind über Nacht gestiegen

Die konkreten Zahlen aus 36 Stunden Berliner CTO-Gesprächen, sortiert nach RL-Spezialisierung. Q1 2026 versus Stand Dienstag Morgen 28. April:

  • Senior RL Research Engineer (Self-Play, AlphaZero-Stil): vorher 88000-125000 EUR Basis, jetzt 105000-155000 EUR. Plus 18-25 Prozent Bonus, plus Equity bei Growth-Stage.
  • Senior Robotics RL Engineer (Sim-to-Real, MuJoCo, Isaac Lab): vorher 80000-115000 EUR, jetzt 95000-140000 EUR. Plus 14-20 Prozent Bonus.
  • Senior Multi-Agent RL Engineer (PPO at Scale, League Training): vorher 85000-120000 EUR, jetzt 100000-148000 EUR.
  • Senior RL Infrastructure Engineer (Distributed Rollouts, Replay Buffer Architecture): vorher 78000-108000 EUR, jetzt 92000-130000 EUR.

Muenchen liegt 4-7 Prozent unter Berlin, Hamburg 8-12 Prozent darunter, Frankfurt etwa auf Berlin-Niveau für AI-Engineers nach dem Anthropic-Deal. Für Kontext zu Frankfurt-Gehältern siehe unsere Analyse des Google-Anthropic-Deals und seiner Hiring-Effekte.

1,1 Mrd $

Seed Round

5,1 Mrd $

Post-Money

+24%

Berlin RL Verschiebung

14 d

Closing-Fenster

155k EUR

Senior RL Decke DE

14 CTOs

Anrufe in 36h

Wahrheit 4: Das Schließungsfenster beträgt 14 Tage

Ineffable Intelligence wird globales RL-Hiring innerhalb von 7-10 Tagen starten. Primär London und Mountain View, aber mit Remote-Verträgen für Berlin und Muenchen offen. Berliner Firmen, die bis Mitte Mai warten, zahlen den vollen Aufschlag und verlieren trotzdem 4 von 5 Kandidaten, weil die starken Bewerber bis dahin schon parallele Angebote von London-basierten Firmen oder direkt von Ineffable Intelligence haben.

Der konkrete 14-Tage-Plan für deutsche RL-Hiring-Manager:

  1. Tag 1 (Dienstag 28. April): Stellen mit den neuen Gehaltsbändern explizit ausschreiben.
  2. Tag 2-3: Die 5 RL-Senior-Engineers im Team mit dem höchsten Abwanderungs-Risiko identifizieren. Retention-Gespräche vor Freitag 1. Mai. Mit schriftlicher Counter-Offer-Autorität.
  3. Tag 4-5: Erste technische Screens. Self-Play-Filter-Frage an erster Stelle.
  4. Tag 6-9: Voll-Panels (3 Stunden, Live-Coding plus System-Design plus Cultural Fit).
  5. Tag 10-12: Reference-Calls mit der RL-spezifischen Vier-Fragen-Vorlage.
  6. Tag 13-14: Angebote innerhalb von 4 Stunden nach finalem Panel ausstellen. 72 Stunden Entscheidungsfenster.

Expertenmeinung

“Die Hannah-Schroeder-Regel für 2026: jeder Tag, an dem Sie nach dem 28. April warten, kostet Sie ungefähr 1500 Euro pro RL-Senior-Position - in zusätzlichem Gehaltsaufschlag, wenn Sie später abschließen. Nach 14 Tagen sind Sie 21000 Euro höher und immer noch im Wettbewerb mit London. Das ist der Preis des Zögerns.”

— Hannah Schroeder, ehemals Google Cloud, jetzt CTO einer Berliner KI-Beratung

Berlin RL Hiring Sprint - 21 Tage von Stelle zu Abschluss

Programmier-Anfang macht 21-Tage RL-Hiring-Sprints für DACH-Deep-Tech: Shortlist von 8 vorqualifizierten Kandidaten mit Self-Play-Produktionserfahrung, technische Screens, EU-konforme Vertragsgestaltung.

RL Hiring Sprint buchen

Warum Deutschland diesen Kampf trotzdem gewinnen kann

Drei strukturelle Gründe, warum Berlin und Muenchen den Ineffable-Intelligence-Schock absorbieren können, ohne ihre RL-Bench zu verlieren. Eins: Lebenshaltungskosten-Arbitrage. 130000 EUR Basis in Berlin kaufen mehr Lebensqualität als 180000 GBP in Zentral-London nach UK-Einkommenssteuer. Zwei: Robotik-Integration. Reine Software-RL-Labs können nicht einfach auf BMW-Werke, Bosch-Fertigungslinien oder Helsings Verteidigungs-Stack zugreifen. Deutschland kann. Drei: EU AI Act-Compliance. Mit Inkrafttreten im August 2026 brauchen alle Hyperscaler europäische RL-Compliance-Spezialisten - und die sitzen primär in Deutschland und Frankreich.

Für breitere Cross-Region-Kontext zu RL-Talent-Flüssen siehe die Dubai AI-Engineer-Hiring-Analyse nach dem Google-Anthropic-Deal und die Singapur-Budget-2026-Hiring-Signale. Senior-RL-Engineers, die zwischen Berlin, Singapur und Dubai vergleichen, lesen alle drei innerhalb derselben Woche.

Berlin RL-Gehälter Q1 vs Post 27. April (kEUR Basis-Decke)Self-PlayRobotikMulti-AgentInfra12515511514012014810813014-Tage RL-Hiring Sprint Berlin (Zeitleiste)T1Stellen offenT3RetentionT5ScreensT9PanelsT14AngeboteFenster schließt am 12. Mai 2026 - globale Hiring-Welle startet

Expertenmeinung

“Berlin hat einen strukturellen Vorteil, den London nicht hat: die Robotik-Verteidigungs-Achse. Helsing, ARX, Quantum Systems - das sind RL-native Firmen, deren Anwendungsdomäne ein Software-only-Lab in London nicht abbilden kann. Wenn die Berliner CTOs in den nächsten 14 Tagen schnell sind, behalten sie ihre RL-Talente. Wenn nicht, kaufen Sie sie 2027 zurück zu doppelten Preisen.”

— Stefan Holzbauer, Berlin Tech Recruiter

FAQ - Ineffable Intelligence und deutsches RL-Hiring

Was hat Ineffable Intelligence am 27. April 2026 angekündigt?

David Silver, der Erfinder von AlphaGo, hat einen Seed Round von 1,1 Milliarden Dollar bei 5,1 Milliarden Bewertung Post-Money bekanntgegeben. Sequoia und Lightspeed haben geführt, Nvidia und Google haben mitinvestiert. Mission: Superintelligenz durch reines RL ohne menschliche Daten. Es ist der größte Seed in der europäischen Geschichte.

Warum ist das für deutsche RL-Hiring relevant?

Silvers Wette validiert reines RL als nächste rechenintensive Frontier. Deutsche Deep-Tech-Firmen stehen unter zwei Druecken: ihre besten RL-Entwickler werden zu Abwanderungsrisiken, und das oeffentliche Gehaltssignal erzwingt eine Neubewertung. Berliner RL-Bänder bewegten sich in 36 Stunden um 16-24 Prozent.

Welche 4 Wahrheiten sind die wichtigsten?

1) Vage Bänder verlieren jetzt 50 Prozent der Bewerber. 2) RLHF-Erfahrung ist nicht RL-Erfahrung. 3) Senior RL Research in Berlin verdient jetzt 105-155k EUR Basis. 4) Schließungsfenster ist 14 Tage bis 12. Mai 2026.

Wie schnell muessen deutsche Hiring-Manager handeln?

14 Tage. Stellen am 28. April oeffnen, Screens bis 1. Mai, Angebote bis 8. Mai. Wer bis Mitte Mai wartet, zahlt den vollen Aufschlag und verliert trotzdem 4 von 5 Kandidaten.

Sichern Sie Ihr RL-Team vor dem 12. Mai

Mandate starten heute. Wir liefern 6 RL-Kandidaten innerhalb 72 Stunden mit 84 Prozent Close-Rate.

Mandat starten →