🟡 Teilweise berechtigt

Microsoft-Studie: KI-Agenten korrumpieren bis zu 25 Prozent der Dokumentinhalte bei längeren Arbeitsabläufen

Quelle: Microsoft Research / The Register / WinBuzzer / ResultSense·11. Mai 2026

Was wirklich drin steht

Microsoft Research hat mit dem DELEGATE-52-Benchmark eine systematische Untersuchung veröffentlicht, die zeigt, wie unzuverlässig aktuelle KI-Agenten bei mehrstufigen Arbeitsabläufen sind. Der Benchmark simuliert Workflows über 20 aufeinanderfolgende Interaktionen in 52 professionellen Fachbereichen - von Softwareentwicklung über Kristallographie bis hin zu Musiknotation. Die Ergebnisse sind ernüchternd: Frontier-KI-Modelle verlieren bis zu 25 Prozent des Dokumentinhalts über 20 delegierte Arbeitsschritte hinweg. Die durchschnittliche Degradation über alle getesteten Modelle erreicht sogar 50 Prozent. Katastrophale Korruption (Benchmark-Score von 80 Prozent oder weniger) trat in über 80 Prozent aller Modell-Domänen-Kombinationen auf. Als Schwelle für professionelle Zuverlässigkeit definieren die Forscher eine Wiedergabetreue von 98 Prozent oder höher. Nur ein einziger Fachbereich - Python-Code - erreichte diese Schwelle konsistent über die meisten getesteten Modelle hinweg. Das beste Modell im Test, Google Gemini 3.1 Pro, war nur in 11 von 52 Fachbereichen zuverlässig genug. Besonders beunruhigend: Die Bereitstellung von Werkzeugen (Dateizugriff, Code-Ausführung) machte die Leistung nicht besser, sondern schlechter. Die vier getesteten GPT-Modelle (5.4, 5.2, 5.1 und 4.1) erzielten mit agentischen Werkzeugen im Schnitt 6 Prozentpunkte schlechtere Ergebnisse. Die Forscher unterscheiden zudem zwischen zwei Korruptionsarten: Schwächere Modelle korrumpieren durch Löschung - das fällt auf. Frontier-Modelle korrumpieren durch plausibel aussehende Änderungen, die bei der Überprüfung nicht auffallen - das ist gefährlicher.

Unsere Einordnung

Diese Studie liefert eine wichtige Realitätskorrektur zur aktuellen Begeisterung über KI-Agenten. Wenn selbst die besten Modelle bei 20 aufeinanderfolgenden Arbeitsschritten ein Viertel des Dokumentinhalts verlieren oder verfälschen, sind sie für die meisten professionellen Anwendungen schlicht nicht zuverlässig genug. Der Vergleich der Forscher ist treffend: Ein Praktikant, der ein Viertel eines Dokuments zerstört, würde entlassen. Die Erkenntnis, dass agentische Werkzeuge die Leistung verschlechtern statt verbessern, widerspricht direkt dem Marketing vieler KI-Unternehmen, die ihre Agenten als 'autonome Mitarbeiter' positionieren. Für die KI-Angst-Debatte hat das eine beruhigende und eine beunruhigende Seite: Beruhigend ist, dass KI-Agenten menschliche Wissensarbeiter offenbar noch lange nicht ersetzen können. Beunruhigend ist, dass Unternehmen trotzdem auf Automatisierung setzen und dabei möglicherweise Qualitätsverluste in Kauf nehmen, die erst spät auffallen - besonders weil Frontier-Modelle Fehler erzeugen, die plausibel aussehen.

Relevanz für Deutschland

Für Deutschland ist die Studie aus mehreren Gründen relevant. Erstens: Viele deutsche Unternehmen pilotieren derzeit KI-Agenten für dokumentenintensive Prozesse - Vertragsprüfung, Berichtserstellung, Compliance-Dokumentation. Die DELEGATE-52-Ergebnisse mahnen zur Vorsicht bei der Automatisierung kritischer Workflows. Zweitens stützt die Studie die Position von Betriebsräten und Gewerkschaften, die menschliche Aufsicht über KI-Prozesse fordern: Wenn selbst GPT-5.4 Dokumente korrumpiert, braucht es qualifizierte Menschen zur Qualitätskontrolle. Drittens widerlegt die Studie das Narrativ, dass KI-Agenten kurzfristig ganze Abteilungen ersetzen können. Deutsche Unternehmen, die unter Druck stehen, nach dem Vorbild US-amerikanischer Firmen Personal abzubauen, erhalten hier ein faktenbasiertes Gegenargument: Die Technologie ist für autonome Delegation in den meisten Fachbereichen noch nicht reif.

Faktencheck

Die Kernzahlen stammen aus dem DELEGATE-52-Benchmark-Paper von Microsoft Research, das mehrere unabhängige Technologiemedien übereinstimmend berichten. Die 25-Prozent-Korruptionsrate bezieht sich auf Frontier-Modelle nach 20 Interaktionsschritten. Die durchschnittliche Degradation von 50 Prozent umfasst alle getesteten Modelle. Die getesteten Modelle (GPT-5.4, 5.2, 5.1, 4.1 sowie Gemini 3.1 Pro) und die 52 Fachbereiche werden konsistent berichtet. Die Verschlechterung um 6 Prozentpunkte bei Einsatz agentischer Werkzeuge ist spezifisch für die GPT-Modellfamilie dokumentiert. Einschränkung: Der Benchmark testet 20 aufeinanderfolgende Interaktionen - in der Praxis werden viele Workflows kürzer sein. Zudem wurden die Tests mit einem standardisierten, einfachen agentischen Framework durchgeführt, nicht mit optimierten Enterprise-Produkten. Die tatsächliche Fehlerrate in produktiven Systemen mit zusätzlichen Guardrails könnte niedriger sein.

Quelle

• The Register 11.05.2026: Microsoft researchers find AI models and agents can't handle long-running tasks (theregister.com/ai-ml/2026/05/11/)
• WinBuzzer 13.05.2026: Microsoft Research Finds AI Agents Still Corrupt Work Documents (winbuzzer.com/2026/05/13/)
• ResultSense 12.05.2026: Microsoft Research: frontier AI fails 25% on long workflows (resultsense.com/news/2026-05-12/)
• NeuralWired 28.04.2026: AI Agent Document Corruption: 25% Rate Confirmed (neuralwired.com/2026/04/28/)
• FlyingPenguin 05.2026: Microsoft on AI: Delegation Corrupts Data and You (flyingpenguin.com)

KI-AgentenStudieKI-FähigkeitenAutonomieUnternehmenSicherheit

Alle News