Episode

#125 - [Quickbite] GPT 5.4: Zum ersten Mal ist eine KI besser als du... bei normaler Büroarbeit

Podcast: Das KI-Kochbuch mit Malcolm Werchota
Published: Mar 13, 2026
Duration seconds: 1514
Processing state: not_requested
Canonical source: https://share.transistor.fm/s/55597878
Audio: https://media.transistor.fm/55597878/6c00624c.mp3
JSON: /v1/public/podcasts/das-ki-kochbuch-mit-malcolm-werchota-7394882/episodes/125-quickbite-gpt-5-4-zum-ersten-mal-ist-eine-ki-besser-als-du-bei-normaler-b-roarbeit
Markdown: /podcast/das-ki-kochbuch-mit-malcolm-werchota-7394882/125-quickbite-gpt-5-4-zum-ersten-mal-ist-eine-ki-besser-als-du-bei-normaler-b-roarbeit.md

Actions

POST https://stenobird.com/v1/public/podcasts/das-ki-kochbuch-mit-malcolm-werchota-7394882/episodes/125-quickbite-gpt-5-4-zum-ersten-mal-ist-eine-ki-besser-als-du-bei-normaler-b-roarbeit/transcription-requests
Idempotently request low-priority transcript generation for this episode.
GET https://stenobird.com/podcast/das-ki-kochbuch-mit-malcolm-werchota-7394882/125-quickbite-gpt-5-4-zum-ersten-mal-ist-eine-ki-besser-als-du-bei-normaler-b-roarbeit.md
Read the agent-friendly Markdown representation of this episode resource.

Summary

Arbeitest du im Büro? Sitzt du am PC, klickst dich durch Programme, kopierst Daten in Excel, füllst Formulare aus? Dann gibt es eine schlechte Nachricht: Seit drei Tagen ist eine KI besser darin als du.GPT 5.4 hat im OS World Verified Benchmark — einem standardisierten Test für echte Desktop-Aufgaben — 75 Prozent erreicht. Der menschliche Durchschnitt liegt bei 72 Prozent. Das ist das erste Mal in der Geschichte, dass ein Allzweck-KI-Modell bei normalen Bürotätigkeiten über der menschlichen Performance liegt. Nicht bei Schach, nicht bei Go, nicht bei Proteinfaltung — bei Maus, Tastatur, Browser und Excel.Und der Sprung ist brutal: Das Vorgängermodell GPT 5.2 lag noch bei 50 Prozent. In drei Monaten auf 75. Gleichzeitig ist die Genauigkeit bei Finanzmodellen auf 87 Prozent gestiegen, die Halluzinationsrate um 30 Prozent gefallen, und das Context Window auf eine Million Tokens gewachsen — achtmal mehr als das, was hinter Microsoft Copilot steckt. Der Preis: 2,50 Dollar pro Million Input-Tokens. Absolut Peanuts.Malcolm erzählt, wie sein Team reagiert hat, als ihre Mitarbeiterin Purani abgesprungen ist. Statt Panik: Analyse. Was macht sie? Wie viele KI-Agenten brauche ich, um sie zu ersetzen? Das Ergebnis: 80 Prozent ihrer Aufgaben lassen sich mit Agenten abdecken — mit Cloud Code, OpenClaw und jetzt GPT 5.4 mit nativem Computer Use.Die Episode richtet sich direkt an den DACH-Mittelstand: Testet GPT 5.4 mit echten Workflows. Auditiert eure Spreadsheet-Abteilung. Rechnet die API-Kosten gegen die Gehälter. Und baut einen Transitionsplan — mit einer ehrlichen Liste: Wer orchestriert Agenten, wer wird zum Superstar, und wer ist der Onkel oder die Tante, die seit 30 Jahren dasselbe macht und KI nie nutzen wird?KEY TAKEAWAYSGPT 5.4 schlägt erstmals den menschlichen Durchschnitt…