OpenAI beendet Agent Builder und Evals: Warum KMU KI-Workflows portabel bauen sollten

KI-Workflows sind keine Wegwerf-Experimente mehr. Sobald ein Agent Angebote vorbereitet, Leads vorsortiert, Supportfälle prüft oder interne Entscheidungen vorbereitet, wird er Teil des Betriebs. Genau deshalb ist OpenAIs jüngstes Plattform-Update für österreichische KMU relevant: Es zeigt, dass KI-Werkzeuge schneller wechseln können als die Prozesse, die Unternehmen darauf aufbauen.

Am 3. Juni 2026 hat OpenAI offiziell angekündigt, wiederverwendbare Prompt-Objekte, die Evals-Plattform und den Agent Builder auslaufen zu lassen. Für den Agent Builder und die Prompt-Objekte ist der 30. November 2026 als Abschaltdatum genannt; bestehende Evals sollen am 31. Oktober 2026 read-only werden und ebenfalls am 30. November 2026 auslaufen. Das ist kein Grund zur Panik. Es ist aber ein starkes Signal: Wer KI-Automatisierung ernst nimmt, sollte nicht nur auf die schönste Oberfläche setzen, sondern auf portable Abläufe, eigene Testfälle und klare Verantwortlichkeiten.

Was genau neu ist

OpenAI hatte AgentKit am 6. Oktober 2025 als Werkzeugpaket für agentische Anwendungen vorgestellt: Agent Builder als visuelle Oberfläche, ChatKit für eingebettete Chat-Erlebnisse, Connector Registry für Datenquellen und Evals für Messung und Verbesserung. Acht Monate später steht auf der offiziellen OpenAI-Seite nun der Hinweis, dass Agent Builder und Evals auslaufen. OpenAI empfiehlt für Workflows, die als Code weitergeführt werden sollen, das Agents SDK; für stärker natürlichsprachliche Anwendungsfälle verweist OpenAI auf Workspace Agents in ChatGPT.

Parallel nennt die Deprecations-Seite auch wiederverwendbare Prompt-Objekte. Wer Prompts als zentrale Objekte im Dashboard oder über die API verwendet, soll die Inhalte in Anwendungscode migrieren. Das klingt technisch, hat aber eine einfache geschäftliche Bedeutung: Der wertvolle Teil einer KI-Lösung ist nicht die aktuelle Bedienoberfläche. Wertvoll sind die Prozesslogik, die geprüften Datenquellen, die Freigaberegeln, die Testfälle und die Erfahrung, welche Antworten in der Praxis funktionieren.

Für KMU ist dieser Unterschied entscheidend. Ein einmaliger KI-Prototyp darf in einem Tool leben. Ein wiederkehrender Geschäftsprozess braucht eine Architektur, die sich an neue Modelle, neue Anbieter und neue Oberflächen anpassen lässt.

Warum das für österreichische KMU wichtig ist

Viele kleinere und mittlere Unternehmen starten KI-Automatisierung pragmatisch: ein Prompt für Angebotsentwürfe, ein Assistent für E-Mails, ein Workflow für Blogideen, ein Agent für Recherche oder ein Formular, das aus Kundendaten eine erste Einschätzung erzeugt. Das ist sinnvoll. Problematisch wird es erst, wenn ein solcher Ablauf geschäftskritisch wird, aber niemand mehr weiß, wo Logik, Datenzugriff und Qualitätskontrolle tatsächlich liegen.

Die OpenAI-Änderung macht drei Risiken sichtbar.

Erstens: Tool-Abhängigkeit. Wenn ein Workflow nur in einer visuellen Oberfläche existiert, ist Migration schwieriger. Man kann ihn zwar nachbauen, verliert aber oft Versionen, Tests, Kommentare und implizites Wissen.

Zweitens: Prüfverlust. Wenn Evaluierung nur in einem Plattformbereich liegt, der ausläuft, muss das Unternehmen rechtzeitig klären, wie Qualität künftig gemessen wird. Gerade bei Angeboten, Kundenservice, HR, Recht, Finanzen oder medizinisch nahen Themen reicht ein guter Demo-Output nicht aus.

Drittens: Verantwortungsunklarheit. KI-Agenten wirken autonom, aber sie brauchen geschäftliche Grenzen. Wer darf Quellen ändern? Wer genehmigt eine neue Prompt-Version? Wer prüft sensible Ausgaben? Wer stoppt einen Workflow, wenn sich Kosten, Qualität oder Rechtslage ändern? Der verwandte Beitrag zu OpenAIs App Permissions zeigt, warum Berechtigungen und Freigaben zur Kernaufgabe produktiver Agenten werden.

Österreichische KMU haben hier einen Vorteil: Sie müssen nicht die komplexeste Enterprise-Plattform kopieren. Sie können kleiner beginnen, aber sauberer arbeiten. Genau dafür passt eine fokussierte KI-Beratung und Automatisierungsumsetzung: nicht als Tool-Verkauf, sondern als Übersetzung eines konkreten Betriebsprozesses in robuste, überprüfbare KI-Schritte.

Der richtige Blickwinkel: nicht No-Code gegen Code

Die falsche Reaktion wäre: No-Code ist unsicher, Code ist immer besser. So einfach ist es nicht. Visuelle Builder, Chat-Oberflächen und Workspace-Agenten sind nützlich, wenn Teams schnell testen, Fachwissen einbringen und erste Abläufe sichtbar machen wollen. Codebasierte Implementierungen sind stärker, wenn Versionierung, Schnittstellen, Tests, Rollbacks und Betriebsüberwachung wichtig werden.

Für die Praxis ist die bessere Frage: Welche Teile müssen portabel sein?

Ein Prompt für eine interne Ideensammlung darf in einem Tool bleiben. Ein Workflow, der Kundenanfragen klassifiziert, Preise vorbereitet oder Vertragsdaten zusammenfasst, sollte dokumentiert, versioniert und prüfbar sein. Die Prompt-Regeln gehören dann nicht nur in ein Textfeld, sondern in ein Konzept: Eingaben, Quellen, erlaubte Aktionen, Grenzen, Testfälle, Freigabe und Protokollierung.

Das ist auch der Punkt, an dem Webdesign und technische Umsetzung relevant werden. Viele KI-Prozesse landen nicht nur in Chatfenstern. Sie brauchen Formulare, sichere Uploads, Rollen, Statusanzeigen, CRM-Anbindungen, Ausgaben in CMS-Systeme oder interne Dashboards. Eine gute Oberfläche ist dann nicht Dekoration, sondern Kontrollschicht: Sie zeigt, was der Agent tut, wo menschliche Freigabe nötig ist und welche Daten verwendet wurden.

Was KMU jetzt prüfen sollten

Ein pragmatischer Check reicht oft aus, um blinde Flecken zu finden.

Welche KI-Workflows laufen bereits regelmäßig?
Welche davon erzeugen Inhalte, Entscheidungen, Kundennachrichten oder Datenänderungen?
Wo liegen Prompts, Systemanweisungen und Vorlagen?
Gibt es Testfälle mit guten und schlechten Beispielen?
Wer darf Änderungen freigeben?
Wie wird dokumentiert, welche Version welchen Output erzeugt hat?
Gibt es einen Plan B, falls ein Tool, Modell oder API-Endpunkt ausläuft?

Besonders wichtig sind wiederkehrende Prompts. Viele Unternehmen behandeln sie wie Notizen: kopiert aus ChatGPT, gespeichert in einem Dokument, leicht verändert von mehreren Personen. Das funktioniert für Einzelaufgaben, aber nicht für verlässliche Automatisierung. Prompt-Governance muss nicht bürokratisch sein. Oft genügen eine zentrale Prompt-Bibliothek, kurze Zweckbeschreibungen, Beispielausgaben, No-go-Regeln und ein Freigabeprozess für produktive Prompts.

Für Content-Prozesse gilt das genauso. Wenn KI Blogbriefings, Social-Media-Varianten oder Newsletter-Entwürfe vorbereitet, braucht das Team klare Markenregeln, Faktenprüfung und Veröffentlichungsfreigaben. Das ist ein natürlicher Anknüpfungspunkt für Content-Marketing: KI beschleunigt die Vorarbeit, aber Positionierung, Quellenqualität und redaktionelle Verantwortung bleiben entscheidend.

Chancen: weniger Tool-Wildwuchs, mehr Betriebsqualität

Die Abschaltung einzelner Produkte kann kurzfristig unbequem sein. Langfristig zwingt sie Unternehmen aber zu einer gesünderen Frage: Was wollen wir dauerhaft betreiben?

Die Chance liegt darin, KI-Automatisierung von Anfang an modular zu denken. Ein sauberer Workflow besteht nicht aus einem einzigen Prompt, sondern aus mehreren austauschbaren Teilen: Datenquelle, Kontextaufbereitung, Modellaufruf, Regeln, Ausgabeformat, Qualitätstest, Freigabe und Übergabe in ein Zielsystem. Wenn ein Anbieter seine Oberfläche ändert, bleibt der Prozess nachvollziehbar. Wenn ein Modell besser wird, kann man es testen. Wenn ein Risiko auftaucht, kann man den betroffenen Schritt isolieren.

Das passt auch zur Marktentwicklung. Gartner prognostizierte am 26. August 2025, dass bis Ende 2026 rund 40 Prozent der Enterprise-Anwendungen aufgabenspezifische KI-Agenten enthalten könnten. Selbst wenn KMU nicht jede Enterprise-Welle mitgehen müssen, ist die Richtung klar: Agenten wandern in Fachsoftware, CRM, Marketing, Support, Projektmanagement und interne Tools. Je stärker KI in Standardsoftware steckt, desto wichtiger wird die eigene Prozesskompetenz. Unternehmen müssen wissen, welche Aufgaben sie automatisieren wollen, welche Daten verwendet werden dürfen und wo Menschen entscheiden.

Grenzen: KI-Agenten ersetzen keine Prozessklarheit

Die OpenAI-Migration zeigt auch eine Grenze, die in vielen KI-Projekten unterschätzt wird. Ein Agent kann nur dann zuverlässig helfen, wenn der zugrunde liegende Prozess verständlich ist. Unklare Zuständigkeiten, widersprüchliche Datenquellen und fehlende Freigaben werden durch KI nicht gelöst. Sie werden schneller sichtbar.

Gerade bei KMU ist das oft der eigentliche Engpass. Nicht das Modell ist zu schwach, sondern der Ablauf ist nicht ausreichend definiert. Ein Angebotsagent braucht Preisregeln. Ein Supportagent braucht Eskalationskriterien. Ein Marketingagent braucht Markenpositionierung und Quellen. Ein HR-naher Agent braucht besonders klare Grenzen. Ohne diese Regeln entsteht keine Automatisierung, sondern nur schnellerer Abstimmungsbedarf.

Deshalb sollten Unternehmen KI-Projekte nicht nach Tool-Namen priorisieren, sondern nach Prozessreife. Ein kleiner, gut abgegrenzter Workflow mit messbarem Nutzen ist wertvoller als ein großer Agent, der in fünf Systemen aktiv sein darf, aber keine belastbaren Qualitätskriterien hat.

Was Ostheimer praktisch daraus machen kann

Ostheimer kann aus dieser Entwicklung einen sehr konkreten Umsetzungsansatz ableiten: KI-Workflows zuerst fachlich modellieren, dann technisch passend umsetzen. Das beginnt mit einem kurzen Audit bestehender Prompts, Automationen und Tool-Abhängigkeiten. Danach wird entschieden, was im Chat, was in einem Workspace-Agenten, was als API-Workflow und was als Website- oder Dashboard-Funktion besser aufgehoben ist.

Für einfache interne Abläufe kann ein Workspace-Agent ausreichen. Für wiederkehrende, messbare oder kundennahe Prozesse ist häufig eine schlankere technische Lösung sinnvoll: versionierte Prompts, geprüfte Datenquellen, automatisierte Testfälle, klare Freigaben und eine Oberfläche, die den Menschen nicht aus dem Prozess drängt, sondern an den richtigen Stellen einbindet.

Wer bereits Agenten oder KI-Workflows im Einsatz hat, sollte jetzt vor allem drei Dinge dokumentieren: Zweck, Abhängigkeiten und Qualitätsprüfung. Bei OpenAI-basierten Lösungen gehört dazu die Frage, ob Agent Builder, Evals oder wiederverwendbare Prompt-Objekte betroffen sind. Bei anderen Anbietern gilt dieselbe Logik: Was passiert, wenn ein Feature umbenannt, verteuert, eingeschränkt oder abgeschaltet wird?

Ein guter KI-Workflow überlebt nicht jede Plattformänderung automatisch. Aber er ist so gebaut, dass Migration planbar bleibt. Genau das ist der Unterschied zwischen einem spannenden KI-Test und einer belastbaren Unternehmensautomatisierung.