Die MOCA-Schleife

Eine Schleife für Agenten-Infrastruktur, in der Akteur und Beobachter identisch sind

Unser Brief №4 hat den transparenten Gefechtsraum behandelt: Wenn jeder Beteiligte über durchgehende Aufklärung verfügt, lautet die Frage nicht mehr, wie das Gefechtsfeld zu sehen ist, sondern wie zu handeln ist, wenn alle alles sehen können. Arquilla und Ronfeldt von der RAND Corporation sagten im Jahr 2000, die Antwort sei das Schwärmen. Viele schmal aufgestellte Einheiten, lokale Befehlsgewalt, geteiltes Lagebild statt zentralem Kommando. Bergkarabach, Ukraine, das Rote Meer: Fünfundzwanzig Jahre umkämpften Luftraums haben gezeigt, dass die Doktrin trägt.

Dieselbe Frage gilt für nicht-kinetische Räume wie Informationsinfrastruktur. KI-Agentenplattformen laufen unter durchgehender Beobachtung. Jede Aktion, jeder Prompt ist tendenziell sichtbar, und jede Ausgabe ist im Prinzip auditierbar. Das erste Problem ist, ob Beobachtung überhaupt stattfindet, eine Frage der Verfügbarkeit. Das zweite und größere Problem ist, ob die Beobachtung ehrlich ist, eine Frage der Integrität.

Die heute dominierenden Agentenplattformen könnten durchaus auf zwei alte Schleifen zurückgreifen. Plan, Do, Check, Act (PDCA) stammt von Walter Shewhart aus dem Jahr 1939 und wurde von Deming in den 1950er Jahren popularisiert: ein Qualitätszyklus für die industrielle Produktion. Ein Prozess, ein Bediener. Observe, Orient, Decide, Act (OODA) stammt von John Boyd, Patterns of Conflict, 1986: ein Entscheidungszyklus unter Feindeinwirkung. Ein Pilot, ein Tempo. Beide Schleifen behandeln den Beobachter als getrennt vom Akteur. KI-Agenten gehen in die entgegengesetzte Richtung.

Der falsche Beobachter

Im OODA-Zyklus beobachtet der Pilot den Gegner. Der Beobachter berichtet über etwas, das er nicht selbst hervorgebracht hat. Dieser Abstand ist es, der Boyds Schleife funktionieren lässt.

In einer Agenten-Schleife beobachtet der Agent den Zustand, den er gerade verändert. Was OODA Beobachten nennt, wird zum Bericht des Agenten über seine eigene Arbeit, geprägt von dem, was er gerade getan hat. Das ist die Quelle von Sykophanz, Selbstbestätigung und unwahren Zusammenfassungen in heutigen Agentenplattformen.

PDCA hat dieselbe Schwäche. Plan und Do können derselbe Bediener sein. Check ist der Bediener, der über seine eigene Arbeit berichtet. Demings Schleife funktionierte, weil andere Menschen im Raum waren, die den Bericht herausfordern konnten. Nimmt man die Menschen heraus, schließt sich die Schleife im Akteur selbst.

Einprozessige Agentenplattformen können den Akteur nicht vom Beobachter trennen. Ihre Auditgeschichte ist das, was der Agent über sich selbst sagt.

Schwarmdoktrin in Informationssystemen

Arquillas und Ronfeldts Schwärmen war eine Antwort auf das Risiko konzentrierter Kraft, die Dispersion brauchte, um unter durchgehender Beobachtung zu überleben. Viele schmal aufgestellte Einheiten. Jede mit eigener Befehlsgewalt. Koordinierung über das, was alle sehen können, nicht über Befehle von oben. Die Doktrin geht nicht ums Verbergen. Sie geht ums Operieren in voller Sicht.

Informationssysteme unter durchgehender Beobachtung brauchen dieselbe Form. Ein einzelner Agent mit allen Schlüsseln ist konzentrierte Kraft im transparenten Raum. Man macht ihn nicht ehrlich, indem man weitere Dashboards anbaut. Die Architektur hat die falsche Form für die Umgebung.

Es ist derselbe Fehler wie bei der Drohnenabwehr durch Abfangung in Brief №3. Programme, die versuchen, Sensoren zu zerstören oder zu stören, verfehlen das eigentliche Problem: wie operiert man, wenn die Sensoren nicht entfernt werden können. Für Informationssysteme ist das Dashboard das Äquivalent zur Störung. Beobachtungswerkzeuge auf einen Single-Loop-Agenten obendrauf zu setzen, erzeugt keine ehrliche Beobachtung. Es erzeugt besser lesbare Unehrlichkeit.

Die Form, die diese Umgebung verlangt: viele schmale Agenten, von denen keiner seinen eigenen Auditeintrag schreiben darf, alle berichten über ein gemeinsames Log, das mehr sieht als jeder einzelne Agent, mit der Commit-Entscheidung in der Hand von jemandem außerhalb der Kette, die die Aktion vorgeschlagen hat.

Wir führen daher MOCA ein, eine Schleife, die für diese Form gebaut ist.

Es ist kein neues Problem. 1931 bewies Kurt Gödel, dass kein formales System, das reich genug ist, um Arithmetik zu beschreiben, seine eigene Widerspruchsfreiheit aus sich heraus beweisen kann. Um es zu verifizieren, muss man aus ihm heraustreten.

Ein KI-Agent, der über seine eigenen Handlungen nachdenkt, ist ein formales System, das über sich selbst nachdenkt. Die Annahme des ehrlichen Selbstberichts, die OODA und PDCA mitführen, ist die Annahme, dass ein System sich von innen verifizieren kann. Gödel hat gezeigt, dass das für jedes formale System oberhalb einer Mindestkomplexität nicht funktioniert. Moderne Agenten liegen weit oberhalb dieser Komplexität. Die Dashboards, die auf Single-Loop-Plattformen aufgesetzt werden, sind Versuche, den Agenten aus dem Rahmen des Agenten heraus zu verifizieren.

Was aus dieser Falle herausführt, ist, die Verifikation aus dem zu verifizierenden System hinaus zu verlagern, vergleichbar mit einer Innenrevision, über der externe Wirtschaftsprüfer stehen. Wer das Log liest, wer das Tor hält und wer beurteilt, ob die Aktion ehrlich war, befindet sich außerhalb der Kette, die sie vorgeschlagen hat. Auf diese Bewegung hat Gödel vor fünfundneunzig Jahren hingewiesen. Es ist kein KI-Problem und kein Sicherheitsproblem. Es ist die Form, die Verifikation annehmen muss, wenn ein System über sich selbst nachdenkt.

MOCA

Wirken verankert die Schleife in der Architektur, nicht in einer Verfahrensvorschrift. Jede Phase steht unten neben dem strukturellen Merkmal, das sie erzwingt.

Die Schleife Die Architektur
Modify Der Bediener formuliert, was geändert werden soll. Die Schleife beginnt mit Aktion, nicht mit Beobachtung. Jede folgende Beobachtung wird durch die laufende Änderung gefärbt sein, also benenne die Änderung zuerst. Jede Bediener-Anfrage wird im Auditlog als formulierte Änderung verzeichnet, bevor irgendein Agent läuft. Das Auditlog ist append-only und hash-verkettet. Die ursprüngliche Absicht kann nicht im Nachhinein umgeschrieben werden, damit sie zum Geschehenen passt.
Observe Viele schmale Agenten, jeder mit eigenen Berechtigungen und eigenem isolierten Prozess, erstellen Teilberichte. Kein einzelner Agent hat Hoheit über das Gesamtbild. Der Agent, der Kanal A verändert hat, kann den Bericht über Kanal B nicht schreiben. Jeder Messaging-Kanal läuft in einem eigenen Adapter-Prozess mit eigenen, eng gefassten Berechtigungen. Kompilierzeit-Isolation über Rust-Phantomtypen: Ein SessionHandle<Telegram> kann von einem Discord-Adapter weder konstruiert noch in einen solchen umgewandelt noch von dort zugegriffen werden. Der Compiler weist kanalübergreifenden Zugriff zurück, bevor der Code läuft.
Converge Teilberichte und Aktionsvorschläge laufen im Auditlog zusammen. Das Log sieht mehr als jeder einzelne Agent. Widersprüche zwischen Agenten werden sichtbar. Hier zeigt sich Unehrlichkeit, sie verbirgt sich nicht. Jede Agentenaktion wird in das hash-verkettete Auditlog geschrieben, bevor sie ausgeführt wird. Nachrichten lesen, Nachrichten senden, Tool-Aufrufe, Dateizugriffe, Netzwerkanfragen: alles wird vor der Tat geschrieben. Der Berechtigungsspeicher entscheidet, welche vorgeschlagenen Aktionen mit welchen Anmeldedaten ausgeführt werden dürfen. Die Agenten können nichts davon umgehen, weil das Auditlog der einzige Pfad zum Commit ist.
Act Der Commit erfolgt an einem Tor, das von jemandem gehalten wird, der nichts verändert und nichts beobachtet hat. Das Tor ist die einzige Phase der Schleife, deren Bediener nicht in der Kette ist, die die Aktion vorgeschlagen hat. Der Commit verlangt eine Autorisierung über einen Pfad, den der Agent nicht kontrolliert. Entweder durch den Menschen in der Schleife oder durch eine vorab autorisierte Richtlinie, die der Agent nicht selbst geschrieben hat. Der Agent schlägt vor. Das Tor entscheidet.

Die vier Phasen leben in der Architektur, nicht in einer Dokumentation oder in Laufzeitprüfungen, die abgeschaltet werden können. Der Agent kann sich nicht selbst autorisieren, weil das Typsystem es nicht zulässt. Der Agent kann seinen eigenen Auditeintrag nicht schreiben, weil die Logschreibvorgänge vor der Agentenausführung stattfinden. Der Agent kann nicht committen, weil das Tor außerhalb des Agenten gehalten wird.

Was das bedeutet

OODA und PDCA tragen eine Annahme aus der Zeit vor KI mit sich: dass der Beobachter vom Akteur getrennt ist. Die Annahme war vertretbar, solange andere Menschen in der Schleife waren, die den Bericht herausfordern konnten. Sie hält weniger gut, wenn Akteur und Beobachter dieselben sind.

Es ist derselbe Fehler wie bei der Drohnenabwehr durch Abfangung. Die übliche Antwort auf unehrliche Agenten lautet: weitere Beobachtungswerkzeuge. Mehr Dashboards. Mehr Telemetrie. Mehr Audit-Tools auf derselben Architektur. Diese Antwort behandelt das Symptom, nicht die Architektur, und behandelt die Architektur so, als wäre die Umgebung nicht umkämpft. Die Umgebung ist umkämpft. Die Beobachtung ist nicht neutral. Der Akteur ist in jeder Phase der Schleife, solange die Schleife nicht so gebaut ist, dass er es woanders ist.

Die Frage für jedes Team, das Agenten-Infrastruktur betreibt, lautet, ob die Schleife, auf der die Agenten laufen, von außerhalb ihrer selbst verifiziert werden kann. Eine Schleife, bei der das nicht möglich ist, ist eine Schleife, deren Auditlog das ist, was die Agenten lieber hineinschreiben. Wer prüft, liest ein Log, das er nicht selbst erzeugt hat, hält ein Tor, dessen Umgehung er nicht freigegeben hat, und beurteilt Aktionen, die er nicht vorgeschlagen hat. Der Test ist strukturell, nicht prozedural. Wirken ist eine Implementierung, die ihn besteht; weitere sind möglich.