Prolog
Stellen Sie sich eine Szene in der nicht allzu fernen Zukunft vor. Jemand wurde ermordet. Zwei Ermittlungsteams treffen am Tatort ein, aber es ist unklar, wer zuständig ist. Das menschliche Team wird vom charismatischen Detektiv Sheerluck Holmes geleitet, während das Android-Team von Bot-OX geleitet wird. Die Frage ist: Ist der Täter ein Mensch, ein Android oder etwas dazwischen? Können wir erwarten, dass die Polizei der Zukunft ein gut definiertes Verfahren oder einen Algorithmus entwickelt hat, um dies schnell zu entscheiden?
Wir werden versuchen, diese und die drängendere Frage zu beantworten, mit der wir derzeit konfrontiert sind: Haben wir eine gute Chance, einen Algorithmus zu entwickeln, der praktisch ist und uns erlaubt, allein durch Betrachtung des Tatorts (des generierten Textes) zu entscheiden, ob dieser von einem Bot oder einem Menschen erstellt wurde? Die Entwicklung eines solchen Algorithmus ist derzeit eines der begehrtesten Ziele der Informatik. Ein robuster Blackbox-Algorithmus könnte die meisten unserer akademischen Konventionen retten und uns ermöglichen, die Art und Weise beizubehalten, wie wir Kinder, Jugendliche und Erwachsene testen. Ohne ihn müssten diese Systeme mit großem Aufwand neu aufgebaut werden.
In einer Welt, in der immer mehr Menschen aus der Ferne arbeiten und trainieren, ist es von entscheidender Bedeutung, dass wir zuverlässig feststellen können, dass Menschen ihre geistige Arbeit selbst geleistet haben, was derzeit nicht der Fall ist. Darüber hinaus können gefälschte Nachrichten, Bilder und Videos angesichts der Reichweite sozialer Medien verheerende Auswirkungen auf den gesellschaftlichen Konsens haben. Ein solcher Algorithmus – falls er existiert – ist nicht wasserdicht, aber mit genügend Trainingsdaten könnte er sogar vor Gericht Bestand haben.
Die Aussichten sind jedoch nicht vielversprechend. OpenAI hat das Projekt innerhalb von sechs Monaten aufgegeben: OpenAI-Klassifikator. Der praktische und monetäre Wert eines solchen Algorithmus kann nicht hoch genug eingeschätzt werden. Wenn gierige Aliens ihn für eine Billion Dollar verkaufen würden, rufen Sie mich an – ich will dabei sein.
Einführung der Differentiation Test Engine
Die Aufgabe, zwischen maschinengeneriertem Text (MGT) und menschengeneriertem Text (HGT) zu unterscheiden, ist entfernt mit dem ursprünglichen Turing-Test, dem sogenannten Imitationsspiel, verwandt. Es gibt jedoch noch weitere Faktoren: Während der ursprüngliche Turing-Test nur menschliche Beurteiler zuließ, können bei unserem Differenzierungstest andere Maschinen die menschlichen Beurteiler unterstützen. Wir nennen eine solche Maschine eine Differentiation Test Engine (DTE). Sie hat nur einen einzigen Zweck: zu entscheiden, ob ein Text von einem Menschen oder einer Maschine erzeugt wurde.
Die erste Intuition ist, dass ein solcher DTE relativ einfach zu implementieren sein sollte. Wir verfügen derzeit über die Technologie, um menschliche Gesichter und Stimmen zu erkennen und zu identifizieren, die viel komplexer und anfälliger für Störungen sind als Text. Die Entscheidung, ob ein bestimmtes Bild eine Maschine oder einen Menschen zeigt, kann von jedem aktuellen Objektklassifizierungssystem problemlos getroffen werden. Sollte es dann nicht einfach sein, ein Large Language Model (LLM) mit 1 Billion menschlichen Texten und 1 Billion Maschinentexten zu trainieren und es lernen zu lassen, diese zu klassifizieren? Der DTE wäre kein einfacher Algorithmus, sondern ein eigenes Transformatormodell, das auf die Erkennung von Identitätsbetrug spezialisiert ist.
In Mathematik und Informatik ist die Komplexität eines Problems oft orthogonal zu seiner Beschreibung. Die meisten NP-vollständigen Probleme sind täuschend einfach zu verstehen, und dennoch haben Millionen von Informatikern und Mathematikern jahrzehntelang darum gekämpft, Fortschritte zu erzielen. Ich vermute, dass Black-Boxing-Versuche in praktischen Anwendungssituationen scheitern werden.
Theoretischer Rahmen
Black-Box-Erkennungsmethoden sind auf den API-Zugriff auf LLMs beschränkt. Sie basieren auf dem Sammeln von Textproben aus menschlichen bzw. maschinellen Quellen, um ein Klassifizierungsmodell zu trainieren, mit dem zwischen von LLMs und von Menschen generierten Texten unterschieden werden kann. Black-Box-Detektoren funktionieren gut, da aktuelle von LLMs generierte Texte häufig linguistische oder statistische Muster aufweisen. Da sich LLMs jedoch weiterentwickeln und verbessern, werden Black-Box-Methoden immer weniger effektiv. Eine Alternative ist die White-Box-Erkennung. In diesem Szenario hat der Detektor vollen Zugriff auf die LLMs und kann das Generierungsverhalten des Modells zu Rückverfolgbarkeitszwecken steuern. In der Praxis werden Black-Box-Detektoren häufig von externen Stellen erstellt, während die White-Box-Erkennung im Allgemeinen von LLM-Entwicklern durchgeführt wird.
Definition des grundlegenden Erkennungssystems
Aus praktischen Gründen werden wir angeben, was wir von einem solchen DTE vernünftigerweise erwarten können. Bei einer Eingabe mit einer bestimmten Tokenlänge sollte der Algorithmus mit einer Zuverlässigkeit von mehr als 50% innerhalb einer begrenzten Zeitspanne eine eindeutige Ausgabe darüber liefern, wie viel von einem bestimmten Text von einem Menschen und wie viel von einer Maschine stammt.
Eine Implementierung könnte wie folgt aussehen:
- Bitte geben Sie Ihren Text ein: …
- Bitte geben Sie Ihr gewünschtes Vertrauen ein: 0,8
- Ihr Text muss mindestens 8.000 Token lang sein, um eine Wahrscheinlichkeit von mindestens 80% zu erreichen, die richtige Antwort zu geben.
- Unter den aktuellen Parametern wird der Algorithmus 5 Minuten lang ausgeführt. Soll ich fortfahren (J/N)? … J
Die Ausgabe sollte dann etwa so lauten: „Ich kann mit 80%-iger Sicherheit sagen, dass 95% des Textes von einer Maschine und 5% von einem Menschen geschrieben wurden.“
Bevor wir uns mit den Details befassen, sollten wir die möglichen Ergebnisse beim Versuch, einen solchen Algorithmus zu entwickeln, weiter klären:
- Ein solcher Algorithmus ist prinzipiell unmöglich (beispielsweise ist es unmöglich, einen Algorithmus zu erstellen, der die höchste Primzahl berechnet).
- Ein solcher Algorithmus ist praktisch unmöglich (z. B. läuft er entweder zu lange oder benötigt mehr Rechenleistung als verfügbar ist; im Grunde ist er NP-vollständig).
- Es ist unentscheidbar (z. B. fällt es unter das Halteproblem und wir können nie sagen, ob es irgendwann aufhören wird).
- Dies ist möglich, aber nicht praktikabel (identisch mit 2).
- Es ist möglich und praktisch (gut genug).
Am Ende möchten wir eine Situation erreichen, in der wir eine Untergrenze der Eingaben berechnen können, die es uns dann mit einer Wahrscheinlichkeit von über 50% ermöglicht, zu entscheiden, ob es sich um HGT oder MGT handelt.
Falsifizierbarkeit: Ein solcher Algorithmus lässt sich leicht widerlegen, wenn wir beispielsweise den Text „Der Himmel ist blau“ eingeben und er uns eine andere Wahrscheinlichkeit als 50% liefert.
Randbemerkungen zur Obfuscation Engine
Konzeptionell stoßen wir auf Probleme, wenn wir eine Differenzierungsmaschine (Diff) entwerfen. Wir stehen dann vor dem folgenden Paradoxon: Wir möchten entscheiden, ob unser Algorithmus Diff (der erkennt, ob ein Mensch oder eine Maschine eine bestimmte Eingabe geschrieben hat) immer anhält (eine definitive Antwort gibt) und eine richtige Antwort gibt. Nehmen wir an, unser Algorithmus hält an und gibt „Mensch“ aus. Wir konstruieren nun ein „pathologisches“ Programm, Obf (Obfuscator Engine), das etwas wie Obf(Diff(Eingabe)) verwendet, das sagt: Ändern Sie die Eingabe so, dass die Antwort von Diff umgekehrt ist (wenn sie Maschine ergibt, gibt sie Mensch aus). Dies könnte ein rein theoretisches Problem sein und würde erfordern, dass wir verstehen, warum die Maschine so formuliert, wie sie es tut, was viel mehr mechanistische Interpretierkompetenz erfordert, als wir derzeit besitzen. Im Moment schützt die Komplexität von LLMs sie im wirklichen Leben vor einem solchen Angriff. Aber wenn das stimmt, ist es auch sehr wahrscheinlich, dass uns das Wissen fehlt, um überhaupt einen allgemeinen Differenzierer zu bauen. Diese Einwände könnten für reale Implementierungen irrelevant sein, wenn wir zeigen könnten, dass Differenzierung und Verschleierung ausreichend asymmetrisch sind, was bedeutet, dass die Differenzierung mindestens 10^x mal schneller ist als die Verschleierung und damit unpraktisch (denken Sie daran, dass die Semiprimfaktorisierung viel schwieriger ist als die Multiplikation zweier Primzahlen).
Das Profiling-System
Ein entscheidender Aspekt bei der Unterscheidung zwischen von Menschen und Maschinen erstellten Texten ist das Profiling. Beim Profiling werden externe Daten gesammelt und analysiert, um dem Text einen Kontext zu geben. Indem wir die typischen Merkmale verschiedener Textarten verstehen, können wir statistisch bestimmen, wie wahrscheinlich es ist, dass ein Text von Menschen oder Maschinen erstellt wurde.
Technische Dokumente, kreative Texte und zwanglose Social-Media-Beiträge beispielsweise weisen jeweils unterschiedliche stilistische und strukturelle Merkmale auf. Durch die Erstellung von Profilen auf der Grundlage dieser Kategorien kann die Differentiation Test Engine (DTE) fundiertere Entscheidungen treffen. Darüber hinaus spielen Faktoren wie Wortschatzreichtum, Satzkomplexität und Themenkonsistenz eine Rolle bei der Profilerstellung. Maschinengenerierte Texte weisen häufig bestimmte statistische Regelmäßigkeiten auf, während menschliche Texte tendenziell mehr Variabilität und Kreativität aufweisen.
Die „DNA-Spur“
Ein innovativer Ansatz zur Unterscheidung zwischen von Menschen und Maschinen generierten Texten ist das Konzept einer „DNA-Spur“. Dabei werden die grundlegenden Bausteine von Texten analysiert, wie etwa Token für Maschinen und Wörter für Menschen. Token-basierte Algorithmen konzentrieren sich auf Muster und Sequenzen, die für die maschinelle Generierung charakteristisch sind, während von Menschen generierte Texte durch einen ganzheitlicheren wortbasierten Ansatz untersucht werden können.
Besonders hilfreich kann die Spektralanalyse sein, eine Methode zur Untersuchung der Häufigkeit und Verteilung von Elementen in einem Text. Mithilfe der Spektralanalyse können wir subtile Unterschiede in der Art und Weise erkennen, wie Maschinen und Menschen Sätze konstruieren. Maschinen folgen möglicherweise eher starren und sich wiederholenden Mustern, während Menschen ein breiteres Spektrum an stilistischen Nuancen aufweisen.
Die ethischen Implikationen
Die Untersuchung der ethischen Auswirkungen der Entwicklung und Verwendung einer Differenzierungstest-Engine ist unerlässlich. Alle aktuellen GPT-Systeme haben eine ähnliche künstliche „DNA“, was bedeutet, dass Text-, Bild-, Video- oder Audiodifferenzierungs-Engines vor denselben Herausforderungen stehen. Deepfakes oder maschinengenerierte Inhalte, die menschliche Schöpfung imitieren, bergen erhebliche Risiken für das gesellschaftliche Vertrauen und die Authentizität.
Da maschinengenerierte Inhalte immer ausgefeilter werden, steigt auch das Missbrauchspotenzial. Es ist von entscheidender Bedeutung, sicherzustellen, dass diese Differenzierungstechnologien transparent und nachvollziehbar sind. Es besteht auch das Risiko, dass ein übermäßiges Vertrauen in diese Technologien zu neuen Formen der Voreingenommenheit und Diskriminierung führen könnte. Daher ist es zwingend erforderlich, ethische Richtlinien und regulatorische Rahmenbedingungen für ihre Verwendung zu entwickeln.
Technische Lösungen
Die Erforschung rein technischer Lösungen für das Differenzierungsproblem erfordert mehrere Ansätze:
Paralleles Web: Bei diesem Konzept werden parallele Versionen des Internets betrieben, eine ausschließlich für verifizierte menschliche Inhalte und eine andere für gemischte Inhalte. Diese Trennung könnte dazu beitragen, die Integrität von durch Menschen generierten Inhalten zu wahren.
Spezielle Domänen: Durch die Erstellung spezieller Domänen oder Zonen im Web, in denen überprüft wird, ob der Inhalt von Menschen erstellt wurde, kann das Vertrauen der Benutzer in die Echtheit der Informationen gestärkt werden.
Prompt.Claims: Dieses System würde, ähnlich wie Patente und Zitate funktionieren, es den Urhebern ermöglichen, ihre Eingabeaufforderungen zu beanspruchen und zu verifizieren, und so dem Prozess der Inhaltserstellung eine zusätzliche Ebene der Verantwortlichkeit und Rückverfolgbarkeit hinzufügen.
Inquisitorische Lösungen: Wir könnten uns auch ein Szenario vorstellen, in dem wir direkt mit dem Artefakt (Text) interagieren, um seinen Ursprung zu ergründen. Ähnlich wie bei der Befragung eines Verdächtigen könnten wir die Eingabeaufforderung, die den Text generiert hat, neu erstellen. Wenn wir die ursprüngliche Eingabeaufforderung zurückentwickeln können, finden wir möglicherweise Hinweise zu ihrer Erstellung. Dieser Ansatz beruht auf der Idee, dass maschinengenerierte Texte das Produkt spezifischer Eingabeaufforderungen sind, während menschliche Texte aus komplexeren Denkprozessen stammen.
Konsequenzen für die Ausrichtung: Die Herausforderung, zwischen von Menschen und Maschinen generierten Texten zu unterscheiden, hängt mit umfassenderen Fragen der KI-Ausrichtung zusammen. Es ist von größter Bedeutung, sicherzustellen, dass KI-Systeme mit menschlichen Werten und Erwartungen übereinstimmen. Wenn wir KI-generierte Inhalte nicht zuverlässig unterscheiden können, untergräbt dies unsere Fähigkeit, diesen Systemen zu vertrauen und sie effektiv zu verwalten. Dieses Problem erstreckt sich auf alle Formen von KI-generierten Inhalten, weshalb die Entwicklung robuster Differenzierungstechnologien eine Schlüsselkomponente zur Erreichung einer Superausrichtung ist.
Abschluss
Zusammenfassend lässt sich sagen, dass die Aufgabe, zwischen von Menschen und Maschinen generierten Texten zu unterscheiden, erhebliche Herausforderungen und Implikationen mit sich bringt. Die Entwicklung einer zuverlässigen Differenzierungstest-Engine ist mit ethischen Überlegungen, technischen Innovationen und umfassenderen KI-Ausrichtungsproblemen verknüpft. Um in dieser komplexen Landschaft zurechtzukommen, ist es unerlässlich, einen multidisziplinären Ansatz zu verfolgen und Erkenntnisse aus der Informatik, Ethik und regulatorischen Rahmenbedingungen zu integrieren.
Wenn wir die Probleme untersuchen, mit denen wir beim Bau allgemeiner Differenzierungsmaschinen konfrontiert sind, stellen wir schnell fest, dass dieses Problem in eine Vielzahl verwandter Probleme eingebettet ist. Gegnerische Angriffe, beispielsweise auf Bilderkennungssysteme, haben gezeigt, dass wir die Widerstandsfähigkeit dieser Modelle konsequent überschätzen. Kürzlich wurde gezeigt, dass sogar ein mittelmäßiger Spieler mit Hilfe einer anderen KI, die einen Exploit gefunden hatte, gegen ein Top-Go-Programm gewinnen konnte: Vice-Artikel.
Daher ist es sehr wahrscheinlich, dass selbst wenn wir einen Algorithmus entwickeln, der HGT zunächst von MGT unterscheiden könnte, dasselbe Programm anschließend auf sich selbst angewendet werden könnte, um das Ergebnis umzukehren. Ein weiterer interessanter Aspekt ist, dass alle digitalen Computer Turingmaschinen sind, was bedeutet, dass jeder zur Unterscheidung entwickelte Algorithmus auch zur Verschleierung verwendet werden könnte.
Papiere