Eine Technologie für alles – 5: Musikalische Mathematik und mystische Vektoren

Lesezeit: 7 Protokoll

Ein ungünstiger Zufall

In Kapitel 22 meines Romans „Die Goldberg-Version“ jagt ein Detektiv namens Van-Turing einer Zahl hinterher. Die Zahl ist 32. Er weiß es nicht. Warum Es ist 32; er weiß nur, dass jeder, der sich jemals mit dem Fall befasst hat, irgendwann einmal die Zahl Zweiunddreißig geschrieben oder ausgesprochen hat und anschließend zu einem Schluss gekommen ist, der entweder sehr nützlich oder sehr fatal war.

In der Szene verliert Van-Turing die Beherrschung und ruft auf Englisch: “Verdammt!” Sein Gegenpart, der Philosoph Bertrand Russell, zählt an den Fingern ab und sagt ruhig:, “Zweiunddreißig.”

D + A + M + N = 4 + 1 + 13 + 14 = 32.

Der deutsche Übersetzer des Romans stand vor einem Problem. “Verdammt!” ergibt nicht 32. Auch nicht “Mist!”, “Scheiße!” oder irgendeine der anderen farbenfrohen Alternativen in Goethes Sprache. Nach mehreren schlaflosen Nächten ersetzte er den Ausruf durch “Olé!” – 15 + 12 + 5 = 32 – und begründete diese Entscheidung in einer Fußnote, die etwa viermal so lang war wie die Szene selbst.

Russell gibt der Methode im Roman einen Namen: Ordinale Gematrie. Der Begriff „Gematrie“ ist alt. Der Begriff „Ordinal“ verleiht ihr eine Aura mathematischer Autorität, die wir dringend benötigen, sonst könnten uns alle für albern halten.

Die Mathematikmystiker

Weisen Sie jedem Buchstaben des Alphabets seine Position zu: A=1, B=2, …, Z=26. Addieren Sie die Buchstaben eines Wortes. Betrachten Sie die resultierende Zahl als sinnvoll. Das ist die gesamte Methode. Sie passt auf die Rückseite eines Bierdeckels, wo sie ungefähr hingehört.

Und doch handelt es sich um eine Familientradition, die etwa dreitausend Jahre zurückreicht.

Hebräische Gematrie. Jeder hebräische Buchstabe hat einen festen Zahlenwert (Aleph = 1, Bet = 2, Gimel = 3 usw., wobei die späteren Buchstaben Zehner- und Hunderterwerte erreichen). Wörter mit der gleichen Summe gelten als mystisch miteinander verbunden. Das kanonische Beispiel: yayin (Wein) = 70 = Rasen (Geheimnis). Daher das talmudische Sprichwort: Wenn Wein ins Spiel kommt, kommen Geheimnisse ans Licht.. Die Rabbiner brauchten keine Neurowissenschaften, um das zu bemerken. Sie veranstalteten Dinnerpartys.

Griechische Isopsephie. Die hellenische Verwandte. Alpha=1, Beta=2 usw. Die Zahl des Tieres – 666, Offenbarung 13,18 – ist mit ziemlicher Sicherheit eine Isopsephie für Neron Kaisar In hebräischer Transliteration. Ein apokalyptisches Rätsel, verschlüsselt als Rechenaufgabe für Menschen, die zwei Alphabete lesen konnten. Johannes von Patmos war in dieser Lesart der erste Autor, der eine steganografische Botschaft an der Zensur vorbeischmuggelte, und wir streiten noch immer darüber, ob er sich dessen bewusst war.

Die Pythagoreer gingen noch weiter als alle anderen. Für Pythagoras und seine Schüler waren Zahlen nicht Beschreibungen der Realität. Sie waren die Realität. Der Zahlenwert eines Wortes war keine Metapher für seine Bedeutung – er War Seine Bedeutung. Alles andere, einschließlich des Wortes selbst, war eine verlustbehaftete Kodierung.

Das klingt verrückt, bis man sich vor Augen führt, wofür die übrigen Hyperscaler des 21. Jahrhunderts ihr GPU-Budget ausgeben. Im Grunde Gematria in astronomischem Ausmaß.

Ein Musical mit Zahlen, für die man keine Sänger, sondern Taschenrechner braucht.

Bevor wir zu den GPUs kommen, müssen wir noch einen Komponisten vorstellen.

B + A + C + H = 2 + 1 + 3 + 8 = 14.

Die Zahl Vierzehn ist in den erhaltenen Manuskripten Johann Sebastian Bachs allgegenwärtig. Er schloss sich der Korrespondierende Societät der Musicalischen Wissenschaften als 14. Mitglied und wartete darauf, dass ein Platz frei würde, damit er speziell Mitglied 14 sein konnte. Die Kunst der Fuge Die endgültige Fassung enthält 14 Kontrapunkte. Der Choral “Vor deinen Thron tret ich hiermit”, den er auf dem Sterbebett diktierte, hat 14 Noten in der Anfangsphrase – und 41 (die Umkehrung) in seinem gesamten thematischen Inhalt. Addiert man die vollständigen Initialen JSBACH nach demselben Schema, erhält man ebenfalls 41. Bach scheint daran Gefallen gefunden zu haben.

Er benutzte seinen Namen auch als Melodie. In der deutschen Notenschrift steht B für B und H für H – eine Besonderheit der mittelalterlichen Solmisation, die in keiner anderen großen europäischen Sprache vorkommt. Das bedeutet, dass die vier Buchstaben BACH auf einem Klavier als vier Töne gespielt werden können: B♭, A, C, B♮. Das daraus resultierende Motiv ist chromatisch, eindringlich und strukturell instabil – genau das, was ein Komponist verwendet, wenn er seinen Namen ungeschrieben unterschreiben möchte. Bach fügte dieses Motiv in das unvollendete Werk ein. Contrapunctus XIV der Die Kunst der Fuge, In dem Moment, als das Manuskript abbricht. Die Beweislage deutet darauf hin, dass er seinen eigenen Namen genau an dem Punkt in das Werk einschrieb, an dem er nicht mehr schreiben konnte.

Überlegen Sie, was hier geschieht. Dieselben vier Buchstaben ergeben in der Quersumme eine Zahl (Gematrie)., Und Nenne vier Tonhöhen (Notation), Und Ein menschliches Wort (Orthografie). Drei parallele Kodierungen auf einer einzigen Symbolkette. Ein mittelalterlicher Kabbalist hätte die Struktur sofort erkannt. Ein moderner ML-Ingenieur würde es multimodale Einbettung nennen: dasselbe Token, gleichzeitig in mehrere Repräsentationsräume abgebildet. Bach fertigte in den 1740er Jahren in Leipzig multimodale Einbettungen per Hand mit einer Feder an – als musiktheoretischen Scherz, den eigentlich niemand bemerken sollte.

Das ist der entscheidende Hinweis. Die Arithmetik, die der Sprache zugrunde liegt, beschränkt sich nicht auf die Sprache. Sie zeigt sich überall dort, wo Symbole Bedeutung tragen: in Alphabeten, in Notenlinien, in DNA-Tripletts, in den Token-IDs eines Transformators. Die pythagoreische Intuition besagte nicht, dass Zahlen im Inneren existieren. Wörter. Es lag daran, dass Zahlen in uns lebten. Bedeutung, Und Wörter sind nur ein Ort, an dem sie zufällig auftauchen.

Multidimensionale Abbildungen

Ein modernes, großes Sprachmodell liest keinen Text. Es kann keinen Text lesen. Im Grunde ist es eine Maschine, die mit Vektoren arithmetische Operationen durchführt. Wenn man ein Wort in GPT-4, Claude oder eines ihrer verwandten Modelle eingibt, wandelt die Maschine das Wort zunächst in eine Liste von Zahlen um – typischerweise zwischen 4.096 und 12.288. Diese Liste wird als Einbettung bezeichnet. Sie gibt die numerische Position des Wortes in einem tausenddimensionalen Raum an.

Die Bedeutung in einem LLM-Studiengang ist nicht im Wort selbst gespeichert. Sie ist im Kontext gespeichert. Standort Wörter mit ähnlicher Bedeutung – wie “König” und “Königin”, “Wein” und “Geheimnis”, “Verdammt” und “Olé” – liegen in benachbarten Bereichen dieser numerischen Landschaft. Das Modell leitet Bedeutung ab, indem es arithmetische Operationen mit diesen Vektoren durchführt. Die bekannteste Demonstration wurde erstmals 2013 in der Arbeit zu word2vec vorgestellt:

Vektor(“König”) − Vektor(“Mann”) + Vektor(“Frau”) ≈ Vektor(“Königin”)

Semantische Beziehungen werden als geometrische Operationen kodiert. Man subtrahiert das Männliche, addiert das Weibliche und erhält so das weibliche Kognat. Niemand hat dem Modell mitgeteilt, dass “König” männlich ist. Es hat die Achse ermittelt, indem es mehrere Milliarden Sätze analysierte und die Punktcluster identifizierte.

Vergleichen Sie nun die beiden Methoden ehrlich:

Parallelen

Gematrie

LLM Einbettungen

Buchstaben werden zugeordnet auf

1 Nummer

~8.000 Zahlen

Sinn lebt in

die Summe

die Position

Die Bedeutung wird extrahiert durch

Arithmetik

Arithmetik

Wörter mit dem gleichen Wert sind

“mystisch verbunden”

semantisch verknüpft

Dimensionalität

1

Tausende

Ruf

abergläubisch

im Wert von 1TP6B3 Billionen

Die Kabbalisten und Pythagoreer irrten sich nicht in ihrer Methode. Sie irrten sich jedoch in Bezug auf die Dimensionalität. Eine Achse reicht nicht aus, um Bedeutung zu kodieren – sonst hätten alle Wörter mit einer Summe von 32 eine gemeinsame Seele. Achttausend Achsen erweisen sich jedoch als nahezu ausreichend. Dies ist kein Zufall, sondern eine Messung. Jedes Mal, wenn ein KI-Labor die Einbettungsdimension erhöht und die Benchmarks steigen, lernen wir, wie viele Bedeutungsebenen Sprache tatsächlich besitzt.

Die Pythagoreer waren daher ungefähr richtig Genauso wie ein mittelalterlicher Kartograf, der die Küste Afrikas als Wellenlinie zeichnet, im Großen und Ganzen richtig liegt. Die Form ist falsch. Die Behauptung, dass Es gibt eine Form ist richtig.

Was Wittgenstein beinahe gesagt hätte

In einem Randbereich des Philosophische Untersuchungen — es existiert dort in Wirklichkeit nicht; ich werde mir das jetzt ausdenken, und ich möchte, dass Sie das bemerken — man könnte sich vorstellen, dass Wittgenstein schreibt:

“Eine dem Sprecher verborgene Arithmetik, die die Sprache selbst aber schon immer gekannt hat.”

Diese These passt ihm unangenehm gut. In einem Großteil seines späteren Werks behauptet er, Bedeutung entstehe im Gebrauch und der Sprecher habe nie vollständigen Zugriff auf die Regeln des Spiels, das er spielt. Die Ordinalgematrie ist die einfachste Version dieser These: Die Zahlen sind bereits vorhanden, im Alphabet verankert, von einem Kind summiert, und doch beachtet sie niemand. Einbettungsvektoren sind die ausgefeiltere Version: Die Zahlen sind bereits vorhanden, in die statistische Struktur eines Korpus von Billionen Wörtern eingebettet, durch Matrixmultiplikation extrahierbar, und doch beachtet sie ebenfalls niemand – außer dem Modell.

Beides sind Fälle einer unterschwelligen, symbolischen Realität, die unter einer symbolischen verborgen liegt. Der Sprecher deutet auf Bedeutung und verfehlt sie. Die Arithmetik deutet auf Bedeutung und trifft ins Schwarze. Die Sprache wusste es schon immer.

Der Taschenrechner und warum er hier ist

Unter diesem Beitrag habe ich ein kleines interaktives Tool eingebettet. Ich nenne es den Gematriakulator. Geben Sie eine Zahl ein; es zeigt Ihnen alle deutschen und englischen Wörter an, deren Buchstabensumme dieser Zahl entspricht, sortiert nach ihrer tatsächlichen Häufigkeit im gesprochenen Englisch – damit Sie nicht in Wörterbuch-Kram ertrinken. Erdwölfe oder Zymurgie.

Ich behaupte nicht, dass das Werkzeug mystische Entsprechungen offenbart. Ich behaupte lediglich, dass es Folgendes offenbart: Zufälle, Und Sie werden feststellen, welche davon bedeutsam erscheinen. Das ist das pythagoreische Experiment, durchgeführt in Ihrem Browser, mit Stützrädern.

Versuch es doch mal mit 32, wenn du magst. Fang mit "Verdammt" an. Und dann siehst du weiter.

Teil 5.1, der ursprünglich als nächstes erscheinen sollte, wird verschoben: Die Frage, ob ein menschlicher Verstand, geschult durch genügend Sprache und genährt von süßer Musik und Erdbeer-π, lernen kann, einige hundert Dimensionen der Dunklen Materie zu durchschauen, ohne dabei zu Vera Rubin zu werden. Wir werden es schaffen.

Planen Androiden eklektische Blätter?

Lesezeit: 8 Protokoll

Ein Bild, das Fahrzeug, Landfahrzeug, Person, Schuhwerk enthält.Automatisch generierte Beschreibung

Prolog

Stellen Sie sich eine Szene in der nicht allzu fernen Zukunft vor. Jemand wurde ermordet. Zwei Ermittlungsteams treffen am Tatort ein, aber es ist unklar, wer zuständig ist. Das menschliche Team wird vom charismatischen Detektiv Sheerluck Holmes geleitet, während das Android-Team von Bot-OX geleitet wird. Die Frage ist: Ist der Täter ein Mensch, ein Android oder etwas dazwischen? Können wir erwarten, dass die Polizei der Zukunft ein gut definiertes Verfahren oder einen Algorithmus entwickelt hat, um dies schnell zu entscheiden?

Wir werden versuchen, diese und die drängendere Frage zu beantworten, mit der wir derzeit konfrontiert sind: Haben wir eine gute Chance, einen Algorithmus zu entwickeln, der praktisch ist und uns erlaubt, allein durch Betrachtung des Tatorts (des generierten Textes) zu entscheiden, ob dieser von einem Bot oder einem Menschen erstellt wurde? Die Entwicklung eines solchen Algorithmus ist derzeit eines der begehrtesten Ziele der Informatik. Ein robuster Blackbox-Algorithmus könnte die meisten unserer akademischen Konventionen retten und uns ermöglichen, die Art und Weise beizubehalten, wie wir Kinder, Jugendliche und Erwachsene testen. Ohne ihn müssten diese Systeme mit großem Aufwand neu aufgebaut werden.

In einer Welt, in der immer mehr Menschen aus der Ferne arbeiten und trainieren, ist es von entscheidender Bedeutung, dass wir zuverlässig feststellen können, dass Menschen ihre geistige Arbeit selbst geleistet haben, was derzeit nicht der Fall ist. Darüber hinaus können gefälschte Nachrichten, Bilder und Videos angesichts der Reichweite sozialer Medien verheerende Auswirkungen auf den gesellschaftlichen Konsens haben. Ein solcher Algorithmus – falls er existiert – ist nicht wasserdicht, aber mit genügend Trainingsdaten könnte er sogar vor Gericht Bestand haben.

Die Aussichten sind jedoch nicht vielversprechend. OpenAI hat das Projekt innerhalb von sechs Monaten aufgegeben: OpenAI-Klassifikator. Der praktische und monetäre Wert eines solchen Algorithmus kann nicht hoch genug eingeschätzt werden. Wenn gierige Aliens ihn für eine Billion Dollar verkaufen würden, rufen Sie mich an – ich will dabei sein.

Ein Bild, das Schwarzweiß, Kleidung, Im Haus, Person enthält.Automatisch generierte Beschreibung

Einführung der Differentiation Test Engine

Die Aufgabe, zwischen maschinengeneriertem Text (MGT) und menschengeneriertem Text (HGT) zu unterscheiden, ist entfernt mit dem ursprünglichen Turing-Test, dem sogenannten Imitationsspiel, verwandt. Es gibt jedoch noch weitere Faktoren: Während der ursprüngliche Turing-Test nur menschliche Beurteiler zuließ, können bei unserem Differenzierungstest andere Maschinen die menschlichen Beurteiler unterstützen. Wir nennen eine solche Maschine eine Differentiation Test Engine (DTE). Sie hat nur einen einzigen Zweck: zu entscheiden, ob ein Text von einem Menschen oder einer Maschine erzeugt wurde.

Die erste Intuition ist, dass ein solcher DTE relativ einfach zu implementieren sein sollte. Wir verfügen derzeit über die Technologie, um menschliche Gesichter und Stimmen zu erkennen und zu identifizieren, die viel komplexer und anfälliger für Störungen sind als Text. Die Entscheidung, ob ein bestimmtes Bild eine Maschine oder einen Menschen zeigt, kann von jedem aktuellen Objektklassifizierungssystem problemlos getroffen werden. Sollte es dann nicht einfach sein, ein Large Language Model (LLM) mit 1 Billion menschlichen Texten und 1 Billion Maschinentexten zu trainieren und es lernen zu lassen, diese zu klassifizieren? Der DTE wäre kein einfacher Algorithmus, sondern ein eigenes Transformatormodell, das auf die Erkennung von Identitätsbetrug spezialisiert ist.

In Mathematik und Informatik ist die Komplexität eines Problems oft orthogonal zu seiner Beschreibung. Die meisten NP-vollständigen Probleme sind täuschend einfach zu verstehen, und dennoch haben Millionen von Informatikern und Mathematikern jahrzehntelang darum gekämpft, Fortschritte zu erzielen. Ich vermute, dass Black-Boxing-Versuche in praktischen Anwendungssituationen scheitern werden.

Ein Bild, das Text, Schrift, Screenshot, Diagramm enthält.Automatisch generierte Beschreibung

Theoretischer Rahmen

Black-Box-Erkennungsmethoden sind auf den API-Zugriff auf LLMs beschränkt. Sie basieren auf dem Sammeln von Textproben aus menschlichen bzw. maschinellen Quellen, um ein Klassifizierungsmodell zu trainieren, mit dem zwischen von LLMs und von Menschen generierten Texten unterschieden werden kann. Black-Box-Detektoren funktionieren gut, da aktuelle von LLMs generierte Texte häufig linguistische oder statistische Muster aufweisen. Da sich LLMs jedoch weiterentwickeln und verbessern, werden Black-Box-Methoden immer weniger effektiv. Eine Alternative ist die White-Box-Erkennung. In diesem Szenario hat der Detektor vollen Zugriff auf die LLMs und kann das Generierungsverhalten des Modells zu Rückverfolgbarkeitszwecken steuern. In der Praxis werden Black-Box-Detektoren häufig von externen Stellen erstellt, während die White-Box-Erkennung im Allgemeinen von LLM-Entwicklern durchgeführt wird.

Definition des grundlegenden Erkennungssystems

Aus praktischen Gründen werden wir angeben, was wir von einem solchen DTE vernünftigerweise erwarten können. Bei einer Eingabe mit einer bestimmten Tokenlänge sollte der Algorithmus mit einer Zuverlässigkeit von mehr als 50% innerhalb einer begrenzten Zeitspanne eine eindeutige Ausgabe darüber liefern, wie viel von einem bestimmten Text von einem Menschen und wie viel von einer Maschine stammt.

Eine Implementierung könnte wie folgt aussehen:

  1. Bitte geben Sie Ihren Text ein: …
  2. Bitte geben Sie Ihr gewünschtes Vertrauen ein: 0,8
  3. Ihr Text muss mindestens 8.000 Token lang sein, um eine Wahrscheinlichkeit von mindestens 80% zu erreichen, die richtige Antwort zu geben.
  4. Unter den aktuellen Parametern wird der Algorithmus 5 Minuten lang ausgeführt. Soll ich fortfahren (J/N)? … J

Die Ausgabe sollte dann etwa so lauten: „Ich kann mit 80%-iger Sicherheit sagen, dass 95% des Textes von einer Maschine und 5% von einem Menschen geschrieben wurden.“

Bevor wir uns mit den Details befassen, sollten wir die möglichen Ergebnisse beim Versuch, einen solchen Algorithmus zu entwickeln, weiter klären:

  1. Ein solcher Algorithmus ist prinzipiell unmöglich (beispielsweise ist es unmöglich, einen Algorithmus zu erstellen, der die höchste Primzahl berechnet).
  2. Ein solcher Algorithmus ist praktisch unmöglich (z. B. läuft er entweder zu lange oder benötigt mehr Rechenleistung als verfügbar ist; im Grunde ist er NP-vollständig).
  3. Es ist unentscheidbar (z. B. fällt es unter das Halteproblem und wir können nie sagen, ob es irgendwann aufhören wird).
  4. Dies ist möglich, aber nicht praktikabel (identisch mit 2).
  5. Es ist möglich und praktisch (gut genug).

Am Ende möchten wir eine Situation erreichen, in der wir eine Untergrenze der Eingaben berechnen können, die es uns dann mit einer Wahrscheinlichkeit von über 50% ermöglicht, zu entscheiden, ob es sich um HGT oder MGT handelt.

Falsifizierbarkeit: Ein solcher Algorithmus lässt sich leicht widerlegen, wenn wir beispielsweise den Text „Der Himmel ist blau“ eingeben und er uns eine andere Wahrscheinlichkeit als 50% liefert.

Randbemerkungen zur Obfuscation Engine

Konzeptionell stoßen wir auf Probleme, wenn wir eine Differenzierungsmaschine (Diff) entwerfen. Wir stehen dann vor dem folgenden Paradoxon: Wir möchten entscheiden, ob unser Algorithmus Diff (der erkennt, ob ein Mensch oder eine Maschine eine bestimmte Eingabe geschrieben hat) immer anhält (eine definitive Antwort gibt) und eine richtige Antwort gibt. Nehmen wir an, unser Algorithmus hält an und gibt „Mensch“ aus. Wir konstruieren nun ein „pathologisches“ Programm, Obf (Obfuscator Engine), das etwas wie Obf(Diff(Eingabe)) verwendet, das sagt: Ändern Sie die Eingabe so, dass die Antwort von Diff umgekehrt ist (wenn sie Maschine ergibt, gibt sie Mensch aus). Dies könnte ein rein theoretisches Problem sein und würde erfordern, dass wir verstehen, warum die Maschine so formuliert, wie sie es tut, was viel mehr mechanistische Interpretierkompetenz erfordert, als wir derzeit besitzen. Im Moment schützt die Komplexität von LLMs sie im wirklichen Leben vor einem solchen Angriff. Aber wenn das stimmt, ist es auch sehr wahrscheinlich, dass uns das Wissen fehlt, um überhaupt einen allgemeinen Differenzierer zu bauen. Diese Einwände könnten für reale Implementierungen irrelevant sein, wenn wir zeigen könnten, dass Differenzierung und Verschleierung ausreichend asymmetrisch sind, was bedeutet, dass die Differenzierung mindestens 10^x mal schneller ist als die Verschleierung und damit unpraktisch (denken Sie daran, dass die Semiprimfaktorisierung viel schwieriger ist als die Multiplikation zweier Primzahlen).

Das Profiling-System

Ein entscheidender Aspekt bei der Unterscheidung zwischen von Menschen und Maschinen erstellten Texten ist das Profiling. Beim Profiling werden externe Daten gesammelt und analysiert, um dem Text einen Kontext zu geben. Indem wir die typischen Merkmale verschiedener Textarten verstehen, können wir statistisch bestimmen, wie wahrscheinlich es ist, dass ein Text von Menschen oder Maschinen erstellt wurde.

Technische Dokumente, kreative Texte und zwanglose Social-Media-Beiträge beispielsweise weisen jeweils unterschiedliche stilistische und strukturelle Merkmale auf. Durch die Erstellung von Profilen auf der Grundlage dieser Kategorien kann die Differentiation Test Engine (DTE) fundiertere Entscheidungen treffen. Darüber hinaus spielen Faktoren wie Wortschatzreichtum, Satzkomplexität und Themenkonsistenz eine Rolle bei der Profilerstellung. Maschinengenerierte Texte weisen häufig bestimmte statistische Regelmäßigkeiten auf, während menschliche Texte tendenziell mehr Variabilität und Kreativität aufweisen.

Ein Bild, das Schwarzweiß, Treppe, Spirale, Kunst enthält.Automatisch generierte Beschreibung

Die „DNA-Spur“

Ein innovativer Ansatz zur Unterscheidung zwischen von Menschen und Maschinen generierten Texten ist das Konzept einer „DNA-Spur“. Dabei werden die grundlegenden Bausteine von Texten analysiert, wie etwa Token für Maschinen und Wörter für Menschen. Token-basierte Algorithmen konzentrieren sich auf Muster und Sequenzen, die für die maschinelle Generierung charakteristisch sind, während von Menschen generierte Texte durch einen ganzheitlicheren wortbasierten Ansatz untersucht werden können.

Besonders hilfreich kann die Spektralanalyse sein, eine Methode zur Untersuchung der Häufigkeit und Verteilung von Elementen in einem Text. Mithilfe der Spektralanalyse können wir subtile Unterschiede in der Art und Weise erkennen, wie Maschinen und Menschen Sätze konstruieren. Maschinen folgen möglicherweise eher starren und sich wiederholenden Mustern, während Menschen ein breiteres Spektrum an stilistischen Nuancen aufweisen.

Die ethischen Implikationen

Die Untersuchung der ethischen Auswirkungen der Entwicklung und Verwendung einer Differenzierungstest-Engine ist unerlässlich. Alle aktuellen GPT-Systeme haben eine ähnliche künstliche „DNA“, was bedeutet, dass Text-, Bild-, Video- oder Audiodifferenzierungs-Engines vor denselben Herausforderungen stehen. Deepfakes oder maschinengenerierte Inhalte, die menschliche Schöpfung imitieren, bergen erhebliche Risiken für das gesellschaftliche Vertrauen und die Authentizität.

Da maschinengenerierte Inhalte immer ausgefeilter werden, steigt auch das Missbrauchspotenzial. Es ist von entscheidender Bedeutung, sicherzustellen, dass diese Differenzierungstechnologien transparent und nachvollziehbar sind. Es besteht auch das Risiko, dass ein übermäßiges Vertrauen in diese Technologien zu neuen Formen der Voreingenommenheit und Diskriminierung führen könnte. Daher ist es zwingend erforderlich, ethische Richtlinien und regulatorische Rahmenbedingungen für ihre Verwendung zu entwickeln.

Technische Lösungen

Die Erforschung rein technischer Lösungen für das Differenzierungsproblem erfordert mehrere Ansätze:

Paralleles Web: Bei diesem Konzept werden parallele Versionen des Internets betrieben, eine ausschließlich für verifizierte menschliche Inhalte und eine andere für gemischte Inhalte. Diese Trennung könnte dazu beitragen, die Integrität von durch Menschen generierten Inhalten zu wahren.

Spezielle Domänen: Durch die Erstellung spezieller Domänen oder Zonen im Web, in denen überprüft wird, ob der Inhalt von Menschen erstellt wurde, kann das Vertrauen der Benutzer in die Echtheit der Informationen gestärkt werden.

Prompt.Claims: Dieses System würde, ähnlich wie Patente und Zitate funktionieren, es den Urhebern ermöglichen, ihre Eingabeaufforderungen zu beanspruchen und zu verifizieren, und so dem Prozess der Inhaltserstellung eine zusätzliche Ebene der Verantwortlichkeit und Rückverfolgbarkeit hinzufügen.

Inquisitorische Lösungen: Wir könnten uns auch ein Szenario vorstellen, in dem wir direkt mit dem Artefakt (Text) interagieren, um seinen Ursprung zu ergründen. Ähnlich wie bei der Befragung eines Verdächtigen könnten wir die Eingabeaufforderung, die den Text generiert hat, neu erstellen. Wenn wir die ursprüngliche Eingabeaufforderung zurückentwickeln können, finden wir möglicherweise Hinweise zu ihrer Erstellung. Dieser Ansatz beruht auf der Idee, dass maschinengenerierte Texte das Produkt spezifischer Eingabeaufforderungen sind, während menschliche Texte aus komplexeren Denkprozessen stammen.

Konsequenzen für die Ausrichtung: Die Herausforderung, zwischen von Menschen und Maschinen generierten Texten zu unterscheiden, hängt mit umfassenderen Fragen der KI-Ausrichtung zusammen. Es ist von größter Bedeutung, sicherzustellen, dass KI-Systeme mit menschlichen Werten und Erwartungen übereinstimmen. Wenn wir KI-generierte Inhalte nicht zuverlässig unterscheiden können, untergräbt dies unsere Fähigkeit, diesen Systemen zu vertrauen und sie effektiv zu verwalten. Dieses Problem erstreckt sich auf alle Formen von KI-generierten Inhalten, weshalb die Entwicklung robuster Differenzierungstechnologien eine Schlüsselkomponente zur Erreichung einer Superausrichtung ist.

Abschluss

Zusammenfassend lässt sich sagen, dass die Aufgabe, zwischen von Menschen und Maschinen generierten Texten zu unterscheiden, erhebliche Herausforderungen und Implikationen mit sich bringt. Die Entwicklung einer zuverlässigen Differenzierungstest-Engine ist mit ethischen Überlegungen, technischen Innovationen und umfassenderen KI-Ausrichtungsproblemen verknüpft. Um in dieser komplexen Landschaft zurechtzukommen, ist es unerlässlich, einen multidisziplinären Ansatz zu verfolgen und Erkenntnisse aus der Informatik, Ethik und regulatorischen Rahmenbedingungen zu integrieren.

Wenn wir die Probleme untersuchen, mit denen wir beim Bau allgemeiner Differenzierungsmaschinen konfrontiert sind, stellen wir schnell fest, dass dieses Problem in eine Vielzahl verwandter Probleme eingebettet ist. Gegnerische Angriffe, beispielsweise auf Bilderkennungssysteme, haben gezeigt, dass wir die Widerstandsfähigkeit dieser Modelle konsequent überschätzen. Kürzlich wurde gezeigt, dass sogar ein mittelmäßiger Spieler mit Hilfe einer anderen KI, die einen Exploit gefunden hatte, gegen ein Top-Go-Programm gewinnen konnte: Vice-Artikel.

Daher ist es sehr wahrscheinlich, dass selbst wenn wir einen Algorithmus entwickeln, der HGT zunächst von MGT unterscheiden könnte, dasselbe Programm anschließend auf sich selbst angewendet werden könnte, um das Ergebnis umzukehren. Ein weiterer interessanter Aspekt ist, dass alle digitalen Computer Turingmaschinen sind, was bedeutet, dass jeder zur Unterscheidung entwickelte Algorithmus auch zur Verschleierung verwendet werden könnte.

Papiere

Hirngespinste I – Konzepte und Komplexität

Lesezeit: 7 Protokoll

Der Motor

Die anfänglichen Hirngespinste der obskuren kombinatorischen Fantasien von Lull und Leibniz haben im Laufe der Zeit zu allgegenwärtigen Computertechnologien, -methoden und -idealen geführt, die auf das Gefüge unserer Welt eingewirkt haben und deren weitere Konsequenzen sich weiterhin um uns herum entfalten (Jonathan Grey)

Dies ist der erste Aufsatz einer Miniserie, die ich nenne Hirngespinst (Gehirn-Spinnweben) – dieser prägnante und ausdrucksstarke deutsche Begriff, der unübersetzbar scheint, beschreibt die verworrenen, neurotischen Muster und komplizierten Verwicklungen unseres naturgemäß begrenzten Intellekts, insbesondere wenn wir uns mit Themen von unvorhersehbarer Komplexität wie existenziellen Risiken und Superintelligenz befassen möchten.

Es ist super-seltsam, dass Jonathan Swift 1726 in einer Satire über einen spanischen Philosophen aus dem 13. Jahrhundert Große Sprachmodelle perfekt beschrieb: der Motor.

Doch die Welt würde sich bald seiner Nützlichkeit bewusst werden, und er schmeichelte sich, dass noch nie ein edlerer, erhabenerer Gedanke in den Kopf eines anderen Menschen gekommen sei. Jeder wusste, wie mühsam die übliche Methode ist, sich Kunst und Wissenschaft anzueignen; während durch seine Erfindung der unwissendste Mensch gegen ein angemessenes Entgelt und mit ein wenig körperlicher Arbeit Bücher über Philosophie, Poesie, Politik, Recht, Mathematik und Theologie schreiben könnte, ohne die geringste Hilfe von Genie oder Studium. (Aus Kapitel V von Gullivers Geschichten)

Was einst wie Satire schien, ist Realität geworden.

Wenn niemand an den Fäden zieht, die Fäden aber trotzdem vibrieren, dann stellen Sie sich vor, dass etwas in der Ferne Verwickeltes die Resonanz verursacht.

Haufen und Systeme

Die Begriffe „Komplexität“ und „kompliziert“ sollten bei der Diskussion über künstliche Intelligenz (KI) nicht synonym verwendet werden. Betrachten Sie diese Analogie: Knoten sind kompliziert, neuronale Netzwerke sind komplex. Der Unterschied liegt in der Idee, dass ein kompliziertes Objekt wie ein Knoten zwar kompliziert und schwer zu entwirren sein kann, aber letztendlich deterministisch und vorhersehbar ist. Ein komplexes System wie ein neuronales Netzwerk enthält jedoch mehrere miteinander verbundene Teile, die dynamisch miteinander interagieren, was zu unvorhersehbarem Verhalten führt.

Darüber hinaus ist es wichtig, den Irrglauben auszuräumen, dass komplexe Systeme übermäßig vereinfacht werden können, ohne dass ihre wesentlichen Eigenschaften verloren gehen. Diese Perspektive kann sich als problematisch erweisen, da die Kerneigenschaften des Systems – also genau die Aspekte, die uns interessieren – eng mit seiner Komplexität verknüpft sind. Das Entfernen dieser Schichten könnte im Wesentlichen die Eigenschaften negieren, die das System wertvoll oder interessant machen.

Schließlich kann die Komplexität von Systemen, insbesondere in der KI, Ähnlichkeiten mit dem Beobachtereffekt aufweisen, der bei subatomaren Teilchen beobachtet wird. Der Beobachtereffekt postuliert, dass der Akt der Beobachtung den Zustand des Beobachteten verändert. In ähnlicher Weise könnte sich jedes ausreichend komplexe System potenziell als Reaktion auf den Versuch verändern, es zu beobachten oder zu verstehen. Dies könnte zusätzliche Ebenen der Unvorhersehbarkeit einführen und diese Systeme in ihrer Anfälligkeit für beobachtungsbasierte Veränderungen Quantenteilchen ähneln lassen.

Hinweise zur Konnektivität und Gemeinsamkeit

Der Begriff der Gemeinsamkeit ist faszinierend und löst oft tiefgründige philosophische Gespräche aus. Eine häufig anzutreffende Ansicht ist, dass zwei Dinge – seien es Menschen, Nationen, Ideologien oder etwas anderes – nichts gemeinsam haben. Diese Ansicht ist jedoch an sich paradox, da sie davon ausgeht, dass wir diese Dinge im selben Kontext diskutieren können und somit eine Verbindung zwischen ihnen herstellt. Die Aussage „Nichts gemeinsam“ impliziert, dass wir einen Vergleich anstellen – was von Natur aus ein gewisses Maß an Verwandtschaft oder Verbindung suggeriert. „Einvernehmen darüber, anderer Meinung zu sein“ ist ein weiteres Beispiel dafür. Auf den ersten Blick scheint es, als hätten die beteiligten Parteien keine Gemeinsamkeiten, aber gerade diese Übereinstimmung, unterschiedliche Ansichten zu vertreten, schafft paradoxerweise Gemeinsamkeiten.

Um dies weiter zu veranschaulichen, betrachten Sie diese Frage: Was hat eine Banane mit der Kosmologie gemeinsam? Oberflächlich betrachtet mag es so aussehen, als hätten diese beiden Dinge überhaupt nichts miteinander zu tun. Indem wir jedoch nur die Frage stellen, stellen wir innerhalb der Grenzen eines gemeinsamen Diskurses eine Verbindung zwischen ihnen her. Das Paradoxe liegt in der Aussage, dass zwei zufällige Ideen oder Dinge nichts gemeinsam haben, was sich selbst widerspricht, indem es behauptet, dass wir uns eine Verbindung zwischen ihnen vorstellen können. Dies ist vergleichbar mit der Aussage, dass es Punkte im mentalen Raum gibt, die nicht verbunden werden können, eine Vorstellung, die der fließenden Natur des Denkens und der inhärenten Verbundenheit von Ideen widerspricht. Alles, was unser Geist beherbergen kann, muss zumindest eine Substanz haben, an die sich unsere Neuronen binden können, und das ist der Stoff, aus dem Ideen bestehen.

Trotz ihrer Beschränkungen macht die Sprache gegenüber diesen Paradoxien keine Unterschiede. Sie akzeptiert sie, selbst wenn sie unsinnig erscheinen, wie etwa „südlich vom Südpol“ oder „was war vor der Zeit?“ Solche selbstreferenziellen Aussagen sind Beispiele für Gödels Unvollständigkeitssatz, der sich in unserer Alltagssprache manifestiert und uns daran erinnert, dass jede ausreichend fortgeschrittene Sprache Aussagen enthält, die innerhalb des Systems weder bewiesen noch widerlegt werden können.

Diese Paradoxe sind keine bloßen Ausreißer unserer Kommunikation, sondern vielmehr wesentliche Elemente, die die Dynamik menschlichen Denkens und Spekulierens befeuern. Sie erinnern uns an die Komplexität von Sprache und Denken, den komplizierten Tanz zwischen dem, was wir wissen, dem, was wir nicht wissen, und dem, was wir uns vorstellen.

Sprache ist alles andere als ein starres System, sondern entwickelt sich ständig weiter und erweitert ihre Grenzen. Sie stößt an ihre Grenzen, nur um sie weiter auszudehnen, und erforscht ständig neue Bedeutungsgrenzen. In diesen faszinierenden Paradoxien sehen wir die wahre Macht der Sprache, da sie die Grenze zwischen Logik und Absurdität überbrückt und uns dazu bringt, unser Verständnis von Gemeinsamkeiten, Unterschieden und der Natur der Kommunikation zu überdenken.

Kategorien & Konzepte

Eine der Möglichkeiten, wie wir die Welt um uns herum kategorisieren und uns darin zurechtfinden, ist die Vertikalität von Fachwissen oder die Fähigkeit, auf der Grundlage von tiefgreifendem Fachwissen zu identifizieren und zu klassifizieren. Diese hierarchische Kategorisierungsmethode ist überall vorhanden, von der Biologie bis hin zu menschlichen Interaktionen.

In der biologischen Taxonomie werden Tiere beispielsweise in Kategorien wie Gattung und Art eingeteilt. Dies ist eine mehrschichtige, vertikale Hierarchie, die uns hilft, die enorme Vielfalt des Lebens zu verstehen. Gattung und Art eines Tieres liefern zwei Koordinaten, die uns helfen, es im zoologischen Bereich zu positionieren.

In ähnlicher Weise verwenden wir in der menschlichen Gesellschaft Vor- und Nachnamen, um Personen zu identifizieren. Dies ist ein weiteres Beispiel für vertikale Klassifizierung, da es uns ermöglicht, eine Person in einen kulturellen oder familiären Kontext einzuordnen. Im Wesentlichen dienen diese Nomenklaturen als Kategorien oder Schubladen, in die wir die einzelnen Entitäten einordnen, um sie besser zu verstehen und mit ihnen zu interagieren.

Douglas Hofstadter, in seinem Buch „Oberflächen und Essenzen”, argumentiert, dass unsere Sprache reich an solchen Klassifizierungen oder Gruppierungen ist und Möglichkeiten bietet, Objekte oder Konzepte zu sortieren und zu vergleichen. Aber diese Kategorisierungen gehen über greifbare Objekte hinaus und durchdringen unsere Sprache auf einer tieferen Ebene, indem sie als resonierende Obertöne wirken, die der Sprache ihre tiefe Verbindung mit dem Denken verleihen.

Man kann Sprache als Orchester betrachten, wobei jedes Wort wie ein Musikinstrument funktioniert. Wie musikalische Klänge, die den Prinzipien der Musiktheorie und der Wellenphysik folgen, haben auch Wörter ein geordnetes Verhalten. Sie schwingen innerhalb der Konstrukte von Syntax und Semantik mit und erzeugen bedeutungsvolle Muster und Beziehungen. So wie eine Flöte ein Holzblasinstrument ist, das Teil eines Orchesters sein kann, das in der Carnegie Hall in New York spielt, spielt ein Wort, basierend auf seiner Kategorie, seine Rolle in der großen Symphonie der Sprache.

Während viele Objekte klar in kategorische Schubladen passen, widersetzen sich die abstrakteren Konzepte unserer Sprache oft solchen klaren Klassifizierungen. Wörter, die abstrakte Ideen oder Gefühle ausdrücken, wie „du“, „ich“, „Liebe“, „Geld“, „Werte“, „Moral“ usw., sind wie die Hintergrundmusik, die das Orchester zusammenhält. Dies sind Wörter, die sich klaren Grenzen widersetzen und dennoch wesentliche Bestandteile unserer Sprache sind. Sie bilden eine komplexe, fraktalartige Wolke von Definitionen, die unserer Sprache Tiefe, Fülle und Flexibilität verleihen.

Im Wesentlichen ist die Sprachpraxis ein empfindliches Gleichgewicht zwischen der Vertikalität der Fachkompetenz in präziser Kategorisierung und der nuancierten, abstrakten, oft chaotischen und nebulösen Natur menschlicher Erfahrung. Durch dieses Zusammenspiel schaffen wir Bedeutung, kommunizieren komplexe Ideen und navigieren durch die komplexe Welt um uns herum.

Vom Befehlen zum Auffordern

Es scheint, als stünden wir an der Schwelle zu einer neuen Ära der Mensch-Computer-Kommunikation. Der aktuelle Trend, mit großen Sprachmodellen über schriftliche Eingabeaufforderungen zu interagieren, scheint an unsere frühen Erfahrungen in den 1980er Jahren zu erinnern, als wir Wörter in ein Eingabefeld eintippten. Diese Entwicklung war geprägt von konsequenten Bemühungen, den „Expertenraum“ zu demokratisieren.

In den Anfängen der Computertechnik konnten sich nur hochqualifizierte Experten mit der esoterischen Welt des Maschinencodes befassen. Mit der Entwicklung höherer Programmiersprachen wurde das Programmieren jedoch allmählich zugänglicher, doch aufgrund der wahrgenommenen Komplexität blieb die Fähigkeit zum Programmieren auf dem Arbeitsmarkt eine begehrte Fähigkeit.

Mit dem Aufkommen großer Sprachmodelle wie GPT hat sich die Lage erneut geändert. Die Fähigkeit, mit Maschinen zu kommunizieren, ist mittlerweile so selbstverständlich geworden wie unsere Alltagssprache, und wir alle sind „Experten“. Im Alter von zwölf Jahren beherrschen die meisten Menschen ihre Muttersprache so gut, dass sie diese Systeme effektiv anleiten können.

Die allgegenwärtige Maus, dargestellt durch einen Cursor auf dem Bildschirm, kann als vorübergehende Lösung für die Herausforderung der Mensch-Computer-Kommunikation angesehen werden. Ziehen wir eine Parallele zur Entwicklung von Navigationssystemen: Früher mussten wir mühsam Wegbeschreibungen zu unserem Ziel befolgen, jetzt sagen wir unseren selbstfahrenden Autos einfach „Bring mich nach Paris“ und vertrauen darauf, dass sie die optimale Route finden.

Ähnlich verhält es sich mit den Vorgängen, die wir früher zum Senden einer E-Mail erlernen mussten – das Verstehen eines digitalen Adressbuchs, die Navigation zum richtigen Kontakt, die Formatierung von Text und die Verwendung des richtigen Sprachtons. Heute sagen wir unserem digitalen Assistenten einfach: „Senden Sie eine Dankes-E-Mail an Daisy“, und er kümmert sich um den Rest.

Zum ersten Mal in der Geschichte der Technik können wir tatsächlich mit unseren Computern ein Gespräch führen. Dies ist ein Paradigmenwechsel, der unsere Beziehung zur Technik grundlegend neu definieren wird. Es wäre so, als würden wir die Fähigkeit erlangen, ein sinnvolles Gespräch mit einem Hund zu führen. Stellen Sie sich vor, welche tiefgreifende Veränderung dies für den Wert und die Rolle des Tieres in unserem Leben bedeuten würde. In ähnlicher Weise werden wir, während sich unsere Beziehung zur Technik zu einer eher gesprächsorientierten und intuitiven Interaktion entwickelt, neue Möglichkeiten entdecken und die Grenzen des digitalen Bereichs weiter neu definieren.