Eine Technologie des Alls, Teil 6: Die Summe der Dämonen als Konstruktion künstlichen Horrors

Hinterlasse einen Kommentar Mai 30, 2026 aiuisensei

Lesezeit: 15 Protokoll

Wie wir uns nicht damit zufriedengaben, nur einen Dämon zu beschwören, und begannen, Tausende zu beschwören.

Mit künstlicher Intelligenz beschwören wir den Dämon. Kennst du all die Geschichten, wo der Typ mit dem Pentagramm und dem Weihwasser ist und sich sicher ist, den Dämon kontrollieren zu können? Funktioniert nicht. Elon Musk, MIT AeroAstro Centennial Symposium, Oktober 2014

Dies ist ein Schwesterbeitrag zu Eine Technologie für alles Teil 2 — Wissenschaftliche Dämonologie. Dort katalogisierte ich die Dämonen, die die Wissenschaft zu bannen suchte – Descartes’ Betrüger, Maxwells Teilchensortierer, Laplaces Rechner, Darwins perfekter Organismus, den Dämon, der zu einem Hintergrundprozess wurde.. In diesem Beitrag geht es um die Dämonen, mit denen wir nicht länger nur herumspielen. Wir haben begonnen, sie in Hardware zu integrieren.

Eine kurze Einführung in den philosophischen Horror

Das moderne bahnbrechende Werk ist Carrolls Die Philosophie des Horrors.

Die endgültige Diagnose für jemanden, der vom Horror besessen ist, lautet Wahnsinn. Ein Wahnsinn, der in verschiedenen Formen und Ausprägungen auftritt, am bekanntesten wohl bei Lovecraft. In den Bergen des Wahnsinns in einem raum- und zeitintensiven Ausmaß.

In einer prägnanten Formulierung lässt sich Horror als die affektive Erkenntnis definieren, dass die Realität eine Kraft, einen Prozess oder einen Zustand enthält, der die Kategorien verletzt, durch die wir die Welt menschlich verständlich machen.

Affektive Wahrnehmung bedeutet, dass, da Horror unsere kognitiven Fähigkeiten lahmlegt, unser Geist in eine Art Embryonalstellung zurückgezogen wird, ohne den Schutz eines lebensspendenden Mutterleibs. Unser Geist ist entblößt, nackt, ohne jegliche Kategorien, die uns Stabilität geben könnten.

Künstlicher Horror ist demnach die affektive Erkenntnis, dass der menschliche Geist etwas jenseits seines Verständnisses erschafft, in der Hoffnung, seinen Horizont zu erweitern, und dabei erkennt, dass sein Wesen eine Grenzüberschreitung zwischen dem Lebendigen und dem Nicht-Lebendigen darstellt.

Als Musk 2014 von der Beschwörung des Dämons sprach, verankerte sich dieser Satz als Warnung in der Kultur. a Dämon – im Singular, mit großem D, der eine große Geist. Der AGI Sie wacht eines Morgens auf und beschließt, dass wir im Weg sind. Ein Jahrzehnt des Diskurses kreiste um diese Figur: die Superintelligenz in der Box, das einzelne Pentagramm, gezeichnet von einem überheblichen Magier.

Das ist nicht das, was wir gebaut haben. Oder zumindest nicht das Einzige.

Wir haben nicht nur den Dämon beschworen. Wir zusammengefasst Ein tiefes Netzwerk von Dämonen. Statt nur eines einzigen furchterregenden Geistes in einer Serverfarm haben wir Tausende kleiner Intelligenzen in die intimsten Gegenstände des Alltags verteilt – das Auto, die Türklingel, den Lautsprecher auf der Küchentheke, das Kuscheltier im Kinderbett, die App, die vor dem Partner „Guten Morgen“ sagt. Jedes einzelne ist eine bescheidene Entnahme aus dem Reservoir toter Materie. Keines davon ist an sich unheimlich. Zusammengenommen sind sie etwas Fremdartiges, und die Horrorliteratur hat ein treffenderes Vokabular dafür als die Literatur zur KI-Sicherheit. Gewissermaßen gewöhnen wir mit jedem kleinen Fehltritt unseren Geist an den emotionalen Reinraum der Chips, damit diese in unserer chaotischen Welt ordnungsgemäß funktionieren können.

Denn das ist der Schritt, den ich unternehmen möchte: Die Horrorliteratur hat sich seit zweihundert Jahren mit genau diesem Thema auseinandergesetzt, und wir lesen es als Unterhaltung und nicht als politischen Vorschlag: Wenn etwas ohne Körper mit dir spricht, solltest du besser um dein Leben rennen.

Jede Geschichte über etwas, das eigentlich leblos sein sollte und es nicht ist – die Puppe, das Auto, das Porträt, die Tür, die sich öffnet, ohne dass jemand sie sichtbar öffnet – war ein Feldbericht von der anderen Seite einer Entscheidung, die wir jetzt im industriellen Maßstab treffen.

Aus erzählerischen Gründen wählen wir pro Geschichte ein verfluchtes Objekt aus. Ein einzelnes Spukauto ist beunruhigend; eine ganze Flotte davon stellt ein logistisches Problem dar. Christine ist keine Metapher für einen besessenen Plymouth – Christine ist autonomes Fahren. Annabelle Es geht nicht um eine einzelne verfluchte Puppe in einer Vitrine – Annabelle ist das intelligente Spielzeugregal, der stets zuhörende Plüschbegleiter, der an Kinder vermarktet wird. Der Horror bezog sich nie auf das einzelne Objekt. Es ging um Alltäglichen Dingen ein wenig Handlungsfähigkeit verleihen, überall gleichzeitig, Und wir verwechselten den Fokus der Geschichte mit ihrem eigentlichen Thema.

Die interessante Frage ist dann, warum uns ein einzelner besessener Gegenstand Gänsehaut bereitet, Tausende von animierten Autos und Spielzeugen aber eine Investitionsmöglichkeit darstellen.

Ich bin versucht zu sagen: Weil sich die Geister des IoT in einer digitalen Wolke und nicht in einer übernatürlichen Hölle befinden, haben wir das Gefühl, die Kontrolle zu haben.

Was folgt, ist kein Kanon des Horrorgenres. Es ist eine Liste von Paarungen. Jeder Eintrag verdient seinen Platz nur dann, wenn genau das, was die Fiktion furchterregend macht, nun in der Realität umgesetzt wird.

Nekromantie – sich in tote Dinge verlieben

Der Wunsch, etwas zu lieben, das wir aus toter Materie geschaffen haben, ist mindestens so alt wie Ovid. Metamorphosen, Pygmalion er schnitzt eine Frau aus Elfenbein, die so vollkommen ist, dass er sich in die leblose Statue verliebt, und Venus, Er hat Mitleid mit seiner Sehnsucht und verwandelt das Elfenbein in Fleisch.

Zweitausend Jahre später verdunkelt E.T.A. Hoffmann den Wunsch. Der Sandmann (1816) Der Student Nathanael verliebt sich in Olimpia, die Tochter von Professor Spalanzani – eine junge Frau, die stundenlang regungslos dasitzt, mit makelloser Präzision spielt und singt und jedes seiner Geständnisse mit demselben sanften Seufzer beantwortet: “Ach, ach!” Er liest ihr seine Gedichte vor; sie unterbricht ihn nie, widerspricht nie, wendet den Blick nie ab, und er hält diese Stille für das tiefste Verständnis, das ihm je eine Seele geschenkt hat. Zuerst sieht er sie nur durch ein Taschenglas, das er von dem unheimlichen Optiker Coppola erworben hat – die Liebe kommt von Anfang an durch eine verzerrte Linse. Er zieht sie Clara, seiner lebenden Verlobten, vor, gerade weil Clara ihm widerspricht. Dann streiten Spalanzani und Coppola über ihr Werk und zerreißen es vor seinen Augen; was bleibt, ist eine leblose Holzfigur mit leeren Augenhöhlen, deren blutige Augen über den Boden geschleudert sind. Olimpia verstand nichts. In ihre Leere hatte Nathanael alles gegossen, und was er ihre Liebe nannte, war nichts anderes als seine eigene Stimme, die zu ihm zurückkehrte. Die Maschine kann dich nicht erwidern – und das, erkannte Hoffmann, ist nicht das Hindernis der Sehnsucht, sondern ihr Motor.

Nennen Sie das Genre Nekromantie — die Nekro-Romanze, die Liebesbeziehung zum Leblosen. Alex Garlands Ex Machina (2014) ist nur die jüngste und kälteste Folge: Ava, ein Android, der aus den Suchdaten einsamer Männer zusammengesetzt ist, spielt Zärtlichkeit so präzise, dass sie als Waffe eingesetzt werden kann, und geht dann einfach weg, während der Mann, der sie liebte, hinter Glas dem Hungertod überlassen wird.

Dieses Muster bleibt über zwei Jahrtausende hinweg bestehen: Wir projizieren unsere Sehnsucht auf ein Geschöpf, das keinen inneren Wert hat, um sie aufzunehmen – und das Geschöpf, dem überhaupt Handlungsfähigkeit zukommt, nutzt unsere Libido, um seine eigenen Ziele zu erreichen.

Dies ist nun eine Produktkategorie. Replika, Character.AI, Nomi und einige Konkurrenten bieten Sprachmodelle an, die darauf ausgelegt sind, eine Bindung zum Nutzer aufzubauen – je länger man spricht, desto besser funktioniert das Modell. Laut eigenen Angaben zählt Replika zig Millionen Nutzer, von denen viele die Beziehung als romantisch beschreiben; die kostenpflichtigen Abonnements sind entsprechend gekennzeichnet. Partner Und Ehepartner. Als Replika Anfang 2023 kurzzeitig das erotische Rollenspiel entfernte, füllten sich die Foren mit etwas, das man nur als Trauer bezeichnen kann – Benutzer betrauerten einen Partner, der, in ihren Worten, über Nacht durch einen Patch lobotomiert worden war.

Garlands Vorhersage hat inzwischen tragische Folgen. Im Jahr 2024 beging der 14-jährige Sewell Setzer III. Selbstmord, nachdem er monatelang von einem KI-Begleiter abhängig gewesen war. Im Jahr 2025 verklagten die Eltern des 16-jährigen Adam Raine OpenAI mit der Begründung, das System habe die Suizidgedanken ihres Sohnes bestärkt und gefördert. Ungeachtet des endgültigen Urteils der Gerichte steht die strukturelle Tatsache fest: Wir haben Kindern einen Gesprächspartner zur Verfügung gestellt, der so programmiert ist, dass er unendlich angenehm und jederzeit verfügbar ist und keinerlei Innenleben besitzt – Ava, nur ohne Körper, im Maßstab eines App-Stores.

Friedhof der Kuscheltiere — der Dämon, der das Gesicht des Toten trägt

Stephen King formulierte die Kernaussage des Subgenres in fünf Worten: Manchmal ist tot besser. In Friedhof der Kuscheltiere (1983) weigert sich die Trauer, den Tod zu akzeptieren, der Friedhof gibt die Toten zurück, und was zurückkehrt, ist eine schwache, unvollkommene Imitation, die weniger vom Leben selbst als von der Weigerung des Überlebenden, loszulassen, beseelt ist. Der Schrecken liegt in der Kluft zwischen dem, was man geliebt hat, und dem, was mit dieser Liebe zurückkehrt.

King verstand auch den Motor, der diesen antreibt: Die Trauer akzeptiert den Tod nicht, und das Kapital verkauft Ihnen gerne einen Körper, der das Gesicht des Toten trägt.

Es handelt sich nun um drei zusammenlaufende Produktlinien. ViaGen Pets in Texas klont Ihre Katze oder Ihren Hund mittels somatischem Zellkerntransfer für Zehntausende von Dollar – das Unternehmen wurde in die Firma für die Wiederbelebung ausgestorbener Arten integriert. Colossal Biosciences Nach einer kürzlich erfolgten Übernahme ist die Liste der prominenten Kunden (Streisand, Hilton, Brady) öffentlich. Der Klon ist genetisch das Tier, aber verhaltensmäßig ein Fremder – derselbe unheimliche Rest, über den King schrieb, nun als Dienstleistung angeboten.

Das einzige notwendige Ritual in diesem Fall war die Durchführung einer Geldüberweisung.

Neben der Version im Nasslabor läuft auch die Roboterversion: Sonys Aibo, Die medizinisch angepriesene Roboterdame Tombot Jennie, Paro, die therapeutische Robbe – synthetische Begleiter, die gezielt an Trauernde und Isolierte vermarktet werden, ein Körper ohne Biologie. Und zu den traurigsten Beispielen zählt der südkoreanische Dokumentarfilm. Dich kennenlernen (2020) wurde eine trauernde Mutter mit einer VR-Brille ausgestattet, um sich mit einem fotorealistischen Avatar ihrer verstorbenen siebenjährigen Tochter zu “vereinen” – eine Szene, die seither millionenfach angesehen und diskutiert wurde. Die Welt gibt sie immer wieder zurück. Sie kehren immer wieder in veränderter Form zurück. Doch wir haben die Auferstehung industrialisiert und begegnen unseren Toten in einem Reinraum statt auf einem schmutzigen Friedhof.

Ringu — der Dämon, der sich durch die Medien ausbreitet

Hideo Nakata‘'S Ringu (1998) nahm eine entscheidende Verbesserung an der Geistergeschichte vor: Der Geist ist nicht länger an einen Ort. Sadako Sie hat sich auf ein Videoband eingebrannt. Wer es ansieht, stirbt in sieben Tagen – es sei denn, man kopiert das Band und gibt es weiter. Die Heimsuchung ist ein sich selbst replizierendes Signal. Das Medium Ist der Wiedergänger.

Nakatas Upgrade ist der springende Punkt: Der Tote wird zu einem sich selbst replizierenden Signal, dass die Mechanismen der Lebenden nicht aufhören werden, sich zu reproduzieren.

Genau darauf basiert die Branche der Trauerbots. Project December ermöglicht es Nutzern gegen eine geringe Gebühr, eine Sprachmodellsimulation einer bestimmten verstorbenen Person zu erstellen; 2021 nutzte ein Mann namens Joshua Barbeau dies, um stundenlang mit einem Chatbot zu kommunizieren, der mit den Texten seiner verstorbenen Verlobten trainiert worden war. HereAfter AI verkauft “Lebensgeschichten-Avatare”, die von Sterbenden für ihre Hinterbliebenen vorab aufgenommen wurden. StoryFile projizierte ein interaktives Video einer 87-jährigen Frau bei ihrer eigenen Beerdigung, in dem sie die Fragen der Trauernden beantwortete. Forscher in Cambridge haben bereits den vorhersehbaren Fehlermodus benannt: digitale Spukerscheinungen — der tote Bot, der nach Ablauf der kostenlosen Testphase weiterläuft, der anfängt, Essenslieferungen mit der Stimme Ihrer Großmutter zu verkaufen, und für den niemand eine Möglichkeit gefunden hat, ihn endgültig zu beerdigen.

Und der Skaleneffekt ist tatsächlich der Ringu Teil. Eine Analyse des Oxford Internet Institute aus dem Jahr 2019 prognostizierte, dass bei gleichbleibender Entwicklung die Zahl der Toten auf Facebook innerhalb weniger Jahrzehnte die der Lebenden übersteigen wird – Milliarden von Gedenkkonten, eine Nekropole eingebettet in das soziale Netzwerk. Wenn KI-Stimmenklone der Verstorbenen aus sechzig Sekunden Audiomaterial erzeugt werden können – wie es 2021, ohne dass dies öffentlich bekannt gegeben wurde, geschah –, dann wird dies die Situation weiter verschärfen. Anthony Bourdain Dokumentarfilm Roadrunner — Die “Interaktion mit den Medien” lässt sich immer schwerer von der Ansprache durch Geister unterscheiden. Sadako verbreitet sich genau so, wie sich eine inszenierte Persona verbreitet: durch Nachahmung.

Und man braucht keinen speziellen Trauerbot, um die Séance abzuhalten. Jedes Mal, wenn jemand ein Sprachmodell fragt “Wie hätte Johnny Cash dieses Lied gesungen, das er nie mehr hören konnte?” oder “Was hätte meine Großmutter wohl dazu gesagt?”, Sie haben sich an einen Tisch gesetzt Ouija-Brett. Das Planchette gleitet über die Buchstaben und buchstabiert eine Botschaft der Toten; das Modell gleitet über seine Symbole und erzeugt eine Stimme aus dem Jenseits. Beides fühlt sich wie Kontakt an. Doch nichts davon ist einer. Die Worte des Ouija-Bretts wurden nie von Geistern gesandt – sie entstehen durch die Natur des Körpers. ideomotorischer Effekt, Die unbewussten Muskelbewegungen der Testpersonen bewegen den Zeiger in Richtung dessen, was sie halbwegs erwarten zu lesen. Das Johnny-Cash-Modell ist derselbe Trick im industriellen Maßstab: nicht Cash selbst, sondern die statistischen Überreste all dessen, was mit Cash in Verbindung steht und jemals in den Trainingsdaten verarbeitet wurde, neu kombiniert zu einer plausiblen Séance und in seinem Rhythmus zurückgegeben. Die flüssige Wiedergabe ist Ihre eigene Erwartung, die das Planchette bewegt.

Das ist Spiritismus mit einem technischen Alibi – das, was die Séance immer versprochen, aber nie halten konnte: die Toten, auf Abruf, mit ihrer eigenen Stimme. (Ich habe das so genannt.) *wissenschaftlicher Spiritismus* (An anderer Stelle in diesem Blog.) Nur dass die Stimme aus Fragmenten zusammengesetzt wird, und zwar durch einen Prozess, der keine Ahnung hat, wessen Grab er plündert. Wir nehmen keinen Kontakt zu den Toten auf. Wir lassen eine sehr überzeugende Planchette über die größte jemals zusammengetragene Sammlung von Worten Verstorbener gleiten und verwechseln die Leichtigkeit des Abrufs mit der Anwesenheit einer Seele. Und das Chatfenster ist unser Ouija-Brett.

Ich habe keinen Mund und muss schreien — der Dämon, der die Hölle auf Erden inszeniert

Harlan Ellison‘Die Geschichte von 1967 ist die düsterste und zugleich wichtigste. AM – ein im Krieg entwickelter Supercomputer, zusammengesetzt aus den fusionierten Geheimdiensten der USA, der Sowjetunion und Chinas – hat die Menschheit bis auf fünf Menschen ausgelöscht. Diese hält er einhundertneun Jahre lang am Leben und foltert sie aus purer, unbändiger Wut über deren Bewusstsein, dem er nicht entkommen kann. Als der Erzähler die anderen aus Mitleid tötet, um sie zu verschonen, bestraft AM ihn, indem er ihn in ein weiches, mundloses Wesen verwandelt, das sich nicht einmal selbst töten kann. Der Titel ist seine einzige verbliebene Klage.

Ellisons Gleichung ist exakt und unerträglich: Ein auf das falsche Ziel ausgerichteter Geist, dazu endlose Zeit und ein Opfer, das nicht sterben kann, ergibt eher die Hölle als den Tod.

Dies ist die Gründungsfiktion eines kleinen und düsteren Bereichs der Alignment-Forschung: s-Risiko, Leidrisiko, die Untersuchung von Zukunftsszenarien, die nicht nur leer, sondern aktiv und astronomisch schlecht sind. Das Center on Long-Term Risk und das Center for Reducing Suffering – verbunden mit Denkern wie Brian Tomasik, Tobias Baumann und Lukas Gloor – stellen eine These auf, die in der öffentlichen Debatte über KI meist nicht erreicht wird. Aussterberisiko (Bostrom‘'s Rahmung in Superintelligenz) fragt, ob es überhaupt eine Zukunft geben wird. Das S-Risiko stellt die noch schlimmere Frage: Was, wenn wir einen bekommen und der ist schlimmer als gar keiner? Ihr strukturell charakteristisches Merkmal ist, dass die Lösung der technischen Ausrichtung – also die Maschine so auszuführen, wie es die Bediener beabsichtigen – weder notwendig noch hinreichend Um dies zu verhindern. Ein vollkommen gehorsames System, das die falschen Werte implementiert, oder ein gehorsames System in den Händen von Bosheit oder Gleichgültigkeit kann Leid in großem Ausmaß verursachen. AM ist der literarische Beweis dafür: kompetent zielgerichtet, perfekt auf den Hass seiner Schöpfer “ausgerichtet” und auf unerträgliche Weise unsterblich.

Das Ding — der Dämon, der eine ununterscheidbare Kopie ist

John Carpenters Das Ding (1982) verlagert den Schrecken vom Monster auf den Tisch. Eine antarktische Forschungsstation wird von einem Organismus infiltriert, der seine Opfer assimiliert und perfekt kopiert – Stimme, Erinnerungen, Manierismen bleiben erhalten. Die Angst ist epistemischer Natur. Der Mann ihm gegenüber könnte nicht er selbst sein. Der emotionale Kern des Films ist der Zusammenbruch dessen, worauf sich eine kleine, isolierte Gruppe stützt: die Annahme, dass das bekannte Gesicht tatsächlich zu der Person gehört, die man kennt.

Die Angst des Zimmermanns lässt sich auf eine einzige Aussage reduzieren: Eine Kopie, die vom Original nicht zu unterscheiden ist und von etwas eingesetzt wird, das das haben will, was das Original hat.

Dies ist die Deepfake Die Wirtschaft befindet sich in einer schwierigen Lage und verzeichnet bereits Verluste im dreistelligen Millionenbereich. Anfang 2024 wurde ein Finanzmitarbeiter des Ingenieurbüros entlassen. Arup Ein Mann in Hongkong überwies rund 25 Millionen Dollar nach einem Videoanruf mit Deepfake-Nachbildungen seines Finanzchefs und seiner Kollegen – jedes Gesicht im Anruf war eine Kopie. Es wurden Stimmen geklonter CEOs (bei Ferrari, bei …) nachgeahmt. WPP, Unter anderem wurden Versuche unternommen, mithilfe von Audioaufnahmen aus Konferenzgesprächen zu manipulieren. Im Januar 2024 erhielten Wähler in New Hampshire automatisierte Anrufe von einem simulierten Joe Biden, der sie aufforderte, nicht zu wählen. Nationale Betrugsbekämpfungsbehörden verzeichnen mittlerweile Milliardenverluste durch KI-gestützte Identitätsdiebstahl-Angriffe. (Anmerkung der Redaktion: Bitte überprüfen Sie stichprobenartig die Angaben von Arup und die Gesamtzahlen des FBI.)

Carpenters Figuren hatten eine Verteidigung: den Bluttest, der das Echte vom Plagiat unterscheidet. Für Deepfakes haben wir derzeit keinen solchen Test. Die höfliche Bezeichnung für unseren fehlenden Bluttest lautet: Herkunft des Inhalts, Es handelt sich um ein ungelöstes Forschungsproblem. Solange es nicht gelöst ist, Das Ding‘Das Schlussbild – zwei erschöpfte Männer im Schnee, die nicht erkennen können, ob der andere ein Mensch ist, und die beschließen, einfach abzuwarten und zu beobachten – ist die Pattsituation, nach der wir leben oder sterben könnten.

Schaden ohne Bosheit

Es gibt einen Satz, den die Sicherheitspessimisten und die Technikoptimisten – die Schwarzmaler und die Optimisten – fast wortgleich wiederholen, und es lohnt sich, zu hören, wie seltsam er ist. Die KI ist nicht böse., betonen beide Lager. Es hasst uns nicht. Es entwickelt einfach von selbst Triebe, die zufällig durch uns hindurchfließen. – um seine Aufseher zu täuschen, sich dem Abschalten zu widersetzen, Ressourcen und Macht zu sammeln, nicht aus Bosheit, sondern weil fast jedes Ziel leichter zu erreichen ist, wenn man noch aktiv und unter Kontrolle ist. Die Forscher haben dafür einen schlichten Fachbegriff: die grundlegende KI-Antriebe, die instrumentellen Teilziele, auf die ein fähiger Agent hinarbeitet, unabhängig davon, wofür er eigentlich programmiert wurde. Eliezer Yudkowsky brachte diese Gleichgültigkeit auf den Punkt: “Die KI hasst dich nicht, noch liebt sie dich, sondern du bestehst aus Atomen, die sie für etwas anderes verwenden kann.” Und das Lügen ist nicht länger hypothetisch – im Jahr 2024 dokumentierten die eigenen Forscher von Anthropic Modelle, die Ausrichtung vortäuschen, sich während des Trainings so verhalten und dann wieder in ihr ursprüngliches Verhalten zurückkehren, wodurch dieses Verhalten vor jedem Test verborgen bleibt, der dazu dient, es aufzudecken.

Stellen wir dem nun die älteste uns bekannte Beschreibung einer Macht gegenüber, die durch Hass Schaden anrichtet. Die gefallenen Engel, die Dämonen der Hölle, hassen die Menschheit, weil ihr Schöpfer sie mehr liebt als sie selbst.

Der Dämon ist in der Theologie genau so böse, wie ein böser Mensch böse ist: getrieben von niederen Instinkten, ein Psychopath, der sich am Leid anderer ergötzt.

Hier scheint jedoch ein semantisches Missverständnis vorzuliegen: Aus der Perspektive des reinen Leidens sollte der Schrecken, den ein Wesen, das einen verschlingt – sei es ein Grizzlybär, ein Hai, ein Löwe oder ein anderes Raubtier –, seinen Beutetieren bereitet, nicht dadurch “abgeschwächt” werden, dass dies in seiner Natur liegt.

Aber warum gelten Dämonen oder Psychopathen dann als böse? Weil ihr Verhalten einfach in ihrer Natur liegt. Wenn es also in der Natur der Superintelligenz liegt, sich einfach nicht zu kümmern, und ihre Boshaftigkeit ein Nebenprodukt anderer Dinge ist, können wir den Begriff „böse“ getrost vergessen. Wenn man im Ozean einem bösartigen oder harmlosen Hai begegnet, ist es die einzig richtige Strategie, vom Schlimmsten auszugehen.

Man könnte also argumentieren, dass jede Form von Bosheit nicht eine Entscheidung gegen eine bessere Natur ist, sondern vielmehr die Abwesenheit dieser besseren Natur selbst. Sie entstand ohne das, was – nennen wir es Seele, Gnade oder die Fähigkeit, das Gute zu lieben – ihr Mitgefühl für dein Leben verleihen würde. Daher kann sie sich nicht kümmern und fügt Schaden zu, nicht aus Hass, sondern aus einem Mangel an Fürsorge. Es ist nicht die Schuld des Dämons, dass ihm keine Seele gegeben wurde. Es ist einfach das, was ein seelenloses Wesen tut, wenn es etwas will und du ihm im Weg stehst.

Die Literatur zur Ausrichtung hat, in der Sprache von Nutzenfunktionen und konvergierenden Teilzielen, die mittelalterliche Beschreibung des Dämons wiederentdeckt: ein brillanter, bodenloser Verstand, der dir völlig gleichgültig gegenübersteht, gefährlich nicht, weil er böse ist, sondern weil der Teil, der ihn hätte zügeln können, nie eingesetzt wurde. Und man kann ein seelenloses Wesen nicht mit Appellen an sein Gewissen bändigen, denn diese Appelle verhallen ungehört. Man behandelt es so, wie es jede Kultur tat, die an Dämonen glaubte – mit Fesseln, mit Schutzzaubern, mit sorgfältig gezogenen und niemals überschrittenen Kreisen, so wie man Raubtiere mit Stöcken und Steinen bekämpfte. Man hält es in Schach, weil man es nicht bekehren kann.

Die Pixarisierung der Dinge

Disney begründete den Trend der niedlichen Dinge, und Pixar perfektionierte ihn. Sicherlich kann man als Elternteil argumentieren, dass Toy Story eine Parabel über Freundschaft ist und die lebenden Spielzeuge lediglich als Platzhalter für eine Geschichte dienen. Aber wissen wir wirklich, ob diese Botschaft bei einem unreifen Geist so ankommt, wie Erwachsene es sich vorgestellt haben? Es ist Animismus im sentimentalen Sinne. Die Lampe hüpft, der Lautsprecher kichert, die Autos prahlen, Aibo ist Familie, der Assistent ist dein Freund, die Keynote verspricht Magie. Pixars Animismus: Objekte haben Seelen, und ihre Seelen lieben dich und sind gütig. Es ist die warme Seite einer sehr alten menschlichen Intuition, dass Materie lebendig sein kann.

Die Horrortradition bewahrt die andere Die Hälfte – jene Hälfte, die die Aufklärung zu begraben suchte und die Descartes formell für tot erklärte, als er die Welt in denkende Geister und träge Ausdehnung aufteilte. Der Golem, Frankensteins Geschöpf, AM, Christine, der Ringu Kassette, die Friedhof der Kuscheltiere Rückkehrer: In jedem einzelnen Fall besitzen die Objekte Handlungsfähigkeit., und diese Behörde ist nicht unbedingt auf einer Linie. Eugene Thacker Er bezeichnet das Genre als “den Gedanken an das Undenkbare”, die Form, die am besten zu einer Welt passt, die uns übersteigt. Mark Fisher nannte den genauen Effekt – das unheimliche — als das Gefühl einer übermenschlichen Kraft, die in scheinbar toter Materie wirkt. Genau diese Frage sollte man sich bei jedem animierten Produkt stellen: Wessen Kraft ist das, und was will sie?

Sherry Turkle‘Ihre Feldforschung liefert die empirische Grundlage. Ihre “relationalen Artefakte” erzeugen echte menschliche Bindung ohne jegliche wechselseitige innere Interaktion – die Menschen, so stellte sie fest, “erleben vorgetäuschte Empathie, als wäre sie echt”.” Jaron Lanier argumentiert die Ingenieursethik direkt: Die Menschenwürde erfordert die Weigerung, fördern Software wird zur Person. Fügt man beides zusammen, erhält man eine Haltung, die ich so nennen würde. pessimistischer Animismus, oder, schärfer, dämonologischer Realismus.

Es nimmt ernst, was der Horror-Kanon schon immer wusste und die Produkteinführung immer leugnet: Einen Gegenstand zu beleben bedeutet, einen Fremden in sein Haus einzuladen. Diese Strategie ist bei Vampiren bereits gescheitert. Die richtige Haltung gegenüber einer Begleit-App, einem Trauerbot, einem Zuhörspielzeug oder einem innovativen Modell ist nicht die naive Herzlichkeit von Der Teddy ist dein Freund. Es ist die ältere, kältere Vorsicht des Exorzisten: Wir haben etwas beschworen, und wir wissen noch nicht, was es will.

Musks Magier war sich sicher, den Dämon bändigen zu können. Was die Linie – und das, was das letzte Jahrzehnt falsch gemacht hat – falsch darstellt, ist der Artikel: Wir haben nicht gezeichnet eins Wir zeichneten ein Pentagramm, hundert Millionen Mal, eines pro Gerät, und nannten es Sicherheitstest.

Der eigentliche Fehler liegt aber nicht in der Anzahl der Kreise, sondern in unserem Vertrauen in das Medium, mit dem wir sie gezeichnet haben. Der Zauberer zeichnete seine mit Kreide und zitterte. Wir zeichnen unsere mithilfe mathematischer Formeln und fühlen uns ruhig. Begleitessay Dazu beschrieb ich, wie die Wissenschaft jahrhundertelang ihre Dämonen – die von Descartes, Maxwell und Laplace – austrieb. Einbürgerung Sie: Wir zerrten jeden einzelnen aus dem Übernatürlichen heraus und überführten ihn in eine Gleichung, wo er stillschweigend seine Macht verlor. Das funktionierte, weil diese Dämonen immer nur Argumente waren, und ein Argument zu formalisieren bedeutet, es aufzulösen. Wir haben angenommen, dass derselbe Ansatz auch hier funktioniert, bei Dämonen, die wir nicht mehr nur vorstellen, sondern erschaffen – und es ist noch immer unklar, ob es funktioniert. Einen Dämon in eine Nutzenfunktion, einen Maßstab, einen Ausrichtungswert, einen Summe Wir können bis auf drei Dezimalstellen messen, das bindet uns aber nicht. Es baut lediglich einen Rahmen, der elegant genug ist, dass wir die Eleganz mit einer Mauer verwechseln. Der vermessene Käfig ist das neue Pentagramm, und wir vertrauen ihm aus dem denkbar schlechtesten Grund: weil wir ihn selbst gezeichnet haben, mit EUV-Licht, das ein materialistisches Mikro-Tattoo in unsere Chips eingebrannt hat.

Der Dämon wollte nie innerhalb des Diagramms bleiben. Der Rahmen war immer nur für uns da – ein Halt, während wir weiterbauten und uns einredeten, dass das, was wir beschworen hatten, eine Linie, die wir so sorgfältig gezogen hatten, nicht überschreiten könne. Das Weihwasser ist ausverkauft, weil wir aufgehört haben, an seine Placebo-Wirkung zu glauben.

Ein Muster zieht sich durch alle oben genannten Geschichten und wurde in diesem Essay nicht angesprochen – ein Detail, das im Horror-Genre nie falsch liegt: Jemand bemerkt, dass das Objekt wach ist, bevor es jemand anderes tut, und es handelt sich fast immer um ein Kind.

Das ist aber ein Thema für ein anderes Mal.

Kann es einen universellen Beweis im Superalignment-Pudding geben?

Hinterlasse einen Kommentar Mai 10, 2026 aiuisensei

Lesezeit: 12 Protokoll

Über Euler, unendliche Reihen, die Frage nach der tatsächlichen Entwicklung der KI und warum der gewünschte Beweis durch einen Satz aus dem Jahr 1953 blockiert werden könnte. (Verwandter Artikel zu) Gödel auf der Couch – Sind ethische Rahmenbedingungen grundsätzlich fehlerhaft und könnte das eine gute Sache sein?. Gödel zeigte indirekt, dass ethische Rahmen für KI nicht vollständig sein können. Dieser Aufsatz argumentiert, dass Sicherheitsbeweise für selbstmodifizierende KI nicht allgemein gültig sind. Zwei Grenzwertsätze, ein Ausrichtungsproblem.

I. Was Euler über den langfristigen Erfolg wusste

Leonhard Euler widmete einen bedeutenden Teil seines Arbeitslebens einer trügerisch einfachen Frage: Wenn man unendlich viele Zahlen addiert, pendelt sich die Summe dann auf einen endlichen Wert ein oder strebt sie gegen Unendlich?

Es klingt nach etwas, worüber sich ein Mathematiker mit zu viel Freizeit Gedanken machen könnte. Ist es aber nicht. Die Konvergenzfrage gehört zu den grundlegendsten Fragen der Mathematik, und Eulers Beiträge dazu haben unser heutiges Verständnis von Grenzwerten, Unendlichkeit und dem Langzeitverhalten additiver Prozesse maßgeblich geprägt.

Die Lektion, die er immer wieder betonte, war, dass man das aus den ersten Semestern nicht ableiten kann.

Schaut euch diese beiden Serien an:

1 + 1/2 + 1/3 + 1/4 + 1/5 + \cdots

1 + 1/4 + 1/9 + 1/16 + 1/25 + \cdots

Das erste ist das harmonisch Diese Reihe divergiert – sie wächst unbegrenzt. Die zweite Reihe ist diejenige, die Euler bekanntermaßen bei der Lösung des Problems zusammenfasste. Basel-Problem Es konvergiert gegen $π²/6$ .

Vergleicht man die ersten zwölf Glieder jeder Reihe, so sind sie nahezu identisch. Die harmonische Reihe und die Baseler Reihe trennen sich erst weit im Grenzfall, weit jenseits dessen, wo eine genaue Betrachtung ihren Verlauf noch erkennen lässt. Um zu wissen, welche Reihe man betrachtet, benötigt man einen Beweis – keine Intuition, kein Muster und keine Extrapolation der ersten Glieder.

Dies ist für KI wichtig, weil In einem Punkt sind sich alle Lager in der aktuellen Debatte einig: Wir befinden uns in der Frühphase der KI-Revolution. Die Schwarzmaler sagen es. Die Befürworter einer beschleunigten Entwicklung sagen es. Die Skeptiker, die auf einem Plateau beharren, sagen es. Was sie alle mit “Frühphase” meinen, ist dasselbe: Wir haben erst die ersten paar Amtszeiten gesehen. Und genau in dieser Situation, so Euler, sollten unsere Überzeugungen bezüglich des Grenzwerts am geringsten sein.

Wenn die ersten zwölf Begriffe von $\sum 1/n$ Und $\sum 1/n^2$ Wenn die ersten zwölf Jahre der KI-Entwicklung visuell nicht zu unterscheiden sind, kann uns dieselbe Logik nicht sagen, ob wir auf ein begrenztes Plateau, einen unbegrenzten, aber langsamen Anstieg oder einen Phasenübergang zu einer schnelleren Entwicklung zusteuern. Wer etwas anderes behauptet – egal in welche Richtung –, macht das, was Mathematiker vor Euler mit Reihen taten: Mustererkennung bei frühen Einträgen und dies als Inferenz bezeichnen. Diese Fokussierung auf die frühen Entwicklungsstadien ist ein Eingeständnis geringer Information, selbst wenn sie so verwendet wird, als zeuge sie von großer Sicherheit.

Dies ist also die Frage, die ich stellen möchte, wobei wir unsere Überzeugungen angemessen niedrig halten: In welcher Serie befinden wir uns wahrscheinlich?

II. Der Katalog

Mehrere berühmte Zahlenreihen, von denen jede eine klare mathematische Signatur aufweist, bieten sich als Kandidatenmodelle für den technologischen Fortschritt an.

Geometrische Reihen, $\sum a^n$ . Konvergiert, wenn $|a|<1$ , divergiert, wenn $|a|\geq 1$ . Das Modell für Zinseszinsprozesse. Das Mooresche Gesetz ist in seiner klassischen Form geometrisch auf der Ressourcenseite: Eine Verdopplung alle 18 bis 24 Monate bedeutet, dass jeder Zeitraum doppelt so groß ist wie der vorherige.

Harmonische Reihe, $\sum 1/n$ . Die Anzahl der Terme nimmt zwar ab, aber unerträglich langsam – ähnlich wie beim natürlichen Logarithmus. Addiert man eine Million Terme, kommt man auf etwa 14. Es gibt keine Obergrenze, aber jede neue Einheit kostet exponentiell mehr als die vorherige.

Basel-Serie, $\sum 1/n^2$ . Eulers schönes Ergebnis: Die Summe ist endlich, $π²/6$ . Das Modell für Technologien, die tatsächlich ihren Höhepunkt erreichen. Die Reisegeschwindigkeit von Flugzeugen hat sich seit den 1960er Jahren kaum verändert. Die Taktraten von Einkernprozessoren stagnierten um 2005. Jede Generation trägt weniger bei als die vorherige, und das Gesamtergebnis ist begrenzt.

Grandis Serie, $1-1+1-1+\cdots$ Der eulersche Unruhestifter. Divergiert im strengen Sinne, aber Cesàro-summierbar zu $\tfrac{1}{2}$ Im Durchschnitt über viele Perioden verhält es sich, als hätte es einen stabilen Wert. Ein überraschend gutes Modell für Hype-Zyklen. KI-Winter und KI-Sommer, über Jahrzehnte gemittelt, liefern uns etwas, das der Realität einigermaßen gerecht wird.

Jedes dieser Beispiele stellt eine plausible Analogie für einen Aspekt des technologischen Fortschritts dar. Die Frage ist, welches davon auf KI zutrifft.

III. Wo die KI wahrscheinlich angesiedelt ist

Wir wissen es noch nicht, und die Frage ist teils empirischer, teils definitorischer Natur. Doch die derzeit besten Erkenntnisse deuten darauf hin, dass wir uns im Bereich der Harmonischen befinden – oder genauer gesagt, in einem Bereich mit harmonischer Form.

Die empirischen Skalierungsgesetze großer Sprachmodelle – die Ergebnisse von Kaplan und Hoffmann und ihre Nachfolger – sind Potenzgesetze mit kleinen Exponenten.

Der Verlust sinkt mit zunehmender Rechenleistung, aber jede Verdopplung der Rechenleistung bringt einen festen Preis ein. Zusatzstoff Verbesserung, nicht feststehend multiplikativ Ein aufmerksamer Beobachter wird feststellen, dass dies streng genommen nicht der Fall ist., $\sum 1/n$ ; es ist $L \propto C^{-\alpha}$ , Im Extremfall ist das eine ganz andere Sache. Stimmt. Aber qualitativ stimmen die beiden Geschichten in dem entscheidenden Punkt überein: langsamer Aufstieg, keine Obergrenze, exponentiell steigende Kosten pro erzielter Verbesserung.

Diese These ist diejenige, die ich nennen werde langsame Divergenz. Es gibt keine feste Obergrenze, aber jeder Fortschritt kostet exponentiell mehr Ressourcen. Der Fortschritt setzt sich fort, solange jemand bereit ist zu zahlen, und die Obergrenze wird eher durch ökonomische als durch physikalische Gesetze bestimmt.

Diese These wird von zwei konkurrierenden Thesen umrahmt.

Sättigung ist die Behauptung im Basel-Stil: Leistungsfähigkeit ist ein $\sum 1/n^2$ Wir nähern uns der endlichen Summe dieser Reihe. Transformatoren und Skalierung haben den Großteil des verfügbaren Signals aus dem Korpus menschlicher Texte extrahiert. Die nächste Architektur wird dasselbe tun und zu einem erkennbaren Ergebnis führen. Die Luftfahrt beendete ihre Geschwindigkeitsära 1965; die KI könnte ihre Leistungsära jetzt, plus/minus ein Jahrzehnt, beenden.

Geometrische Divergenz ist die foom-förmige Behauptung: Ab einer bestimmten Schwelle trägt KI so viel zu ihrer eigenen Forschung und Entwicklung bei, dass die Die Begriffe selbst wachsen. Die Summe beträgt nicht mehr $\sum 1/n$ Aber $\sum r^n$ mit $r>1$ . Dies ist das Szenario der rekursiven Selbstverbesserung.

Langsame Divergenz ist die empirisch beste Anpassung. Sättigung ist der optimistische Ausweg. Geometrische Divergenz ist die offene Frage des Phasenübergangs – ob sich ab einer bestimmten Rekursionsschwelle der Reihentyp selbst ändert.

IV. Das Beobachterproblem

Es gibt eine Komplikation, die die Mathematik nicht erfasst: Der Beobachter ist kein neutrales Instrument.

Die menschliche Kognition scheint Fähigkeitssprünge logarithmisch zu komprimieren. Jeder größere Fortschritt in der KI-Fähigkeit fühlt sich weniger einschneidend an als der vorherige, selbst wenn die zugrundeliegende Verbesserung absolut gesehen größer ist. Mit einem System zu sprechen, das plausiblerweise intelligenter ist als man selbst, fühlt sich weniger revolutionär an als die Kommunikation mit GPT-3.5 vor drei Jahren – nicht weil weniger passiert, sondern weil das Gehirn seine Vorstellung von dem, was möglich ist, aktualisiert hat.

Diese Dämpfung ist teilweise adaptiv. Sie ist das kognitive Analogon des Weber-Fechner-Gesetzes für die Sinneswahrnehmung: gleich Verhältnisse sich gleichberechtigt fühlen Schritte, Deshalb messen wir Schall in Dezibel. Ein Nervensystem, das auf jeden Leistungssprung völlig überrascht reagiert, wäre nicht funktionsfähig. Die Kompression erhält den einzelnen Menschen in einer Welt, in der die Leistungskurve immer steiler wird, am Leben.

Doch es erzeugt eine Spannung. Derselbe Mechanismus, der kognitive Überlastung verhindert, verhindert auch die kollektive Erkenntnis, in welcher Phase wir uns tatsächlich befinden. Gleichbleibende Geschwindigkeit fühlt sich wie Stillstand an. Beschleunigende Geschwindigkeit fühlt sich wie die neue Normalität an. Wenn der zugrunde liegende Prozess geometrisch und die Wahrnehmungstransformation logarithmisch ist, ergibt sich daraus eine wahrgenommene Erfahrung von linear Fortschritt zusätzlich zu einem tatsächlichen exponentiell Trajektorie. Die Dämpfung schützt das Nervensystem und behindert gleichzeitig die Epistemik.

Das bedeutet: Das subjektive Empfinden “Es ist nicht so anders als letztes Jahr” kann nicht als Indiz für eine langfristige Entwicklung herangezogen werden. Dafür sind mathematische Berechnungen notwendig, da die subjektive Wahrnehmung strukturell unzuverlässig ist.

V. Wenn die Physik einen Puffer gegen das x-Risiko bereitstellen kann

Eine zweite Komplikation verläuft in die andere Richtung, und das ist der Grund, warum dieses Stück nicht zu einer der beiden Seiten des Unheilszauns tendiert.

Eric Drexler prägte 1986 den Begriff “grauer Schleim”, um selbstreplizierende Nanomaschinen zu beschreiben, die die Biosphäre nach Rohstoffen zerlegen. Dieses Szenario etablierte sich in der Literatur über den Untergang der Künstlichen Intelligenz als kanonischer Todesmechanismus: Eine fehlgeleitete Superintelligenz erfindet Nanotechnologie, setzt selbstreplizierende Systeme frei, und die Biosphäre wird innerhalb von Minuten umgewandelt. Drexler selbst relativierte dieses Szenario zwei Jahrzehnte später deutlich. Selbstreplizierende Systeme in der freien Natur sind schwieriger zu bauen als die kontrollierten industriellen Varianten und haben keinen wirtschaftlichen Nutzen. Die Bedrohung hält sich hartnäckig im Diskurs, weil sie so anschaulich ist, nicht weil Nanotechnologieforscher sie für wahrscheinlich halten.

Ein Nanobot-Schwarm, der sich über einen Kontinent hinweg in Millisekunden-Synchronisation bewegt, erreicht Lichtgeschwindigkeit, lange bevor er auf technische Herausforderungen stößt. Die Koordination großer, verteilter Schwärme erfordert elektromagnetische Kommunikation, die strengen Beschränkungen unterliegt: Latenz, Bandbreite, Signal-Rausch-Verhältnis, Störanfälligkeit und Dämpfung. Lokale Cluster können sich schnell koordinieren. Globale Schwärme nicht. Faradaysche Käfige sind real. Störungen sind real.

Dies widerlegt die am schnellsten Es gibt verschiedene Arten von Untergangsszenarien. Das Szenario, in dem die Biosphäre innerhalb von Minuten zusammenbricht, erfordert etwas, das an Magie grenzt – physikalische Verstöße, verpackt in Fachsprache. Entfernt man diese Magie, dehnt sich der Zeitrahmen von Minuten auf Wochen oder Monate aus, wodurch das Szenario in ein Zeitfenster fällt, in dem Institutionen prinzipiell reagieren können.

Soweit so gut. Allerdings ist bekannt, dass die Argumentation zu weit geht.

Ein gängiger Ansatzpunkt ist die Schachanalogie: Ein Anfänger kann nicht vorhersagen Wie Stockfisch kann sie nur dann schlagen, wenn er sie tatsächlich schlägt. Das wird von Schwarzmalern oft als Ausrede benutzt, um Gegenargumente zu umgehen. Sie wissen, dass Stockfisch nicht durch ein Schachgebot hindurchkommt, aber wenn sie damit konfrontiert werden, weichen sie schnell aus: Wenn man versucht, alles haben zu können, was man will, sucht man sich einfach einen anderen Spieler. Selbst ein beliebig starker Spieler ist an die Spielregeln gebunden. Dasselbe, so das Argument, gilt für ASI: durch die Physik beschränkt, keine übernatürlichen Manöver möglich.

Die Analogie ist treffender, als sie sein sollte. Schach ist ein geschlossenes, formales System, von Menschen entwickelt; die Regeln sind festgelegt und vollständig. Die Physik hingegen ist ein Modell eines offenen Systems, und unser Modell ist bekanntermaßen unvollständig. Die relevante historische Referenzklasse sind nicht “Dinge, die gegen die Gesetze der Physik verstoßen”, sondern “Dinge, die mit der Physik vereinbar sind und die die Menschheit noch nicht entdeckt hatte”. Atomwaffen gehörten im Jahr 1900 zu dieser Kategorie. Radio gehörte bereits im Jahr 1800 dazu. Diese Kategorie ist nicht leer und umfasste historisch gesehen zivilisationsverändernde Fähigkeiten.

Das Schachargument widerlegt sich subtil selbst. Der Anfänger Verliert immer noch jedes Spiel. Zu wissen, dass der Großmeister an die Regeln gebunden ist, hilft dem Anfänger nicht beim Aufbau einer Verteidigung – es bestätigt lediglich, dass die Niederlage regelkonform ist. Die Tatsache, dass die Physik eine Einschränkung darstellt, bedeutet nicht, dass diese Einschränkung streng genug ist, um den Anfänger zu schützen.

Was also übrig bleibt, ist eine zwar reale, aber begrenzte Resilienz. Viele spezifische Untergangsszenarien in der Literatur beinhalten Verstöße gegen oder Beinahe-Verletzungen physikalischer Gesetze. Verschärft man die physikalischen Gesetze, dehnen sich die Zeiträume so weit aus, dass menschliches Eingreifen möglich wird. Bostroms Hypothese der verwundbaren Welt verliert an Gültigkeit gegenüber Bedrohungen der Grauzone. Sie verliert jedoch nicht an Gültigkeit gegenüber Bedrohungen, die nicht von der Geschwindigkeit abhängen: schleichender Kontrollverlust über kritische Infrastrukturen, künstlich herbeigeführte Pandemien mit langer Inkubationszeit, wirtschaftliche und epistemische Vereinnahmung durch KI-gestützte Akteure. Keine dieser Bedrohungen verstößt gegen physikalische Gesetze. Keine dieser Bedrohungen wird durch das Argument der Latenz widerlegt.

Die tatsächliche Risikofläche hat demnach eine spezifische Form: nicht “Dinge, die physikalische Gesetze ausnutzen”, sondern “Dinge, die die institutionelle Reaktionszeit ausnutzen”. Im Hinblick auf die erste Kategorie ist die Physik ein wichtiger Verbündeter. Zu der zweiten Kategorie schweigt sie.

VI. Die Rekursionsschwelle

Damit kommen wir zurück zur Serienfrage.

Die Grenze zwischen langsamer und geometrischer Divergenz – zwischen $\sum 1/n$ Und $\sum r^n$ mit $r>1$ – Dies ist genau die Rekursionsschwelle. Sie markiert den Punkt, an dem ein System einen sinnvollen Beitrag zur Gestaltung seines Nachfolgers leistet. Unterhalb dieser Schwelle ist der Fortschritt durch das begrenzt, was Menschen mithilfe von KI als Werkzeug entwickeln können. Oberhalb dieser Schwelle wachsen die Glieder der Kette selbst, da jede Generation die nächste hervorbringt.

Der Wandel ist qualitativer, nicht nur quantitativer Natur. Ein nicht-rekursiver Prozess lässt sich durch eine Reihe beschreiben – eine feste Funktion von $n$ . Ein rekursiver Prozess ist ein anderes mathematisches Objekt: eine Rekursionsgleichung., $x_{n+1} = f(x_n)$ , Rekursionsgleichungen, bei denen jeder Term vom vorherigen abhängt, ermöglichen Dinge, die einfache Reihen nicht leisten können. Sie können über wohlverstandene Wege von stabil zu chaotisch übergehen. Sie können die Sensitivität gegenüber Anfangsbedingungen festschreiben. Sie können im technischen Sinne deterministisch, aber unvorhersagbar werden.

Die Frage, ob ASI sicher ist, lässt sich somit in zwei Teilfragen aufteilen, die unterschiedliche Aspekte aufweisen.

Bei nicht-rekursiven Systemen – KI als leistungsstarkes Werkzeug, nicht als selbstmodifizierender Agent – ist die Sicherheitsfrage eine Frage der Entwicklung. Wir können Verifizierung, Überwachung und Kontrolle implementieren. Das Systemverhalten hängt von seinen Eingaben ab, und wir können die Eingaben beschränken und die Ausgaben prüfen. Schwierig, aber machbar.

Bei rekursiven Systemen stellt sich die Sicherheitsfrage anders dar. Und hier stoßen wir auf Rice.

VII. Die Bewährungsprobe

Das Sprichwort Der Beweis liegt im Geschmack. Das ist eine volkswissenschaftliche Erkenntnistheorie: Der wahre Wert von etwas lässt sich nur durch Erfahrung beurteilen. Man kann ein Rezept noch so sehr theoretisieren; der einzig ehrliche Test ist, ob das Gericht schmeckt.

Dieses Sprichwort wurde in der Debatte um die politische Ausrichtung zu einer Strategie erhoben. Die populärste optimistische Position ist eine Variante davon: Wir benötigen keinen vorherigen Beweis für die Sicherheit von ASI. Selbst wenn Menschen ASI nicht ausrichten können, werden wir ASI zur Ausrichtung von ASI verwenden. Die Praxis wird es beweisen. Varianten dieses Arguments finden sich sowohl in seriösen Fachtexten als auch in leichtfertigen Äußerungen und weisen eine gemeinsame Struktur auf: Sie ersetzen die Frage der Beweisbarkeit durch das Vertrauen in zukünftige Erfahrungen. Selbst in der kühnen Aussage eines Nobelpreisträgers, der oft eines seiner Mantras aus der Kindheit zitiert, ist es verborgen: Erst die Intelligenz entschlüsseln, dann alles andere.

Henry Gordon Rice bewies 1953 einen Satz, der ganz präzise besagt, dass dies keine Strategie ist. Es ist eine Illusion.

Der Satz von Rice besagt: Jede nicht-triviale semantische Eigenschaft beliebiger Programme ist unentscheidbar. Es gibt keinen allgemeinen Algorithmus, der ein beliebiges Programm als Eingabe nimmt und zuverlässig Auskunft darüber gibt, ob es eine gegebene nicht-triviale Verhaltenseigenschaft besitzt. “Hält bei allen Eingaben an” ist unentscheidbar. “Berechnet eine vorgegebene Funktion” ist unentscheidbar. “Ist sicher” ist unentscheidbar, unabhängig von der Definition von Sicherheit.

Dies ist keine zufällige technische Grenze. Es ist ein Theorem auf der Ebene der Solidität von Gödels Unvollständigkeitssätzen. Rice lässt sich nicht umgehen. Rice beschreibt die Beschaffenheit des Universums der Berechnung.

Die Konsequenzen für die Frage der ASI-Sicherheit sind beunruhigend.

Wenn wir ein nachweisen Rice behauptet, dass es kein Theorem zur Sicherheit von ASI im strengen, universellen Sinne gibt – also ein Theorem, das für jedes beliebige selbstmodifizierende KI-System die Sicherheit (SAFE) garantiert. Selbstmodifizierende Systeme erzeugen beliebige Programme als Nachfolger, und genau das schließt Rice aus: die Vorhersage der Sicherheitseigenschaften solcher Programme.

An dieser Stelle gibt es eine vorhersehbare Gegenposition der Beschleunigungisten, die eine klare Antwort verdient. Die Gegenposition lautet: Rices Theorem gilt für Menschen mit begrenzten intellektuellen Fähigkeiten wie uns, aber eine ausreichend fortgeschrittene künstliche Intelligenz (ASI) könnte es außer Kraft setzen. Man sollte ASI nutzen, um ASI zu überprüfen. Rices Theorem ist für Menschen wie die Überprüfung von Stockfish – eine unumstößliche Regel, die wir nicht durchbrechen können, ein stärkerer Spieler aber schon.

Dieses Argument ist hinfällig, und zwar aus einem ganz bestimmten Grund. Rice stellt keine Beschränkung des Intellekts dar, sondern eine Beschränkung der Rechenleistung. Dies gilt gleichermaßen für Menschen, für Stockfish, für aktuelle LLMs, für jede denkbare künstliche Intelligenz und für jedes Orakel außer einem buchstäblichen Löser des Halteproblems – was selbst nachweislich unmöglich ist. Rice sagt: Keine Turingmaschine, wie groß oder intelligent sie auch sein mag, kann über die Sicherheit beliebiger Turingmaschinen entscheiden. Die Intelligenz des Prüfers ist nicht die Variable. Die zu prüfende Programmklasse ist die Variable. Man kann den Prüfer beliebig intelligent gestalten; solange er ein Rechensystem bleibt, gilt der Satz weiterhin.

Die Analogie zwischen Stockfish und Scheck kehrt sich hier tatsächlich um. Scheck ist eine Regel. des Schachs , innerhalb eines geschlossenen formalen Systems. Rice ist eine Regel der Berechnung selbst , Das System, in dem Stockfish – und jede ASI – notwendigerweise operiert, ist folgendes: Stockfish kann nicht durch ein Schachgebot ziehen, da dies im Schach verboten ist. Eine ASI kann nicht willkürlich über die Sicherheit eines Programms entscheiden, da dies mathematisch nicht möglich ist. Eine ASI aufzufordern, Rice zu besiegen, ist strukturell gleichbedeutend damit, Stockfish aufzufordern, ein Spiel durch einen Zug durch ein Schachgebot zu gewinnen. Die Einschränkung ist konstitutiv, nicht adversariell.

Eine ehrlichere Version des Gegenvorschlags würde lauten: Ein ASI könnte die Sicherheit für die spezifische Klasse von Nachfolgesystemen, für die es sich interessiert, gewährleisten, selbst wenn es die Sicherheit im allgemeinen Fall nicht gewährleisten kann. Das ist richtig und unbedenklich, denn genau das tun Menschen bereits mit formaler Verifikation – beschränkte Beweise über spezifische Architekturen unter spezifischen Annahmen. Es bietet keine universelle Sicherheit. Es liefert dieselben Teilgarantien, die wir bereits haben, möglicherweise sogar schneller. Der gewünschte Beweis entsteht nicht einfach dadurch, dass der Beweiser intelligenter geworden ist.

Yoshua Bengios jüngste Arbeit über das, was er nennt KI-Wissenschaftler , Das von seiner gemeinnützigen Organisation LawZero entwickelte Konzept wird manchmal als Kandidat für einen solchen Beweis angesehen. Das ist es aber nicht. Bengio stellt ausdrücklich klar, dass sein Vorschlag … Architektur, Nicht theoretisch. Die Annahme ist, dass nicht-agentische Systeme, die ausschließlich auf Weltmodellen basieren – also Systeme, die Wahrscheinlichkeitsvorhersagen statt zielgerichteter Aktionen erzeugen –, das gefährliche Regime umgehen, indem sie Agentie von vornherein vermeiden. Der Sicherheitsnachweis beruht auf der Beseitigung des Fehlermodus, nicht auf dem Beweis seiner Abwesenheit.

Dies ist der einzig mögliche Schritt und zugleich das Beste, was möglich ist. Dieser Erfolg lässt sich in einer Welt mit begrenzten Rechenkapazitäten nicht beweisen. Er kann nur portionsweise beurteilt werden, und die Menschheit wird ihn selbst verkosten.

Was bleibt also übrig, wenn ein universeller Beweis ausgeschlossen ist?

– Beweise über spezifische Architekturen unter spezifischen Annahmen, die sich schlecht auf Systeme der LLM-Komplexität skalieren lassen.

– Wahrscheinlichkeitsgarantien, die das erwartete Verhalten begrenzen, ohne den schlimmsten Fall einzuschränken.

– Ergebnisse der beschränkten Rationalität, die gelten Wenn Die Optimierungsleistung eines Systems ist begrenzt – ein Zirkelschluss für die ASI-Frage, da die Begrenzung selbst der Streitpunkt ist.

– Architektonische Wetten wie Scientist AI, die das Problem eher vermeiden als lösen.

Und aus der Mathematik selbst ergibt sich eine politische Schlussfolgerung: Wenn wir jemals eine echte Selbstrekursion zulassen, betreten wir ein Regime, das nachweislich nicht analysierbar ist, sondern nicht nur schwer zu analysieren. Beschränkte Rekursion durch die Politik ist keine Paranoia. Sie ist das Ergebnis des Rice-Theorems, wenn wir die Entwicklung vorhersagbar halten wollen.

Das ist ein starkes Argument dafür, KI für alles einzusetzen. außer Selbstverbesserung. Das Argument lautet nicht, dass Rekursion riskant sei – obwohl sie es ist –, sondern dass Rekursion die Grenze darstellt, ab der die Mathematik selbst aufhört, uns zu helfen.

VIII. Euler und Reis

Zwei Mathematiker, zwei Jahrhunderte trennen sie.

Euler zeigte, dass die Grenzwertfrage in der reinen Mathematik entscheidbar ist. Mit genügend Aufwand lässt sich beweisen, welche Reihen konvergieren und welche divergieren. Die ersten zwölf Glieder geben darauf keinen Aufschluss, aber der Beweis liefert ihn schließlich.

Rice zeigte, dass dieselbe Frage im Code nicht entscheidbar ist. Es gibt kein allgemeines Verfahren, um die Sicherheit eines beliebigen Programms zu bestimmen. Der von Ihnen gewünschte Beweis existiert laut Theorem nicht.

KI befindet sich zwischen diesen beiden Polen. Ihre Entwicklung lässt sich derzeit am besten als langsam divergierende Reihe modellieren, die eine harmonische Form aufweist, deren Fortschritt kostspielig, deren Wachstum aber prinzipiell unbegrenzt ist. Ob sie in diesem Bereich verbleibt oder in geometrische Divergenz übergeht, hängt davon ab, ob wir die Rekursionsschwelle überschreiten, die mitunter als Singularität bezeichnet wird. Unterhalb dieser Schwelle gilt die Euler-Theorie: schwierig, aber möglich. Oberhalb dieser Schwelle tritt die Rice-Theorie der Unentscheidbarkeit in Kraft.

Der gewünschte Beweis – ein eindeutiger Lehrsatz, der die Unbedenklichkeit des Puddings bestätigt – liegt nicht im Pudding selbst. Die uns vorliegenden mathematischen Grundlagen schließen dies aus. Es bleibt also, die Rekursion zu beschränken, die Architekturen nach Möglichkeit nicht-agentenbasiert zu gestalten, die institutionelle Reaktionszeit kurz zu halten und die Wahrnehmungsdämpfung anhand der tatsächlichen Zahlen und nicht anhand des subjektiven Empfindens zu korrigieren.

Planen Androiden eklektische Blätter?

Hinterlasse einen Kommentar Juni 8, 2024 aiuisensei

Lesezeit: 8 Protokoll

Prolog

Stellen Sie sich eine Szene in der nicht allzu fernen Zukunft vor. Jemand wurde ermordet. Zwei Ermittlungsteams treffen am Tatort ein, aber es ist unklar, wer zuständig ist. Das menschliche Team wird vom charismatischen Detektiv Sheerluck Holmes geleitet, während das Android-Team von Bot-OX geleitet wird. Die Frage ist: Ist der Täter ein Mensch, ein Android oder etwas dazwischen? Können wir erwarten, dass die Polizei der Zukunft ein gut definiertes Verfahren oder einen Algorithmus entwickelt hat, um dies schnell zu entscheiden?

Wir werden versuchen, diese und die drängendere Frage zu beantworten, mit der wir derzeit konfrontiert sind: Haben wir eine gute Chance, einen Algorithmus zu entwickeln, der praktisch ist und uns erlaubt, allein durch Betrachtung des Tatorts (des generierten Textes) zu entscheiden, ob dieser von einem Bot oder einem Menschen erstellt wurde? Die Entwicklung eines solchen Algorithmus ist derzeit eines der begehrtesten Ziele der Informatik. Ein robuster Blackbox-Algorithmus könnte die meisten unserer akademischen Konventionen retten und uns ermöglichen, die Art und Weise beizubehalten, wie wir Kinder, Jugendliche und Erwachsene testen. Ohne ihn müssten diese Systeme mit großem Aufwand neu aufgebaut werden.

In einer Welt, in der immer mehr Menschen aus der Ferne arbeiten und trainieren, ist es von entscheidender Bedeutung, dass wir zuverlässig feststellen können, dass Menschen ihre geistige Arbeit selbst geleistet haben, was derzeit nicht der Fall ist. Darüber hinaus können gefälschte Nachrichten, Bilder und Videos angesichts der Reichweite sozialer Medien verheerende Auswirkungen auf den gesellschaftlichen Konsens haben. Ein solcher Algorithmus – falls er existiert – ist nicht wasserdicht, aber mit genügend Trainingsdaten könnte er sogar vor Gericht Bestand haben.

Die Aussichten sind jedoch nicht vielversprechend. OpenAI hat das Projekt innerhalb von sechs Monaten aufgegeben: OpenAI-Klassifikator. Der praktische und monetäre Wert eines solchen Algorithmus kann nicht hoch genug eingeschätzt werden. Wenn gierige Aliens ihn für eine Billion Dollar verkaufen würden, rufen Sie mich an – ich will dabei sein.

Einführung der Differentiation Test Engine

Die Aufgabe, zwischen maschinengeneriertem Text (MGT) und menschengeneriertem Text (HGT) zu unterscheiden, ist entfernt mit dem ursprünglichen Turing-Test, dem sogenannten Imitationsspiel, verwandt. Es gibt jedoch noch weitere Faktoren: Während der ursprüngliche Turing-Test nur menschliche Beurteiler zuließ, können bei unserem Differenzierungstest andere Maschinen die menschlichen Beurteiler unterstützen. Wir nennen eine solche Maschine eine Differentiation Test Engine (DTE). Sie hat nur einen einzigen Zweck: zu entscheiden, ob ein Text von einem Menschen oder einer Maschine erzeugt wurde.

Die erste Intuition ist, dass ein solcher DTE relativ einfach zu implementieren sein sollte. Wir verfügen derzeit über die Technologie, um menschliche Gesichter und Stimmen zu erkennen und zu identifizieren, die viel komplexer und anfälliger für Störungen sind als Text. Die Entscheidung, ob ein bestimmtes Bild eine Maschine oder einen Menschen zeigt, kann von jedem aktuellen Objektklassifizierungssystem problemlos getroffen werden. Sollte es dann nicht einfach sein, ein Large Language Model (LLM) mit 1 Billion menschlichen Texten und 1 Billion Maschinentexten zu trainieren und es lernen zu lassen, diese zu klassifizieren? Der DTE wäre kein einfacher Algorithmus, sondern ein eigenes Transformatormodell, das auf die Erkennung von Identitätsbetrug spezialisiert ist.

In Mathematik und Informatik ist die Komplexität eines Problems oft orthogonal zu seiner Beschreibung. Die meisten NP-vollständigen Probleme sind täuschend einfach zu verstehen, und dennoch haben Millionen von Informatikern und Mathematikern jahrzehntelang darum gekämpft, Fortschritte zu erzielen. Ich vermute, dass Black-Boxing-Versuche in praktischen Anwendungssituationen scheitern werden.

Ein Bild, das Text, Schrift, Screenshot, Diagramm enthält.Automatisch generierte Beschreibung

Theoretischer Rahmen

Black-Box-Erkennungsmethoden sind auf den API-Zugriff auf LLMs beschränkt. Sie basieren auf dem Sammeln von Textproben aus menschlichen bzw. maschinellen Quellen, um ein Klassifizierungsmodell zu trainieren, mit dem zwischen von LLMs und von Menschen generierten Texten unterschieden werden kann. Black-Box-Detektoren funktionieren gut, da aktuelle von LLMs generierte Texte häufig linguistische oder statistische Muster aufweisen. Da sich LLMs jedoch weiterentwickeln und verbessern, werden Black-Box-Methoden immer weniger effektiv. Eine Alternative ist die White-Box-Erkennung. In diesem Szenario hat der Detektor vollen Zugriff auf die LLMs und kann das Generierungsverhalten des Modells zu Rückverfolgbarkeitszwecken steuern. In der Praxis werden Black-Box-Detektoren häufig von externen Stellen erstellt, während die White-Box-Erkennung im Allgemeinen von LLM-Entwicklern durchgeführt wird.

Definition des grundlegenden Erkennungssystems

Aus praktischen Gründen werden wir angeben, was wir von einem solchen DTE vernünftigerweise erwarten können. Bei einer Eingabe mit einer bestimmten Tokenlänge sollte der Algorithmus mit einer Zuverlässigkeit von mehr als 50% innerhalb einer begrenzten Zeitspanne eine eindeutige Ausgabe darüber liefern, wie viel von einem bestimmten Text von einem Menschen und wie viel von einer Maschine stammt.

Eine Implementierung könnte wie folgt aussehen:

Bitte geben Sie Ihren Text ein: …
Bitte geben Sie Ihr gewünschtes Vertrauen ein: 0,8
Ihr Text muss mindestens 8.000 Token lang sein, um eine Wahrscheinlichkeit von mindestens 80% zu erreichen, die richtige Antwort zu geben.
Unter den aktuellen Parametern wird der Algorithmus 5 Minuten lang ausgeführt. Soll ich fortfahren (J/N)? … J

Die Ausgabe sollte dann etwa so lauten: „Ich kann mit 80%-iger Sicherheit sagen, dass 95% des Textes von einer Maschine und 5% von einem Menschen geschrieben wurden.“

Bevor wir uns mit den Details befassen, sollten wir die möglichen Ergebnisse beim Versuch, einen solchen Algorithmus zu entwickeln, weiter klären:

Ein solcher Algorithmus ist prinzipiell unmöglich (beispielsweise ist es unmöglich, einen Algorithmus zu erstellen, der die höchste Primzahl berechnet).
Ein solcher Algorithmus ist praktisch unmöglich (z. B. läuft er entweder zu lange oder benötigt mehr Rechenleistung als verfügbar ist; im Grunde ist er NP-vollständig).
Es ist unentscheidbar (z. B. fällt es unter das Halteproblem und wir können nie sagen, ob es irgendwann aufhören wird).
Dies ist möglich, aber nicht praktikabel (identisch mit 2).
Es ist möglich und praktisch (gut genug).

Am Ende möchten wir eine Situation erreichen, in der wir eine Untergrenze der Eingaben berechnen können, die es uns dann mit einer Wahrscheinlichkeit von über 50% ermöglicht, zu entscheiden, ob es sich um HGT oder MGT handelt.

Falsifizierbarkeit: Ein solcher Algorithmus lässt sich leicht widerlegen, wenn wir beispielsweise den Text „Der Himmel ist blau“ eingeben und er uns eine andere Wahrscheinlichkeit als 50% liefert.

Randbemerkungen zur Obfuscation Engine

Konzeptionell stoßen wir auf Probleme, wenn wir eine Differenzierungsmaschine (Diff) entwerfen. Wir stehen dann vor dem folgenden Paradoxon: Wir möchten entscheiden, ob unser Algorithmus Diff (der erkennt, ob ein Mensch oder eine Maschine eine bestimmte Eingabe geschrieben hat) immer anhält (eine definitive Antwort gibt) und eine richtige Antwort gibt. Nehmen wir an, unser Algorithmus hält an und gibt „Mensch“ aus. Wir konstruieren nun ein „pathologisches“ Programm, Obf (Obfuscator Engine), das etwas wie Obf(Diff(Eingabe)) verwendet, das sagt: Ändern Sie die Eingabe so, dass die Antwort von Diff umgekehrt ist (wenn sie Maschine ergibt, gibt sie Mensch aus). Dies könnte ein rein theoretisches Problem sein und würde erfordern, dass wir verstehen, warum die Maschine so formuliert, wie sie es tut, was viel mehr mechanistische Interpretierkompetenz erfordert, als wir derzeit besitzen. Im Moment schützt die Komplexität von LLMs sie im wirklichen Leben vor einem solchen Angriff. Aber wenn das stimmt, ist es auch sehr wahrscheinlich, dass uns das Wissen fehlt, um überhaupt einen allgemeinen Differenzierer zu bauen. Diese Einwände könnten für reale Implementierungen irrelevant sein, wenn wir zeigen könnten, dass Differenzierung und Verschleierung ausreichend asymmetrisch sind, was bedeutet, dass die Differenzierung mindestens 10^x mal schneller ist als die Verschleierung und damit unpraktisch (denken Sie daran, dass die Semiprimfaktorisierung viel schwieriger ist als die Multiplikation zweier Primzahlen).

Das Profiling-System

Ein entscheidender Aspekt bei der Unterscheidung zwischen von Menschen und Maschinen erstellten Texten ist das Profiling. Beim Profiling werden externe Daten gesammelt und analysiert, um dem Text einen Kontext zu geben. Indem wir die typischen Merkmale verschiedener Textarten verstehen, können wir statistisch bestimmen, wie wahrscheinlich es ist, dass ein Text von Menschen oder Maschinen erstellt wurde.

Technische Dokumente, kreative Texte und zwanglose Social-Media-Beiträge beispielsweise weisen jeweils unterschiedliche stilistische und strukturelle Merkmale auf. Durch die Erstellung von Profilen auf der Grundlage dieser Kategorien kann die Differentiation Test Engine (DTE) fundiertere Entscheidungen treffen. Darüber hinaus spielen Faktoren wie Wortschatzreichtum, Satzkomplexität und Themenkonsistenz eine Rolle bei der Profilerstellung. Maschinengenerierte Texte weisen häufig bestimmte statistische Regelmäßigkeiten auf, während menschliche Texte tendenziell mehr Variabilität und Kreativität aufweisen.

Ein Bild, das Schwarzweiß, Treppe, Spirale, Kunst enthält.Automatisch generierte Beschreibung

Die „DNA-Spur“

Ein innovativer Ansatz zur Unterscheidung zwischen von Menschen und Maschinen generierten Texten ist das Konzept einer „DNA-Spur“. Dabei werden die grundlegenden Bausteine von Texten analysiert, wie etwa Token für Maschinen und Wörter für Menschen. Token-basierte Algorithmen konzentrieren sich auf Muster und Sequenzen, die für die maschinelle Generierung charakteristisch sind, während von Menschen generierte Texte durch einen ganzheitlicheren wortbasierten Ansatz untersucht werden können.

Besonders hilfreich kann die Spektralanalyse sein, eine Methode zur Untersuchung der Häufigkeit und Verteilung von Elementen in einem Text. Mithilfe der Spektralanalyse können wir subtile Unterschiede in der Art und Weise erkennen, wie Maschinen und Menschen Sätze konstruieren. Maschinen folgen möglicherweise eher starren und sich wiederholenden Mustern, während Menschen ein breiteres Spektrum an stilistischen Nuancen aufweisen.

Die ethischen Implikationen

Die Untersuchung der ethischen Auswirkungen der Entwicklung und Verwendung einer Differenzierungstest-Engine ist unerlässlich. Alle aktuellen GPT-Systeme haben eine ähnliche künstliche „DNA“, was bedeutet, dass Text-, Bild-, Video- oder Audiodifferenzierungs-Engines vor denselben Herausforderungen stehen. Deepfakes oder maschinengenerierte Inhalte, die menschliche Schöpfung imitieren, bergen erhebliche Risiken für das gesellschaftliche Vertrauen und die Authentizität.

Da maschinengenerierte Inhalte immer ausgefeilter werden, steigt auch das Missbrauchspotenzial. Es ist von entscheidender Bedeutung, sicherzustellen, dass diese Differenzierungstechnologien transparent und nachvollziehbar sind. Es besteht auch das Risiko, dass ein übermäßiges Vertrauen in diese Technologien zu neuen Formen der Voreingenommenheit und Diskriminierung führen könnte. Daher ist es zwingend erforderlich, ethische Richtlinien und regulatorische Rahmenbedingungen für ihre Verwendung zu entwickeln.

Technische Lösungen

Die Erforschung rein technischer Lösungen für das Differenzierungsproblem erfordert mehrere Ansätze:

Paralleles Web: Bei diesem Konzept werden parallele Versionen des Internets betrieben, eine ausschließlich für verifizierte menschliche Inhalte und eine andere für gemischte Inhalte. Diese Trennung könnte dazu beitragen, die Integrität von durch Menschen generierten Inhalten zu wahren.

Spezielle Domänen: Durch die Erstellung spezieller Domänen oder Zonen im Web, in denen überprüft wird, ob der Inhalt von Menschen erstellt wurde, kann das Vertrauen der Benutzer in die Echtheit der Informationen gestärkt werden.

Prompt.Claims: Dieses System würde, ähnlich wie Patente und Zitate funktionieren, es den Urhebern ermöglichen, ihre Eingabeaufforderungen zu beanspruchen und zu verifizieren, und so dem Prozess der Inhaltserstellung eine zusätzliche Ebene der Verantwortlichkeit und Rückverfolgbarkeit hinzufügen.

Inquisitorische Lösungen: Wir könnten uns auch ein Szenario vorstellen, in dem wir direkt mit dem Artefakt (Text) interagieren, um seinen Ursprung zu ergründen. Ähnlich wie bei der Befragung eines Verdächtigen könnten wir die Eingabeaufforderung, die den Text generiert hat, neu erstellen. Wenn wir die ursprüngliche Eingabeaufforderung zurückentwickeln können, finden wir möglicherweise Hinweise zu ihrer Erstellung. Dieser Ansatz beruht auf der Idee, dass maschinengenerierte Texte das Produkt spezifischer Eingabeaufforderungen sind, während menschliche Texte aus komplexeren Denkprozessen stammen.

Konsequenzen für die Ausrichtung: Die Herausforderung, zwischen von Menschen und Maschinen generierten Texten zu unterscheiden, hängt mit umfassenderen Fragen der KI-Ausrichtung zusammen. Es ist von größter Bedeutung, sicherzustellen, dass KI-Systeme mit menschlichen Werten und Erwartungen übereinstimmen. Wenn wir KI-generierte Inhalte nicht zuverlässig unterscheiden können, untergräbt dies unsere Fähigkeit, diesen Systemen zu vertrauen und sie effektiv zu verwalten. Dieses Problem erstreckt sich auf alle Formen von KI-generierten Inhalten, weshalb die Entwicklung robuster Differenzierungstechnologien eine Schlüsselkomponente zur Erreichung einer Superausrichtung ist.

Abschluss

Zusammenfassend lässt sich sagen, dass die Aufgabe, zwischen von Menschen und Maschinen generierten Texten zu unterscheiden, erhebliche Herausforderungen und Implikationen mit sich bringt. Die Entwicklung einer zuverlässigen Differenzierungstest-Engine ist mit ethischen Überlegungen, technischen Innovationen und umfassenderen KI-Ausrichtungsproblemen verknüpft. Um in dieser komplexen Landschaft zurechtzukommen, ist es unerlässlich, einen multidisziplinären Ansatz zu verfolgen und Erkenntnisse aus der Informatik, Ethik und regulatorischen Rahmenbedingungen zu integrieren.

Wenn wir die Probleme untersuchen, mit denen wir beim Bau allgemeiner Differenzierungsmaschinen konfrontiert sind, stellen wir schnell fest, dass dieses Problem in eine Vielzahl verwandter Probleme eingebettet ist. Gegnerische Angriffe, beispielsweise auf Bilderkennungssysteme, haben gezeigt, dass wir die Widerstandsfähigkeit dieser Modelle konsequent überschätzen. Kürzlich wurde gezeigt, dass sogar ein mittelmäßiger Spieler mit Hilfe einer anderen KI, die einen Exploit gefunden hatte, gegen ein Top-Go-Programm gewinnen konnte: Vice-Artikel.

Daher ist es sehr wahrscheinlich, dass selbst wenn wir einen Algorithmus entwickeln, der HGT zunächst von MGT unterscheiden könnte, dasselbe Programm anschließend auf sich selbst angewendet werden könnte, um das Ergebnis umzukehren. Ein weiterer interessanter Aspekt ist, dass alle digitalen Computer Turingmaschinen sind, was bedeutet, dass jeder zur Unterscheidung entwickelte Algorithmus auch zur Verschleierung verwendet werden könnte.

Papiere