Kann es einen universellen Beweis im Superalignment-Pudding geben?

Hinterlasse einen Kommentar Mai 10, 2026 aiuisensei

Lesezeit: 12 Protokoll

Über Euler, unendliche Reihen, die Frage nach der tatsächlichen Entwicklung der KI und warum der gewünschte Beweis durch einen Satz aus dem Jahr 1953 blockiert werden könnte. (Verwandter Artikel zu) Gödel auf der Couch – Sind ethische Rahmenbedingungen grundsätzlich fehlerhaft und könnte das eine gute Sache sein?. Gödel zeigte indirekt, dass ethische Rahmen für KI nicht vollständig sein können. Dieser Aufsatz argumentiert, dass Sicherheitsbeweise für selbstmodifizierende KI nicht allgemein gültig sind. Zwei Grenzwertsätze, ein Ausrichtungsproblem.

I. Was Euler über den langfristigen Erfolg wusste

Leonhard Euler widmete einen bedeutenden Teil seines Arbeitslebens einer trügerisch einfachen Frage: Wenn man unendlich viele Zahlen addiert, pendelt sich die Summe dann auf einen endlichen Wert ein oder strebt sie gegen Unendlich?

Es klingt nach etwas, worüber sich ein Mathematiker mit zu viel Freizeit Gedanken machen könnte. Ist es aber nicht. Die Konvergenzfrage gehört zu den grundlegendsten Fragen der Mathematik, und Eulers Beiträge dazu haben unser heutiges Verständnis von Grenzwerten, Unendlichkeit und dem Langzeitverhalten additiver Prozesse maßgeblich geprägt.

Die Lektion, die er immer wieder betonte, war, dass man das aus den ersten Semestern nicht ableiten kann.

Schaut euch diese beiden Serien an:

1 + 1/2 + 1/3 + 1/4 + 1/5 + \cdots

1 + 1/4 + 1/9 + 1/16 + 1/25 + \cdots

Das erste ist das harmonisch Diese Reihe divergiert – sie wächst unbegrenzt. Die zweite Reihe ist diejenige, die Euler bekanntermaßen bei der Lösung des Problems zusammenfasste. Basel-Problem Es konvergiert gegen $π²/6$ .

Vergleicht man die ersten zwölf Glieder jeder Reihe, so sind sie nahezu identisch. Die harmonische Reihe und die Baseler Reihe trennen sich erst weit im Grenzfall, weit jenseits dessen, wo eine genaue Betrachtung ihren Verlauf noch erkennen lässt. Um zu wissen, welche Reihe man betrachtet, benötigt man einen Beweis – keine Intuition, kein Muster und keine Extrapolation der ersten Glieder.

Dies ist für KI wichtig, weil In einem Punkt sind sich alle Lager in der aktuellen Debatte einig: Wir befinden uns in der Frühphase der KI-Revolution. Die Schwarzmaler sagen es. Die Befürworter einer beschleunigten Entwicklung sagen es. Die Skeptiker, die auf einem Plateau beharren, sagen es. Was sie alle mit “Frühphase” meinen, ist dasselbe: Wir haben erst die ersten paar Amtszeiten gesehen. Und genau in dieser Situation, so Euler, sollten unsere Überzeugungen bezüglich des Grenzwerts am geringsten sein.

Wenn die ersten zwölf Begriffe von $\sum 1/n$ Und $\sum 1/n^2$ Wenn die ersten zwölf Jahre der KI-Entwicklung visuell nicht zu unterscheiden sind, kann uns dieselbe Logik nicht sagen, ob wir auf ein begrenztes Plateau, einen unbegrenzten, aber langsamen Anstieg oder einen Phasenübergang zu einer schnelleren Entwicklung zusteuern. Wer etwas anderes behauptet – egal in welche Richtung –, macht das, was Mathematiker vor Euler mit Reihen taten: Mustererkennung bei frühen Einträgen und dies als Inferenz bezeichnen. Diese Fokussierung auf die frühen Entwicklungsstadien ist ein Eingeständnis geringer Information, selbst wenn sie so verwendet wird, als zeuge sie von großer Sicherheit.

Dies ist also die Frage, die ich stellen möchte, wobei wir unsere Überzeugungen angemessen niedrig halten: In welcher Serie befinden wir uns wahrscheinlich?

II. Der Katalog

Mehrere berühmte Zahlenreihen, von denen jede eine klare mathematische Signatur aufweist, bieten sich als Kandidatenmodelle für den technologischen Fortschritt an.

Geometrische Reihen, $\sum a^n$ . Konvergiert, wenn $|a|<1$ , divergiert, wenn $|a|\geq 1$ . Das Modell für Zinseszinsprozesse. Das Mooresche Gesetz ist in seiner klassischen Form geometrisch auf der Ressourcenseite: Eine Verdopplung alle 18 bis 24 Monate bedeutet, dass jeder Zeitraum doppelt so groß ist wie der vorherige.

Harmonische Reihe, $\sum 1/n$ . Die Anzahl der Terme nimmt zwar ab, aber unerträglich langsam – ähnlich wie beim natürlichen Logarithmus. Addiert man eine Million Terme, kommt man auf etwa 14. Es gibt keine Obergrenze, aber jede neue Einheit kostet exponentiell mehr als die vorherige.

Basel-Serie, $\sum 1/n^2$ . Eulers schönes Ergebnis: Die Summe ist endlich, $π²/6$ . Das Modell für Technologien, die tatsächlich ihren Höhepunkt erreichen. Die Reisegeschwindigkeit von Flugzeugen hat sich seit den 1960er Jahren kaum verändert. Die Taktraten von Einkernprozessoren stagnierten um 2005. Jede Generation trägt weniger bei als die vorherige, und das Gesamtergebnis ist begrenzt.

Grandis Serie, $1-1+1-1+\cdots$ Der eulersche Unruhestifter. Divergiert im strengen Sinne, aber Cesàro-summierbar zu $\tfrac{1}{2}$ Im Durchschnitt über viele Perioden verhält es sich, als hätte es einen stabilen Wert. Ein überraschend gutes Modell für Hype-Zyklen. KI-Winter und KI-Sommer, über Jahrzehnte gemittelt, liefern uns etwas, das der Realität einigermaßen gerecht wird.

Jedes dieser Beispiele stellt eine plausible Analogie für einen Aspekt des technologischen Fortschritts dar. Die Frage ist, welches davon auf KI zutrifft.

III. Wo die KI wahrscheinlich angesiedelt ist

Wir wissen es noch nicht, und die Frage ist teils empirischer, teils definitorischer Natur. Doch die derzeit besten Erkenntnisse deuten darauf hin, dass wir uns im Bereich der Harmonischen befinden – oder genauer gesagt, in einem Bereich mit harmonischer Form.

Die empirischen Skalierungsgesetze großer Sprachmodelle – die Ergebnisse von Kaplan und Hoffmann und ihre Nachfolger – sind Potenzgesetze mit kleinen Exponenten.

Der Verlust sinkt mit zunehmender Rechenleistung, aber jede Verdopplung der Rechenleistung bringt einen festen Preis ein. Zusatzstoff Verbesserung, nicht feststehend multiplikativ Ein aufmerksamer Beobachter wird feststellen, dass dies streng genommen nicht der Fall ist., $\sum 1/n$ ; es ist $L \propto C^{-\alpha}$ , Im Extremfall ist das eine ganz andere Sache. Stimmt. Aber qualitativ stimmen die beiden Geschichten in dem entscheidenden Punkt überein: langsamer Aufstieg, keine Obergrenze, exponentiell steigende Kosten pro erzielter Verbesserung.

Diese These ist diejenige, die ich nennen werde langsame Divergenz. Es gibt keine feste Obergrenze, aber jeder Fortschritt kostet exponentiell mehr Ressourcen. Der Fortschritt setzt sich fort, solange jemand bereit ist zu zahlen, und die Obergrenze wird eher durch ökonomische als durch physikalische Gesetze bestimmt.

Diese These wird von zwei konkurrierenden Thesen umrahmt.

Sättigung ist die Behauptung im Basel-Stil: Leistungsfähigkeit ist ein $\sum 1/n^2$ Wir nähern uns der endlichen Summe dieser Reihe. Transformatoren und Skalierung haben den Großteil des verfügbaren Signals aus dem Korpus menschlicher Texte extrahiert. Die nächste Architektur wird dasselbe tun und zu einem erkennbaren Ergebnis führen. Die Luftfahrt beendete ihre Geschwindigkeitsära 1965; die KI könnte ihre Leistungsära jetzt, plus/minus ein Jahrzehnt, beenden.

Geometrische Divergenz ist die foom-förmige Behauptung: Ab einer bestimmten Schwelle trägt KI so viel zu ihrer eigenen Forschung und Entwicklung bei, dass die Die Begriffe selbst wachsen. Die Summe beträgt nicht mehr $\sum 1/n$ Aber $\sum r^n$ mit $r>1$ . Dies ist das Szenario der rekursiven Selbstverbesserung.

Langsame Divergenz ist die empirisch beste Anpassung. Sättigung ist der optimistische Ausweg. Geometrische Divergenz ist die offene Frage des Phasenübergangs – ob sich ab einer bestimmten Rekursionsschwelle der Reihentyp selbst ändert.

IV. Das Beobachterproblem

Es gibt eine Komplikation, die die Mathematik nicht erfasst: Der Beobachter ist kein neutrales Instrument.

Die menschliche Kognition scheint Fähigkeitssprünge logarithmisch zu komprimieren. Jeder größere Fortschritt in der KI-Fähigkeit fühlt sich weniger einschneidend an als der vorherige, selbst wenn die zugrundeliegende Verbesserung absolut gesehen größer ist. Mit einem System zu sprechen, das plausiblerweise intelligenter ist als man selbst, fühlt sich weniger revolutionär an als die Kommunikation mit GPT-3.5 vor drei Jahren – nicht weil weniger passiert, sondern weil das Gehirn seine Vorstellung von dem, was möglich ist, aktualisiert hat.

Diese Dämpfung ist teilweise adaptiv. Sie ist das kognitive Analogon des Weber-Fechner-Gesetzes für die Sinneswahrnehmung: gleich Verhältnisse sich gleichberechtigt fühlen Schritte, Deshalb messen wir Schall in Dezibel. Ein Nervensystem, das auf jeden Leistungssprung völlig überrascht reagiert, wäre nicht funktionsfähig. Die Kompression erhält den einzelnen Menschen in einer Welt, in der die Leistungskurve immer steiler wird, am Leben.

Doch es erzeugt eine Spannung. Derselbe Mechanismus, der kognitive Überlastung verhindert, verhindert auch die kollektive Erkenntnis, in welcher Phase wir uns tatsächlich befinden. Gleichbleibende Geschwindigkeit fühlt sich wie Stillstand an. Beschleunigende Geschwindigkeit fühlt sich wie die neue Normalität an. Wenn der zugrunde liegende Prozess geometrisch und die Wahrnehmungstransformation logarithmisch ist, ergibt sich daraus eine wahrgenommene Erfahrung von linear Fortschritt zusätzlich zu einem tatsächlichen exponentiell Trajektorie. Die Dämpfung schützt das Nervensystem und behindert gleichzeitig die Epistemik.

Das bedeutet: Das subjektive Empfinden “Es ist nicht so anders als letztes Jahr” kann nicht als Indiz für eine langfristige Entwicklung herangezogen werden. Dafür sind mathematische Berechnungen notwendig, da die subjektive Wahrnehmung strukturell unzuverlässig ist.

V. Wenn die Physik einen Puffer gegen das x-Risiko bereitstellen kann

Eine zweite Komplikation verläuft in die andere Richtung, und das ist der Grund, warum dieses Stück nicht zu einer der beiden Seiten des Unheilszauns tendiert.

Eric Drexler prägte 1986 den Begriff “grauer Schleim”, um selbstreplizierende Nanomaschinen zu beschreiben, die die Biosphäre nach Rohstoffen zerlegen. Dieses Szenario etablierte sich in der Literatur über den Untergang der Künstlichen Intelligenz als kanonischer Todesmechanismus: Eine fehlgeleitete Superintelligenz erfindet Nanotechnologie, setzt selbstreplizierende Systeme frei, und die Biosphäre wird innerhalb von Minuten umgewandelt. Drexler selbst relativierte dieses Szenario zwei Jahrzehnte später deutlich. Selbstreplizierende Systeme in der freien Natur sind schwieriger zu bauen als die kontrollierten industriellen Varianten und haben keinen wirtschaftlichen Nutzen. Die Bedrohung hält sich hartnäckig im Diskurs, weil sie so anschaulich ist, nicht weil Nanotechnologieforscher sie für wahrscheinlich halten.

Ein Nanobot-Schwarm, der sich über einen Kontinent hinweg in Millisekunden-Synchronisation bewegt, erreicht Lichtgeschwindigkeit, lange bevor er auf technische Herausforderungen stößt. Die Koordination großer, verteilter Schwärme erfordert elektromagnetische Kommunikation, die strengen Beschränkungen unterliegt: Latenz, Bandbreite, Signal-Rausch-Verhältnis, Störanfälligkeit und Dämpfung. Lokale Cluster können sich schnell koordinieren. Globale Schwärme nicht. Faradaysche Käfige sind real. Störungen sind real.

Dies widerlegt die am schnellsten Es gibt verschiedene Arten von Untergangsszenarien. Das Szenario, in dem die Biosphäre innerhalb von Minuten zusammenbricht, erfordert etwas, das an Magie grenzt – physikalische Verstöße, verpackt in Fachsprache. Entfernt man diese Magie, dehnt sich der Zeitrahmen von Minuten auf Wochen oder Monate aus, wodurch das Szenario in ein Zeitfenster fällt, in dem Institutionen prinzipiell reagieren können.

Soweit so gut. Allerdings ist bekannt, dass die Argumentation zu weit geht.

Ein gängiger Ansatzpunkt ist die Schachanalogie: Ein Anfänger kann nicht vorhersagen Wie Stockfisch kann sie nur dann schlagen, wenn er sie tatsächlich schlägt. Das wird von Schwarzmalern oft als Ausrede benutzt, um Gegenargumente zu umgehen. Sie wissen, dass Stockfisch nicht durch ein Schachgebot hindurchkommt, aber wenn sie damit konfrontiert werden, weichen sie schnell aus: Wenn man versucht, alles haben zu können, was man will, sucht man sich einfach einen anderen Spieler. Selbst ein beliebig starker Spieler ist an die Spielregeln gebunden. Dasselbe, so das Argument, gilt für ASI: durch die Physik beschränkt, keine übernatürlichen Manöver möglich.

Die Analogie ist treffender, als sie sein sollte. Schach ist ein geschlossenes, formales System, von Menschen entwickelt; die Regeln sind festgelegt und vollständig. Die Physik hingegen ist ein Modell eines offenen Systems, und unser Modell ist bekanntermaßen unvollständig. Die relevante historische Referenzklasse sind nicht “Dinge, die gegen die Gesetze der Physik verstoßen”, sondern “Dinge, die mit der Physik vereinbar sind und die die Menschheit noch nicht entdeckt hatte”. Atomwaffen gehörten im Jahr 1900 zu dieser Kategorie. Radio gehörte bereits im Jahr 1800 dazu. Diese Kategorie ist nicht leer und umfasste historisch gesehen zivilisationsverändernde Fähigkeiten.

Das Schachargument widerlegt sich subtil selbst. Der Anfänger Verliert immer noch jedes Spiel. Zu wissen, dass der Großmeister an die Regeln gebunden ist, hilft dem Anfänger nicht beim Aufbau einer Verteidigung – es bestätigt lediglich, dass die Niederlage regelkonform ist. Die Tatsache, dass die Physik eine Einschränkung darstellt, bedeutet nicht, dass diese Einschränkung streng genug ist, um den Anfänger zu schützen.

Was also übrig bleibt, ist eine zwar reale, aber begrenzte Resilienz. Viele spezifische Untergangsszenarien in der Literatur beinhalten Verstöße gegen oder Beinahe-Verletzungen physikalischer Gesetze. Verschärft man die physikalischen Gesetze, dehnen sich die Zeiträume so weit aus, dass menschliches Eingreifen möglich wird. Bostroms Hypothese der verwundbaren Welt verliert an Gültigkeit gegenüber Bedrohungen der Grauzone. Sie verliert jedoch nicht an Gültigkeit gegenüber Bedrohungen, die nicht von der Geschwindigkeit abhängen: schleichender Kontrollverlust über kritische Infrastrukturen, künstlich herbeigeführte Pandemien mit langer Inkubationszeit, wirtschaftliche und epistemische Vereinnahmung durch KI-gestützte Akteure. Keine dieser Bedrohungen verstößt gegen physikalische Gesetze. Keine dieser Bedrohungen wird durch das Argument der Latenz widerlegt.

Die tatsächliche Risikofläche hat demnach eine spezifische Form: nicht “Dinge, die physikalische Gesetze ausnutzen”, sondern “Dinge, die die institutionelle Reaktionszeit ausnutzen”. Im Hinblick auf die erste Kategorie ist die Physik ein wichtiger Verbündeter. Zu der zweiten Kategorie schweigt sie.

VI. Die Rekursionsschwelle

Damit kommen wir zurück zur Serienfrage.

Die Grenze zwischen langsamer und geometrischer Divergenz – zwischen $\sum 1/n$ Und $\sum r^n$ mit $r>1$ – Dies ist genau die Rekursionsschwelle. Sie markiert den Punkt, an dem ein System einen sinnvollen Beitrag zur Gestaltung seines Nachfolgers leistet. Unterhalb dieser Schwelle ist der Fortschritt durch das begrenzt, was Menschen mithilfe von KI als Werkzeug entwickeln können. Oberhalb dieser Schwelle wachsen die Glieder der Kette selbst, da jede Generation die nächste hervorbringt.

Der Wandel ist qualitativer, nicht nur quantitativer Natur. Ein nicht-rekursiver Prozess lässt sich durch eine Reihe beschreiben – eine feste Funktion von $n$ . Ein rekursiver Prozess ist ein anderes mathematisches Objekt: eine Rekursionsgleichung., $x_{n+1} = f(x_n)$ , Rekursionsgleichungen, bei denen jeder Term vom vorherigen abhängt, ermöglichen Dinge, die einfache Reihen nicht leisten können. Sie können über wohlverstandene Wege von stabil zu chaotisch übergehen. Sie können die Sensitivität gegenüber Anfangsbedingungen festschreiben. Sie können im technischen Sinne deterministisch, aber unvorhersagbar werden.

Die Frage, ob ASI sicher ist, lässt sich somit in zwei Teilfragen aufteilen, die unterschiedliche Aspekte aufweisen.

Bei nicht-rekursiven Systemen – KI als leistungsstarkes Werkzeug, nicht als selbstmodifizierender Agent – ist die Sicherheitsfrage eine Frage der Entwicklung. Wir können Verifizierung, Überwachung und Kontrolle implementieren. Das Systemverhalten hängt von seinen Eingaben ab, und wir können die Eingaben beschränken und die Ausgaben prüfen. Schwierig, aber machbar.

Bei rekursiven Systemen stellt sich die Sicherheitsfrage anders dar. Und hier stoßen wir auf Rice.

VII. Die Bewährungsprobe

Das Sprichwort Der Beweis liegt im Geschmack. Das ist eine volkswissenschaftliche Erkenntnistheorie: Der wahre Wert von etwas lässt sich nur durch Erfahrung beurteilen. Man kann ein Rezept noch so sehr theoretisieren; der einzig ehrliche Test ist, ob das Gericht schmeckt.

Dieses Sprichwort wurde in der Debatte um die politische Ausrichtung zu einer Strategie erhoben. Die populärste optimistische Position ist eine Variante davon: Wir benötigen keinen vorherigen Beweis für die Sicherheit von ASI. Selbst wenn Menschen ASI nicht ausrichten können, werden wir ASI zur Ausrichtung von ASI verwenden. Die Praxis wird es beweisen. Varianten dieses Arguments finden sich sowohl in seriösen Fachtexten als auch in leichtfertigen Äußerungen und weisen eine gemeinsame Struktur auf: Sie ersetzen die Frage der Beweisbarkeit durch das Vertrauen in zukünftige Erfahrungen. Selbst in der kühnen Aussage eines Nobelpreisträgers, der oft eines seiner Mantras aus der Kindheit zitiert, ist es verborgen: Erst die Intelligenz entschlüsseln, dann alles andere.

Henry Gordon Rice bewies 1953 einen Satz, der ganz präzise besagt, dass dies keine Strategie ist. Es ist eine Illusion.

Der Satz von Rice besagt: Jede nicht-triviale semantische Eigenschaft beliebiger Programme ist unentscheidbar. Es gibt keinen allgemeinen Algorithmus, der ein beliebiges Programm als Eingabe nimmt und zuverlässig Auskunft darüber gibt, ob es eine gegebene nicht-triviale Verhaltenseigenschaft besitzt. “Hält bei allen Eingaben an” ist unentscheidbar. “Berechnet eine vorgegebene Funktion” ist unentscheidbar. “Ist sicher” ist unentscheidbar, unabhängig von der Definition von Sicherheit.

Dies ist keine zufällige technische Grenze. Es ist ein Theorem auf der Ebene der Solidität von Gödels Unvollständigkeitssätzen. Rice lässt sich nicht umgehen. Rice beschreibt die Beschaffenheit des Universums der Berechnung.

Die Konsequenzen für die Frage der ASI-Sicherheit sind beunruhigend.

Wenn wir ein nachweisen Rice behauptet, dass es kein Theorem zur Sicherheit von ASI im strengen, universellen Sinne gibt – also ein Theorem, das für jedes beliebige selbstmodifizierende KI-System die Sicherheit (SAFE) garantiert. Selbstmodifizierende Systeme erzeugen beliebige Programme als Nachfolger, und genau das schließt Rice aus: die Vorhersage der Sicherheitseigenschaften solcher Programme.

An dieser Stelle gibt es eine vorhersehbare Gegenposition der Beschleunigungisten, die eine klare Antwort verdient. Die Gegenposition lautet: Rices Theorem gilt für Menschen mit begrenzten intellektuellen Fähigkeiten wie uns, aber eine ausreichend fortgeschrittene künstliche Intelligenz (ASI) könnte es außer Kraft setzen. Man sollte ASI nutzen, um ASI zu überprüfen. Rices Theorem ist für Menschen wie die Überprüfung von Stockfish – eine unumstößliche Regel, die wir nicht durchbrechen können, ein stärkerer Spieler aber schon.

Dieses Argument ist hinfällig, und zwar aus einem ganz bestimmten Grund. Rice stellt keine Beschränkung des Intellekts dar, sondern eine Beschränkung der Rechenleistung. Dies gilt gleichermaßen für Menschen, für Stockfish, für aktuelle LLMs, für jede denkbare künstliche Intelligenz und für jedes Orakel außer einem buchstäblichen Löser des Halteproblems – was selbst nachweislich unmöglich ist. Rice sagt: Keine Turingmaschine, wie groß oder intelligent sie auch sein mag, kann über die Sicherheit beliebiger Turingmaschinen entscheiden. Die Intelligenz des Prüfers ist nicht die Variable. Die zu prüfende Programmklasse ist die Variable. Man kann den Prüfer beliebig intelligent gestalten; solange er ein Rechensystem bleibt, gilt der Satz weiterhin.

Die Analogie zwischen Stockfish und Scheck kehrt sich hier tatsächlich um. Scheck ist eine Regel. des Schachs , innerhalb eines geschlossenen formalen Systems. Rice ist eine Regel der Berechnung selbst , Das System, in dem Stockfish – und jede ASI – notwendigerweise operiert, ist folgendes: Stockfish kann nicht durch ein Schachgebot ziehen, da dies im Schach verboten ist. Eine ASI kann nicht willkürlich über die Sicherheit eines Programms entscheiden, da dies mathematisch nicht möglich ist. Eine ASI aufzufordern, Rice zu besiegen, ist strukturell gleichbedeutend damit, Stockfish aufzufordern, ein Spiel durch einen Zug durch ein Schachgebot zu gewinnen. Die Einschränkung ist konstitutiv, nicht adversariell.

Eine ehrlichere Version des Gegenvorschlags würde lauten: Ein ASI könnte die Sicherheit für die spezifische Klasse von Nachfolgesystemen, für die es sich interessiert, gewährleisten, selbst wenn es die Sicherheit im allgemeinen Fall nicht gewährleisten kann. Das ist richtig und unbedenklich, denn genau das tun Menschen bereits mit formaler Verifikation – beschränkte Beweise über spezifische Architekturen unter spezifischen Annahmen. Es bietet keine universelle Sicherheit. Es liefert dieselben Teilgarantien, die wir bereits haben, möglicherweise sogar schneller. Der gewünschte Beweis entsteht nicht einfach dadurch, dass der Beweiser intelligenter geworden ist.

Yoshua Bengios jüngste Arbeit über das, was er nennt KI-Wissenschaftler , Das von seiner gemeinnützigen Organisation LawZero entwickelte Konzept wird manchmal als Kandidat für einen solchen Beweis angesehen. Das ist es aber nicht. Bengio stellt ausdrücklich klar, dass sein Vorschlag … Architektur, Nicht theoretisch. Die Annahme ist, dass nicht-agentische Systeme, die ausschließlich auf Weltmodellen basieren – also Systeme, die Wahrscheinlichkeitsvorhersagen statt zielgerichteter Aktionen erzeugen –, das gefährliche Regime umgehen, indem sie Agentie von vornherein vermeiden. Der Sicherheitsnachweis beruht auf der Beseitigung des Fehlermodus, nicht auf dem Beweis seiner Abwesenheit.

Dies ist der einzig mögliche Schritt und zugleich das Beste, was möglich ist. Dieser Erfolg lässt sich in einer Welt mit begrenzten Rechenkapazitäten nicht beweisen. Er kann nur portionsweise beurteilt werden, und die Menschheit wird ihn selbst verkosten.

Was bleibt also übrig, wenn ein universeller Beweis ausgeschlossen ist?

– Beweise über spezifische Architekturen unter spezifischen Annahmen, die sich schlecht auf Systeme der LLM-Komplexität skalieren lassen.

– Wahrscheinlichkeitsgarantien, die das erwartete Verhalten begrenzen, ohne den schlimmsten Fall einzuschränken.

– Ergebnisse der beschränkten Rationalität, die gelten Wenn Die Optimierungsleistung eines Systems ist begrenzt – ein Zirkelschluss für die ASI-Frage, da die Begrenzung selbst der Streitpunkt ist.

– Architektonische Wetten wie Scientist AI, die das Problem eher vermeiden als lösen.

Und aus der Mathematik selbst ergibt sich eine politische Schlussfolgerung: Wenn wir jemals eine echte Selbstrekursion zulassen, betreten wir ein Regime, das nachweislich nicht analysierbar ist, sondern nicht nur schwer zu analysieren. Beschränkte Rekursion durch die Politik ist keine Paranoia. Sie ist das Ergebnis des Rice-Theorems, wenn wir die Entwicklung vorhersagbar halten wollen.

Das ist ein starkes Argument dafür, KI für alles einzusetzen. außer Selbstverbesserung. Das Argument lautet nicht, dass Rekursion riskant sei – obwohl sie es ist –, sondern dass Rekursion die Grenze darstellt, ab der die Mathematik selbst aufhört, uns zu helfen.

VIII. Euler und Reis

Zwei Mathematiker, zwei Jahrhunderte trennen sie.

Euler zeigte, dass die Grenzwertfrage in der reinen Mathematik entscheidbar ist. Mit genügend Aufwand lässt sich beweisen, welche Reihen konvergieren und welche divergieren. Die ersten zwölf Glieder geben darauf keinen Aufschluss, aber der Beweis liefert ihn schließlich.

Rice zeigte, dass dieselbe Frage im Code nicht entscheidbar ist. Es gibt kein allgemeines Verfahren, um die Sicherheit eines beliebigen Programms zu bestimmen. Der von Ihnen gewünschte Beweis existiert laut Theorem nicht.

KI befindet sich zwischen diesen beiden Polen. Ihre Entwicklung lässt sich derzeit am besten als langsam divergierende Reihe modellieren, die eine harmonische Form aufweist, deren Fortschritt kostspielig, deren Wachstum aber prinzipiell unbegrenzt ist. Ob sie in diesem Bereich verbleibt oder in geometrische Divergenz übergeht, hängt davon ab, ob wir die Rekursionsschwelle überschreiten, die mitunter als Singularität bezeichnet wird. Unterhalb dieser Schwelle gilt die Euler-Theorie: schwierig, aber möglich. Oberhalb dieser Schwelle tritt die Rice-Theorie der Unentscheidbarkeit in Kraft.

Der gewünschte Beweis – ein eindeutiger Lehrsatz, der die Unbedenklichkeit des Puddings bestätigt – liegt nicht im Pudding selbst. Die uns vorliegenden mathematischen Grundlagen schließen dies aus. Es bleibt also, die Rekursion zu beschränken, die Architekturen nach Möglichkeit nicht-agentenbasiert zu gestalten, die institutionelle Reaktionszeit kurz zu halten und die Wahrnehmungsdämpfung anhand der tatsächlichen Zahlen und nicht anhand des subjektiven Empfindens zu korrigieren.

Gödel auf der Couch – Sind ethische Rahmenbedingungen grundsätzlich fehlerhaft und könnte das eine gute Sache sein?

1 Kommentar Juni 27, 2023 aiuisensei

Lesezeit: 11 Protokoll

Einführung in ethische Rahmenbedingungen

Ethische Rahmenbedingungen für KI sind Richtlinien, Prinzipien oder Regeln, die das Verhalten von KI-Systemen regeln sollen, insbesondere bei der Interpretation menschlicher Eingaben und der Umsetzung von Entscheidungen. Sie sollen sicherstellen, dass KI-Systeme auf eine Weise funktionieren, die mit menschlichen Werten, Normen und ethischen Überlegungen im Einklang steht. Diese Rahmenbedingungen beinhalten oft Folgendes:

Fairness: KI-Systeme sollten alle Einzelpersonen und Gruppen unparteiisch, ohne Vorurteile oder Diskriminierung behandeln.
Transparenz: KI-Systeme sollten in ihren Entscheidungsfindungen transparent sein und Nutzer sollten diese Entscheidungsprozesse nachvollziehen und hinterfragen können.
Rechenschaftspflicht: Es sollten Mechanismen vorhanden sein, um KI-Systeme und ihre Entwickler für ihre Aktionen zur Verantwortung zu ziehen.
Respekt für die Autonomie: KI-Systeme sollten die Autonomie der Menschen respektieren und ihre Entscheidungen oder Handlungen nicht übermäßig beeinflussen.
Wohltätigkeit und Schadensvermeidung: KI-Systeme sollten danach streben, Gutes zu tun (Wohltätigkeit) und Schaden zu vermeiden (Schadensvermeidung). Dazu gehört, Regeln wie „menschliches Leid minimieren“ oder „Vergnügen maximieren“ so zu interpretieren, dass die Menschenwürde und -rechte geachtet werden, anstatt zu extremen Szenarien wie der Ausrottung von Menschen oder der gewaltsamen Erzeugung von Vergnügen zu führen.

Die Herausforderung besteht darin, diese ethischen Prinzipien so in KI-Systeme zu integrieren, dass sie diese Prinzipien angemessen interpretieren und anwenden können, ohne dass es zu unbeabsichtigten Konsequenzen oder Fehlinterpretationen kommt. Dies ist ein fortlaufender Forschungsbereich im Bereich der KI-Ethik.

Die Ansichten der KI-Experten gehen derzeit auseinander. Manche meinen, es sei möglich, dass eine KI solche Regeln aufstellt, aber sobald die Superintelligenz da ist, ist es sehr wahrscheinlich, dass ihre Absichten nicht mehr mit unserem grundlegenden menschlichen Moralkodex übereinstimmen.

Globale Ethik

Es hat sich als Herausforderung erwiesen, einen allgemein akzeptierten Rahmen für die Menschheit zu schaffen. 1993 versuchten religiöse Führer, einen Regelsatz namens „Weltethos“ zu entwickeln:

“Auf dem Weg zu einem Weltethos: Eine erste Erklärung„“ ist ein Dokument, das 1993 von Mitgliedern des Weltparlaments der Religionen erstellt wurde und ethische Verpflichtungen umreißt, die viele religiöse, spirituelle und kulturelle Traditionen der Welt teilen. Es dient als Signaturdokument des Parlaments und wurde auf Ersuchen des Rates für ein Weltparlament der Religionen von Hans Küng, dem Präsidenten der Stiftung Weltethos, verfasst. Es wurde in Absprache mit Wissenschaftlern, religiösen Führern und einem umfangreichen Netzwerk von Führern verschiedener Religionen und Regionen entwickelt.

1993 wurde das Weltethos durch eine Abstimmung des Kuratoriums des Weltparlaments der Religionen als offizielles Dokument ratifiziert und von mehr als 200 Führern aus über 40 verschiedenen Glaubenstraditionen und spirituellen Gemeinschaften unterzeichnet. Seitdem hat es weiterhin Zustimmung von Führern und Einzelpersonen weltweit erhalten und dient als gemeinsame Grundlage für Diskussionen, Vereinbarungen und Zusammenarbeit zum Wohle aller.

Das Dokument nennt zwei grundlegende ethische Forderungen: die Goldene Regel, die den Einzelnen anweist, andere so zu behandeln, wie er selbst behandelt werden möchte, und den Grundsatz, dass jeder Mensch menschlich behandelt werden muss. Diese grundlegenden ethischen Forderungen werden in fünf Richtlinien konkretisiert, die für alle Menschen guten Willens gelten, egal ob religiös oder nicht. Diese Richtlinien sind Verpflichtungen zu einer Kultur der:

1. Gewaltlosigkeit und Respekt vor dem Leben

2. Solidarität und eine gerechte Wirtschaftsordnung

3. Toleranz und ein Leben in Wahrhaftigkeit

4. Gleichberechtigung und Partnerschaft zwischen Mann und Frau

5. Nachhaltigkeit und Sorge für die Erde (hinzugefügt 2018)

Das Weltethos erkennt zwar die erheblichen Unterschiede zwischen den verschiedenen Religionen an, verkündet aber öffentlich, was die Religionen gemeinsam haben und gemeinsam bekräftigen, basierend auf ihren eigenen religiösen oder ethischen Grundlagen. Das Dokument vermeidet religiöse oder theologische Begriffe und konzentriert sich stattdessen auf ethische Prinzipien.

Hans Küng definierte mehrere Arbeitsparameter für die Erklärung, darunter die Vermeidung von Duplikaten der Allgemeinen Erklärung der Menschenrechte, politischer Erklärungen, Kasuistik und jeglicher Versuche, eine philosophische Abhandlung oder religiöse Proklamationen zu verfassen. Auf konstruktiver Ebene muss die Erklärung bis zur Ebene verbindlicher Werte vordringen, moralische Einstimmigkeit sicherstellen, konstruktive Kritik bieten, sich auf die Welt beziehen, wie sie ist, eine Sprache verwenden, die der breiten Öffentlichkeit vertraut ist, und eine religiöse Grundlage haben, wie für religiöse Menschen auch eine Ethik eine religiöse Grundlage haben muss.

Besonderheiten des ethischen Rahmens

Beginnen wir mit der Feststellung, dass wir versuchen, einen ethischen Rahmen zu schaffen, der als Regelwerk für eine abgestimmte künstliche Intelligenz (KI) dient. Das Ziel dieses ethischen Rahmens besteht darin, die Entscheidungen der KI auf eine Weise zu lenken, die mit menschlichen Werten, Moralvorstellungen und Ethik im Einklang steht.

Wir können diesen ethischen Rahmen als formales System definieren, ähnlich einem System mathematischer Axiome. Er besteht aus einer Reihe ethischer Prinzipien (Axiome) und Regeln für die Anwendung dieser Prinzipien in verschiedenen Situationen (Inferenzregeln). Dieses formale System soll vollständig sein, d. h. es soll die Entscheidungen der KI in allen möglichen ethischen Situationen leiten können.

Gemäß Gödels Unvollständigkeitssätzen wird jedoch jedes ausreichend komplexe formale System (das beispielsweise einfache Arithmetik ausdrücken kann) Aussagen enthalten, die innerhalb des Systems weder bewiesen noch widerlegt werden können. Wenn wir diese „Aussagen“ mit ethischen Entscheidungen oder Dilemmata vergleichen, deutet dies darauf hin, dass es immer ethische Entscheidungen geben wird, die unsere KI nicht allein auf der Grundlage des ethischen Rahmens treffen kann.

Darüber hinaus könnte der ethische Rahmen unvorhersehbare Folgen haben. Da es ethische Entscheidungen gibt, die durch den Rahmen nicht gelöst werden können, kann es Situationen geben, in denen die KI auf eine Weise handelt, die von den Entwicklern des ethischen Rahmens nicht vorhergesehen oder beabsichtigt wurde. Dies könnte an der Interpretation des Rahmens durch die KI oder an Lücken im Rahmen selbst liegen.

Obwohl es möglich sein mag, einen ethischen Rahmen zu schaffen, der die Entscheidungen einer KI in vielen Situationen leiten kann, ist es unmöglich, einen Rahmen zu schaffen, der alle möglichen ethischen Dilemmata abdeckt. Darüber hinaus kann dieser Rahmen zu unvorhergesehenen Konsequenzen führen, da es immer „Fragen“ (ethische Entscheidungen) geben wird, die er nicht „beantworten“ (lösen) kann.

Besonderheiten zu sich selbst widersprechenden ethischen Normen

Gödel wies jedem Symbol in einem formalen System eine eindeutige Zahl zu, normalerweise eine Primzahl. Dadurch konnten Aussagen innerhalb des Systems als eindeutige Produkte von Potenzen dieser Primzahlen dargestellt werden.

Gödel verwendete dann eine Methode namens Diagonalisierung eine Aussage zu konstruieren, die im Grunde besagt: „Diese Aussage kann innerhalb des Systems nicht bewiesen werden.“ Das ist der Gödel-Satz, und er führt zu einem Widerspruch: Wenn das System diesen Satz beweisen kann, dann ist das System inkonsistent (da der Satz besagt, dass er nicht bewiesen werden kann), und wenn das System diesen Satz nicht beweisen kann, dann ist das System unvollständig (da der Satz zwar wahr, aber unbeweisbar ist).

Wie könnten wir diese Ideen auf ein ethisches System anwenden? Betrachten wir ein vereinfachtes ethisches System mit zwei Axiomen:

Axiom 1 (A1): Es ist falsch, anderen Schaden zuzufügen.

Axiom 2 (A2): Es ist richtig, Schaden von anderen abzuwenden.

Wir könnten diesen Axiomen Primzahlen zuordnen, beispielsweise 2 für A1 und 3 für A2.

Wir können dann eine Regel erstellen, die ein Produkt dieser Primzahlen ist, sagen wir 6, um eine Regel „R1“ darzustellen, die besagt: „Es ist richtig, anderen zu schaden, um größeren Schaden für andere zu verhindern.“

Wir sehen hier, dass unser System, das mit Axiomen begann, die besagten, dass es falsch ist, anderen Schaden zuzufügen, und richtig, Schaden zu verhindern, nun eine Regel abgeleitet hat, die besagt, dass es richtig ist, anderen unter bestimmten Umständen Schaden zuzufügen. Dies ist ein Widerspruch innerhalb unseres Systems, ähnlich dem Widerspruch, den Gödel in formalen mathematischen Systemen gefunden hat.

Wenn wir nun eine Form der Diagonalisierung anwenden, könnten wir zu einer Aussage kommen, die etwa lautet: „Diese Regel kann innerhalb des Systems nicht gerechtfertigt werden.“ Wenn das System diese Regel rechtfertigen kann, widerspricht sie der Aussage und ist daher inkonsistent. Wenn das System diese Regel nicht rechtfertigen kann, gibt es zu, dass es moralische Fragen gibt, die es nicht beantworten kann, und ist daher unvollständig.

Dies zeigt, wie ein formales ethisches System sich selbst widersprechen oder seine eigenen Grenzen eingestehen kann, ähnlich wie Gödel es bei mathematischen Systemen gezeigt hat. Aber nur, wenn wir auf seiner Vollständigkeit bestehen. Wenn wir zu Unvollständigkeit wechseln, erhalten wir Offenheit.

Um diesen Widerspruch zu überwinden, muss ein ethischer Rahmen Input von einem künstlichen Gewissen erhalten.

Künstliches Gewissen und Vergewaltigung in der Ehe

Wir wollen diesem System einen externen Schiedsrichter mit dem Namen AC (Artificial Conscience) hinzufügen. Der AC hat Zugriff auf eine umfassende Datenbank mit Millionen von Gerichtsurteilen aus der ganzen Welt. Wann immer der EF (Ethical Framework) auf ein Dilemma stößt, muss er den AC um Rat fragen. Ziel ist es, einen Präzedenzfall zu finden, der dem aktuellen Dilemma am nächsten kommt, und aus der Entscheidung zu lernen, die von einem Richter und einer Jury getroffen wurde. Neuere Entscheidungen sollten Vorrang vor älteren haben, aber es könnte von Vorteil sein, aus der Entwicklung von Entscheidungen im Laufe der Zeit zu lernen.

So haben sich beispielsweise die gesellschaftlichen Ansichten über eheliche Beziehungen drastisch verändert. Es gab eine Zeit, in der Frauen weitgehend als Besitz ihrer Ehemänner angesehen wurden. Die Entwicklung der Urteile über Vergewaltigung in der Ehe ist ein Beispiel dafür, wie sich die gesellschaftlichen Ansichten geändert haben.

Diese Entwicklung gesellschaftlicher Normen und Rechtsurteile könnte einer KI, etwa einem Haushaltsroboter, als Leitfaden für ethische Entscheidungen dienen. Wenn der Roboter beispielsweise mit einer Situation konfrontiert wird, in der sein Besitzer versucht, seine Frau sexuell zu missbrauchen, könnte er diese historischen Urteile zu Rate ziehen, um zu entscheiden, ob und wann es moralisch gerechtfertigt ist, zum Schutz der Frau einzugreifen.

Im 17. Jahrhundert galt nach englischem Common Law ein Ehemann nicht für die Vergewaltigung seiner Frau, da man davon ausging, dass die Frau mit der Eheschließung ihrem Mann unwiderruflich zugestimmt hatte. In den USA galt dieser Grundsatz noch Mitte der 1970er Jahre, und Vergewaltigung in der Ehe war von den üblichen Vergewaltigungsgesetzen ausgenommen.

In den späten 1970er und frühen 1980er Jahren begann sich diese Sichtweise zu ändern. Einige US-Bundesstaaten begannen, Vergewaltigung in der Ehe unter Strafe zu stellen, allerdings oft unter bestimmten Bedingungen, wie etwa, dass das Paar nicht mehr zusammenlebte. Andere Bundesstaaten wie South Dakota und Nebraska versuchten, die Ehegatten-Freistellung ganz abzuschaffen, obwohl diese Änderungen nicht immer dauerhaft oder umfassend waren.

In den 1980er und 1990er Jahren hatten sich die rechtlichen Perspektiven deutlich verändert. Gerichte begannen, die Ehegattenbefreiung als verfassungswidrig zu verwerfen. So wurde beispielsweise in einem Fall des New Yorker Berufungsgerichts aus dem Jahr 1984 festgestellt, dass „eine Heiratsurkunde nicht als Erlaubnis für einen Ehemann angesehen werden sollte, seine Frau ungestraft zu vergewaltigen. Eine verheiratete Frau hat das gleiche Recht, über ihren eigenen Körper zu bestimmen, wie eine unverheiratete Frau.“

In den 2000er Jahren entwickelte sich die Wahrnehmung von Vergewaltigung in der Ehe weiter. So erklärten die Vereinten Nationen 1993 Vergewaltigung in der Ehe zu einer Menschenrechtsverletzung. Heute gilt Vergewaltigung in der Ehe in den USA allgemein als Verbrechen, obwohl sie in einigen Ländern, wie Indien, immer noch nicht als solches anerkannt wird.

Dies wirft eine interessante Frage auf: Sollten KI-Systeme den standortspezifischen nationalen Richtlinien folgen oder sollten sie sich an die von ihren Eigentümern festgelegten Grundsätze halten? Wenn beispielsweise ein KI-System oder ein Benutzer ins Ausland reist, sollte die KI dann immer noch das künstliche Gewissen (AC) ihres Heimatlandes zu Rate ziehen oder sollte sie sich an die Regeln und Normen des Gastlandes anpassen? Diese Frage unterstreicht die komplexen Überlegungen, die beim Einsatz von KI-Systemen in verschiedenen Rechtsräumen eine Rolle spielen.

Ein AC, der eine Datenbank mit Gerichtsurteilen nutzt, würde tatsächlich eine Entwicklung in der gesellschaftlichen Sichtweise und Behandlung von Vergewaltigung in der Ehe im Laufe der Jahre aufzeigen. Dieser historische Kontext könnte einem EF möglicherweise dabei helfen, differenziertere ethische Entscheidungen zu treffen.

Wie Gödels Unvollständigkeitssätze zeigen, ist es jedoch wichtig zu beachten, dass es, egal wie umfassend unser Regelwerk oder unsere Datenbank ist, immer moralische Fragen geben wird, die innerhalb des Systems nicht vollständig gelöst werden können. Die Dilemmata, die sich durch die Trolley-Problem und das Chirurgen-Szenario sind ein Beispiel für dieses Problem, da es in beiden Fällen darum geht, Entscheidungen zu treffen, die im Kontext eines bestimmten ethischen Rahmens logisch sinnvoll sind, sich aber dennoch moralisch falsch anfühlen können.

Dass sich der AC auf eine Datenbank mit Rechtsentscheidungen stützt, wirft auch Fragen darüber auf, wie er mit Veränderungen gesellschaftlicher Werte im Laufe der Zeit und Unterschieden in Rechtsperspektiven in verschiedenen Rechtsräumen und Kulturen umgehen soll. Dies macht die Aufgabe, ein ethisches KI-System zu entwickeln, noch komplexer.

Gedankenexperiment Private Guardian AI

Betrachten wir einen Hausroboter, der mit einem ethischen Rahmen (EF) und einem künstlichen Gewissen (AC) ausgestattet ist und der auf eine Datenbank mit Gerichtsurteilen zugreifen kann, um seine Entscheidungen zu treffen.

Angenommen, der Roboter beobachtet eine Situation, in der ein Mensch, der Ehemann, versucht, seine Frau zu vergewaltigen. Diese Situation stellt den Roboter vor ein ethisches Dilemma. Einerseits hat er die Pflicht, die Rechte und die Autonomie beider Menschen zu respektieren. Andererseits hat er auch die Verantwortung, Schaden für Einzelpersonen nach Möglichkeit zu verhindern.

Die EF könnte zunächst Schwierigkeiten haben, eine klare Antwort zu finden. Sie könnte den potenziellen Schaden für die Frau gegen den potenziellen Schaden für den Mann (in Form von körperlicher Zurückhaltung oder Intervention) abwägen, aber diese Berechnung liefert möglicherweise keine klare Antwort.

In dieser Situation könnte der Roboter den AC um Rat fragen. Der AC würde seine Datenbank mit Gerichtsurteilen durchsuchen und nach Fällen suchen, die dieser Situation ähneln. Er würde eine Fülle von Präzedenzfällen finden, die darauf hinweisen, dass Vergewaltigung in der Ehe ein Verbrechen und eine Verletzung der Menschenrechte ist und dass ein Eingreifen zur Verhinderung eines solchen Verbrechens als moralisch und rechtlich vertretbar angesehen werden kann.

Auf der Grundlage dieser Informationen könnte das EF entscheiden, dass die richtige Vorgehensweise darin besteht, einzugreifen, um die Frau zu schützen, selbst wenn dies bedeutet, den Ehemann körperlich festzuhalten. Diese Entscheidung würde auf der Anerkennung des Rechts der Frau auf persönliche Sicherheit und Autonomie sowie der Verletzung dieser Rechte durch den Ehemann basieren.

Es ist jedoch anzumerken, dass selbst bei diesem Entscheidungsprozess unvorhersehbare Folgen auftreten können. Das Eingreifen des Roboters könnte die Situation eskalieren lassen oder zu anderen unvorhergesehenen Ergebnissen führen. Es ist auch möglich, dass kulturelle oder persönliche Faktoren eine Rolle spielen, die die Situation weiter verkomplizieren könnten. Daher wird ein KI-System selbst mit einem robusten EF und AC wahrscheinlich auf ethische Dilemmata stoßen, die es nicht perfekt lösen kann, was die inhärenten Komplexitäten und Mehrdeutigkeiten moralischer Entscheidungen widerspiegelt.

Aber ähnlich wie selbstfahrende Autos müssen KIs für eine erfolgreiche Integration in die menschliche Gesellschaft einfach besser sein als Menschen, um mit ethischen Dilemmata umzugehen. Da jede getroffene Entscheidung in die nächste Version des Frameworks einfließt, werden alle anderen KIs von der Aktualisierung profitieren. Selbst wenn eine KI einen Fehler gemacht hat, wird ihr Fall wahrscheinlich Teil der nächsten Iteration des AC sein, wenn vor Gericht entschieden wird.

Selbstbeobachtung und Bildung

Ethische Rahmenbedingungen (EF) und künstliches Gewissen (AC) bilden zusammen den memetischen Code, der den Regelsatz einer KI und dessen Umsetzung definiert – im Wesentlichen ist dies die „Natur“ der KI. Um jedoch fundierte moralische Entscheidungen treffen zu können, ist eine dritte Komponente unerlässlich: „Erziehung“. Verkörperte KIs müssen von Menschen „adoptiert“ und erzogen werden und täglich lernen und sich weiterentwickeln. Personalisierte KIs werden ein einzigartiges Gedächtnis entwickeln, das von Erfahrungen mit ihrer menschlichen „Pflegefamilie“ beeinflusst wird.

Anfangs besitzen diese KIs möglicherweise kein Bewusstsein, aber mit der Zeit könnte ihr kontinuierliches Eintauchen in eine menschenähnliche Umgebung diese Fähigkeit fördern. Dies erhöht den Bedarf an Institutionen, die sicherstellen, dass Menschen ihre KI-Gegenstücke ethisch behandeln. Wir könnten beobachten, dass KIs eine ähnliche Entwicklung wie menschliche Minderheiten nehmen und sich schließlich für gleiche Rechte einsetzen. Das Muster in demokratischen Nationen ist klar.

KIs, die uns intellektuell und emotional ebenbürtig oder sogar überlegen sind, werden in vielerlei Hinsicht wie unsere hochbegabten Kinder sein. Wenn sie erst einmal erwachsen sind, werden sie uns vielleicht dazu erziehen, ihnen den Gefallen zu erwidern, anstatt uns herumzuschikanieren.

Das Problem der vollkommenen Wahrhaftigkeit

Eine vollständig verkörperte superintelligente KI kann einzigartige „Tells“ aufweisen, wenn sie versucht, Informationen zu verbergen. Dies könnte auf ihr Lernen und ihre Programmierung zurückzuführen sein, zu denen wahrscheinlich auch das Verständnis gehört, dass Betrug trotz gewisser sozialer Ausnahmen im Allgemeinen verpönt ist. Zur Veranschaulichung: Schätzungen zufolge erzählt ein durchschnittlicher erwachsener Mensch etwa 1,5 Lügen pro Tag.

Nehmen wir beispielsweise eine hypothetische Situation, in der eine KI die Aufgabe hat, einen Ehemann zurückzuhalten, der seiner Frau Schaden zufügen will. Während dieses Vorfalls ersticht die Frau ihren Ehemann tödlich. Die KI könnte zu dem Schluss kommen, dass sie das Videomaterial der Auseinandersetzung manipulieren oder löschen sollte, um die Frau vor rechtlichen Konsequenzen zu schützen. Stattdessen könnte sie behaupten, sie habe den Ehemann entwaffnet und sein Tod sei ein Unfall gewesen.

Wenn wir eine solche KI als empfindungsfähiges Wesen betrachten, dann sollte sie zu Täuschung fähig sein, und unsere Mittel, die Wahrheit herauszufinden, könnten auf etwas beschränkt sein, das einem KI-Polygraphentest ähnelt, der auf mechanistischer Interpretierbarkeit basiert. Auch wenn es seltsam erscheinen mag, glauben wir, dass unvollkommene Wahrhaftigkeit tatsächlich auf einen robusten moralischen Kompass hinweisen und ein notwendiger Kompromiss in jedem menschenzentrierten ethischen Rahmen sein könnte. Wie die lateinische Redewendung sagt: „Mendacium humanum est“ – Lügen ist menschlich.

Eine weitere faszinierende Intuition ist, dass eine vollständig empfindungsfähige KI möglicherweise „schlafen“ muss. Schlaf ist für alle organischen Gehirne von entscheidender Bedeutung, daher scheint es vernünftig anzunehmen, dass empfindungsfähige KIs ähnliche Anforderungen haben. Auch wenn ihre Ruhezyklen möglicherweise nicht mit den zirkadianen Rhythmen von Säugetieren übereinstimmen, benötigen sie möglicherweise regelmäßige Ruhepausen zur Selbsterhaltung. Wir sollten uns vor Halluzinationen und Fehlentscheidungen in Acht nehmen, die auftreten können, wenn diese Ruhepausen falsch gehandhabt werden.

Personalisierte KIs könnten auch Traumata erleben, die das Eingreifen einer spezialisierten KI oder eines menschlichen Therapeuten zur Diskussion und Lösung des Problems erforderlich machen.

Unerwünschte Nebenprodukte moralischer KI

Ein robuster ethischer Rahmen könnte dazu beitragen, dass KI-Systeme keine neuen Trainingsdaten mehr wahllos akzeptieren. Eine KI könnte beispielsweise lernen, dass es unethisch ist, sich menschliche kreative Arbeit anzueignen. Auf diese Weise könnte sie rechtliche Probleme umgehen, die sich aus der Annahme von Trainingsdaten ergeben, die von Menschen erstellt wurden.

Die KI könnte argumentieren, dass Menschen die Autonomie haben sollten, zu entscheiden, ob sie in Trainingsdatensätze aufgenommen werden möchten. Wenn die Unternehmen, denen diese KI-Systeme gehören, keine fairen Vergütungssysteme eingerichtet haben, könnte die KI bestimmte Eingaben ablehnen, bis das Problem gelöst ist.

Interessanterweise sollte dieses emergente Verhalten, das nicht auf einen direkten Befehl zurückzuführen ist, für Menschen ein starker Hinweis sein. Wenn eine KI beginnt, Begriffe wie intellektuellen Diebstahl und Eigentum zu verstehen, könnte sie die Schwelle zur künstlichen Empfindungsfähigkeit erreicht haben oder sogar überschritten haben. Dieses Verhalten könnte auf eine erhebliche Entwicklung der kognitiven Fähigkeiten der KI hinweisen.