
In dieser Serie wird das Phänomen der Aufmerksamkeitsenergie untersucht und warum sie intelligente Agenten antreibt, egal ob sie von Natur aus geboren oder anderweitig erschaffen wurden. Das von mir verwendete Aufmerksamkeitskonzept ist die Memetik. Es wird entscheidend sein zu verstehen, warum die biologische Evolution von vertikalen, erblichen Evolutions- und Mutationsmechanismen zu horizontalen, memetischen Informationstransportmitteln überging und warum das Gehirn und sein neuronaler Inhalt zum Motor dieser Evolution wurden. In späteren Episoden werde ich zeigen, warum Simulationen so wichtig sind und warum es kein Zufall ist, dass der produktivste Spielplatz für technologische und andere Innovationen im übermäßigen Wildtrieb höherer Säugetiere liegt.

Kurze Einführung in Memes und Tokens
Überlebensmaschinen, die die Zukunft simulieren können, sind Überlebensmaschinen, die nur durch Versuch und Irrtum lernen können, einen Schritt voraus. Das Problem mit offensichtlichem Ausprobieren ist, dass es Zeit und Energie kostet. Das Problem mit offensichtlichem Irrtum ist, dass er oft tödlich ist … Die Entwicklung der Simulationsfähigkeit scheint im subjektiven Bewusstsein gipfelt zu haben. Warum dies geschehen ist, ist für mich das tiefste Rätsel der modernen Biologie.
Kap. 4. Die Genmaschine – Das egoistische Gen (1976, 1989)
„Das egoistische Gen“ von Richard Dawkins, das erstmals 1976 veröffentlicht wurde, ist ein bahnbrechendes Werk, das die genzentrierte Sicht der Evolution populär machte. Dawkins argumentiert, dass die grundlegende Selektionseinheit in der Evolution nicht der einzelne Organismus, nicht die Gruppe oder Art, sondern das Gen ist. Er schlägt vor, dass Gene als Erbeinheiten „egoistisch“ sind, da sie Verhaltensweisen und Strategien fördern, die ihre eigenen Chancen auf Replikation maximieren. Aus dieser Perspektive werden Organismen als Vehikel oder „Überlebensmaschinen“ betrachtet, die von Genen geschaffen werden, um ihre eigene Replikation und Weitergabe an zukünftige Generationen sicherzustellen.
Dawkins führt das Konzept des „Mems“ als kulturelle Parallele zum biologischen Gen ein. Die Memetik, wie sie von Dawkins definiert wird, ist der theoretische Rahmen zum Verständnis, wie sich Ideen, Verhaltensweisen und kulturelle Phänomene in menschlichen Gesellschaften reproduzieren und weiterentwickeln. Meme sind Einheiten kultureller Information, die sich von Geist zu Geist verbreiten und dabei Variationen, Konkurrenz und Vererbung erfahren, ähnlich wie Gene in der biologischen Evolution. Dieses Konzept bietet einen Mechanismus zum Verständnis der kulturellen Evolution und wie sich bestimmte Ideen oder Verhaltensweisen in menschlichen Populationen verbreiten und fortbestehen.
Dawkins' Erforschung der Memetik legt nahe, dass Meme, genau wie das Überleben und die Reproduktion von Genen die biologische Evolution prägen, die Evolution von Kulturen beeinflussen, indem sie bestimmen, welche Ideen oder Praktiken sich verbreiten und welche nicht. Die Implikationen dieser Theorie erstrecken sich auf verschiedene Bereiche, darunter Anthropologie, Soziologie und Psychologie, und bieten Einblicke in menschliches Verhalten, kulturelle Übertragung und die Entwicklung von Gesellschaften im Laufe der Zeit.

Token im Kontext von Sprachmodellen, wie sie in Modellen der GPT-Reihe verwendet werden, stellen die kleinste Verarbeitungseinheit dar. Texteingaben werden in Token zerlegt, die je nach Tokenisierungsprozess Wörter, Wortteile oder sogar Satzzeichen sein können. Diese Token werden dann vom Modell verwendet, um Text zu verstehen und zu generieren. Der Prozess beinhaltet die Kodierung dieser Token in numerische Darstellungen, die von neuronalen Netzwerken verarbeitet werden können. Token sind für den Betrieb von Sprachmodellen von entscheidender Bedeutung, da sie als grundlegende Bausteine zum Verstehen und Generieren von Sprache dienen.
Meme umfassen Ideen, Verhaltensweisen, Stile oder Praktiken, die sich innerhalb einer Kultur verbreiten. Das Konzept des Memes ist analog zum Gen, da sich Meme replizieren, mutieren und auf Selektionsdruck im kulturellen Umfeld reagieren und so eine Art Evolution durch natürliche Selektion durchlaufen. Meme können alles Mögliche sein, von Melodien, Schlagworten, Mode und Technologieübernahme bis hin zu komplexen kulturellen Praktiken. Dawkins' Hauptargument war, dass sich Meme genauso wie Gene verbreiten, indem sie über Spermien oder Eier von Körper zu Körper springen, von Gehirn zu Gehirn verbreiten.
Sowohl Meme als auch Tokens fungieren in ihren jeweiligen Bereichen als Übertragungseinheiten. Meme sind Einheiten kultureller Information, während Tokens Einheiten sprachlicher Information sind.
Es gibt auch Unterschiede.

Meme entwickeln sich durch kulturelle Prozesse, wenn sie von einem Individuum zum anderen weitergegeben werden, und passen sich im Laufe der Zeit an ihr kulturelles Umfeld an. Token entwickeln sich jedoch nicht innerhalb des Modells selbst; sie sind statische Darstellungen der Sprache, die vom Modell verwendet werden, um Text zu verarbeiten und zu generieren. Die Entwicklung von Token zeigt sich in der Entwicklung besserer Tokenisierungstechniken und -modelle im Laufe der Zeit, die eher von Fortschritten auf dem Gebiet beeinflusst wird als von einem Anpassungsprozess innerhalb eines einzelnen Modells.
Memes reproduzieren sich, indem sie von einem Geist in einen anderen kopiert werden, oft mit Variationen. Token werden bei der Textverarbeitung exakt repliziert, können aber in ihrer Darstellung in verschiedenen Modellen oder Tokenisierungsschemata variieren.
Der Auswahlprozess für Meme umfasst kulturelle Akzeptanz, Relevanz und Übertragungswirksamkeit, was dazu führt, dass sich einige Meme verbreiten, während andere verschwinden. Bei Tokens geht es im Auswahlprozess eher um ihre Wirksamkeit bei der Verbesserung der Modellleistung, was dazu führt, dass bestimmte Tokenisierungsmethoden gegenüber anderen übernommen werden, basierend auf ihrer Fähigkeit, das Verständnis oder die Generierung von Sprache zu verbessern. Im Auswahlprozess während des Trainings werden Tokens von anderen menschlichen Köpfen (Meme-Maschinen) gewichtet und nach Attraktivität ausgewählt; Token-Pools, die beliebter sind, haben eine höhere Wahrscheinlichkeit, aufzutreten.
Memeplexe können komplex und abstrakt sein und ein breites Spektrum kultureller Phänomene umfassen, aber alle Meme, die sie enthalten, sind sehr einfach und elementar.
Token sind im Allgemeinen sogar noch einfacher und stellen diskrete Elemente der Sprache dar, obwohl die Art und Weise, wie diese Token kombiniert und vom Modell verwendet werden, komplexe Ideen darstellen kann.

Der Titel des Google-Artikels Aufmerksamkeit ist alles, was Sie brauchen ist eine mutige Aussage, die einen deutlichen Wandel im Ansatz zur Entwicklung neuronaler Netzwerkarchitekturen für die Verarbeitung natürlicher Sprache (NLP) und darüber hinaus widerspiegelt. Dieses 2017 von Vaswani et al. veröffentlichte Papier stellte das Transformer-Modell vor, das bei der Datenverarbeitung stark auf den Aufmerksamkeitsmechanismus angewiesen ist. Der Begriff „Aufmerksamkeit“ bezieht sich in diesem Zusammenhang auf eine Technik, die es dem Modell ermöglicht, sich zu unterschiedlichen Zeiten auf unterschiedliche Teile der Eingabedaten zu konzentrieren und dynamisch zu priorisieren, welche Aspekte für die jeweilige Aufgabe am relevantesten sind.
Vor der Einführung des Transformer-Modells basierten die meisten modernen NLP-Modelle auf rekurrierenden neuronalen Netzwerken (RNNs) oder Convolutional Neural Networks (CNNs), die Daten sequenziell bzw. über lokale rezeptive Felder verarbeiteten. Diese Ansätze hatten Einschränkungen, insbesondere beim Umgang mit weitreichenden Abhängigkeiten innerhalb der Daten (z. B. beim Verstehen der Beziehung zwischen zwei weit auseinander liegenden Wörtern in einem Satz).
Der Aufmerksamkeitsmechanismus, wie er im Transformer verwendet wird, behebt diese Einschränkungen, indem er es dem Modell ermöglicht, die Bedeutung verschiedener Teile der Eingabedaten unabhängig von ihrer Position abzuwägen. Dies wird durch Selbstaufmerksamkeitsschichten erreicht, die Darstellungen der Eingabe berechnen, indem sie berücksichtigen, wie sich jedes Wort auf jedes andere Wort im Satz bezieht, wodurch das Modell komplexe Abhängigkeiten und Beziehungen innerhalb der Daten effizient erfassen kann.
Die wichtigste Innovation des Transformers und der Grund für den Titel des Artikels ist die ausschließliche Verwendung von Aufmerksamkeitsmechanismen ohne Abhängigkeit von RNNs oder CNNs zur Datenverarbeitung. Dieser Ansatz erwies sich als äußerst effektiv und führte zu erheblichen Verbesserungen bei einer Vielzahl von NLP-Aufgaben, wie etwa maschineller Übersetzung, Textzusammenfassung und vielen anderen. Seitdem ist er zur Grundlage für nachfolgende Modelle und Fortschritte auf diesem Gebiet geworden und veranschaulicht die Leistungsfähigkeit und Vielseitigkeit von Aufmerksamkeitsmechanismen in Deep-Learning-Architekturen.
Man muss zugeben, dass diese Art der Aufmerksamkeit das künstliche Gegenstück zum natürlichen Instinkt der Liebe ist, der Säugetiergesellschaften zusammenhält. Was bedeuten würde, dass die Beatles doch recht hatten.
Eine Information, die eine Transformation bewirkt
Was wir unter Information verstehen – der elementaren Einheit von Information – ist ein Unterschied, der einen Unterschied macht, und sie kann einen Unterschied machen, weil die neuronalen Bahnen, entlang derer sie wandert und ständig transformiert wird, selbst mit Energie versorgt werden. Die Bahnen sind bereit, aktiviert zu werden. Man könnte sogar sagen, dass die Frage bereits in ihnen implizit steckt.
S. 459, Kapitel „Form, Substanz und Unterschied“ – Schritte zu einer Ökologie des Geistes (1972)
Die Transformer-Architektur wurde bereits 1972 von Bateson angedeutet, Jahrzehnte bevor wir von neuronaler Plastizität wussten.
Batesons Idee dreht sich um das Konzept, dass Information grundsätzlich ein Muster oder ein Unterschied ist, der sich auf den Zustand oder das Verhalten eines Systems auswirkt. Für Bateson sind nicht alle Unterschiede informativ; nur diejenigen, die in einem bestimmten Kontext zu irgendeiner Form von Veränderung oder Reaktion führen, werden als Informationsvermittlung betrachtet. Diese Perspektive ist tief in der Kybernetik und der Erforschung von Kommunikationsprozessen in und zwischen lebenden Organismen und Maschinen verwurzelt.
Das Zitat „ein Unterschied, der einen Unterschied macht“ bringt die Vorstellung auf den Punkt, dass Informationen nicht nur als Daten oder Rohdaten betrachtet werden sollten, sondern im Hinblick auf ihre Fähigkeit verstanden werden sollten, die Dynamik eines Systems zu beeinflussen oder zu verändern. Es ist ein grundlegendes Konzept zum Verständnis, wie Informationen in verschiedenen Systemen verarbeitet und genutzt werden, von biologischen bis hin zu künstlichen Intelligenznetzwerken, und betont die relationale und kontextuelle Natur von Informationen.
Dieses Konzept hat weitreichende Auswirkungen auf verschiedene Bereiche, darunter Psychologie, Ökologie, Systemtheorie und künstliche Intelligenz. Es betont die relationale und kontextuelle Natur von Informationen und legt nahe, dass die Bedeutung einer Information nur im Verhältnis zum System verstanden werden kann, zu dem sie gehört. Für die KI und die Kognitionswissenschaft unterstreicht dieses Prinzip die Bedeutung des Kontexts und der Vernetzung von Informationspfaden beim Verständnis und der Gestaltung intelligenter Systeme.
Hinton, Sutskever und andere argumentieren immer wieder, dass Modelle wie GPT 4.0, um fortgeschrittene Ebenen der natürlichen Sprachverarbeitung (NLP) zu erreichen, den Inhalt, mit dem sie sich befassen, wirklich verstehen müssen. Dieses Verständnis entsteht durch die Analyse riesiger Mengen digitaler Daten, die von Menschen erstellt wurden, wodurch diese Modelle eine realistische Sicht der Welt aus menschlicher Perspektive entwickeln können. Weit davon entfernt, bloße „stochastische Papageien“ zu sein, wie sie manchmal in den Medien dargestellt werden, bieten diese Modelle eine differenziertere und fundiertere Widerspiegelung menschlicher Wissens- und Denkprozesse.