Am 13. Juni 2023 fand der Mediensalon und anschließende Sommerempfang des Netzwerks Interaktiv im Shaere München statt. Impulsreferent war Prof. Dr. Georg Groh von der Technischen Universität München, der sich mit der Entwicklung sog. „Künstlicher Intelligenz“ und v.a. mit großen Sprachmodellen beschäftigte.
Seine Präsentation steht hier zum Download bereit.
Das Grundprinzip von „Large Language Models“ besteht laut Groh darin, dass sie mit großen Textmengen gespeist werden. Ursprünglich haben Entwickler*innen die Software so programmiert, dass jedes Wort einzeln erkannt und übersetzt wurde, wie dies z.B. bei Online-Übersetzungstools heute noch funktioniert. Hierbei werden allerdings semantische Zusammenhänge nicht immer richtig erkannt und somit nicht korrekt beachtet.
In der weiteren Entwicklung wurden den Aspekten der „Aufmerksamkeit“, „Wahrscheinlichkeit“ und „Ähnlichkeit“ mehr Bedeutung beigemessen, so dass die Software beispielsweise dazu in der Lage ist, wahrscheinlich folgende Wörter und Wortgruppen vorherzusagen und einzupflegen. Ein Schwachpunkt ist hierbei, dass kulturelle Bedeutungen nicht richtig erkannt werden und dass es zu nicht-erwartungsgemäßen Schätzungen kommt.
Der Schwachpunkt aller Software-Lösungen ist immer die neuronale Vernetzung, denn während das menschliche Gehirn auch soziale, visuelle und logische Zusammenhänge erkennen und berücksichtigen kann, müssen Maschinen diese Fähigkeit erst erlernen. Hinzu kommt, dass wir Menschen oft in einer bewussten Unschärfe kommunizieren, wenn wir beispielsweise Ironie und Humor verwenden oder ausweichende Antworten geben. Da die Software nur menschliche Sprache analysieren kann, ist es Groh zufolge erstaunlich, dass Zusammenhänge überhaupt korrekt erkannt werden.
Als Beispiel für die Frage nach Wahrheit nannte Groh die Frage: „Ist der Himmel blau?“ Die Antwort auf diese Frage basiert auf Erfahrungswissen (Kinder würden mit „ja antworten“) und auf der Perspektive (vom Weltall aus betrachtet ist er nicht blau). Wahrheit basiert immer auch auf Vertrauen, z.B. in Eltern/Familie, Wissenschaft und Forschung oder in Instanzen wie Medien. Ein mathematischer Beweis ist hingegen nur eine Zeichenkette, die automatisiert und auch manipuliert werden kann.
Die Software ChatGPT ist eine Weiterentwicklung der eingangs Software, das hier zugrunde liegende Sprachmodell GPT-3 kann sich wiederholen und täuschen. Daher produziert ChatGPT oftmals auch “zusammengeschusterten Unsinn aus bereits Existierendem”. Allerdings sind Sprachmodelle durchaus auch kompetent und werden derzeit in rasantem Tempo weiterentickelt. Bedeutend ist derzeit das “kontextuale Lernen”, das mehr Wert auf die Beachtung von Zusammenhängen legt und somit spannende neue Möglichkeiten eröffnet.
Bildgeneratoren wie Midjourney und DALL-E werden auf ähnliche Weise programmiert: Sie haben sämtliche Online-Bilder analysiert, die derzeit existieren, und haben daraus Gesetzmäßigkeiten abgeleitet. So werden neue Ergebnisse erzeugt, korrigiert und natürlich auch manipuliert.
Eine zentrale Frage ist für Groh: „Wie intelligent und wie kreativ sind wir eigentlich?“ Er hinterfragt beispielsweise, ob ein Musiker stets neue Musik erfindet oder ob er bereits Gehörtes reproduziert. Auch eine KI-Software kann Musik komponieren, allerdings entstehen dabei eher simple Akkorde und Harmonien. Dennoch sei es auch in der Kunst überlegenswert, ob eine KI etwas künstlerisch Wertvolles erzeugen kann, das schützenswert ist.
Resümierend riet Groh, den großen Sprachmodellen nicht zu viel Bedeutung beizumessen, da sie eben nur auf der Analyse und Weiterentwicklung von bereits existierenden Texten basieren. Perspektivisch sieht er allerdings durchaus interessante Potentiale, beispielsweise in der Nutzung von KI als „persönlichen Assistenten“, die kleine Aufgaben zeitsparend erledigen könnten. In der Bildung könne die Software z.B. das Engagement und die Interaktion der Schüler*innen verbessern und die Lernerfahrungen personalisieren.
Prof. Groh war einer der Mitverfasser des Positionspapiers „ChatGPT for Good?“, das sich mit den Chancen und Herausforderungen großer Sprachmodelle für Bildung beschäftigte. Das Papier wurde im Januar 2023 von mehreren Wissenschaftler:innen der TUM und LMU veröffentlicht und ist hier abrufbar.
Der Mediensalon war eine Kooperationsveranstaltung mit dem Kulturforum der Sozialdemokratie München, die Teilnahme war kostenfrei.