Spätestens nach der Bilderflut von Dall-E und Stable Diffussion ist „künstliche Intelligenz“ wieder in aller Munde! Aktuell ist die Debatte, gerade beim Einfluss auf Bildung, nach der Veröffentlichung des Systems ChatGPT auf dem Höhepunkt angekommen. Viele Artikel haben sich des Themas angenommen, so z.B. die einführende  Fragen und Antworten-Liste zum Chatbot, erste Einschätzung zum Einfluss auf Bildung und auch die ersten Verbote wurden verhängt. So sperrten die ersten Schuldistrikte in den USA bereits  den kompletten Zugriff, ohne zu reflektieren, dass ChatGPT nicht konkurrenzlos ist.

Wir haben unseren Kollegen Maik Riecken, Lehrer für Deutsch, Chemie- & Informatik am Gymnasium und Medienberater des Medienzentrum Cloppenburg, gebeten, seinen analytischen Artikel für die schulische Perspektive hier erneut veröffentlichen zu dürfen…

 

 

ChatGPT und Co. – der Versuch eines Blickes unter die Haube

(von Maik Riecken, zuerst veröffentlicht auf https://www.riecken.de unter CC-BY-SA 4.0)

Wenn man in sozialen Netzwerken über Sprachmodelle wie GPT‑3 liest, bleiben genau wie in den Feuilletons die meisten Analysen und Bewertungen auf der phänomenologischen Ebene stehen:

  • Was kann ich im Unterricht damit machen?
  • Was muss ich tun, damit ein Fehler in der Ausgabe auftritt?
  • Welchen Einfluss werden Sprachmodelle auf die Schule der Zukunft haben?
  • Warum sollten Sprachmodelle in der Schule nicht verboten werden?
  • […]

Eine Analogie

 

Wenn ich mit Schulklassen das erste Mal mit Indikatoren im Chemieunterricht experimentiere, kommt es für viele zunächst nicht darauf an, warum ein Indikator eine bestimmte Farbe hat, sondern eher darauf, wie sich möglichst viele unterschiedliche Farben durch wahlloses Zusammenkippen erzeugen lassen. Ich könnte dabei in Anerkennung der individuellen Neugier Fragen stellen, die auf einem ähnlichen phänomenologischen Level wie die sozialen Medien zur Sprachmodellen diskutierten Fragen operieren.

  • Durch welchen Mengenverhältnisse bekomme ich welche Farbe hin?
  • Wie kann ich diese Farben außerhalb des Labors nutzen?
  • Welchen Einfluss hat das neue Farbspektrum auf die Entwicklung neuer Wandfarben?
  • Stellt diese Neuentwicklung nicht grundlegende Verfahren der Farbherstellung und des ästhetischen Empfindens in Frage?

Diese Fragen sind berechtigt. Aber eigentlich sind die Indikatoren z.B. ein Mittel, um sich generellen Stoffeigenschaften (sauer / alkalisch) auf einer phänomenologischen Ebene anzunähern, Gesetzmäßigkeiten zu entdecken und daraus weitere allgemeine Aussagen abzuleiten. Niemand käme hier auf die (didaktische) Idee, hier auf der Ebene der Phänomene stehenzubleiben oder Menschen auf Basis der bloßen Beobachtung dieser Phänomene etwas „vermitteln“ zu wollen.

Was ich selbst über Sprachmodelle weiß

 

Sprachmodelle erlebe ich zurzeit selbst auf einer phänomenologischen Ebene. Ich experimentiere mit Eingaben und unterschiedlichen Parametern herum. Ich weiß dennoch einiges über IT-Systeme, was mir ein wenig hilft, die Leistungen von Sprachmodellen einzuordnen. Ich möchte für mich durch diesen Text eher eingrenzen, was ich eigentlich noch nicht weiß, um daraus dann Fragen zu entwickeln, die etwas weg von den Phänomenen führen. Ich nutze dazu Kenntnisse, die ich im Rahmen meines Informatikstudiums auf Lehramt anders hineinvernetzte.

Ein Sprachmodell braucht eine Grammatik

 

Eine sehr simple Methode zur Beschreibung einer Grammatik ist die Erweiterte Backus-Naur-Form (ENBF). Selbst die genaue grammatische Definition einer Zahl ist schon gar nicht so einfach.

Kennen“ muss ein Mensch oder IT-System dazu zunächst die in einer Sprache verwendeten Symbole (Terminale), wir verwenden in Deutschland die Zeichen 0–9 zur Darstellung von Zahlen, das sind also unsere Terminale.

ZifferAusserNull = "1" | "2" | "3" | "4" | "5" | "6" | "7" | "8" | "9";
Ziffer           = "0" | ZifferAusserNull

Damit haben wir definiert, welche Symbole unsere Sprache zur Darstellung von Zahlen verwendet. Das „|“-Zeichen ist als „oder“ zu lesen. Diese Definitionen können wir für alle weiteren als Platzhalter verwenden. Damit können wir jetzt eine natürliche Zahl definieren:

NatuerlicheZahl   = ZifferAusserNull, { Ziffer };
NegativeGanzeZahl = "-", NatuerlicheZahl;

Der Ausdruck in geschweiften Klammern kann beliebig oft oder gar nicht vorkommen. Jetzt kann unsere „KI“ auf Basis dieser Grammatik ganze Zahlen mit Vorzeichen, aber keine Null erkennen.

Das geht aber mit dieser Definition:

Zahl = ([ "-" ], ZifferAusserNull, { Ziffer }) | "0" ;

Eine Zahl besteht aus einem optionalen Minuszeichen, gefolgt von einer Ziffer außer Null, gefolgt von beliebig vielen weiteren Ziffern (auch keiner weiteren Ziffer). Oder: Eine Zahl besteht aus dem Zeichen Null.

Bei Worten wird es schon schwieriger.

Wort = [A-Z], {a-z}

Ein Wort besteht aus mindestens zwei Symbolen aus dem Zeichenvorrat a‑z, wobei am Anfang auch der Symbolvorrat {A‑Z} stehen kann.

Dummerweise erfüllt jedes Fantasiewort beliebiger Länge genau diese Bedingung. An eine Definition von „Satz“ mag ich da gar nicht erst denken. Aber jedes Sprachmodell muss in einem ersten Schritt die Eingabe auf Basis von vorgebenen Regeln analysieren, bevor es intern weiterarbeiten kann.

Es wird aber auch schon jetzt klar, dass nicht grammatikkonforme Eingaben

    1. erkannt
    2. auf Fehler analysiert sind

Damit können insbesondere Rechtschreibfehler recht einfach korrigiert werden, indem auf Basis von z.B. Wahrscheinlichkeiten ein grammatikonformer Ersatz gesucht wird.

Ein Sprachmodell braucht eine Semantik

 

Bei uns im Handball wird eine Software für Spielprotokolle eingesetzt. Die Eingaben macht ein speziell geschulter Mensch (z.B. ich), der „Sekretär“ genannt wird. Ein solches Spielprotokoll sieht technisch etwa so aus:

00:59   TOR     HEIM   01   1:0
01:02   GELB    GAST   89
08:36   ZEIT    GAST   89
08:45   TOR 7M  HEIM   04   2:0

Das erste Tor fiel für die Heimmannschaft nach 59s nach einem Foul des gegnerischen Spielers mit der Nummer 89. Es dauerte lange 7:34 Minuten, bis der nächste Treffer per 7m nach einem mit Zeitstrafe geahndetem Foul dem Spieler mit der Nummer 4 gelang.“

Mit dem Kontext „Handballspiel“ kann eigentlich auch jeder, der in der Halle nicht anwesend war, auf dieser Basis einen korrekten Spielbericht verfassen. Aus Metadaten wie der Zeit lassen sich auf Basis von Wahrscheinlichkeiten weitere Aussagen ergänzen, z.B. sind torlose sieben Minuten im Handball schon recht ungewöhnlich und es kommen dafür nur wenige Ursachen in Betracht. Die Textsorte „Bericht“ gibt grammatisch die zu verwendende Zeitform vor, die möglichen Verben in einem Sportbericht sind zudem begrenzt.

Ich glaube, dass man sich gut vorstellen kann, wie sich das Verfassen von Spielberichten vergleichsweise einfach mit einem IT-System umsetzen lässt, wenn es Regeln zur Umsetzung der Daten in eine Grammatik gibt. Der resultierende Text wirkt erst einmal authentisch, wenn er unsere Erwartungen an einen Sportbericht erfüllt. Das tut er wiederum, wenn bestimmte Formulierungen und Wortgruppen enthalten sind.

Ein Sprachmodell braucht Varianz

 

Mit einer Grammatik, ein per Daten und Kontext lassen sich schon Texte schreiben, aber nach ein paar Wochen im Sportteil würde uns dann doch die Lust beim Lesen vergehen. Ähnliche Eingaben würden immer wieder gleiche Formulierungen hervorbringen. Als „kreativ“ empfänden wir Texte, die immer wieder neue Formulierungsideen enthalten würden. Diese könnte man auch händisch in unser bisheriges Sprachmodell kippen, aber schöner wäre es ja schon, wenn das auch automatisiert ginge. Und da kommen neuronale Netze ins Spiel. Die Funktionsweise lässt sich am besten mit einer starken Vereinfachung erklären.

Dazu eine Geschichte: Es gab eine Zeit, in der in Supermärkten Waagen zum Selbstwiegen standen. Da musste man eine Taste mit z.B. einem Symbol  oder einer Nummer für die aufgelegte Ware drücken und es kam ein Bon zum Aufkleben für die Kasse heraus. Es gab auch schon erste Waagen, die das aufgelegte Obst oder Gemüse bereits optisch erkennen konnten, aber trotzdem noch Tasten hatten, die auch gedrückt werden mussten.

Das IT-System hätte dabei z.B. aus diesen Komponenten bestehen können:

Eine Eingabeschicht:

  • Eine Kamera, die ein hochauflösendes Bild von der aufgelegten Ware macht.
  • Ein Gewichtssensor, der das Gewicht digital ermittelt.
  • Eine Taste, die die Kundeneingabe weiterleitet.

Eine Verarbeitungsschicht:

  • Ein Algorithmus, der aus dem Bild die Länge der aufgelegten Ware ermittelt („Neuron 1“).
  • Ein Algorithmus, der aus dem Bild die Breite der aufgelegten Ware ermittelt („Neuron 2“).
  • Ein Algorithmus, der die Bildpunkte der dominierenden Farbe der Ware zählt („Neuron 3“).
  • Ein Algorithmus, der das Gewicht ins Verhältnis zur Größe setzt („Neuron 4“).
  • Ein Algorithmus, der schaut, was der Kunde gedrückt hat („Neuron 5“)

Eine Ausgabeschicht:

  • Ein Algorithmus, der auf Basis eines Schwellwertes und einer Datenbank einen Preis berechnet und einen Etikettendrucker ansteuert.

 

Beispiel 1:

Neuron 1: 15cm

Neuron 2: 4cm

Neuron 3: Dominierende Farbe ist gelb.

Neuron 4: Das Gewicht entspricht etwa 70% des äquivalenten Volumens an Wasser

Neuron 5: Apfel

Der Kunde hat mich verarscht, das ist eine Banane!“

Das System gewichtet seine Messungen hier höher als die Kundeneingabe.

 

Beispiel 2:

Neuron 1: 12cm

Neuron 2: 6cm

Neuron 3: grün

Neuron 4: Das Gewicht entspricht etwa 80% des äquivalenten Volumens an Wasser

Neuron 5: Avocado

Eigentlich blöd, könnte eine Limette oder eine Avocado sein. Ach, der Kunde wird ja nicht das billigere Zeug gedrückt haben, also eher eine Avocado.“

Das System gewichtet die Kundeneingabe in Verbindung mit einem Preisgefüge hier hoch, um zu entscheiden, welchen Bon es druckt. Es „entscheidet“ auf Basis von Daten, welche Parameter und Daten es wie gewichtet und „merkt“ sich beliebig viele z.B. uneindeutige Situationen und wie selbige aufgelöst wurden. Danach „kann“ es auf Basis von Daten „entscheiden“, welchen Bon es z.B. bei einer „nicht standardkonformen Avocado“ druckt.

Man kann diesen Prozess durch korrekte menschliche Eingaben beschleunigen und optimieren („Training“). Man kann – falls es einen anderen Rückkopplungskanal gibt – diese Systeme sich auch selbst optimieren lassen – bezogen auf Sprachmodelle könnte man als „Rückmeldekanal“ schauen, welche der generierten Texte per Copy&Paste verwendet wurden oder welche Texte wieder im Netz auftauchen.

Varianz „entsteht“ bei unserer Geschichte mit den Waagen durch unklare Situationen. Im Falle von Sprachmodellen kann Varianz durch spezielle „Neuronen“ künstlich erzeugt werden, die z.B. betrachten, welche Texte in einem Zeitraum schon generiert worden sind und dann „Schwellwerte“ anderer Neuronen „ändert“.

Was ein Sprachmodell von einem Menschen unterscheidet

 

Ein Sprachmodell erfüllt nur eine begrenzte Aufgabenstellung ganz besonders gut: Aus Eingaben Texte erzeugen, die für einen möglichst großen Teil von Menschen authentisch wirkt. Menschen sind in ihren Möglichkeiten, kreative Produkte zu erschaffen da nicht so arg begrenzt. Je mehr „Neuronen“ durch die Eingabe „getriggert“ werden, desto authentischer wird der Text sein. Daher ist es zumindest aus informatischer Sicht eine Binse, wenn Ratschläge kommen, ein Sprachmodell mit möglichst umfassenden Eingaben zu speisen.

Begrenzt sind Menschen jedoch bei der Aufnahme von Daten. ChatGPT bricht momentan öfter einmal zusammen, weil sehr viele Menschen das System gleichzeitig nutzen. Es gibt zwar keine bestätigten Zahlen, aber die Einheit „Millionen Anfragen pro Sekunde“ dürfte als Basis zunächst nicht falsch sein. Millionen Anfragen bedeuten aber auch Millionen „Feedbackkanäle“ zum „Training“ des neuronalen Netzes. Sprachmodelle können viel mehr Information bewältigen als ein einziger Mensch. Eigentlich ist ein Sprachmodell Borg. Wir nehmen die entstehenden Texte als Produkte _eines_ Systems wahr. Technisch gesehen sind es aber die Ausgaben eines Kollektivs. Der einzelne Borg agiert ja nicht individuell, sondern vermittelt der Figur, die mit ihm kommuniziert, lediglich den Anschein einer individuellen Kommunikation.  Wenn diese Simulation hinreichend gut ist, lässt sie sich für einen relevanten Teil von Menschen nicht mehr von „echter“ Textproduktion durch Menschen unterscheiden. Mehr braucht es eigentlich nicht, um (wirtschaftlich) als Technologie erfolgreich zu sein.

Warum Sprachmodelle emotional wahrgenommen und diskutiert werden

 

Sprachmodelle sind nüchtern betrachtet nichtmaterieller Code auf irgendwelchen elektronischen Schaltkreisen. Ihre Ausgaben dringen aber erstmalig leicht benutzbar in einen Bereich vor, der für Gesellschaften prägend ist: Kommunikation. Gesellschaften konstituieren sich im Wesentlichen durch die Art, wie sie intern kommunizieren und über welche Leitmedien sie das tun. Sprachmodelle decken recht brutal auf, welche Texte einer Gesellschaft so einfach gestrickt sind, dass sie sich mühelos durch Ausgaben eines IT-Systems ersetzen lassen. Und das sind zum ganz wesentlichen Teil Gebrauchstexte, aber auch Texte von Menschen, die das Schreiben (in einer Fremdsprache) gerade lernen – also ein Großteil von Übungen, wie sie in Schulbüchern vorkommen. Das bedroht zentrale Vorstellungen, wie Bildung funktioniert und es bedroht Arbeitsroutinen in Bildungssystemen. In unserer Vorstellung waren diese Texte bisher nämlich durchaus nicht unterkomplex, sondern wichtige Zwischenstufen bei der Entwicklung von z.B. Schreibfertigkeiten.

Unterkomplexe Reaktionsmuster auf phänomenologischer Basis

 

Und es gibt aus meiner Sicht unterkomplexe Reaktionen darauf. Ein häufiger Reflex ist Freude darüber, dass nun endlich klar wird, wie „stupide“ Bildungsprozesse eigentlich sind und wir viel komplexere Aufgabenformate brauchen, z.B. die Bewertung der Ausgaben eines Sprachmodells und die Überarbeitung derselben. Ohne ein Wissen und ohne eigene entwickelte Schreibfertigkeit ist das gar nicht so ungefährlich. Im schlimmsten Fall gibt es eine Ausgabe, die dann vom Nutzenden an vermutete Erwartungen angepasst wird.

So wie der Schüler, der die Farbe eines Indikators so hinmischt, dass es auf eine Säure hindeutet, weil genau das ja auch auf der Flasche stand (und das Zeug sauer schmeckt) – es könnte aber auch eine ganz andere Säure oder eine falsch beschriftete Flasche gewesen sein. MIt Wissen darüber, wie ein Indikator funktioniert, werden in diesem Fall andere Fragestellungen möglich. Durch blinden Glauben an den Indikator eher nicht.

Rechtfertigungsdruck für tradierte Bildungsprozesse

 

Was auf jeden Fall geschieht und was für mich der eigentlich Gewinn dabei ist: Sprachmodelle zwingen mich dazu:

Kritisch auf für selbstverständlich gehaltene Vermittlungsformen zu schauen

Vermittlungsformen, die der Prüfung standhalten, vor der Lerngruppe explizit rechtfertigen zu müssen.

Wenn ChatGPT uns alles für eine Erörterung liefert, Herr Riecken, warum müssen wir dann noch selbst eine schreiben?

Weil ich es so will und besser weiß, was gut für euch ist!“ könnte – auch als implizite Haltung – zukünftig etwas schwieriger werden – erstmal gar nicht so komfortabel.

Was ich nicht über Sprachmodelle weiß

 

Es hat bisher den Anschein, als seien Sprachmodelle wie GPT‑3 bisher ausschließlich mit Texten trainiert worde, die Menschen ausgewählt haben. Da kommen natürlich Fragen dazu auf, nach welchen Kriterien diese Trainingsdaten von wem ausgewählt worden sind.

Sprachmodelle sind in einem ersten Schritt zunächst nicht in die Lage versetzt worden, ihre Trainingsdaten „selbstständig“ aus dem Internet herauszuholen. Welche Gründe gibt es eigentlich dafür?

Sprachmodelle werden viele Gebrauchstexte ersetzen, die bisher Domänen von Menschen waren – etwa Sportberichte. Logisch zuende gedacht, werden bald wesentliche Teile einer (westlichen) Gesellschaft nicht mehr ihr Geld mit Schreiben verdienen können. Auch mein Blog kann mühelos von Ausgaben von Sprachmodell quantitativ an die Wand genagelt und z.B. in Suchmaschinen nicht mehr wahrnehmbar sein – mein Blog ist jetzt ein dämliches Beispiel, aber was bedeutet das insgesamt?

Wird es uns gelingen, nennenswerte Teile von Schüler:innen (und uns Lehrer:innen) dazu zu befähigen, das künftige Niveau von Sprachmodellen zu erreichen? Machen wir uns nicht ganz schön was vor mit der Annahme, dass große Teile der Schüler:innenschaft in der Lage sein werden, Ausgaben von Sprachmodellen „kritisch“ zu hinterfragen und zu überarbeiten, WENN uns gleichzeitig bewusst ist, dass das Niveau dieser Ausgaben eher qualitativ steigen wird?

This work by Maik Riecken is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International – Original erschienen auf https://www.riecken.de/2023/01/chatgpt-und-co-der-versuch-eines-blickes-unter-die-haube/

Weitere Literatur und Linkliste zum Thema, die nicht unerwähnt bleiben sollten: