Wie werden die besten Sprachmodelle entwickelt?

Ein verständlicher Einblick hinter die Kulissen von ChatGPT, Claude, Gemini und DeepSeek. Von Tokens und Wahrscheinlichkeiten bis hin zum RLHF-Training – so entstehen moderne Large Language Modelle Stand Februar 2025.

Liam van der Viven
Mitgründer & CTO bei botBrains
Autofahrer, die wissen, wie ein Auto technisch funktioniert, fahren oft sicherer und effektiver. Sie können merkwürdige Geräusche oder ungewöhnliches Verhalten viel schneller einordnen und sind sich der Grenzen ihres Fahrzeugs bewusst. Genau so verhält es sich mit großen Sprachmodellen (LLMs) wie ChatGPT: Wer grob versteht, wie sie intern ticken, kann sie besser einsetzen – und ihre Grenzen realistischer einschätzen.
LLMs besser verstehen heißt, LLMs besser nutzen zu können.
Also machen wir Sie hier in grob drei Seiten zum populärwissenschaftlichen Experten. Große Sprachmodelle sind im Kern statistische „Nachahmer“. Man stellt ihnen riesige Datenmengen zur Verfügung und sie lernen darin Muster zu erkennen. Bei sogenannten Large Language Models bedeutet das: Wir füttern sie mit Text und sie sollen das nächste Wort (Token, mehr dazu hinten) vorhersagen. Ein Satz entsteht durch Wiederholung dieses Schrittes nach Anhängen des neuen Tokens an den Satz. Aber warum hören LLMs auf zu generieren? Warum stellen Sie Rückfragen? Warum folgt auf “Heil” nicht in 20% der Fälle “Hitler”, gibt es noch im Netz genügend radikales Fundament. Diese Fragen werden wir beantworten.
Damit das funktioniert, zerlegen wir die Texte zunächst in Token. Ein Token kann ein Wort sein, ein Teil eines Wortes, ein Satzzeichen, ein Emoji oder irgendeine andere Zeichenfolge. ChatGPT beispielsweise hat ein Vokabular von rund 200.000 solchen Tokens. Jeder Text – egal ob Deutsch, Englisch oder ein Mix aus Symbolen – wird in eine Folge dieser Tokens übersetzt. Warum 200.000? Ein zu kleines Vokabular macht die Token-Sequenzen sehr lang, was das Training erschwert; ein zu großes Vokabular wiederum verkompliziert das Modell ebenfalls, weil wir in jedem Schritt noch mehr Wahrscheinlichkeiten berechnen müssen.
Nachdem wir den gesamten „inhaltlich wertvollen“ Teil des Internets – etwa Wikipedia, Foren wie Reddit – so aufbereitet haben, bringen wir ein großes neuronales Netz dazu, unzählige Male zu raten, welcher Token als Nächstes kommt. Man nennt dies Pre-Training oder die Phase, in der das Basismodell („Base Model“) entsteht. Das Ergebnis: ein reines Autocomplete-System, das das statistische Wissen aus Bergen von Text gelernt hat, aber noch nicht auf „Hilfsbereitschaft“ oder Benutzerfreundlichkeit getrimmt ist.
Im nächsten Schritt erfolgt das Instruct-Finetuning. Menschen (sogenannte Human Labeler) oder andere Hilfsmodelle erstellen Dialog-Beispiele: „Frage“ und „ideale Antwort“. Das Basismodell lernt dadurch, hilfreiche und freundliche Reaktionen zu geben, statt willkürlich Text zu vervollständigen. So entsteht ein Instruct-Modell, das Fragen so beantwortet, wie man es sich von einem Assistenten wünscht. Insbesondere wird hier schon alignment eingeführt, das Modell lernt also auf “Heil” zwar “Hitler” zu antworten, dann jedoch dies in den richtigen Kontext zu Rücken (“Heil Hitler” ist eine nationalsozialistische Grußformel, die im Dritten Reich (1933–1945) als offizieller Gruß etabliert wurde. Sie diente der ideologischen und propagandistischen Verherrlichung Adolf Hitlers und des NS-Regimes…). Ebenso lernt das Modell, bestimmtes Wissen zurückzuhalten.
Warum hören LLMs auf zu antworten?
Unter der Haube werden Konversationen in besondere „Tokens“ zerlegt, die so etwas wie eine Rollenstruktur bilden: im_start (z. B. Beginn eines Benutzerbeitrags), im_mid (Zwischenschritte, etwa das Assistenten-Nachdenken) und im_end (das Ende der Assistenten-Antwort). Sobald das Modell im generierten Text auf einen entsprechenden End-Token – also eine Art Schlusspunkt – stößt, interpretiert es dies als Signal, seine Antwort abzuschließen. Oder der interne Dialog wechselt in die nächste Rolle, etwa „User“. Deshalb wirkt es manchmal, als würde das Modell plötzlich verstummen oder gezielt Nachfragen stellen: Es orientiert sich an diesen Token-Grenzen und „weiß“ so, an welcher Stelle das Gespräch für den Nutzer sinnvoll fortgesetzt oder unterbrochen wird.
Beispiel:
Wenn Sie eine Anfrage an ChatGPT senden, generiert es intern eine Sequenz wie:
<start>assistant<mitte>Wie kann ich dir heute helfen?<ende>
<start>user<mitte>Welche Farbe hat die Sonne?<ende>
<start>assistant<mitte>
Das KI-Modell „weiß“ nicht wirklich, wann es aufhören soll; es errechnet lediglich Wahrscheinlichkeiten für den nächsten Token. Ein Token-Folge könnte zum Beispiel Blau.<ende>
sein. Sobald das Modell diesen <ende>
-Token erzeugt, hört die Software auf, aus dem Instruct Modell Tokens zu sampeln. Das Modell entscheidet also nicht selbst, sondern hat stets nur die Aufgabe eine Wahrscheinlichkeit über das Vokabular zu errechnen.
Was ist die Temperature?
Stellen Sie sich eine Dartscheibe vor, die in mehrere Sektoren aufgeteilt ist. Jeder dieser Sektoren steht für einen möglichen nächsten Token, den das Sprachmodell ausgeben könnte. Die Oberfläche wird proportional zur Wahrscheinlichkeit vergeben. Hat ein bestimmter Token eine besonders hohe Wahrscheinlichkeit, wird sein Sektor entsprechend groß angelegt; Tokens mit geringerer Wahrscheinlichkeit bekommen dagegen nur einen kleinen Ausschnitt der Scheibe.
Beim sogenannten Sampling „werfen“ wir nun gewissermaßen blind einen Dart auf diese Scheibe. Der zugehörige Token unseres getroffenen Sektors ist unser nächster Token. Offensichtlich treffen wir also häufiger größere Sektoren.
Der Temperature-Parameter bestimmt, wie stark wir diese Sektoren (Wahrscheinlichkeiten) „zusammendrücken“ oder „auseinanderziehen“.
Eine hohe Temperature verkleinert größere Sektoren, während kleine Sektoren anwachsen. Das bedeutet, auch an sich unwahrscheinliche Tokens bekommen mehr Fläche. Der Dartwurf trifft somit öfter „exotische“ Tokens. Die Antworten klingen mitunter kreativer, können aber auch chaotischer ausfallen.
Eine niedrige Temperature vergrößert bereits große Sektoren und verdrängt die kleinen. Dadurch steigt die Chance, dass der Dart immer auf die gleichen, wahrscheinlichsten Tokens landet. Die Texte werden einheitlicher und vorhersehbarer, wirken aber oft weniger originell.
Wie schaffen wir es, dass das LLM nicht sofort aufhört zu generieren?
Unter anderem durch Reinforcement-Learning from Human Feedback-Finetuning. Statt uns selbst immer die Antwort Paare uns zu überlegen, trainieren wir ein zweites KI-Modell, welches selbst abschätzen kann, wie hoch die menschliche Zustimmung ausfallen würde. Es ist also eine Bewertungsinstanz, auch genannt “Reward Model”. Gebaut werden diese Datensätze durch menschliche Annotatoren, welche verschiedene Antwortvorschläge des Sprachmodells nach ihrer Qualität bewerten. Eventuell wird Ihnen jetzt auch klar warum wir lange Zeit bei ChatGPT öfters mal gebeten wurden, bei 2 Generierungen jene auszuwählen, die uns besser gefällt. Diese Urteile bilden einen Datensatz, aus dem das Reward Modell gebaut werden kann.
Nun kann unser LLM eine Reihe möglicher Antworten auf eine Frage erträumen. Somit haben wir nun eine Kombination aus Reward Modell und unser LLM generiert eine Reihe möglicher Antworten und lässt sie vom Reward Model bewerten. Antworten mit hoher Punktzahl verstärken das aktuelle Verhalten, während niedrige Punktzahlen es abschwächen. So lernt das Sprachmodell, bevorzugt Antworten zu erzeugen, die vom Reward Model positiv beurteilt werden. Bevorzugen heißt, wir erhöhen die Wahrscheinlichkeiten jener Tokens. Dieses Training läuft nur begrenzt, damit das Modell das Reward Model nicht überlisten kann.
Was resultiert, sind Antworten stärker mit menschlichen Vorstellungen von Relevanz, Freundlichkeit und Qualität übereinstimmen. Im Idealfall reagiert es hilfreicher und konsistenter, bleibt jedoch auf spezifische Einsatzgrenzen angewiesen, da es trotz RLHF noch immer an unbekannte Randfälle oder fehlerhafte Schätzungen stoßen kann.
Wer die letzten Wochen den LLM Space beobachtet hat weiß, dass es ein Modell namens Deep Seek R1 gibt, welches große Wellen geschlagen hat. Hintergrund ist, dass es auf dem Niveau der aktuellen Modelle performt, dabei aber viel weniger im Training gekostet hat. Das liegt daran, dass die Datensätze für solche Reward Modelle immer besser werden, wir also besser darin werden das LLM zu trainieren und früher mit RLHF anfangen können.
Zusammengefasst:
- Base Model: Riesige Textdaten zu einem Autocomplete Modell übersetzen.
- Instruct Model: Menschliche Beispielantworten → Chat Assistent Verhalten.
- Fine Tuned Modell: Feinschliff durch gezielte Belohnung oder Korrektur.
Wer grob versteht, dass ChatGPT und Co. im Kern auf Wahrscheinlichkeiten von Tokens beruhen, erkennt schneller, warum sie teils Unsinn halluzinieren oder korrekt wirkende, aber falsche Fakten ausgeben können. Ähnlich wie ein Fahrer, der sein Auto „kennt“, kann man mit diesem Wissen die Stärken eines KI-Modells gezielt nutzen und die Eigenheiten souveräner umgehen. Wie Audio und Bilder verarbeitet werden können, behandeln wir ein anderes Mal.