Large Language Models. KI checken

Was ist überhaupt ein LLM?

Ein Large Language Model, abgekürzt LLM, ist ein Computerprogramm, das Sprache versteht und Sprache erzeugt. Wenn du mit ChatGPT chattest, mit Claude eine Mail überarbeitest oder Gemini eine Frage stellst, sprichst du mit einem LLM. Der Begriff klingt sperrig, aber er beschreibt ziemlich genau, was diese Modelle sind: große Sprachmodelle.

Das interessante Wort darin ist large. Denn "groß" meint hier nicht "viel Speicher" oder "viele Funktionen", sondern eine ganz bestimmte Sache, die wir gleich auseinanderfalten.

Analogie

Stell dir einen Menschen vor, der sein Leben lang nichts anderes getan hat, als zu lesen. Wirklich nichts anderes. Wikipedia, Romane, Foren, Lehrbücher, Kochrezepte, Gerichtsurteile, Twitter, Reddit, Programmiercode. Irgendwann hat dieser Mensch ein extrem gutes Gefühl dafür, welches Wort als nächstes kommt, egal worüber gerade gesprochen wird. Genau das ist ein LLM. Kein "Bewusstsein", keine "Magie". Nur sehr, sehr viel Lesen, und dann sehr, sehr gutes Weiterschreiben.

Warum heißt es "Large"?

Das "Large" bezieht sich auf die Parameter des Modells. Parameter sind, ganz einfach gesagt, die Stellschrauben im inneren Netzwerk der KI. Jede dieser Stellschrauben ist eine Zahl. Beim Training wird jede einzelne dieser Zahlen nach und nach so eingestellt, dass das Modell gute Antworten gibt.

Frühe Sprachmodelle hatten ein paar Millionen Parameter. Heutige LLMs haben Milliarden bis Billionen. Wenn du im Internet etwas wie "Llama 70B" liest, dann meint das: dieses Modell hat 70 Milliarden Parameter. GPT-4 wird auf über eine Billion geschätzt, die genaue Zahl ist Geschäftsgeheimnis.

Merke

Parameter sind keine Daten. Sie sind nicht die Texte, mit denen die KI trainiert wurde. Sie sind die Spuren, die das Training im Modell hinterlassen hat, eingedampftes Wissen, in Form von Milliarden kleiner Zahlen.

Mehr Parameter = besseres Modell?

Tendenziell ja, aber nicht immer. Ein 7-Milliarden-Parameter-Modell ist kleiner, schneller und billiger im Betrieb als ein 70-Milliarden-Parameter-Modell, aber es kann weniger gut argumentieren, weniger Sprachen und macht öfter Fehler. Andererseits gibt es kleine Modelle, die in speziellen Aufgaben (z. B. Code schreiben) richtig gute Ergebnisse liefern, weil sie sehr gezielt trainiert wurden.

Größe schlägt Mittelmaß. Aber kluges Training schlägt Größe.

Wie wird so ein Modell trainiert?

Ein LLM lernt nicht "von einem Lehrer". Es lernt aus reinem Text. Sehr viel reinem Text. Die Trainingsdaten bestehen aus Texten, die im Internet öffentlich verfügbar sind oder lizenziert wurden: Wikipedia, Bücher, Nachrichten, Forendiskussionen, wissenschaftliche Artikel, Programmiercode.

Die zentrale Übung beim Training klingt fast banal: Dem Modell wird ein Stück Text gezeigt, ein Wort wird weggenommen, und das Modell muss raten, welches Wort fehlt. Anfangs rät es zufällig. Aber bei jeder falschen Vorhersage werden die Parameter ein winziges Stückchen verstellt, in die Richtung, die das Raten beim nächsten Mal etwas besser macht.

Beispiel

Satz: "Die Sonne geht im ___ auf." Das Modell sieht im Training Millionen Sätze und lernt: nach "Sonne geht im" kommt fast immer "Osten". Multiplizier das mit allen denkbaren Satzanfängen und allen Sprachen, und du hast eine grobe Vorstellung, wie ein LLM in den Monaten seines Trainings tatsächlich Sprache lernt.

Eine wichtige Sache an dieser Stelle: ein LLM erzeugt Text Stück für Stück. Nicht buchstabenweise, aber auch nicht in ganzen Wörtern. Es benutzt Tokens, kleine Bausteine, die manchmal ein Wort sind, manchmal eine Silbe, manchmal ein Satzzeichen. Wenn du mehr darüber wissen willst, schau in Wie funktioniert KI? rein.

Large Language Model

Die bekanntesten Modelle

Es gibt heute Dutzende LLMs. Die folgenden sechs hörst du am häufigsten, gut zu wissen, wer hinter ihnen steckt.

GPT-4 / GPT-5

Die Modelle von OpenAI, die hinter ChatGPT laufen. Lange Zeit das Maß aller Dinge bei Sprachverständnis. Closed Source, du benutzt sie über die Cloud.

Claude

Die Modellfamilie von Anthropic. Bekannt für lange Kontextfenster, gute Argumentation und besonders sorgfältige Antworten bei heiklen Themen.

Gemini

Das Modell von Google DeepMind. Eng verzahnt mit der Google-Suche und mit Stärken in multimodalen Aufgaben (Text, Bilder, Video, Audio gleichzeitig).

Llama

Die offene Modellfamilie von Meta (also Facebook). Open Source, die Gewichte kann sich jeder herunterladen und lokal betreiben. Sehr beliebt in der Forschung.

Mistral

Modelle des französischen Startups Mistral AI. Mischung aus offen und kommerziell. Bekannt für hohe Qualität bei vergleichsweise kleiner Modellgröße.

DeepSeek, Qwen & Co.

Starke Modelle aus China (Alibaba, DeepSeek). Viele sind offen verfügbar und mischen die internationale Landschaft kräftig auf, vor allem bei Mathe und Code.

Open Source vs. Closed Source

Ein wichtiger Unterschied bei LLMs: Sind die Modellgewichte, also die Milliarden Parameter. öffentlich zugänglich, oder nur in der Cloud des Anbieters versteckt?

Closed Source (z. B. GPT, Claude, Gemini)

Das Modell läuft nur in der Cloud des Anbieters.
Du sprichst über eine Schnittstelle (Website oder API) mit ihm.
In der Regel die qualitativ stärksten Modelle.
Du zahlst pro Nutzung. Deine Anfragen verlassen dein System.
Niemand außerhalb der Firma weiß genau, wie das Modell aufgebaut ist.

Open Source (z. B. Llama, Mistral, Qwen)

Die Gewichte sind frei herunterladbar.
Du kannst das Modell auf deinem eigenen Rechner oder Server laufen lassen.
Deine Daten bleiben bei dir, wichtig für Datenschutz.
Du brauchst aber starke Hardware, vor allem viel Grafikspeicher.
Du kannst das Modell anpassen und auf eigene Daten weiter trainieren.

Merke

"Open Source" ist bei LLMs nicht ganz dasselbe wie bei normaler Software. Oft werden nur die Gewichte veröffentlicht, nicht aber die Trainingsdaten und der genaue Trainingsablauf. Manche nennen das treffender "open weights".

Context Window, wie viel die KI gleichzeitig im Kopf hat

Ein LLM hat kein Langzeitgedächtnis. Es vergisst nach jedem Gespräch alles. Was es jetzt gerade sieht und verarbeiten kann, ist sein Context Window, der Kontextfensterausschnitt, der bei der aktuellen Anfrage mit ins Modell gegeben wird.

Dieses Fenster wird in Tokens gemessen. Ältere Modelle hatten 4.000 Tokens, etwa 3.000 Wörter. Moderne Modelle kommen auf 200.000 bis zu 2 Millionen Tokens. Zwei Millionen Tokens entsprechen ungefähr 1.500 Buchseiten, die das Modell auf einmal überblicken kann.

Analogie

Das Context Window ist wie der Schreibtisch der KI. Alles, was du draufpackst, deine Frage, hochgeladene Dokumente, der bisherige Gesprächsverlauf, sieht die KI gleichzeitig. Was nicht auf den Schreibtisch passt, existiert für sie nicht. Wenn der Schreibtisch voll ist, fliegt am unteren Ende etwas runter, meistens der Anfang des Gesprächs.

Vorsicht

Auch wenn ein Modell ein riesiges Context Window hat: je voller das Fenster ist, desto schlechter wird oft die Qualität. KIs "konzentrieren" sich auf den Anfang und das Ende eines langen Textes. Inhalte in der Mitte gehen leicht unter. Man nennt das lost in the middle.

Wieviel Text passt in den Kopf?

Context Window verschiedener Modelle, als Balken vergleichbar gemacht.

GPT-3.5, 16k Tokens≈ 12 Seiten

GPT-4o, 128k Tokens≈ 96 Seiten

Claude, 200k Tokens≈ 150 Seiten

Gemini 1.5, 2M Tokens≈ 1500 Seiten

Das Context Window ist das "Kurzzeitgedächtnis" eines Modells: wie viel Text es gleichzeitig verarbeiten kann. Was nicht reinpasst, sieht es nicht.

Multimodale LLMs, nicht mehr nur Text

Klassische LLMs verstehen nur Text. Moderne Modelle sind multimodal: sie nehmen auch Bilder, Audio und manchmal Video als Eingabe entgegen, und können auch Bilder oder Sprache erzeugen.

Du kannst Claude oder GPT-4 zum Beispiel einen Screenshot zeigen und fragen "Was siehst du hier?". Du kannst Gemini ein Video schicken und es zusammenfassen lassen. Das funktioniert, weil die Modelle gelernt haben, Bilder und Töne intern auch in Tokens umzuwandeln, in eine Sprache, die das Modell versteht.

Beispiel

Du fotografierst einen handgeschriebenen Einkaufszettel. Das LLM liest ihn, tippt ihn sauber ab, sortiert die Einträge nach Supermarkt-Gängen und schlägt ein Rezept vor, das aus den Zutaten möglich wäre. Drei Schritte, alle in einem multimodalen Modell.

Temperature, wie kreativ darf die KI sein?

Schiebe den Regler und sieh, wie sich der Charakter der Antworten ändert.

Temperature 1.00. Ausgewogen

Meist plausibel, gelegentlich kreativ. Gut für Erklärtexte.

Was LLMs gut können, und wo sie versagen

Wenn man verstanden hat, wie ein LLM lernt, nämlich aus Mustern in Texten, versteht man auch, warum es manche Dinge brillant kann und andere überraschend schlecht.

Stärken

Texte umformulieren, zusammenfassen, übersetzen.
Ideen brainstormen und Strukturen entwerfen.
Sprachgefühl bei E-Mails, Bewerbungen, Werbung.
Code in vielen Programmiersprachen schreiben und erklären.
Komplexe Themen in einfache Worte übersetzen.

Schwächen

Exakte Mathematik, vor allem mit großen Zahlen.
Zählen (Buchstaben in einem Wort, Wörter in einem Text).
Aktuelle Fakten, die nach dem Trainingsende passiert sind.
Sehr seltene Spezialwissen-Fragen, hier wird oft halluziniert.
Echte Logik-Rätsel, die nicht im Training vorkamen.

Vorsicht

Ein LLM klingt bei einer falschen Antwort genauso überzeugt wie bei einer richtigen. Es hat kein eingebautes "Ich bin mir nicht sicher". Mehr dazu im Kapitel Halluzinationen. Faustregel: Bei wichtigen Fakten, immer gegenprüfen.

Warum kann ein LLM nicht rechnen?

Weil es eigentlich kein Rechner ist. Es ist ein Sprachvorhersager. Wenn du "17 × 23 =" eintippst, sucht das Modell nicht nach dem mathematisch korrekten Ergebnis. Es sucht nach dem wahrscheinlichsten nächsten Token. Bei einfachen Aufgaben, die oft im Training vorkamen, klappt das. Bei großen Zahlen wird geraten.

Die moderne Lösung dafür: das LLM bekommt einen Taschenrechner als Werkzeug zur Seite gestellt. über das, was man Tool-Use oder Funktionen nennt. Mehr darüber im Kapitel KI-Agents.

Ein LLM weiß nicht, was wahr ist. Es weiß, was klingt, als wäre es wahr. Das ist ein wichtiger Unterschied.

Wer macht eigentlich was?

Drei Begriffe werden oft verwechselt, gehören aber zusammen:

Das Modell, z. B. GPT-4, Claude Sonnet, Llama 70B. Die rohen Gewichte.
Das Produkt, z. B. ChatGPT, claude.ai, Gemini. Die Chat-Oberfläche, die du als Nutzer siehst.
Die API, der Zugang, den Programmierer benutzen, um das Modell in eigene Software einzubauen. Mehr in API & SDK.

ChatGPT ist nicht GPT-4. ChatGPT benutzt GPT-4 (oder ein anderes Modell). Genauso ist claude.ai die Oberfläche. Claude Sonnet, Opus oder Haiku sind die eigentlichen Modelle dahinter.

In drei Sätzen

Was du jetzt weißt

Ein LLM ist ein riesiges neuronales Netz mit Milliarden Parametern, das aus Texten gelernt hat, Sprache Token für Token vorherzusagen, daher das "Large".
Modelle unterscheiden sich in Größe (Parameter), Offenheit (Open vs. Closed Source), Sichtweite (Context Window) und ob sie nur Text oder auch Bilder und Töne verarbeiten können.
LLMs glänzen bei Sprache, Zusammenfassen und Ideen, bei exakter Mathematik, Zählen und tagesaktuellen Fakten muss man ihnen Werkzeuge oder Quellen zur Seite stellen.

← Vorheriges Kapitel

Training & Daten

Nächstes Kapitel →

Prompts & Prompt Engineering