Das Problem, das RAG löst

Stell dir vor, du fragst ein gewöhnliches Large Language Model nach den internen Urlaubsregeln deiner Firma. Was passiert? Im besten Fall sagt es ehrlich: "Das weiß ich nicht." Im schlechteren Fall erfindet es eine Antwort, die plausibel klingt, aber komplett ausgedacht ist. Warum? Weil das Modell nur weiß, was im Training drin war, und dein Firmen-Wiki war ganz sicher nicht im Trainingsdatensatz.

Das gilt für viele Dinge: tagesaktuelle Nachrichten, interne Dokumente, eigene Notizen, Kundendaten, das Handbuch deines Produkts, juristische Texte einer bestimmten Kanzlei. Alles, was nicht öffentlich oder zu neu war, kennt die KI schlicht nicht.

Eine Option wäre, das Modell neu zu trainieren. Aber das ist teuer, langsam und für die meisten Fälle völlig überdimensioniert. Es gibt einen viel eleganteren Weg, und der heißt RAG.

Was RAG eigentlich ist

RAG steht für Retrieval Augmented Generation, auf Deutsch etwa "abrufverstärkte Generierung". Klingt sperrig, ist aber im Kern eine simple Idee: Bevor die KI antwortet, suchen wir die relevanten Informationen aus einer Sammlung von Dokumenten heraus und legen sie ihr direkt in den Prompt. Die KI antwortet dann auf Basis dieser konkreten Texte, nicht aus dem nebligen Gedächtnis ihres Trainings.

Analogie

Stell dir die KI als sehr klugen Studenten vor, der die ganze Allgemeinbildung der Welt im Kopf hat, aber dein spezifisches Fachgebiet nicht studiert hat. Bei einer normalen Prüfung würde er raten. RAG ist der Moment, in dem du ihm vor jeder Frage den passenden Spickzettel auf den Tisch legst. Plötzlich antwortet er nicht aus dem Bauch, sondern aus dem Text vor seiner Nase.

Das Schöne daran: Der Student wird nicht "umtrainiert". Sein gesamtes Wissen über Sprache, Logik und die Welt bleibt erhalten. Wir geben ihm einfach genau die richtigen Hinweise zur richtigen Zeit.

RAG verwandelt eine allgemeine KI in einen Spezialisten, ohne sie auch nur einmal neu zu trainieren.

So funktioniert RAG in vier Schritten

Hinter der einfachen Idee steckt eine kleine Maschinerie. Sie läuft in zwei Phasen: einmal beim Aufbau der Wissensbasis (passiert einmalig oder regelmäßig), und einmal bei jeder Frage des Nutzers.

Schritt eins. Dokumente zerschneiden

Deine Dokumente. PDFs, Wiki-Seiten, Handbücher, Notizen, werden in kleine, sinnvolle Stücke geteilt. Diese Stücke heißen Chunks. Ein Chunk kann ein Absatz sein, ein Abschnitt oder ein paar Sätze. Wichtig: Sie müssen klein genug sein, um in den Prompt zu passen, aber groß genug, um in sich Sinn zu ergeben.

Schritt zwei. Bedeutung in Zahlen verwandeln

Jeder Chunk wird durch ein spezielles Modell geschickt, das aus dem Text einen Embedding macht, eine lange Liste von Zahlen, die die Bedeutung des Textes repräsentiert. Zwei Texte mit ähnlichem Inhalt bekommen ähnliche Zahlenlisten.

Schritt drei. Ab in die Datenbank

Diese Zahlenlisten werden zusammen mit den Originaltexten in einer Vector Database gespeichert. Das ist eine spezielle Datenbank, die nicht nach Wörtern sucht, sondern nach Ähnlichkeit von Bedeutungen.

Schritt vier. Frage stellen, Antwort bekommen

Wenn der Nutzer eine Frage stellt, wird auch diese Frage in ein Embedding verwandelt. Die Vector Database sucht die ähnlichsten Chunks heraus. Diese Chunks werden zusammen mit der ursprünglichen Frage in den Prompt geschrieben, und die KI antwortet auf Basis dieser konkreten Textstellen.

Die RAG-Pipeline
Vom Dokument bis zur Antwort, in fünf Schritten.
1
Zerschneiden
Dokumente werden in kleine Chunks geteilt.
2
Einbetten
Jeder Chunk wird in einen Vektor übersetzt.
3
Speichern
Vektoren landen in einer Vector Database.
4
Suchen
Bei einer Frage werden ähnlichste Chunks gefunden.
5
Antworten
KI bekommt Frage + gefundene Chunks und antwortet.
Das Modell wird nicht neu trainiert, es bekommt nur die richtigen Schnipsel als Kontext mitgeliefert. Wie ein Spickzettel zur Prüfung.

Embeddings, wenn Bedeutung zu Koordinaten wird

Der Begriff Embedding klingt erstmal abstrakt. Aber das Bild dahinter ist hübsch: Stell dir einen riesigen Raum vor, nicht drei Dimensionen wie unserer, sondern hunderte oder tausende. In diesem Raum bekommt jedes Wort, jeder Satz, jeder Absatz einen festen Punkt zugewiesen. Texte mit ähnlicher Bedeutung landen nah beieinander; Texte ohne Bezug landen weit voneinander entfernt.

Beispiel

Die Sätze "Wie beantrage ich Urlaub?" und "Wo finde ich das Urlaubsformular?" haben unterschiedliche Wörter, aber sehr ähnliche Bedeutung, ihre Punkte im Embedding-Raum liegen praktisch nebeneinander. Eine klassische Stichwortsuche würde das übersehen. Ein Embedding-System findet die Verbindung sofort.

Das ist der Zauber: RAG findet nicht nur Wortübereinstimmungen, sondern verwandte Ideen. Auch wenn dein Wiki ganz andere Formulierungen benutzt als die Frage des Nutzers, landet die richtige Stelle in der Antwort.

Wörter im Bedeutungs-Raum
Ähnliche Konzepte liegen nah beieinander, komplett ohne dass jemand das vorgegeben hat.
Jeder Punkt ist ein Wort als Embedding. Tiere clustern, Möbel clustern, Programmiersprachen clustern. Genau diese Nähe nutzt RAG, um die passendsten Schnipsel zu finden.

Die Vector Database, eine Bibliothek für Bedeutungen

Eine Vector Database (auch Vector Store genannt) ist optimiert dafür, in tausenden, millionen oder milliarden von Embeddings blitzschnell die ähnlichsten zu finden. Bekannte Namen in dem Bereich sind Pinecone, Chroma, Qdrant, Weaviate oder Milvus. Manche laufen in der Cloud, andere kannst du auf deinem eigenen Rechner betreiben.

Für den Nutzer ist es egal, welche du wählst, das Prinzip ist immer dasselbe: Sie nimmt Vektoren rein, gibt Vektoren raus, und macht das schnell.

Merke

Eine Vector Database ersetzt nicht deine normale Datenbank. Sie ergänzt sie. Strukturierte Daten (Tabellen, Zahlen, IDs) bleiben dort, wo sie heute schon liegen. Die Vector Database ist für Text und Bedeutung zuständig.

Was RAG dir bringt

Die Vorteile sind enorm, und das ist auch der Grund, warum RAG aktuell überall auftaucht:

01

Aktualität

Du kannst Dokumente jederzeit hinzufügen, ändern oder löschen. Die KI weiß sofort Bescheid, kein Neutraining nötig.

02

Firmenspezifisches Wissen

Interne Dokumente, Produkthandbücher, Kundenhistorie, alles, was die KI sonst nie sehen würde, wird nutzbar.

03

Kein Training

Du musst kein Modell anfassen, keine GPUs mieten, keine Wochen warten. RAG funktioniert mit jedem Standard-LLM über die API.

04

Quellen nachvollziehbar

Weil die KI auf konkreten Chunks antwortet, kannst du die Quellen mit angeben, der Nutzer sieht, woher die Antwort kommt.

Wo RAG an Grenzen stößt

Die Methode ist mächtig, aber kein Allheilmittel. Es gibt typische Stolpersteine:

Vorsicht

RAG ist nur so gut wie die zugrundeliegenden Daten. Sind deine Dokumente veraltet, widersprüchlich oder lückenhaft, antwortet die KI genau so, nur eben mit dem überzeugenden Tonfall eines LLM. Garbage in, garbage out gilt hier doppelt.

Ein zweites Problem ist das Zerschneiden selbst. Wenn ein Chunk zu klein ist, fehlt der Kontext, der Anfang eines Gedankens steht in einem Stück, das Ende in einem anderen. Ist er zu groß, wird die Suche ungenauer. Gutes Chunking ist eine kleine Kunst.

Drittens: Was die Suche nicht findet, kann auch nicht in die Antwort einfließen. Wenn die Frage so formuliert ist, dass kein passender Chunk gefunden wird. Pech. Die KI antwortet dann entweder gar nicht oder fällt zurück auf ihr Trainingswissen und beginnt womöglich zu raten. Mehr dazu auf der nächsten Seite, wenn wir über Halluzinationen sprechen.

Merke

Quellenangaben sind bei RAG kein Schmuck, sondern Pflicht. Wenn die KI sagt "laut Dokument XY...", können Menschen das prüfen. Ohne Quellenangaben bleibt es Glaubenssache, und das ist bei firmenkritischen Themen ein Risiko.

Wo du RAG heute schon siehst

Praktisch jeder professionelle KI-Chatbot mit "Wissen über meine Firma" funktioniert mit RAG im Hintergrund. Genauso die "Chatte mit deinem PDF"-Tools, juristische Recherche-KIs, Code-Assistenten, die deinen Code "kennen", oder Support-Bots, die deine Hilfeartikel auswendig wissen. Auch viele Agents nutzen RAG als eines ihrer Werkzeuge, der Agent ruft die Vector Database auf wie ein anderes Tool.

In drei Sätzen

Was du jetzt weißt

  • RAG (Retrieval Augmented Generation) gibt einer KI vor jeder Antwort den passenden "Spickzettel" aus einer Dokumentensammlung, ohne Neutraining.
  • Das Verfahren basiert auf Embeddings (Bedeutung als Zahlenliste) und einer Vector Database, die nach Ähnlichkeit von Bedeutungen sucht.
  • RAG macht KI aktuell und firmenspezifisch, ist aber nur so gut wie die zugrundeliegenden Daten und das Zerschneiden in Chunks.