Das Problem, das RAG löst
Stell dir vor, du fragst ein gewöhnliches Large Language Model nach den internen Urlaubsregeln deiner Firma. Was passiert? Im besten Fall sagt es ehrlich: "Das weiß ich nicht." Im schlechteren Fall erfindet es eine Antwort, die plausibel klingt, aber komplett ausgedacht ist. Warum? Weil das Modell nur weiß, was im Training drin war, und dein Firmen-Wiki war ganz sicher nicht im Trainingsdatensatz.
Das gilt für viele Dinge: tagesaktuelle Nachrichten, interne Dokumente, eigene Notizen, Kundendaten, das Handbuch deines Produkts, juristische Texte einer bestimmten Kanzlei. Alles, was nicht öffentlich oder zu neu war, kennt die KI schlicht nicht.
Eine Option wäre, das Modell neu zu trainieren. Aber das ist teuer, langsam und für die meisten Fälle völlig überdimensioniert. Es gibt einen viel eleganteren Weg, und der heißt RAG.
Was RAG eigentlich ist
RAG steht für Retrieval Augmented Generation, auf Deutsch etwa "abrufverstärkte Generierung". Klingt sperrig, ist aber im Kern eine simple Idee: Bevor die KI antwortet, suchen wir die relevanten Informationen aus einer Sammlung von Dokumenten heraus und legen sie ihr direkt in den Prompt. Die KI antwortet dann auf Basis dieser konkreten Texte, nicht aus dem nebligen Gedächtnis ihres Trainings.
Stell dir die KI als sehr klugen Studenten vor, der die ganze Allgemeinbildung der Welt im Kopf hat, aber dein spezifisches Fachgebiet nicht studiert hat. Bei einer normalen Prüfung würde er raten. RAG ist der Moment, in dem du ihm vor jeder Frage den passenden Spickzettel auf den Tisch legst. Plötzlich antwortet er nicht aus dem Bauch, sondern aus dem Text vor seiner Nase.
Das Schöne daran: Der Student wird nicht "umtrainiert". Sein gesamtes Wissen über Sprache, Logik und die Welt bleibt erhalten. Wir geben ihm einfach genau die richtigen Hinweise zur richtigen Zeit.
RAG verwandelt eine allgemeine KI in einen Spezialisten, ohne sie auch nur einmal neu zu trainieren.
So funktioniert RAG in vier Schritten
Hinter der einfachen Idee steckt eine kleine Maschinerie. Sie läuft in zwei Phasen: einmal beim Aufbau der Wissensbasis (passiert einmalig oder regelmäßig), und einmal bei jeder Frage des Nutzers.
Schritt eins. Dokumente zerschneiden
Deine Dokumente. PDFs, Wiki-Seiten, Handbücher, Notizen, werden in kleine, sinnvolle Stücke geteilt. Diese Stücke heißen Chunks. Ein Chunk kann ein Absatz sein, ein Abschnitt oder ein paar Sätze. Wichtig: Sie müssen klein genug sein, um in den Prompt zu passen, aber groß genug, um in sich Sinn zu ergeben.
Schritt zwei. Bedeutung in Zahlen verwandeln
Jeder Chunk wird durch ein spezielles Modell geschickt, das aus dem Text einen Embedding macht, eine lange Liste von Zahlen, die die Bedeutung des Textes repräsentiert. Zwei Texte mit ähnlichem Inhalt bekommen ähnliche Zahlenlisten.
Schritt drei. Ab in die Datenbank
Diese Zahlenlisten werden zusammen mit den Originaltexten in einer Vector Database gespeichert. Das ist eine spezielle Datenbank, die nicht nach Wörtern sucht, sondern nach Ähnlichkeit von Bedeutungen.
Schritt vier. Frage stellen, Antwort bekommen
Wenn der Nutzer eine Frage stellt, wird auch diese Frage in ein Embedding verwandelt. Die Vector Database sucht die ähnlichsten Chunks heraus. Diese Chunks werden zusammen mit der ursprünglichen Frage in den Prompt geschrieben, und die KI antwortet auf Basis dieser konkreten Textstellen.
Embeddings, wenn Bedeutung zu Koordinaten wird
Der Begriff Embedding klingt erstmal abstrakt. Aber das Bild dahinter ist hübsch: Stell dir einen riesigen Raum vor, nicht drei Dimensionen wie unserer, sondern hunderte oder tausende. In diesem Raum bekommt jedes Wort, jeder Satz, jeder Absatz einen festen Punkt zugewiesen. Texte mit ähnlicher Bedeutung landen nah beieinander; Texte ohne Bezug landen weit voneinander entfernt.
Die Sätze "Wie beantrage ich Urlaub?" und "Wo finde ich das Urlaubsformular?" haben unterschiedliche Wörter, aber sehr ähnliche Bedeutung, ihre Punkte im Embedding-Raum liegen praktisch nebeneinander. Eine klassische Stichwortsuche würde das übersehen. Ein Embedding-System findet die Verbindung sofort.
Das ist der Zauber: RAG findet nicht nur Wortübereinstimmungen, sondern verwandte Ideen. Auch wenn dein Wiki ganz andere Formulierungen benutzt als die Frage des Nutzers, landet die richtige Stelle in der Antwort.
Die Vector Database, eine Bibliothek für Bedeutungen
Eine Vector Database (auch Vector Store genannt) ist optimiert dafür, in tausenden, millionen oder milliarden von Embeddings blitzschnell die ähnlichsten zu finden. Bekannte Namen in dem Bereich sind Pinecone, Chroma, Qdrant, Weaviate oder Milvus. Manche laufen in der Cloud, andere kannst du auf deinem eigenen Rechner betreiben.
Für den Nutzer ist es egal, welche du wählst, das Prinzip ist immer dasselbe: Sie nimmt Vektoren rein, gibt Vektoren raus, und macht das schnell.
Eine Vector Database ersetzt nicht deine normale Datenbank. Sie ergänzt sie. Strukturierte Daten (Tabellen, Zahlen, IDs) bleiben dort, wo sie heute schon liegen. Die Vector Database ist für Text und Bedeutung zuständig.
Was RAG dir bringt
Die Vorteile sind enorm, und das ist auch der Grund, warum RAG aktuell überall auftaucht:
Aktualität
Du kannst Dokumente jederzeit hinzufügen, ändern oder löschen. Die KI weiß sofort Bescheid, kein Neutraining nötig.
Firmenspezifisches Wissen
Interne Dokumente, Produkthandbücher, Kundenhistorie, alles, was die KI sonst nie sehen würde, wird nutzbar.
Kein Training
Du musst kein Modell anfassen, keine GPUs mieten, keine Wochen warten. RAG funktioniert mit jedem Standard-LLM über die API.
Quellen nachvollziehbar
Weil die KI auf konkreten Chunks antwortet, kannst du die Quellen mit angeben, der Nutzer sieht, woher die Antwort kommt.
Wo RAG an Grenzen stößt
Die Methode ist mächtig, aber kein Allheilmittel. Es gibt typische Stolpersteine:
RAG ist nur so gut wie die zugrundeliegenden Daten. Sind deine Dokumente veraltet, widersprüchlich oder lückenhaft, antwortet die KI genau so, nur eben mit dem überzeugenden Tonfall eines LLM. Garbage in, garbage out gilt hier doppelt.
Ein zweites Problem ist das Zerschneiden selbst. Wenn ein Chunk zu klein ist, fehlt der Kontext, der Anfang eines Gedankens steht in einem Stück, das Ende in einem anderen. Ist er zu groß, wird die Suche ungenauer. Gutes Chunking ist eine kleine Kunst.
Drittens: Was die Suche nicht findet, kann auch nicht in die Antwort einfließen. Wenn die Frage so formuliert ist, dass kein passender Chunk gefunden wird. Pech. Die KI antwortet dann entweder gar nicht oder fällt zurück auf ihr Trainingswissen und beginnt womöglich zu raten. Mehr dazu auf der nächsten Seite, wenn wir über Halluzinationen sprechen.
Quellenangaben sind bei RAG kein Schmuck, sondern Pflicht. Wenn die KI sagt "laut Dokument XY...", können Menschen das prüfen. Ohne Quellenangaben bleibt es Glaubenssache, und das ist bei firmenkritischen Themen ein Risiko.
Wo du RAG heute schon siehst
Praktisch jeder professionelle KI-Chatbot mit "Wissen über meine Firma" funktioniert mit RAG im Hintergrund. Genauso die "Chatte mit deinem PDF"-Tools, juristische Recherche-KIs, Code-Assistenten, die deinen Code "kennen", oder Support-Bots, die deine Hilfeartikel auswendig wissen. Auch viele Agents nutzen RAG als eines ihrer Werkzeuge, der Agent ruft die Vector Database auf wie ein anderes Tool.
Was du jetzt weißt
- RAG (Retrieval Augmented Generation) gibt einer KI vor jeder Antwort den passenden "Spickzettel" aus einer Dokumentensammlung, ohne Neutraining.
- Das Verfahren basiert auf Embeddings (Bedeutung als Zahlenliste) und einer Vector Database, die nach Ähnlichkeit von Bedeutungen sucht.
- RAG macht KI aktuell und firmenspezifisch, ist aber nur so gut wie die zugrundeliegenden Daten und das Zerschneiden in Chunks.