← Alle Insights
    AI & TechnologieSoftware & Delivery

    Multi-Agenten-RAG im Mittelstand: Vom ersten Use Case zur produktiven Architektur

    Dr. Oliver Gausmann · 10. April 2026 · 14 Min. Lesezeit

    Multi-Agenten-RAG-Systeme bewegen sich schnell vom Experiment in die Produktion. Databricks meldet einen Anstieg von 327 % bei Multi-Agenten-Architekturen in Unternehmen zwischen 2025 und 20261. Für den Mittelstand (50 bis 500 Mitarbeitende) wird die Einführung damit zur konkreten Planungsaufgabe. Ressourcen sind begrenzt, Fachabteilungen müssen einbezogen werden, und regulatorische Vorgaben wie der EU AI Act erzeugen zusätzlichen Zeitdruck.

    Was treibt die Entwicklung im Mittelstand?

    Der Markt für Retrieval-Augmented Generation wächst von 1,94 Milliarden USD (2025) auf prognostizierte 9,86 Milliarden bis 20302. McKinsey hat zwischen Dezember 2025 und Januar 2026 rund 500 Organisationen befragt: 23 % skalieren bereits ein agentisches AI-System, weitere 39 % experimentieren3. Früh einsteigen hat einen praktischen Vorteil: die Architektur wächst mit den Anforderungen, statt dass bestehende Pilotprojekte aufwendig migriert werden müssen.

    Parallel verschärft der EU AI Act die regulatorischen Anforderungen. Seit Februar 2025 müssen Organisationen sicherstellen, dass Mitarbeitende, die AI-Systeme bedienen, ausreichend geschult sind4. Ab August 2026 gelten die allgemeinen Pflichten vollständig. Für Hochrisiko-AI in Bereichen wie HR und Kreditvergabe hat die Digital-Omnibus-Richtlinie die Frist auf Dezember 2027 verschoben5. Bei Verstößen drohen Bußgelder bis zu 35 Millionen Euro oder sieben Prozent des weltweiten Jahresumsatzes6.

    Immer mehr Unternehmen in Europa suchen nach einer Kombination von Expertise in Knowledge Graphs, LLM-Orchestrierung, Fachabteilungs-Integration und regulatorischer Governance. Die Anforderungsprofile in aktuellen Stellenausschreibungen zeigen, wohin der Markt geht: integrierte Systeme, die Fachwissen, Daten und Compliance in einer Architektur zusammenbringen. Betroffen sind Unternehmen in regulierten Branchen (Finanzdienstleistungen, Pharma, Energie, Transport), aber auch Mittelständler mit komplexer technischer Dokumentation oder Qualitätsmanagementsystemen nach ISO 9001 oder ISO 27001.

    Was ist ein Multi-Agenten-RAG-System und warum reicht ein Chatbot nicht?

    Retrieval-Augmented Generation (RAG) bedeutet, dass ein KI-System bei jeder Anfrage relevante Dokumente aus einer Wissensbasis abruft und seine Antwort darauf stützt. Die einfachste Form: ein Chatbot durchsucht eine Vektordatenbank und liefert Antworten auf Basis ähnlicher Textstellen.

    Für anspruchsvollere Anwendungen reicht das nicht. Vektorsuche findet Dokumente, die einer Anfrage ähneln. Ob ein Dokument eine tatsächliche Pflicht beschreibt, eine Handlungsanweisung enthält oder ein Thema nur erwähnt, kann sie nicht unterscheiden. Dieses Problem hat in der Forschung zu Knowledge-Graph-gestützter Compliance einen eigenen Ausdruck: Similarity ≠ Obligation [14a]. Ähnlichkeit ist keine Verbindlichkeit. Für jede Anwendung, bei der es auf Genauigkeit und Nachvollziehbarkeit ankommt (Compliance, Qualitätsmanagement, regulatorische Berichterstattung, technische Dokumentation), ist das ein Risiko.

    Multi-Agenten-RAG geht darüber hinaus. Ein Knowledge Graph bildet die logischen Beziehungen zwischen Wissensobjekten ab: welche Anforderung aus welcher Regulierung stammt, welche Kontrolle sie erfüllt, welcher Nachweis die Kontrolle belegt. Spezialisierte Agenten übernehmen jeweils eine Aufgabe. Einer ruft Dokumente ab, ein anderer prüft die Beziehungen im Graph, ein dritter validiert Nachweise, ein vierter überwacht Änderungen in Quellsystemen. Diese Arbeitsteilung ermöglicht komplexe Prüfungen und Workflows, die ein einzelner RAG-Aufruf nicht leisten kann.

    Wann brauchen Sie welche Stufe?

    Die Komplexität eines RAG-Systems sollte zum Problem passen. Aus den Beschreibungen von IBM14 und Weaviate14 sowie praxisnahen Vergleichen15 lassen sich vier Stufen ableiten. Ein Chatbot mit LLM-Anbindung beantwortet einfache Fragen aus dem Allgemeinwissen des Modells. Einfaches RAG geht einen Schritt weiter: das Modell ruft bei jeder Anfrage relevante Texte aus einer Vektordatenbank ab und stützt seine Antwort darauf. Bei Agentic RAG kommt ein Agent ins Spiel, der selbständig entscheidet, ob die erste Antwort ausreicht, ob er nachrecherchieren muss oder ob er mehrere Quellen kombinieren soll. Multi-Agenten-RAG schließlich setzt mehrere spezialisierte Agenten ein, die parallel oder nacheinander arbeiten, jeder optimiert für eine Teilaufgabe.

    Die Literatur empfiehlt, mit der einfachsten Architektur zu starten und Komplexität nur dann hinzuzufügen, wenn die einfachere Stufe das Problem nachweislich nicht löst15. 75 % der Enterprise-AI-Anwendungen werden laut Prognosen bis 2026 hybride Architekturen nutzen15. In der Praxis ist das meistens ein agentisches System, das RAG als Werkzeug bei Bedarf aufruft.

    Zwei Achsen helfen bei der Entscheidung: die Komplexität der Anfragen (Ein-Schritt-Suche oder mehrstufiges Reasoning) und die Fehlertoleranz (Was kostet eine falsche Antwort?)15. Ein internes FAQ-System für 50 Mitarbeitende funktioniert mit einfachem RAG und amortisiert sich innerhalb weniger Monate. Compliance-Prüfungen, bei denen eine Halluzination Audit-Kosten von 50.000 USD auslösen kann13, brauchen Multi-Agenten-RAG mit Knowledge Graph. Aus unserer Erfahrung lohnt sich das ab dem Punkt, an dem ein Unternehmen drei oder mehr regulatorische Rahmenwerke gleichzeitig einhalten muss oder wenn Audit-Vorbereitung mehr als zwei Vollzeitstellen bindet. Multi-Agenten-Systeme kosten mehr pro Anfrage (mehrere LLM-Aufrufe, höhere Latenz), liefern aber bei komplexen Aufgaben 35 bis 45 % Zeiteinsparung15.

    StufeWas es kannWann es passtTypische Kosten (Implementierung)
    Chatbot (LLM)Allgemeine Fragen beantworten, Text generierenInterner Helpdesk, einfache FAQunter 5.000 USD
    Einfaches RAGDokumentensuche + Antwortgenerierung aus eigener WissensbasisProduktdokumentation, Wissensmanagement, Onboarding8.000-45.000 USD [8]
    Agentic RAG (ein Agent)Selbständige Nachrecherche, Query-Verfeinerung, Multi-Source-AbgleichKomplexe Recherchen, Vertragsanalyse, technischer Support50.000-150.000 USD
    Multi-Agenten-RAG + Knowledge GraphSpezialisierte Agenten, strukturierte Beziehungen, Audit-Trail, Echtzeit-UpdatesRegulatorische Compliance, Qualitätsmanagement, mehrstufige Governance150.000-400.000+ USD [8]

    Wo scheitern Mittelständler bei der Einführung?

    Die häufigste Falle: Ein Unternehmen startet ein AI-Projekt in der IT-Abteilung, ohne die Fachabteilungen einzubeziehen. Das Ergebnis ist ein technisch funktionierendes System, das niemand nutzt, weil die Use Cases an den tatsächlichen Bedürfnissen vorbeigehen.

    Fachabteilungen wissen oft nicht, was technisch möglich ist. IT-Abteilungen wissen nicht, welche Geschäftsprobleme Priorität haben. Ohne gemeinsame Workshops bleiben beide Seiten in ihrer Perspektive. Die Use-Case-Identifikation ist deshalb keine rein technische Aufgabe. Sie braucht Gesprächsformate, in denen Fachleute konkrete Probleme beschreiben und Entwickler die Machbarkeit einschätzen.

    Datenbereitschaft wird regelmäßig unterschätzt. Multi-Agenten-RAG-Systeme brauchen strukturierte, aktuelle und zugängliche Daten. In vielen mittelständischen Unternehmen liegen Dokumente in Silos: SharePoint, lokale Laufwerke, E-Mail-Anhänge. Aktuelle Enterprise-RAG-Plattformen bieten vorgefertigte Konnektoren für über 70 Quellsysteme (SharePoint, Confluence, Jira, SAP und ähnliche)19, aber die Anbindung allein reicht nicht. Datenbereinigung und -aufbereitung machen 30 bis 50 % der Projektkosten aus7. Bevor das erste RAG-System produktiv geht, muss die Datenbasis konsolidiert sein.

    Regulatorische Anforderungen kommen hinzu. Der EU AI Act verlangt Dokumentation, Risikoeinschätzung und geschultes Personal4. Ein produktives AI-System muss diese Anforderungen von Anfang an in der Architektur berücksichtigen. Nachträgliches Compliance-Retrofitting ist deutlich teurer.

    Architekturentscheidungen haben langfristige Folgen. Die Wahl der Vektordatenbank, des LLM-Providers und der Deployment-Strategie (Cloud, Hybrid, On-Premise) bestimmt, wie flexibel das System später ist. Eine frühe Festlegung auf einen einzigen Anbieter erzeugt ein Lock-in, das spätere Anpassungen verteuert. Die Gegenmaßnahme ist eine Abstraktionsschicht zwischen Geschäftslogik und Provider-APIs, sodass LLMs und Datenbanken ausgetauscht werden können, ohne den Anwendungscode zu ändern18. In der Praxis setzen Teams dafür auf Frameworks wie LangChain oder standardisierte Interfaces, die Modellaufrufe entkoppeln.

    Architektur am Beispiel: Eine Echtzeit-Governance-Plattform

    Ich arbeite an einer Echtzeit-Governance-Plattform, die mehrere spezialisierte Agenten mit einem Knowledge Graph verbindet, um regulatorische Compliance kontinuierlich zu überwachen. Die Architekturmuster dahinter tauchen in ähnlicher Form bei Qualitätsmanagement, technischer Dokumentation und Vertragsanalyse auf.

    Der Knowledge Graph bildet eine Ontologie ab: Regulierung → Anforderung → Kontrolle → Prozedur → Nachweis. Jede Verbindung hat einen Typ. Das ermöglicht Multi-Hop Reasoning: von einem konkreten Nachweis (etwa einem Firewall-Log) zurück zur Regulierung, die er erfüllt. Das ergibt einen Audit-Trail, den ein Prüfer nachvollziehen kann. In einfachen RAG-Systemen fehlt diese Strukturebene.

    Compliance-Regeln werden in Gherkin-Syntax definiert (Given/When/Then), einem Format aus dem Software-Testing, das regulatorische Anforderungen maschinenlesbar macht. Ein Beispiel: GIVEN Benutzer hat Rolle IT_Ops AND Dokument ist als „Intern" klassifiziert, WHEN das System eine Abfrage ausführt, THEN werden vertrauliche Dokumente ausgeschlossen. Die Rechtsabteilung versteht die Regel. Das Entwicklungsteam kann sie als automatisierten Test implementieren. Diese Brücke zwischen juristischer und technischer Sprache ist einer der unterschätzten Erfolgsfaktoren bei Multi-Agenten-RAG-Systemen.

    Eine Evidence Verification Pipeline prüft hochgeladene Nachweise automatisch in sechs Schritten: Dokumentenaufnahme, OCR und Metadaten-Extraktion, Zeitstempel- und Formatvalidierung, SHA-256-Hash für Unveränderlichkeit, Speicherung im Write-Once Compliance Ledger, semantische Verknüpfung im Knowledge Graph. Das meiste davon läuft automatisch.

    Für Datensouveränität sorgt ein clientseitiger Smart Router, ein Muster, das in der Industrie als Intelligent LLM Routing oder LLM Gateway dokumentiert ist16. Öffentliche Daten (Regulierungstexte, Standards) gehen an Cloud-LLMs mit besserer Modellqualität. Vertrauliche Daten (interne Policies, personenbezogene Informationen) bleiben lokal und werden von einem lokalen LLM verarbeitet. Sensible Daten verlassen so die Firewall nicht.

    Das Deployment basiert auf einem containerisierten Stack mit Deployment Toggle: derselbe Code für SaaS, Hybrid und On-Premise. Gartner prognostiziert, dass bis 2027 rund 35 % der Länder regional gebundene AI-Plattformen vorschreiben werden17. Die Datenschicht wird per Konfiguration ausgetauscht, nicht per Codeanpassung. Diese Austauschbarkeit ist auch für den Exit-Fall relevant: DORA verlangt eine belegbare Exit-Strategie, und das System muss beweisen können, dass der Knowledge Graph aus lokalen Rohdaten rekonstruierbar ist.

    KriteriumEinfaches RAG (Chatbot)Multi-Agenten-RAG mit Knowledge Graph
    SuchlogikVektorähnlichkeitVektorsuche + typisierte Beziehungen im Graph
    Strukturierte BeziehungenNeinJa (z.B. Anforderung → Kontrolle → Nachweis)
    NachvollziehbarkeitQuellenangabe pro AntwortMulti-Hop Audit-Trail bis zur Ursprungsregulierung
    Echtzeit-UpdatesManueller Re-IndexKonnektoren zu Quellsystemen (Jira, CI/CD, Firewall)
    Deployment-FlexibilitätMeist Cloud-onlySaaS, Hybrid, On-Premise per Konfiguration
    Implementierungskosten8.000-45.000 USD [8]150.000-400.000+ USD [8]
    Betriebskosten (monatlich)1.000-5.000 USD3.200-13.000 USD [9]

    Wie starten Sie konkret?

    Was wir bei Convios in Einführungsprojekten sehen: Use Cases kommen aus den Fachabteilungen. Die IT liefert die technische Machbarkeitseinschätzung. Beide Seiten brauchen Workshops, in denen die Fachabteilung ein konkretes Geschäftsproblem beschreibt und die IT bewertet, ob ein Multi-Agenten-RAG-System die passende Lösung ist. Häufig reicht für den Einstieg auch ein einfacheres RAG-System, und die Multi-Agenten-Architektur wächst mit den Anforderungen.

    Schulung gehört von Tag eins dazu. Mitarbeitende, die später mit dem System arbeiten, müssen verstehen, was es kann und wo seine Grenzen liegen. Der EU AI Act verlangt diese Kompetenz ohnehin4. Schulung ist deshalb kein Zusatzaufwand, sie ist regulatorische Pflicht. Die organisatorische Akzeptanz entscheidet über den Erfolg: Fachabteilungen, die das System als Arbeitserleichterung erleben (schnellere Audit-Antworten, weniger manuelle Dokumentation), treiben die Nutzung. Fachabteilungen, die es als Kontrollinstrument wahrnehmen, blockieren.

    Die ersten Architekturentscheidungen betreffen drei Fragen: Welche Datenquellen soll das System anbinden? Welches LLM (Cloud, lokal, hybrid)? Und wie sieht die Deployment-Strategie aus? Bei der LLM-Auswahl für regulierte Umgebungen zählen vier Kriterien: Datensouveränität (wo werden Daten verarbeitet?), Modellqualität für die Fachdomäne, Kosten pro Anfrage und die Möglichkeit, den Anbieter zu wechseln. In regulierten Branchen ist die Datensouveränitätsfrage oft die erste, die beantwortet werden muss. Die typische Implementierungsdauer für ein Compliance-System im Mittelstand liegt bei 32 bis 56 Wochen10. Bis August 2026 produktiv zu sein, lässt wenig Spielraum.

    Microsoft hat ein Reifegradmodell für agentische AI veröffentlicht mit acht Dimensionen: Strategie, Prozesstransformation, Governance, Wertrealisierung, Architektur, Betrieb, organisatorische Bereitschaft und verantwortungsvolle AI11. Der typische Fortschritt pro Stufe dauert 18 bis 36 Monate. Wer heute einfache Chatbots einsetzt, steht auf Stufe eins oder zwei. Multi-Agenten-RAG mit Knowledge Graph erfordert Stufe drei oder vier. Der Einstieg ist trotzdem möglich, wenn das erste Projekt bewusst als Lernprojekt angelegt wird, mit einem klar begrenzten Use Case und einem interdisziplinären Team. Ein typisches Kernteam für ein erstes RAG-Projekt im Mittelstand besteht aus vier bis sechs Personen: ein bis zwei Entwickler mit Python- und LLM-Erfahrung, ein Fachexperte aus der Zielabteilung (Compliance, QM oder Dokumentation), ein Projektleiter, und bei regulierten Anwendungen jemand mit Governance-Verständnis. Unternehmen, die dieses Profil intern nicht abbilden können, arbeiten mit einem externen Partner für die ersten sechs bis zwölf Monate und bauen parallel internes Wissen auf.

    Was kostet Aufbau und Betrieb?

    Ein einfaches RAG-System mit Dokumentensuche kostet in der Implementierung zwischen 8.000 und 45.000 USD8. Ein Multi-Agenten-RAG-System mit Knowledge Graph, Compliance-Logik und Evidence Verification liegt bei 150.000 bis 400.000 USD8. Die laufenden Betriebskosten liegen bei 3.200 bis 13.000 USD pro Monat9.

    Ein häufig unterschätzter Faktor: Embedding-Generierung, Reranking und Re-Indexierung machen 60 bis 70 % der gesamten RAG-Infrastrukturkosten aus9. Teams, die nur die offensichtlichen API-Kosten kalkulieren, unterschätzen den Gesamtaufwand um den Faktor zwei bis drei.

    Für regulierte Branchen kommt ein Compliance-Aufschlag von 20 bis 30 % auf die Infrastrukturkosten hinzu12. Audit-Trails, Dokumentation von Retrieval-Entscheidungen und Nachweisketten müssen von Anfang an in der Architektur verankert sein.

    Eine Gegenrechnung (eigene Kalkulation auf Basis von8 und12): Ein Compliance-Team, das pro Quartal 40 Personenstunden für manuelle Dokumentation und Audit-Vorbereitung aufwendet, verursacht bei 120 EUR Stundensatz Kosten von 19.200 EUR pro Jahr. Ein Multi-Agenten-RAG-System mit monatlichen Betriebskosten von 8.000 USD (ca. 7.400 EUR) kostet 88.800 EUR pro Jahr. Der reine Kostenvergleich spricht erst ab vier bis fünf Vollzeitstellen in der Compliance für die Automatisierung. Der eigentliche Hebel liegt in der Geschwindigkeit der Audit-Antwort und in der Fehlerreduktion: ein einzelner Compliance-Fehler in regulierten Branchen kann Audit-Kosten von 50.000 USD und mehr auslösen13. (Schätzung)

    Unsere Einordnung

    Das Feld entwickelt sich in einem Tempo, das auch uns bei Convios überrascht. Vor einem Jahr waren Multi-Agenten-RAG-Systeme ein Thema für spezialisierte AI-Unternehmen. Heute suchen Verkehrsunternehmen, Banken und Versicherungen aktiv nach genau diesen Architekturen. Die Stellenprofile verlangen die Fähigkeit, Python, LLM-Orchestrierung und Vektordatenbanken in einer integrierten Architektur zusammenzubringen.

    An der Universität Zürich haben Seminar und Vorlesung einzelne Aspekte dieser Systeme in der Lehre aufgegriffen, unter anderem Evidence Verification, Hybrid Deployment und verteilte Teamstrukturen. Gute Impulse und Inputs kamen von Studierenden, die sich eigenständig mit diesen Teilproblemen beschäftigt haben. Die Ergebnisse zeigen, dass die nächste Generation diese Konzepte schnell adaptiert und eigene Lösungsansätze einbringt.

    Bei Convios behandeln wir KI-Strategie, wertschöpfende Business-Use-Cases, Softwareentwicklung, KI- und IT-Architekturen sowie Governance als zusammenhängendes Ganzes. Unternehmen, die diese Disziplinen in getrennten Abteilungen bearbeiten, brauchen deutlich mehr Iterationen, bis produktive Ergebnisse entstehen. Das sehen wir regelmäßig in unseren Mandaten. Ein Multi-Agenten-RAG-System ist per Definition multidisziplinär: es verbindet Fachwissen, Daten, Software und regulatorische Anforderungen in einer Architektur. Ein isoliertes IT-Projekt wird diese Erwartungen verfehlen.

    Im zweiten Teil dieser Serie folgen Code-Beispiele, Framework-Vergleiche (LangGraph, CrewAI, AutoGen) und konkrete Architekturmuster für die technische Implementierung.

    Wenn Sie mit der regulatorischen Seite beginnen wollen, finden Sie einen Überblick zum EU AI Act und seinen Fristen für den Mittelstand auf dieser Seite. Eine KI-Governance-Checkliste für Geschäftsführer hilft bei der Bestandsaufnahme.

    Quellen

    1Databricks Multi-Agent Adoption Statistics 2026

    2MarketsandMarkets RAG Market Report 2025-2030

    3McKinsey, State of AI Trust in 2026: Shifting to the Agentic Era

    4Sage, EU AI Act 2026 für den Mittelstand: Fristen, Pflichten und Compliance

    5Paperclipped, EU Digital Omnibus AI Act Zeitplan

    6Kopexa, KI-Governance für KMU: Der Weg zur AI-Act-Compliance

    7Stratagem Systems, RAG-Implementierungskosten 2026: Preise und ROI (Datenbereinigung)

    8Stratagem Systems / AlphaCorp, RAG-Implementierungskosten 2026

    9AlphaCorp, RAG-Systemkosten: 2026 Preise, Aufbau und Betrieb

    10AiActo, AI Act und KMU: Was Sie vor August 2026 tun müssen

    11Microsoft, Agentic AI Adoption Maturity Model

    12Techment, RAG in 2026: How RAG Works for Enterprise AI (Governance Tax)

    13Medium/Graph Praxis, Cutting GraphRAG Token Costs (Compliance Error Costs)

    14IBM, What is Agentic RAG? / Weaviate, What Is Agentic RAG?

    15Antonio V. Franco, Single-Agent RAG vs. Multi-Agent RAG: When Does the Complexity Actually Pay Off?

    16Lasso Security / Solo.io, Intelligent LLM Routing and LLM Gateway Patterns

    17Gartner, Predicts 2025: AI Sovereignty and Regional AI Platforms

    18Entrio / Modgility, LLM-Agnostic Architecture and LLM Mesh Design Patterns

    19Unstructured.io, Enterprise RAG: Why Connectors Matter in Production Systems

    Hat Ihnen dieser Artikel geholfen?

    Sie haben Fragen zu diesem Thema?

    Gespräch vereinbaren