← Alle Insights
    AI & TechnologieSoftware & Delivery

    Multi-Agenten-Framework für den Mittelstand: Vier Kandidaten, neun Kriterien, eine unbequeme Antwort

    Dr. Oliver Gausmann · 29. April 2026 · 11 Min. Lesezeit

    Wand mit hunderten Farbkarten in einem geordneten Raster, sortiert von Grün über Blau zu Lila

    Vor zwei Wochen, Workshop bei einem RegTech-Scale-Up. Auf dem Whiteboard stand eine Frage zur Auswahl eines Multi-Agenten-Framework für den Mittelstand: LangGraph oder CrewAI? Drei Stunden später stand dort eine längere Liste an Bewertungskriterien. Vendor-Stabilität, Skill-Pool im eigenen Team, regulatorische Roadmap, Audit-Primitives. Manches davon technisch, vieles davon organisatorisch. Am Ende war jede dieser Achsen relevanter als die Ausgangsfrage.

    Im November 2025 hat ThoughtWorks LangGraph aus dem Adopt-Ring genommen1. Im April 2026 hat Microsoft AutoGen und Semantic Kernel zu Microsoft Agent Framework konsolidiert2. Wer im Frühjahr 2025 auf eines dieser Frameworks gesetzt hat, schaut heute auf eine andere Empfehlungslandschaft. Das ist die normale Geschwindigkeit eines Feldes ohne etablierte Best Practices, und es verändert, wie Sie eine Architekturentscheidung treffen.

    Vier Frameworks dominieren den Markt für Multi-Agenten-Architekturen: LangGraph, CrewAI, Microsoft Agent Framework und Haystack. Welches davon für den Mittelstand passt, entscheidet sich über neun Kriterien, die klassische Architektur-Checklisten ergänzen. GitHub-Sterne und Benchmark-Geschwindigkeit reichen für diese Wahl nicht aus. Audit-Primitives, Vendor-Velocity-Risiko und der verfügbare Skill-Pool wiegen schwerer als jede Feature-Liste. Dieser Artikel liefert die neun Kriterien, eine Cluster-Sicht auf die Framework-Landschaft und eine Heuristik für die Auswahl entlang der Architekturentscheidungen aus Teil 2.

    Warum die meisten Multi-Agenten-Framework-Vergleiche an Ihrem Problem vorbeigehen?

    Die typischen Vergleichstabellen bewerten Geschwindigkeit, Entwicklerfreundlichkeit, GitHub-Sterne und Token-Verbrauch in einem Benchmark-Szenario. Diese Kriterien sind Teil der Bewertung. Sie reichen nicht aus, weil sie wenig über die Wahrscheinlichkeit aussagen, dass ein Framework in 18 Monaten produktiv tragfähig ist.

    Nach Teil 2 dieser Serie ist die Ausgangslage anders. Sie haben die drei Architekturentscheidungen für KI-Compliance getroffen: wo Determinismus gefordert ist und wo Probabilistik genügt, ob Knowledge Graph und Vektorsuche kombiniert werden, ob ein Workflow als Pipeline oder als orchestrierter Agent läuft. Die Framework-Frage lautet jetzt: Welches Werkzeug setzt diese Entscheidungen am sichersten um, in einem Markt, dessen Anbieter alle paar Monate ihre Roadmap revidieren?

    Die Bewertungs-Achsen verschieben sich. Audit-Primitives werden zur Pflicht-Achse, weil EU AI Act und DORA Lifecycle-Logging fordern. Vendor-Velocity-Risiko ersetzt GitHub-Sterne als Stabilitäts-Indikator. Reifegrad zählt doppelt: bezogen auf das Framework selbst und bezogen auf das Team, das damit arbeiten soll.

    Welche Frameworks gibt es überhaupt?

    Wenn Sie nur die englischsprachige Tech-Diskussion verfolgen, sehen Sie vier bis fünf Namen: LangGraph, CrewAI, AutoGen, LlamaIndex. In Stellenanzeigen aus dem deutschen Mittelstand tauchen diese Namen seltener auf als in Konzern-Anzeigen. Häufiger steht dort generisch "KI-Engineer" oder "Data Scientist mit LLM-Erfahrung". Mittelständische IT-Abteilungen mit drei Senioren, von denen einer KI macht, wählen das, was vorhandenes Wissen am wenigsten entwertet.

    Skill-Bias dieser Art ist quantifizierbar. In Deutschland sind 109.000 IT-Stellen unbesetzt, 85 Prozent der Unternehmen melden Fachkräftemangel3. Die Stanford-ADP-Studie von August 2025 zeigt für die USA, dass Beschäftigung von Software-Entwicklern zwischen 22 und 25 Jahren in stark KI-exponierten Tätigkeiten seit Ende 2022 um etwa 13 Prozent zurückgegangen ist, während die gleiche Altersgruppe in nicht KI-exponierten Berufen Wachstum verzeichnet4. In Deutschland zeigt sich das gleiche Muster: Indeed Hiring Lab meldet für Softwareentwicklung einen Rückgang offener Stellen um 33 Prozent zwischen Januar und November 20245. Bei der Bundesagentur für Arbeit waren im Juli 2025 31 Prozent mehr Softwareentwickler arbeitslos gemeldet als im Vorjahr6. 70 Prozent der Beschäftigten erhalten keine KI-Fortbildung durch ihren Arbeitgeber7. Wenn der Senior-Pool dünn besetzt ist und über Junior-Pipelines kaum nachwächst, fallen Architekturentscheidungen entlang dessen, was im Team bereits da ist.

    Statt einer Top-Liste lohnt eine Cluster-Sicht. Fünf Cluster bilden den realen Markt ab, jeder mit einem oder zwei Vertretern.

    Fünf Cluster der Multi-Agenten-Framework-LandschaftCluster 1Code-First mitPersistenceLangGraphAudit-Trail, CheckpointingCluster 2RollenbasierteMulti-AgentenCrewAI, AutoGen / MAFmehrstufige AnalyseCluster 3Workflow-Enginesmit AILlamaIndex, n8nSelf-Host, Low-CodeCluster 4DACH-Open-Source undkontrollierter EigenbauHaystack, OpenAI / Claude SDKDatenresidenz, air-gappedCluster 5Cloud-nativeAgent-ServicesAzure AI Foundry, BedrockPlattform-Compliance erbtSkill-Bias-Realität im DACH-Mittelstand109.000 unbesetzte IT-Stellen in DeutschlandBitkom 2025Junior-Stellen Software: 13 bis 20 Prozent Rückgang seit 2022Stanford-ADP-Studie70 Prozent der Beschäftigten erhalten keine KI-FortbildungWenn der Skill-Pool dünn ist, gewinnt das Vertraute.Das ist seltener das Geeignete.

    Cluster eins: Code-First-Orchestrierung mit Persistence. Vertreter: LangGraph. Stärke bei Audit-Trail und Checkpointing. Cluster zwei: rollenbasierte Multi-Agenten-Frameworks. Vertreter: CrewAI und AutoGen, jetzt Microsoft Agent Framework. Stärke bei mehrstufigen Analyseaufgaben. Cluster drei: Workflow-Engines mit AI. Vertreter: LlamaIndex Workflows und n8n. Stärke bei Integration in bestehende Prozesse, n8n besonders bei Self-Hosting. Cluster vier: DACH-Open-Source und kontrollierter Eigenbau. Vertreter: Haystack von deepset Berlin und der direkte Zugriff auf OpenAI Agents SDK oder Claude Agent SDK. Stärke bei Datenresidenz und behördlichen Anforderungen. Cluster fünf: Cloud-native Agent-Services. Vertreter: Azure AI Foundry Agent Service und AWS Bedrock Agents. Stärke bei vorhandenen Cloud-Verträgen und Compliance-Zertifikaten.

    Diese Aufteilung ordnet die Landschaft, ohne sie zu bewerten. Sie ist die Voraussetzung dafür, mit den nächsten neun Kriterien sinnvoll arbeiten zu können.

    Welche neun Kriterien ergänzen die klassische Architektur-Checkliste?

    Eine klassische Architektur-Checkliste prüft sechs nicht-funktionale Anforderungen: Resilienz, Skalierbarkeit, Wartbarkeit, Austauschbarkeit, Sicherheit, Kosten. Diese sechs bleiben Pflicht. Sobald die Entscheidung in einem Feld fällt, das sich schneller verändert als die typische Lebensdauer eines Software-Systems, brauchen sie Ergänzungen.

    Im Workshop mit dem RegTech-Scale-Up haben wir die Checkliste um neun Punkte ergänzt. Jeder Punkt hat einen technischen und einen organisatorischen Anteil.

    Klassische Architektur-Checkliste, ergänzt um neun KI-spezifische KriterienKlassische NFR-Checklisteweiterhin Pflicht1. Resilienz2. Skalierbarkeit3. Wartbarkeit4. Austauschbarkeit5. Sicherheit6. KostenKI-spezifische Ergänzungenneu für Multi-Agenten-Architekturen1. Modell-Agnostik2. Vendor-Velocity-Risiko3. Reproduzierbarkeit4. Token-Kosten-Trajektorie5. Datenresidenz-Routing6. Reifegrad vs. Skill-Pool7. Lock-in pro Layer8. Capability-Gap-Erkennung9. Regulatorische RoadmapTriggerDer Markt sortiert sich alle sechs Monate neu.Klassische NFRs reichen für Felder ohne etablierte Best Practices nicht aus.

    Modell-Agnostik und LLM-Swappability. Ist die Geschäftslogik vom Modell-Provider entkoppelt? Können Sie GPT, Claude und Mistral durch eine Konfigurationsänderung tauschen, ohne den Anwendungscode anzufassen? LangGraph, CrewAI, AutoGen und Haystack sind modell-agnostisch. OpenAI Agents SDK und Claude Agent SDK sind es nicht. Das ist eine Lock-in-Achse, die in 18 Monaten teuer werden kann.

    Vendor-Velocity-Risiko. Wer trägt das Framework, wie stabil ist die Trägerschaft? LangChain Inc. hat im Oktober 2025 eine Series B über 125 Millionen Dollar bei 1,25 Milliarden Bewertung abgeschlossen8. Microsoft hat AutoGen in MAF überführt. CrewAI ist 2024 gegründet und hat eine Series A über 18 Millionen Dollar abgeschlossen, geführt von Insight Partners17. deepset hat im August 2023 eine Series B über 30 Millionen Dollar abgeschlossen, geführt von Balderton Capital18. Diese Zahlen sagen nichts über Produktqualität, aber etwas über die Wahrscheinlichkeit, dass das Projekt in zwei Jahren noch existiert oder gepflegt wird.

    Reproduzierbarkeit trotz stochastischer Outputs. EU AI Act Artikel 12 verlangt automatisches Logging über den gesamten Lebenszyklus von Hochrisiko-KI-Systemen9. DORA Artikel 12 verlangt Vergleichbares für den Finanzsektor seit Januar 202510. Frameworks mit nativen Eval-Suites, Trace-Logs und Seed-Management sind hier strukturell im Vorteil.

    Token-Kosten-Trajektorie und Cost-Observability. Eine 30-Schritt-Konversation auf einem aktuellen Top-Modell kostet je nach Modell und Kontextgröße ungefähr 0,50 bis 2,00 Dollar pro Ausführung (Schätzung auf Basis aktueller Anbieter-Preislisten). Bei 10.000 täglichen Ausführungen sind das 5.000 bis 20.000 Dollar pro Tag, nur für LLM-Aufrufe11. Ein Framework, das diese Kosten pro Trace nicht sichtbar macht, erschwert die spätere Modell-Substitution erheblich.

    Datenresidenz und Routing-Kontrolle. Welche Daten dürfen wohin? Lässt sich das im Framework durchsetzen? Haystack erlaubt air-gapped Deployment. Azure AI Foundry liefert EU-Regionen. n8n unterstützt Self-Hosting nativ. OpenAI- und Claude-SDKs sind an die jeweiligen US-Anbieter gekoppelt, mit EU-Data-Boundary-Versprechen.

    Reifegrad gegenüber dem Skill-Pool. Welche Frameworks beherrscht Ihr Team, ohne ein Schulungsprojekt zu starten? Welche müssten Sie über externe Berater einkaufen oder über Quereinsteiger aufbauen? 22 Prozent der Mittelständler setzen auf Quereinsteiger-Programme12. Diese Programme decken meist die Frameworks ab, die im Diskursraum sichtbar sind, nicht die, die zu Ihrer Architektur passen.

    Lock-in pro Layer separat. Bewerten Sie Lock-in nicht aggregiert. Trennen Sie Modell-Lock-in, Framework-Lock-in, Vector-DB-Lock-in und Observability-Lock-in. Ein Framework kann modell-agnostisch sein und trotzdem Sie an seine Observability-Plattform binden. LangGraph zieht Teams in Richtung LangSmith. Das ist legitim, sollte aber bewusst entschieden werden.

    Capability-Gap-Erkennung. Wann ist Ihr Stack zu klein für die Aufgabe? Welche Trigger zeigen das früh? Ein Framework, das nicht protokolliert, wann es an seine Grenzen kommt, lässt Sie den Wechsel zu spät bemerken.

    Regulatorische Roadmap-Alignment. EU AI Act tritt in Phasen bis 2027 in Kraft. DORA gilt seit Januar 2025. NIS2 ist in Deutschland im Umsetzungsprozess. BSI C5:2026 ist seit April 2026 die neue Cloud-Sicherheits-Bezugsnorm. Welche Framework-Features bilden diese Anforderungen heute ab, welche sind angekündigt, welche fehlen?

    Wie schneiden die vier Frameworks gegen diese Kriterien ab?

    Wir bewerten LangGraph, CrewAI, Microsoft Agent Framework und Haystack entlang der neun Kriterien plus der drei Audit-Primitives Checkpointing, Replay und Human-in-the-Loop. Die Bewertung folgt veröffentlichten Quellen und eigener Praxis. Sie ist eine Momentaufnahme im April 2026.

    Vier Frameworks gegen neun Kriterien plus drei Audit-Primitives, Stand April 2026

    KriteriumLangGraphCrewAIMAF (Microsoft)Haystack
    Modell-Agnostikhochhochhochhoch
    Vendor-Velocity-Risikomittel (Series B 2025)hoch (junges Unternehmen, 2024)niedrig (Microsoft)mittel (Series B 2023)
    Audit-Trail nativnativ über LangSmithextern bauenOpenTelemetry, Entra-IDLogging eingebaut
    Checkpointingnativ, Time-TravelCustom-Bauen über Celery/Redisnativ (MAF 1.0)über Document Stores
    Human-in-the-LoopexplizitValidation-NodesnativPipeline-Komposition
    DatenresidenzCloud + Self-HostedCrewAI Enterprise (Cloud)Azure-Regionen EUon-prem, air-gapped
    Reifegrad (Stand 04/2026)1.0 GA seit 10/20251.0 stabil seit Ende 20251.0 GA 04/2026 (Konsolidierung)etabliert seit 2020
    Skill-Pool DACH-Mittelstandwachsendmittelwächst (Microsoft-Ökosystem)gut bei DACH-Open-Source-Teams
    Lock-in pro LayerModell niedrig, Observability hochniedrigmittel (Azure)niedrig

    LangGraph

    Modell-Agnostik
    hoch
    Vendor-Velocity-Risiko
    mittel (Series B 2025)
    Audit-Trail nativ
    nativ über LangSmith
    Checkpointing
    nativ, Time-Travel
    Human-in-the-Loop
    explizit
    Datenresidenz
    Cloud + Self-Hosted
    Reifegrad (Stand 04/2026)
    1.0 GA seit 10/2025
    Skill-Pool DACH-Mittelstand
    wachsend
    Lock-in pro Layer
    Modell niedrig, Observability hoch

    CrewAI

    Modell-Agnostik
    hoch
    Vendor-Velocity-Risiko
    hoch (junges Unternehmen, 2024)
    Audit-Trail nativ
    extern bauen
    Checkpointing
    Custom-Bauen über Celery/Redis
    Human-in-the-Loop
    Validation-Nodes
    Datenresidenz
    CrewAI Enterprise (Cloud)
    Reifegrad (Stand 04/2026)
    1.0 stabil seit Ende 2025
    Skill-Pool DACH-Mittelstand
    mittel
    Lock-in pro Layer
    niedrig

    MAF (Microsoft)

    Modell-Agnostik
    hoch
    Vendor-Velocity-Risiko
    niedrig (Microsoft)
    Audit-Trail nativ
    OpenTelemetry, Entra-ID
    Checkpointing
    nativ (MAF 1.0)
    Human-in-the-Loop
    nativ
    Datenresidenz
    Azure-Regionen EU
    Reifegrad (Stand 04/2026)
    1.0 GA 04/2026 (Konsolidierung)
    Skill-Pool DACH-Mittelstand
    wächst (Microsoft-Ökosystem)
    Lock-in pro Layer
    mittel (Azure)

    Haystack

    Modell-Agnostik
    hoch
    Vendor-Velocity-Risiko
    mittel (Series B 2023)
    Audit-Trail nativ
    Logging eingebaut
    Checkpointing
    über Document Stores
    Human-in-the-Loop
    Pipeline-Komposition
    Datenresidenz
    on-prem, air-gapped
    Reifegrad (Stand 04/2026)
    etabliert seit 2020
    Skill-Pool DACH-Mittelstand
    gut bei DACH-Open-Source-Teams
    Lock-in pro Layer
    niedrig

    Drei Beobachtungen aus dieser Tabelle wiegen schwerer als die Einzelwertungen. Erstens gewinnt kein Framework auf allen neun Achsen. Zweitens ist das Framework mit der besten Audit-Trail-Story (LangGraph) nicht das mit der besten Datenresidenz-Story (Haystack). Drittens unterscheiden sich die Lock-in-Achsen pro Layer, nicht pro Framework. Wer LangGraph mit LangSmith kombiniert, hat eine andere Lock-in-Struktur als wer LangGraph mit eigener Observability betreibt.

    Eine Anmerkung zu Microsoft Agent Framework: 1.0 ist im April 2026 frisch GA, das wirkt im Reifegrad-Indikator zunächst neu. Tatsächlich ist MAF die Konsolidierung von AutoGen (Microsoft Research, seit 2023 produktiv eingesetzt) und Semantic Kernel (seit 2023 stabil). Die Code-Basis und das Engineering-Team haben mehrere Jahre Produktiv-Erfahrung. Was neu ist, ist die zusammengeführte API, nicht die Substanz dahinter2.

    Wo Framework-Wahl doch architektonisch entscheidet

    Die Kernthese aus Teil 2 lautet: Architektur trägt schwerer als die Framework-Wahl. Diese These muss präzisiert werden. Es gibt eine Stelle, an der die Framework-Wahl materiell auf das Compliance-Ergebnis durchschlägt: die Audit-Primitives.

    DORA Artikel 12 verlangt automatisches Logging über den Lebenszyklus von IKT-Systemen10. EU AI Act Artikel 12 verlangt Vergleichbares für Hochrisiko-KI9. Frameworks mit nativem Checkpointing, Time-Travel-Debugging und persistenten State-Graphen erfüllen diese Anforderung mit deutlich weniger Eigenbau als Frameworks, in denen Sie Persistence, Replay und Audit-Trail manuell aufsetzen.

    LangGraph hat hier einen messbaren Vorsprung. Klassisches AutoGen hatte ihn nicht, MAF holt auf. CrewAI verlangt Custom-Bauen über Celery-Queues und Redis-Stores13. Wenn DORA oder ein vergleichbarer Audit-Anspruch der primäre Treiber Ihrer Architektur ist, ist das eine Stelle, an der Framework-Wahl architektonisch wird. Es ist genau ein Kriterium von neun. Es kann je nach Mandat das wichtigste sein.

    Was muss der Mittelstand beachten, was Konzerne ignorieren können?

    Konzerne federn Switch-Kosten ab. Sie haben dedizierte AI-Plattform-Teams, die einen Framework-Wechsel in zwölf Monaten vollziehen. Im Mittelstand fehlt diese Reserve. Das KfW-Mittelstandspanel zeigt für Februar 2026: 20 Prozent der KMU nutzen KI, bei FuE-treibenden Unternehmen liegt die Quote bei 53 Prozent. Die Lücke entsteht oft dort, wo Skill-Pool und Plattform-Reserve fehlen14. 76 Prozent der KMU haben kein KI-Governance-Framework, 91 Prozent halten es für kritisch15. 19 Prozent haben einen strukturierten KI-Fahrplan. Diese Lücke ist die eigentliche Herausforderung.

    Drei Punkte verschieben sich daraus für den Mittelstand. Erstens der Skill-Pool. Wenn Ihre IT-Abteilung aus drei Senioren besteht, verschiebt sich die Frage. Welches Framework können diese drei in vier Wochen produktiv beherrschen? Technische Überlegenheit auf dem Papier hilft wenig, solange das Team die Implementierung nicht trägt. Zweitens die Datenresidenz aus Teil 2 zur Architektur. Ein 200-Personen-Unternehmen schickt seine internen Audit-Dokumente in der Regel nicht in eine US-Cloud. Frameworks mit air-gapped Pfad oder Self-Hosting-Option bekommen damit ein anderes Gewicht als in Konzernkontexten. Drittens die Vendor-Velocity. Im Mittelstand kostet ein erzwungener Framework-Wechsel mehrere Quartale Liefergeschwindigkeit, weil das Plattform-Team fehlt, das den Wechsel parallel zum Produktivbetrieb stemmt.

    Hidden-Champion-Realität sieht oft anders aus als die englischsprachige Diskussion vermuten lässt. Haystack, das deutsche Open-Source-Framework von deepset, hat dokumentierte Produktionseinsätze bei der Europäischen Kommission, dem BMFTR, der Bundeswehr, dem Land Baden-Württemberg, Airbus, Lufthansa Industry Solutions, Infineon und LEGO16. Diese Liste taucht in den großen englischsprachigen Top-5-Vergleichen kaum auf. Für einen Maschinenbauer aus Baden-Württemberg mit Fokus auf Datensouveränität ist sie ein wesentlicher Datenpunkt.

    Wie wählen Sie den passenden Framework-Cluster für Ihre Architektur?

    Statt einer Empfehlung pro Framework eine fünfstufige Heuristik. Sie priorisiert vom wichtigsten Treiber zum sekundären.

    Entscheidungs-Heuristik: Welcher Cluster ist der bessere Ausgangspunkt?Was ist Ihr primärer Treiber?Reihenfolge: vom wichtigsten zum sekundärenAudit-Pflicht primärDORA, EU AI Act→ Cluster 1(LangGraph)Datensouveränität primärKRITIS, Bundeswehr, Pharma→ Cluster 4 (Haystack)oder 3 (n8n)Cloud-Stack vorhandenAzure / AWS Verträge→ Cluster 5 (MAF,Bedrock)Sekundäre Treiber, falls keiner der drei oben passt:Mehrstufige AnalyseResearcher, Reviewer, Approver→ Cluster 2 (CrewAI)Skill-Pool dünnschnelle Integration nötig→ Cluster 3 (n8n, Low-Code)Hinweis: Heuristik kombiniert oft zwei ClusterEine echte Architektur kombiniert oft zwei Cluster:Haystack für Knowledge Graph und Retrieval-Logik+ LangGraph für Agent-Orchestrierung+ Postgres für PersistenceEmpfehlungPro Layer die jeweils stärkste Option auswählen.
    1. Wenn DORA, EU AI Act oder eine vergleichbare Audit-Pflicht der primäre Treiber ist, prüfen Sie zuerst Cluster eins (Code-First mit Persistence, Vertreter LangGraph). Native Checkpointing-Primitives sparen Eigenbau-Aufwand und erleichtern Audit-Vorbereitung.
    2. Wenn Datensouveränität nicht verhandelbar ist (KRITIS, Bundeswehr, BaFin-regulierte Häuser, Pharma mit Werkstoffdaten), prüfen Sie zuerst Cluster vier (DACH-Open-Source, Vertreter Haystack) oder Cluster drei mit Self-Hosting (n8n). Air-gapped oder on-prem-Pfade sind dort am besten dokumentiert.
    3. Wenn Sie auf einem Microsoft- oder AWS-Stack sitzen, mit aktiven Enterprise-Verträgen und C5-Bescheinigungen, prüfen Sie zuerst Cluster fünf (Cloud-native, Vertreter MAF auf Azure AI Foundry oder Bedrock Agents). Sie erben Compliance-Zertifizierungen von der Plattform.
    4. Wenn der Use Case in mehrstufigen Analyseworkflows liegt mit klaren Rollen (Researcher, Reviewer, Approver), und Audit-Trail nicht Top-Priorität ist, prüfen Sie zuerst Cluster zwei (rollenbasiert, Vertreter CrewAI). Schnellster Prototypenbau, geringste Lernkurve.
    5. Wenn der Skill-Pool dünn ist und schnelle Integration in bestehende Workflows gefragt ist, prüfen Sie zuerst Cluster drei mit n8n. Low-Code reduziert die Anforderung an Senior-Engineering.

    Diese Heuristik ist nicht ausschließlich. Eine echte Architektur-Entscheidung kombiniert oft zwei Cluster. Haystack für die KG- und Retrieval-Logik, LangGraph für die Agent-Orchestrierung darüber, Postgres für die Persistence. Solche Kombinationen sind häufig die robusteste Antwort, weil sie pro Layer die jeweils stärkste Option wählen.

    Unsere Einordnung

    Im Workshop mit dem RegTech-Scale-Up endeten drei Stunden mit einer Einsicht, die wir vorher nicht erwartet hatten. Wir hatten am Ende kein Framework ausgewählt. Wir hatten ein Bewertungs-Verfahren entworfen. Das Verfahren trägt den eigentlichen Wert, weil es auch in sechs Monaten noch hält, wenn die Wahl, die heute daraus folgt, bereits durch eine andere ersetzt sein wird.

    Die These aus Teil 2 hält: Architekturentscheidungen wiegen schwerer als die Framework-Wahl. Sie braucht eine Präzisierung. Audit-Primitives sind die eine Stelle, an der Framework-Wahl materiell auf das Compliance-Ergebnis durchschlägt. Wer DORA oder EU AI Act in der Verantwortung hat, gewichtet diese Achse höher als die anderen acht. Wer ein internes Wissensmanagement-System baut, kann sie niedriger gewichten.

    Was wir bei Convios in Mandaten regelmäßig sehen: Die Skill-Pool-Frage wird unterschätzt. Ein Framework, das im Whitepaper überlegen wirkt, kostet im Mittelstand das Doppelte, wenn die vorhandenen Senioren es nicht beherrschen. Externer Aufbau dauert sechs bis zwölf Monate (Aufbau-Dauer aus Teil 1 zu Multi-Agenten-RAG). In dieser Zeit sortiert sich der Markt weiter.

    Die ehrlichste, manchmal unbequeme Antwort lautet: Wählen Sie das Framework, das Ihre vorhandenen Senioren in vier Wochen produktiv beherrschen, und investieren Sie die freigewordene Zeit in die saubere Architektur drumherum. Eine Architektur überlebt einen Framework-Wechsel mit überschaubarem Aufwand, sofern sie modular gebaut ist. Wo das nicht gegeben ist, zieht jeder Framework-Wechsel einen Rewrite nach sich.

    ThoughtWorks hat im November 2025 LangGraph aus Adopt genommen. Sechs Monate vorher war es die Default-Wahl. Sechs Monate später kann etwas anderes Default sein. Eine Architektur, die diese Bewegung übersteht, macht die Framework-Frage zur Detailfrage. Genau das ist das Ziel.

    Wenn Sie Ihre Framework-Auswahl gegen diese neun Kriterien prüfen wollen oder ein eigenes Bewertungs-Verfahren entwickeln möchten, starten wir mit einem 30-minütigen Erstgespräch.

    Quellen

    1ThoughtWorks Technology Radar Volume 33, November 2025: LangGraph aus dem Adopt-Ring entfernt

    2Microsoft Agent Framework GA 1.0: Konsolidierung von AutoGen und Semantic Kernel, April 2026

    3Bitkom Fachkräfte-Studie 2025: 109.000 unbesetzte IT-Stellen, 85 Prozent Mangelmeldung

    4Brynjolfsson, Chandar, Chen: Canaries in the Coal Mine?, Stanford Digital Economy Lab, August 2025: Beschäftigungsrückgang von 13 Prozent bei 22- bis 25-jährigen Software-Entwicklern in stark KI-exponierten Berufen seit Ende 2022

    5Indeed Hiring Lab Deutschland, Jobs and Hiring Trends Report 2025: Softwareentwicklung minus 33,3 Prozent offene Stellen Januar bis November 2024

    6Bundesagentur für Arbeit, IT-Arbeitsmarktbericht Juli 2025: 31,3 Prozent mehr arbeitslose Softwareentwickler im Jahresvergleich

    7Bitkom KI-Studie 2026: 70 Prozent der Beschäftigten erhalten keine KI-Fortbildung

    8LangChain Series B Oktober 2025: 125 Millionen Dollar bei 1,25 Milliarden Bewertung

    9EU AI Act Artikel 12: Logging-Pflichten für Hochrisiko-KI-Systeme

    10DORA Artikel 12: Logging-Anforderungen für IKT-Systeme im Finanzsektor, in Kraft seit 17.01.2025

    11Token-Kostenanalyse für Multi-Agenten-Workflows, Beispielrechnung GPT-4o

    12Bitkom IT-Fachkräfte-Studie 2025: 22 Prozent der Unternehmen mit Quereinsteiger-Programmen

    13Vergleich der Audit-Trail-Implementierung in LangGraph, CrewAI und AutoGen

    14KfW-Mittelstandspanel, Fokus Volkswirtschaft Nr. 533, Februar 2026: 20 Prozent der KMU nutzen KI, 53 Prozent bei FuE-treibenden Unternehmen

    15Maximal Digital KMU-Studie 2025 (n=455): 76 Prozent ohne KI-Governance, 91 Prozent halten es für kritisch, 19 Prozent mit strukturiertem KI-Fahrplan

    16deepset Produktionsreferenzen Haystack, dokumentierte Public-Sector- und DACH-Industrie-Einsätze

    17Insight Partners "Behind the Investment: CrewAI" (Lead-Investor der Series A)

    18TechCrunch, 9. August 2023: deepset secures 30m Series B led by Balderton Capital

    Hat Ihnen dieser Artikel geholfen?

    Sie haben Fragen zu diesem Thema?

    Gespräch vereinbaren