AI & TechnologieSoftware & Delivery

Multi-Agenten-Framework für den Mittelstand: Vier Kandidaten, neun Kriterien, eine unbequeme Antwort

Dr. Oliver Gausmann · 29. April 2026 · 11 Min. Lesezeit

Wand mit hunderten Farbkarten in einem geordneten Raster, sortiert von Grün über Blau zu Lila

Vor zwei Wochen, Workshop bei einem RegTech-Scale-Up. Auf dem Whiteboard stand eine Frage zur Auswahl eines Multi-Agenten-Framework für den Mittelstand: LangGraph oder CrewAI? Drei Stunden später stand dort eine längere Liste an Bewertungskriterien. Vendor-Stabilität, Skill-Pool im eigenen Team, regulatorische Roadmap, Audit-Primitives. Manches davon technisch, vieles davon organisatorisch. Am Ende war jede dieser Achsen relevanter als die Ausgangsfrage.

Im November 2025 hat ThoughtWorks LangGraph aus dem Adopt-Ring genommen¹. Im April 2026 hat Microsoft AutoGen und Semantic Kernel zu Microsoft Agent Framework konsolidiert². Wer im Frühjahr 2025 auf eines dieser Frameworks gesetzt hat, schaut heute auf eine andere Empfehlungslandschaft. Das ist die normale Geschwindigkeit eines Feldes ohne etablierte Best Practices, und es verändert, wie Sie eine Architekturentscheidung treffen.

Vier Frameworks dominieren den Markt für Multi-Agenten-Architekturen: LangGraph, CrewAI, Microsoft Agent Framework und Haystack. Welches davon für den Mittelstand passt, entscheidet sich über neun Kriterien, die klassische Architektur-Checklisten ergänzen. GitHub-Sterne und Benchmark-Geschwindigkeit reichen für diese Wahl nicht aus. Audit-Primitives, Vendor-Velocity-Risiko und der verfügbare Skill-Pool wiegen schwerer als jede Feature-Liste. Dieser Artikel liefert die neun Kriterien, eine Cluster-Sicht auf die Framework-Landschaft und eine Heuristik für die Auswahl entlang der Architekturentscheidungen aus Teil 2.

Warum die meisten Multi-Agenten-Framework-Vergleiche an Ihrem Problem vorbeigehen?

Die typischen Vergleichstabellen bewerten Geschwindigkeit, Entwicklerfreundlichkeit, GitHub-Sterne und Token-Verbrauch in einem Benchmark-Szenario. Diese Kriterien sind Teil der Bewertung. Sie reichen nicht aus, weil sie wenig über die Wahrscheinlichkeit aussagen, dass ein Framework in 18 Monaten produktiv tragfähig ist.

Nach Teil 2 dieser Serie ist die Ausgangslage anders. Sie haben die drei Architekturentscheidungen für KI-Compliance getroffen: wo Determinismus gefordert ist und wo Probabilistik genügt, ob Knowledge Graph und Vektorsuche kombiniert werden, ob ein Workflow als Pipeline oder als orchestrierter Agent läuft. Die Framework-Frage lautet jetzt: Welches Werkzeug setzt diese Entscheidungen am sichersten um, in einem Markt, dessen Anbieter alle paar Monate ihre Roadmap revidieren?

Die Bewertungs-Achsen verschieben sich. Audit-Primitives werden zur Pflicht-Achse, weil EU AI Act und DORA Lifecycle-Logging fordern. Vendor-Velocity-Risiko ersetzt GitHub-Sterne als Stabilitäts-Indikator. Reifegrad zählt doppelt: bezogen auf das Framework selbst und bezogen auf das Team, das damit arbeiten soll.

Welche Frameworks gibt es überhaupt?

Wenn Sie nur die englischsprachige Tech-Diskussion verfolgen, sehen Sie vier bis fünf Namen: LangGraph, CrewAI, AutoGen, LlamaIndex. In Stellenanzeigen aus dem deutschen Mittelstand tauchen diese Namen seltener auf als in Konzern-Anzeigen. Häufiger steht dort generisch "KI-Engineer" oder "Data Scientist mit LLM-Erfahrung". Mittelständische IT-Abteilungen mit drei Senioren, von denen einer KI macht, wählen das, was vorhandenes Wissen am wenigsten entwertet.

Skill-Bias dieser Art ist quantifizierbar. In Deutschland sind 109.000 IT-Stellen unbesetzt, 85 Prozent der Unternehmen melden Fachkräftemangel³. Die Stanford-ADP-Studie von August 2025 zeigt für die USA, dass Beschäftigung von Software-Entwicklern zwischen 22 und 25 Jahren in stark KI-exponierten Tätigkeiten seit Ende 2022 um etwa 13 Prozent zurückgegangen ist, während die gleiche Altersgruppe in nicht KI-exponierten Berufen Wachstum verzeichnet⁴. In Deutschland zeigt sich das gleiche Muster: Indeed Hiring Lab meldet für Softwareentwicklung einen Rückgang offener Stellen um 33 Prozent zwischen Januar und November 2024⁵. Bei der Bundesagentur für Arbeit waren im Juli 2025 31 Prozent mehr Softwareentwickler arbeitslos gemeldet als im Vorjahr⁶. 70 Prozent der Beschäftigten erhalten keine KI-Fortbildung durch ihren Arbeitgeber⁷. Wenn der Senior-Pool dünn besetzt ist und über Junior-Pipelines kaum nachwächst, fallen Architekturentscheidungen entlang dessen, was im Team bereits da ist.

Statt einer Top-Liste lohnt eine Cluster-Sicht. Fünf Cluster bilden den realen Markt ab, jeder mit einem oder zwei Vertretern.

Cluster eins: Code-First-Orchestrierung mit Persistence. Vertreter: LangGraph. Stärke bei Audit-Trail und Checkpointing. Cluster zwei: rollenbasierte Multi-Agenten-Frameworks. Vertreter: CrewAI und AutoGen, jetzt Microsoft Agent Framework. Stärke bei mehrstufigen Analyseaufgaben. Cluster drei: Workflow-Engines mit AI. Vertreter: LlamaIndex Workflows und n8n. Stärke bei Integration in bestehende Prozesse, n8n besonders bei Self-Hosting. Cluster vier: DACH-Open-Source und kontrollierter Eigenbau. Vertreter: Haystack von deepset Berlin und der direkte Zugriff auf OpenAI Agents SDK oder Claude Agent SDK. Stärke bei Datenresidenz und behördlichen Anforderungen. Cluster fünf: Cloud-native Agent-Services. Vertreter: Azure AI Foundry Agent Service und AWS Bedrock Agents. Stärke bei vorhandenen Cloud-Verträgen und Compliance-Zertifikaten.

Diese Aufteilung ordnet die Landschaft, ohne sie zu bewerten. Sie ist die Voraussetzung dafür, mit den nächsten neun Kriterien sinnvoll arbeiten zu können.

Welche neun Kriterien ergänzen die klassische Architektur-Checkliste?

Eine klassische Architektur-Checkliste prüft sechs nicht-funktionale Anforderungen: Resilienz, Skalierbarkeit, Wartbarkeit, Austauschbarkeit, Sicherheit, Kosten. Diese sechs bleiben Pflicht. Sobald die Entscheidung in einem Feld fällt, das sich schneller verändert als die typische Lebensdauer eines Software-Systems, brauchen sie Ergänzungen.

Im Workshop mit dem RegTech-Scale-Up haben wir die Checkliste um neun Punkte ergänzt. Jeder Punkt hat einen technischen und einen organisatorischen Anteil.

Modell-Agnostik und LLM-Swappability. Ist die Geschäftslogik vom Modell-Provider entkoppelt? Können Sie GPT, Claude und Mistral durch eine Konfigurationsänderung tauschen, ohne den Anwendungscode anzufassen? LangGraph, CrewAI, AutoGen und Haystack sind modell-agnostisch. OpenAI Agents SDK und Claude Agent SDK sind es nicht. Das ist eine Lock-in-Achse, die in 18 Monaten teuer werden kann.

Vendor-Velocity-Risiko. Wer trägt das Framework, wie stabil ist die Trägerschaft? LangChain Inc. hat im Oktober 2025 eine Series B über 125 Millionen Dollar bei 1,25 Milliarden Bewertung abgeschlossen⁸. Microsoft hat AutoGen in MAF überführt. CrewAI ist 2024 gegründet und hat eine Series A über 18 Millionen Dollar abgeschlossen, geführt von Insight Partners¹⁷. deepset hat im August 2023 eine Series B über 30 Millionen Dollar abgeschlossen, geführt von Balderton Capital¹⁸. Diese Zahlen sagen nichts über Produktqualität, aber etwas über die Wahrscheinlichkeit, dass das Projekt in zwei Jahren noch existiert oder gepflegt wird.

Reproduzierbarkeit trotz stochastischer Outputs. EU AI Act Artikel 12 verlangt automatisches Logging über den gesamten Lebenszyklus von Hochrisiko-KI-Systemen⁹. DORA Artikel 12 verlangt Vergleichbares für den Finanzsektor seit Januar 2025¹⁰. Frameworks mit nativen Eval-Suites, Trace-Logs und Seed-Management sind hier strukturell im Vorteil.

Token-Kosten-Trajektorie und Cost-Observability. Eine 30-Schritt-Konversation auf einem aktuellen Top-Modell kostet je nach Modell und Kontextgröße ungefähr 0,50 bis 2,00 Dollar pro Ausführung (Schätzung auf Basis aktueller Anbieter-Preislisten). Bei 10.000 täglichen Ausführungen sind das 5.000 bis 20.000 Dollar pro Tag, nur für LLM-Aufrufe¹¹. Ein Framework, das diese Kosten pro Trace nicht sichtbar macht, erschwert die spätere Modell-Substitution erheblich.

Datenresidenz und Routing-Kontrolle. Welche Daten dürfen wohin? Lässt sich das im Framework durchsetzen? Haystack erlaubt air-gapped Deployment. Azure AI Foundry liefert EU-Regionen. n8n unterstützt Self-Hosting nativ. OpenAI- und Claude-SDKs sind an die jeweiligen US-Anbieter gekoppelt, mit EU-Data-Boundary-Versprechen.

Reifegrad gegenüber dem Skill-Pool. Welche Frameworks beherrscht Ihr Team, ohne ein Schulungsprojekt zu starten? Welche müssten Sie über externe Berater einkaufen oder über Quereinsteiger aufbauen? 22 Prozent der Mittelständler setzen auf Quereinsteiger-Programme¹². Diese Programme decken meist die Frameworks ab, die im Diskursraum sichtbar sind, nicht die, die zu Ihrer Architektur passen.

Lock-in pro Layer separat. Bewerten Sie Lock-in nicht aggregiert. Trennen Sie Modell-Lock-in, Framework-Lock-in, Vector-DB-Lock-in und Observability-Lock-in. Ein Framework kann modell-agnostisch sein und trotzdem Sie an seine Observability-Plattform binden. LangGraph zieht Teams in Richtung LangSmith. Das ist legitim, sollte aber bewusst entschieden werden.

Capability-Gap-Erkennung. Wann ist Ihr Stack zu klein für die Aufgabe? Welche Trigger zeigen das früh? Ein Framework, das nicht protokolliert, wann es an seine Grenzen kommt, lässt Sie den Wechsel zu spät bemerken.

Regulatorische Roadmap-Alignment. EU AI Act tritt in Phasen bis 2027 in Kraft. DORA gilt seit Januar 2025. NIS2 ist in Deutschland im Umsetzungsprozess. BSI C5:2026 ist seit April 2026 die neue Cloud-Sicherheits-Bezugsnorm. Welche Framework-Features bilden diese Anforderungen heute ab, welche sind angekündigt, welche fehlen?

Wie schneiden die vier Frameworks gegen diese Kriterien ab?

Wir bewerten LangGraph, CrewAI, Microsoft Agent Framework und Haystack entlang der neun Kriterien plus der drei Audit-Primitives Checkpointing, Replay und Human-in-the-Loop. Die Bewertung folgt veröffentlichten Quellen und eigener Praxis. Sie ist eine Momentaufnahme im April 2026.

Vier Frameworks gegen neun Kriterien plus drei Audit-Primitives, Stand April 2026

Kriterium	LangGraph	CrewAI	MAF (Microsoft)	Haystack
Modell-Agnostik	hoch	hoch	hoch	hoch
Vendor-Velocity-Risiko	mittel (Series B 2025)	hoch (junges Unternehmen, 2024)	niedrig (Microsoft)	mittel (Series B 2023)
Audit-Trail nativ	nativ über LangSmith	extern bauen	OpenTelemetry, Entra-ID	Logging eingebaut
Checkpointing	nativ, Time-Travel	Custom-Bauen über Celery/Redis	nativ (MAF 1.0)	über Document Stores
Human-in-the-Loop	explizit	Validation-Nodes	nativ	Pipeline-Komposition
Datenresidenz	Cloud + Self-Hosted	CrewAI Enterprise (Cloud)	Azure-Regionen EU	on-prem, air-gapped
Reifegrad (Stand 04/2026)	1.0 GA seit 10/2025	1.0 stabil seit Ende 2025	1.0 GA 04/2026 (Konsolidierung)	etabliert seit 2020
Skill-Pool DACH-Mittelstand	wachsend	mittel	wächst (Microsoft-Ökosystem)	gut bei DACH-Open-Source-Teams
Lock-in pro Layer	Modell niedrig, Observability hoch	niedrig	mittel (Azure)	niedrig

LangGraph

Modell-Agnostik: hoch
Vendor-Velocity-Risiko: mittel (Series B 2025)
Audit-Trail nativ: nativ über LangSmith
Checkpointing: nativ, Time-Travel
Human-in-the-Loop: explizit
Datenresidenz: Cloud + Self-Hosted
Reifegrad (Stand 04/2026): 1.0 GA seit 10/2025
Skill-Pool DACH-Mittelstand: wachsend
Lock-in pro Layer: Modell niedrig, Observability hoch

CrewAI

Modell-Agnostik: hoch
Vendor-Velocity-Risiko: hoch (junges Unternehmen, 2024)
Audit-Trail nativ: extern bauen
Checkpointing: Custom-Bauen über Celery/Redis
Human-in-the-Loop: Validation-Nodes
Datenresidenz: CrewAI Enterprise (Cloud)
Reifegrad (Stand 04/2026): 1.0 stabil seit Ende 2025
Skill-Pool DACH-Mittelstand: mittel
Lock-in pro Layer: niedrig

MAF (Microsoft)

Modell-Agnostik: hoch
Vendor-Velocity-Risiko: niedrig (Microsoft)
Audit-Trail nativ: OpenTelemetry, Entra-ID
Checkpointing: nativ (MAF 1.0)
Human-in-the-Loop: nativ
Datenresidenz: Azure-Regionen EU
Reifegrad (Stand 04/2026): 1.0 GA 04/2026 (Konsolidierung)
Skill-Pool DACH-Mittelstand: wächst (Microsoft-Ökosystem)
Lock-in pro Layer: mittel (Azure)

Haystack

Modell-Agnostik: hoch
Vendor-Velocity-Risiko: mittel (Series B 2023)
Audit-Trail nativ: Logging eingebaut
Checkpointing: über Document Stores
Human-in-the-Loop: Pipeline-Komposition
Datenresidenz: on-prem, air-gapped
Reifegrad (Stand 04/2026): etabliert seit 2020
Skill-Pool DACH-Mittelstand: gut bei DACH-Open-Source-Teams
Lock-in pro Layer: niedrig

Drei Beobachtungen aus dieser Tabelle wiegen schwerer als die Einzelwertungen. Erstens gewinnt kein Framework auf allen neun Achsen. Zweitens ist das Framework mit der besten Audit-Trail-Story (LangGraph) nicht das mit der besten Datenresidenz-Story (Haystack). Drittens unterscheiden sich die Lock-in-Achsen pro Layer, nicht pro Framework. Wer LangGraph mit LangSmith kombiniert, hat eine andere Lock-in-Struktur als wer LangGraph mit eigener Observability betreibt.

Eine Anmerkung zu Microsoft Agent Framework: 1.0 ist im April 2026 frisch GA, das wirkt im Reifegrad-Indikator zunächst neu. Tatsächlich ist MAF die Konsolidierung von AutoGen (Microsoft Research, seit 2023 produktiv eingesetzt) und Semantic Kernel (seit 2023 stabil). Die Code-Basis und das Engineering-Team haben mehrere Jahre Produktiv-Erfahrung. Was neu ist, ist die zusammengeführte API, nicht die Substanz dahinter².

Wo Framework-Wahl doch architektonisch entscheidet

Die Kernthese aus Teil 2 lautet: Architektur trägt schwerer als die Framework-Wahl. Diese These muss präzisiert werden. Es gibt eine Stelle, an der die Framework-Wahl materiell auf das Compliance-Ergebnis durchschlägt: die Audit-Primitives.

DORA Artikel 12 verlangt automatisches Logging über den Lebenszyklus von IKT-Systemen¹⁰. EU AI Act Artikel 12 verlangt Vergleichbares für Hochrisiko-KI⁹. Frameworks mit nativem Checkpointing, Time-Travel-Debugging und persistenten State-Graphen erfüllen diese Anforderung mit deutlich weniger Eigenbau als Frameworks, in denen Sie Persistence, Replay und Audit-Trail manuell aufsetzen.

LangGraph hat hier einen messbaren Vorsprung. Klassisches AutoGen hatte ihn nicht, MAF holt auf. CrewAI verlangt Custom-Bauen über Celery-Queues und Redis-Stores¹³. Wenn DORA oder ein vergleichbarer Audit-Anspruch der primäre Treiber Ihrer Architektur ist, ist das eine Stelle, an der Framework-Wahl architektonisch wird. Es ist genau ein Kriterium von neun. Es kann je nach Mandat das wichtigste sein.

Was muss der Mittelstand beachten, was Konzerne ignorieren können?

Konzerne federn Switch-Kosten ab. Sie haben dedizierte AI-Plattform-Teams, die einen Framework-Wechsel in zwölf Monaten vollziehen. Im Mittelstand fehlt diese Reserve. Das KfW-Mittelstandspanel zeigt für Februar 2026: 20 Prozent der KMU nutzen KI, bei FuE-treibenden Unternehmen liegt die Quote bei 53 Prozent. Die Lücke entsteht oft dort, wo Skill-Pool und Plattform-Reserve fehlen¹⁴. 76 Prozent der KMU haben kein KI-Governance-Framework, 91 Prozent halten es für kritisch¹⁵. 19 Prozent haben einen strukturierten KI-Fahrplan. Diese Lücke ist die eigentliche Herausforderung.

Drei Punkte verschieben sich daraus für den Mittelstand. Erstens der Skill-Pool. Wenn Ihre IT-Abteilung aus drei Senioren besteht, verschiebt sich die Frage. Welches Framework können diese drei in vier Wochen produktiv beherrschen? Technische Überlegenheit auf dem Papier hilft wenig, solange das Team die Implementierung nicht trägt. Zweitens die Datenresidenz aus Teil 2 zur Architektur. Ein 200-Personen-Unternehmen schickt seine internen Audit-Dokumente in der Regel nicht in eine US-Cloud. Frameworks mit air-gapped Pfad oder Self-Hosting-Option bekommen damit ein anderes Gewicht als in Konzernkontexten. Drittens die Vendor-Velocity. Im Mittelstand kostet ein erzwungener Framework-Wechsel mehrere Quartale Liefergeschwindigkeit, weil das Plattform-Team fehlt, das den Wechsel parallel zum Produktivbetrieb stemmt.

Hidden-Champion-Realität sieht oft anders aus als die englischsprachige Diskussion vermuten lässt. Haystack, das deutsche Open-Source-Framework von deepset, hat dokumentierte Produktionseinsätze bei der Europäischen Kommission, dem BMFTR, der Bundeswehr, dem Land Baden-Württemberg, Airbus, Lufthansa Industry Solutions, Infineon und LEGO¹⁶. Diese Liste taucht in den großen englischsprachigen Top-5-Vergleichen kaum auf. Für einen Maschinenbauer aus Baden-Württemberg mit Fokus auf Datensouveränität ist sie ein wesentlicher Datenpunkt.

Wie wählen Sie den passenden Framework-Cluster für Ihre Architektur?

Statt einer Empfehlung pro Framework eine fünfstufige Heuristik. Sie priorisiert vom wichtigsten Treiber zum sekundären.

Wenn DORA, EU AI Act oder eine vergleichbare Audit-Pflicht der primäre Treiber ist, prüfen Sie zuerst Cluster eins (Code-First mit Persistence, Vertreter LangGraph). Native Checkpointing-Primitives sparen Eigenbau-Aufwand und erleichtern Audit-Vorbereitung.
Wenn Datensouveränität nicht verhandelbar ist (KRITIS, Bundeswehr, BaFin-regulierte Häuser, Pharma mit Werkstoffdaten), prüfen Sie zuerst Cluster vier (DACH-Open-Source, Vertreter Haystack) oder Cluster drei mit Self-Hosting (n8n). Air-gapped oder on-prem-Pfade sind dort am besten dokumentiert.
Wenn Sie auf einem Microsoft- oder AWS-Stack sitzen, mit aktiven Enterprise-Verträgen und C5-Bescheinigungen, prüfen Sie zuerst Cluster fünf (Cloud-native, Vertreter MAF auf Azure AI Foundry oder Bedrock Agents). Sie erben Compliance-Zertifizierungen von der Plattform.
Wenn der Use Case in mehrstufigen Analyseworkflows liegt mit klaren Rollen (Researcher, Reviewer, Approver), und Audit-Trail nicht Top-Priorität ist, prüfen Sie zuerst Cluster zwei (rollenbasiert, Vertreter CrewAI). Schnellster Prototypenbau, geringste Lernkurve.
Wenn der Skill-Pool dünn ist und schnelle Integration in bestehende Workflows gefragt ist, prüfen Sie zuerst Cluster drei mit n8n. Low-Code reduziert die Anforderung an Senior-Engineering.

Diese Heuristik ist nicht ausschließlich. Eine echte Architektur-Entscheidung kombiniert oft zwei Cluster. Haystack für die KG- und Retrieval-Logik, LangGraph für die Agent-Orchestrierung darüber, Postgres für die Persistence. Solche Kombinationen sind häufig die robusteste Antwort, weil sie pro Layer die jeweils stärkste Option wählen.

Unsere Einordnung

Im Workshop mit dem RegTech-Scale-Up endeten drei Stunden mit einer Einsicht, die wir vorher nicht erwartet hatten. Wir hatten am Ende kein Framework ausgewählt. Wir hatten ein Bewertungs-Verfahren entworfen. Das Verfahren trägt den eigentlichen Wert, weil es auch in sechs Monaten noch hält, wenn die Wahl, die heute daraus folgt, bereits durch eine andere ersetzt sein wird.

Die These aus Teil 2 hält: Architekturentscheidungen wiegen schwerer als die Framework-Wahl. Sie braucht eine Präzisierung. Audit-Primitives sind die eine Stelle, an der Framework-Wahl materiell auf das Compliance-Ergebnis durchschlägt. Wer DORA oder EU AI Act in der Verantwortung hat, gewichtet diese Achse höher als die anderen acht. Wer ein internes Wissensmanagement-System baut, kann sie niedriger gewichten.

Was wir bei Convios in Mandaten regelmäßig sehen: Die Skill-Pool-Frage wird unterschätzt. Ein Framework, das im Whitepaper überlegen wirkt, kostet im Mittelstand das Doppelte, wenn die vorhandenen Senioren es nicht beherrschen. Externer Aufbau dauert sechs bis zwölf Monate (Aufbau-Dauer aus Teil 1 zu Multi-Agenten-RAG). In dieser Zeit sortiert sich der Markt weiter.

Die ehrlichste, manchmal unbequeme Antwort lautet: Wählen Sie das Framework, das Ihre vorhandenen Senioren in vier Wochen produktiv beherrschen, und investieren Sie die freigewordene Zeit in die saubere Architektur drumherum. Eine Architektur überlebt einen Framework-Wechsel mit überschaubarem Aufwand, sofern sie modular gebaut ist. Wo das nicht gegeben ist, zieht jeder Framework-Wechsel einen Rewrite nach sich.

ThoughtWorks hat im November 2025 LangGraph aus Adopt genommen. Sechs Monate vorher war es die Default-Wahl. Sechs Monate später kann etwas anderes Default sein. Eine Architektur, die diese Bewegung übersteht, macht die Framework-Frage zur Detailfrage. Genau das ist das Ziel.

Wenn Sie Ihre Framework-Auswahl gegen diese neun Kriterien prüfen wollen oder ein eigenes Bewertungs-Verfahren entwickeln möchten, starten wir mit einem 30-minütigen Erstgespräch.

Quellen

¹ThoughtWorks Technology Radar Volume 33, November 2025: LangGraph aus dem Adopt-Ring entfernt

²Microsoft Agent Framework GA 1.0: Konsolidierung von AutoGen und Semantic Kernel, April 2026

³Bitkom Fachkräfte-Studie 2025: 109.000 unbesetzte IT-Stellen, 85 Prozent Mangelmeldung

⁴Brynjolfsson, Chandar, Chen: Canaries in the Coal Mine?, Stanford Digital Economy Lab, August 2025: Beschäftigungsrückgang von 13 Prozent bei 22- bis 25-jährigen Software-Entwicklern in stark KI-exponierten Berufen seit Ende 2022

⁵Indeed Hiring Lab Deutschland, Jobs and Hiring Trends Report 2025: Softwareentwicklung minus 33,3 Prozent offene Stellen Januar bis November 2024

⁶Bundesagentur für Arbeit, IT-Arbeitsmarktbericht Juli 2025: 31,3 Prozent mehr arbeitslose Softwareentwickler im Jahresvergleich

⁷Bitkom KI-Studie 2026: 70 Prozent der Beschäftigten erhalten keine KI-Fortbildung

⁸LangChain Series B Oktober 2025: 125 Millionen Dollar bei 1,25 Milliarden Bewertung

⁹EU AI Act Artikel 12: Logging-Pflichten für Hochrisiko-KI-Systeme

¹⁰DORA Artikel 12: Logging-Anforderungen für IKT-Systeme im Finanzsektor, in Kraft seit 17.01.2025

¹¹Token-Kostenanalyse für Multi-Agenten-Workflows, Beispielrechnung GPT-4o

¹²Bitkom IT-Fachkräfte-Studie 2025: 22 Prozent der Unternehmen mit Quereinsteiger-Programmen

¹³Vergleich der Audit-Trail-Implementierung in LangGraph, CrewAI und AutoGen

¹⁴KfW-Mittelstandspanel, Fokus Volkswirtschaft Nr. 533, Februar 2026: 20 Prozent der KMU nutzen KI, 53 Prozent bei FuE-treibenden Unternehmen

¹⁵Maximal Digital KMU-Studie 2025 (n=455): 76 Prozent ohne KI-Governance, 91 Prozent halten es für kritisch, 19 Prozent mit strukturiertem KI-Fahrplan

¹⁶deepset Produktionsreferenzen Haystack, dokumentierte Public-Sector- und DACH-Industrie-Einsätze

¹⁷Insight Partners "Behind the Investment: CrewAI" (Lead-Investor der Series A)

¹⁸TechCrunch, 9. August 2023: deepset secures 30m Series B led by Balderton Capital

Hat Ihnen dieser Artikel geholfen?

Sie haben Fragen zu diesem Thema?

Gespräch vereinbaren