AI & TechnologieMarkt & Strategie

Wenn der KI-Reflex teuer wird: Was Beratung im Mittelstand noch wert ist

Dr. Oliver Gausmann · 15. März 2026 · 12 Min. Lesezeit

Centaur- und Cyborg-Modell im Vergleich: Mensch und KI als Team

Executive Summary

Zwei Gespräche in der letzten Woche (März 2026) haben mich auf diesen Artikel gebracht. Ein Geschäftsführer erzählte mir, dass sein Team ChatGPT für die NIS2-Vorbereitung nutze. Die Ergebnisse sähen überzeugend aus, prüfen würde die doch eh kaum jemand. Zwei Tage später beschrieb mir ein Professor an der Universität Zürich, den ich sehr schätze, wie Studierende Programmieraufgaben mithilfe von KI lösen und den generierten Code nicht mehr erklären können. Wir verlassen uns mehr und mehr auf KI und weil es so gut klingt, verlernen wir ein Stück weit den manuellen Prozess. Beide Beobachtungen beschreiben denselben Mechanismus: Menschen werden vom KI-Nutzer zum passiven Empfänger. Die Harvard-Forschung bestätigt das mit Zahlen. Innerhalb der KI-Leistungsgrenze steigt die Ergebnisqualität um 40%¹. Außerhalb sinkt sie um 19 Prozentpunkte¹. Die Nutzer merken den Unterschied nicht. Sie überschätzen ihren eigenen Produktivitätsgewinn um 39 Prozentpunkte².

Werden wir zu Drohnen der KI?

Die Frage klingt überspitzt. Die Datenlage ist es nicht. 90% der Mitarbeiter in Unternehmen nutzen laut einer MIT-Studie private KI-Tools und umgehen dabei die offiziellen Systeme³. Shadow AI entsteht nicht aus bösem Willen. Die offiziellen Systeme bilden den konkreten Arbeitskontext schlicht nicht ab. Also fragen die Leute ChatGPT. Die Antwort klingt plausibel. Beim flüchtigen Drüberlesen fällt nichts auf. Und weil die Antwort so überzeugend wirkt, findet eine tiefere Prüfung häufig gar nicht statt.

Das Muster wiederholt sich. Geschäftsführer unterschreiben eine KI-generierte Compliance-Analyse, die sie nicht selbst verifizieren können. Studierende geben Code ab, den sie nicht selbst geschrieben haben. In beiden Fällen verschiebt sich die Rolle: vom aktiv Denkenden zum passiv Konsumierenden. Die Harvard-Forscher nennen dieses Verhalten den "Cyborg"-Modus: KI in jeden Arbeitsschritt verwoben, bis die Fähigkeit zur kritischen Prüfung verschwindet¹.

In der Fliegerei kennen wir das Problem seit Jahrzehnten. Moderne Verkehrsflugzeuge fliegen 95% der Zeit im Autopilot. Das funktioniert hervorragend, solange alles nach Plan läuft. Unfälle der letzten Jahre haben aber immer wieder gezeigt: Wenn die Technik versagt, wenn Sensoren falsche Daten liefern oder Systeme unerwartet abschalten, entscheidet die menschliche Intuition. Die Fähigkeit, eine Situation in Kontext einzuordnen, Widersprüche zu erkennen und unter Unsicherheit zu handeln. Das lässt sich nicht automatisieren. Piloten, die nur noch den Autopilot überwachen und das manuelle Fliegen verlernt haben oder nicht regelmäßig üben, werden in der Krise zum Risiko. Führungskräfte, die nur noch KI-Output konsumieren und das eigenständige Urteilen verlernt haben, werden es auch.

47% der Enterprise-KI-Nutzer haben 2024 mindestens eine wichtige Geschäftsentscheidung auf Basis halluzinierter Inhalte getroffen⁸. 95% der Enterprise-KI-Piloten liefern laut MIT keinen nachweisbaren P&L-Effekt³. Das sind keine Zahlen aus einem Worst-Case-Szenario. Das ist der aktuelle Stand.

Befund	Zahl	Quelle
Mitarbeiter nutzen private KI-Tools ohne Freigabe	90%	MIT NANDA 2025 [3]
Geschäftsentscheidungen auf Basis halluzinierter Inhalte	47%	Stanford HAI 2025 [8]
Enterprise-KI-Piloten ohne messbaren P&L-Effekt	95%	MIT NANDA 2025 [3]
Nutzer überschätzen eigenen KI-Produktivitätsgewinn um	39 Prozentpunkte	METR 2025 [2]

Ich finde Technologie großartig, wenn sie das Leben erleichtert. Ich nutze sie jeden Tag. Aber ich möchte mich nicht davon abhängig machen. Und ich bin froh, wenn es drauf ankommt, noch von Hand durch den Sturm steuern zu können.

Wo KI wirklich hilft und wo sie schadet

Harvard hat das mit 758 echten BCG-Beratern getestet¹. Bei Standardaufgaben, dem Schreiben von Texten, der Analyse von Daten, der Zusammenfassung von Recherchen waren die Ergebnisse mit GPT-4 um 40% besser und 25% schneller. Bei einer komplexen Aufgabe, die quantitative Analyse mit qualitativer Einschätzung verknüpfte, waren die KI-Nutzer schlechter als die Kontrollgruppe. 19 Prozentpunkte schlechter.

Die Forscher nennen diese Grenze "Jagged Frontier". Zackig und unsichtbar. Auf der einen Seite massive Gewinne. Auf der anderen Seite messbare Qualitätsverluste. Das Tückische: Sie merken erst, dass Sie die Grenze überschritten haben, wenn der Schaden da ist. Denn die KI liefert auch jenseits der Grenze Ergebnisse, die professionell aussehen. Sie sind nur falsch.

Die METR-Studie von 2025 zeigt den Effekt noch schärfer². 16 erfahrene Open-Source-Entwickler, Leute mit fünf Jahren Erfahrung in ihren eigenen Code-Repositories, arbeiteten mit KI-Coding-Tools. Sie wurden 19% langsamer. Gleichzeitig glaubten sie, 24% schneller zu sein. Stellen Sie sich das vor. 39 Prozentpunkte Differenz zwischen Gefühl und Realität. Wenn Ihr Head of Engineering Ihnen berichtet, das neue KI-Tool spare dem Team 20% Zeit, kann das stimmen. Es kann auch bedeuten, dass das Team langsamer geworden ist und es nicht gemerkt hat. Ohne unabhängige Messung wissen Sie es nicht.

Stanford ergänzt eine wichtige Dimension: die Zeit⁴. Bei Aufgaben unter zwei Stunden ist KI dem Menschen 4:1 überlegen. Bei komplexen Analysen über 32 Stunden übertrifft der Mensch die KI 2:1. Das ergibt intuitiv Sinn. Wer eine E-Mail formulieren will, fragt zu Recht die KI. Wer eine NIS2-Gap-Analyse durchführt, die Wochen dauert und unternehmensspezifischen Kontext erfordert, braucht einen Menschen. Oder besser: einen Menschen mit KI.

Studie	KI-Effekt bei einfachen Aufgaben	KI-Effekt bei komplexen Aufgaben
Harvard/BCG, 758 Berater [1]	+40% Qualität, +25% Tempo	Minus 19 Prozentpunkte Qualität
METR, 16 erfahrene Entwickler [2]	Nicht getestet (nur komplexe Tasks)	19% langsamer, 39pp Wahrnehmungslücke
MIT/Noy & Zhang, 453 Professionals [6]	40% schneller, +18% Qualität	Nicht getestet
Stanford RE-Bench [4]	KI 4:1 überlegen (unter 2h)	Mensch 2:1 überlegen (über 32h)

Centaur oder Cyborg: Zwei Wege, KI im Unternehmen einzusetzen

Die Harvard-Studie identifiziert zwei Nutzungsmuster¹. Die "Cyborgs" verweben KI in jeden Arbeitsschritt. Prompten, lesen, prompten weiter, übernehmen, prompten erneut. Die Grenze zwischen eigenem Denken und KI-Output verschwimmt irgendwann. Die "Centaurs" teilen die Arbeit klar auf. KI macht die Recherche, der Mensch die Bewertung. KI schreibt den Entwurf, der Mensch trifft die Entscheidung. Die Centaurs liefern bessere Ergebnisse. Das ist kein Zufall.

Praktisch sieht der Unterschied so aus: Ein Cyborg-Ansatz bei einer NIS2-Analyse bedeutet, ChatGPT schreibt die Analyse, der Geschäftsführer liest sie quer und unterschreibt. Ein Centaur-Ansatz bedeutet, ChatGPT liefert eine Zusammenfassung der regulatorischen Anforderungen. Der Berater prüft sie gegen die konkrete IT-Landschaft des Unternehmens. Er identifiziert die Lücken, die nur jemand mit Kenntnis der internen Strukturen sehen kann. Er baut daraus einen Maßnahmenplan. Im ersten Fall sieht das Ergebnis professionell aus. Im zweiten Fall ist es korrekt.

Eine LSU-Studie hat den Centaur-Effekt bei Aktienanalysen quantifiziert⁵. KI allein übertrifft menschliche Analysten in 54,5% der Fälle. Der Centaur, Experte plus KI, übertrifft KI allein in 55% der Prognosen und reduziert extreme Prognosefehler um 90%. Der Durchschnitt verbessert sich leicht. Die Katastrophen verschwinden fast vollständig. Für einen Geschäftsführer, der eine strategische Entscheidung trifft, ist nicht der Durchschnitt relevant. Relevant ist, wie schlimm es im schlimmsten Fall wird. Und genau dort macht der Mensch den Unterschied.

Warum? Weil KI keinen individuellen Kontext hat. Generisches Wissen ist frei verfügbar. Was ChatGPT über NIS2 weiß, weiß jeder mit Internetzugang. Was ChatGPT nicht weiß: wie Ihre IT-Landschaft aufgebaut ist, welche Lieferanten kritische Abhängigkeiten erzeugen, wo Ihre Organisationsstruktur Lücken hat, die in keinem Organigramm auftauchen. 95% der Enterprise-KI-Piloten scheitern laut MIT an genau diesem Problem³. Zwischen 30 und 40 Milliarden Dollar flossen in Enterprise-GenAI, mit minimalen Erträgen. Die Forschung zu implizitem Wissen, also dem Erfahrungswissen, das Menschen in Jahrzehnten aufbauen und schwer in Worte fassen können, bestätigt: Dieses Wissen aus menschlicher Expertise zu extrahieren ist teuer, langsam und liefert selbst unter besten Bedingungen nur eine Teilabbildung¹⁷.

Ansatz	So sieht es aus	Ergebnis
Cyborg (KI in jedem Schritt)	ChatGPT schreibt NIS2-Analyse, GF liest quer, unterschreibt	Sieht professionell aus, 17 bis 34% Fehlerquote [7]
Centaur (klare Rollentrennung)	KI liefert Rohmaterial, Experte prüft gegen Unternehmenskontext	90% weniger Extremfehler, Genauigkeit bis 98% [5][8]

Warum ist KI in regulierten Bereichen ein besonderes Risiko?

KI-Systeme arbeiten probabilistisch. Derselbe Prompt liefert morgen eine andere Antwort. Kein kommerzieller Anbieter garantiert deterministische Ausgaben. OpenAI spricht von "mostly deterministic". Anthropic, die Firma hinter Claude, stellt klar, dass auch bei Temperature 0 die Ergebnisse nicht vollständig deterministisch sind⁹. Der Grund liegt in der Hardware: Fließkomma-Arithmetik auf modernen GPUs ist nicht assoziativ. (a + b) + c ergibt nicht zwingend dasselbe wie a + (b + c). Klingt nach einem technischen Detail. Für regulierte Prozesse ist es ein fundamentales Problem. (Spanned: Das ist der gleiche Effekt, der aus der Chaosforschung als Schmetterlingseffekt bekannt ist. Kleine Änderungen die sich über eine Kette an Operationen aufsummieren)

Der EU AI Act (Verordnung 2024/1689) verlangt in Artikel 15 konsistente Genauigkeitsmetriken für Hochrisiko-KI und in Artikel 12 automatische Protokollierung aller Ein- und Ausgaben¹⁰. Die Compliance-Frist läuft am 02.08.2026 ab. Die BaFin benennt in ihrer Orientierungshilfe vom Dezember 2025 stochastisches Verhalten explizit als KI-spezifisches Risiko¹¹. Entscheidungen mit rechtlicher Wirkung dürfen gemäß Artikel 22 DSGVO nur von Menschen getroffen werden¹². Das BSI empfiehlt, KI-Anwendungen nicht ungeprüft in kritischen Geschäftsprozessen einzusetzen¹³.

Stanford hat die Halluzinationsrate professioneller juristischer KI-Tools gemessen⁷. Selbst spezialisierte Tools mit Zugriff auf verifizierte Datenbanken liefern in einem Sechstel bis einem Drittel der Fälle falsche Antworten. Für eine NIS2-Gap-Analyse mit 50 Prüfpunkten und einer Fehlerquote von 17% bleiben rechnerisch acht bis neun Schwachstellen unentdeckt (Schätzung). Human-in-the-Loop-Systeme heben die Genauigkeit von 82% auf 98%⁸. In einer Compliance-Prüfung bedeutet das den Unterschied zwischen neun übersehenen Schwachstellen und einer.

Regulatorische Zone	Beispiele	KI-Einsatz
Grün	Interne Entwürfe, Brainstorming, Marketing-Texte	Probabilistischer Output akzeptabel
Gelb	Kunden-Chatbots, Compliance-Unterstützung	Nur mit menschlicher Endentscheidung
Rot	Kreditwürdigkeit, HR-Entscheidungen, Versicherungs-Risiko	Volle Governance nach EU AI Act Anhang III
Schwarz	Automatisierte Entscheidungen mit rechtlicher Wirkung	Verboten ohne menschliche Kontrolle (Art. 22 DSGVO)

KI-System	Halluzinationsrate	Quelle
GPT-4 ohne RAG (Rechtsfragen)	Über 43%	Stanford 2025 [7]
Westlaw AI (RAG, juristisch)	Über 34%	Stanford 2025 [7]
Lexis+ AI (RAG, juristisch)	Über 17%	Stanford 2025 [7]
Human-in-the-Loop (Experte prüft KI)	Ca. 2%	Stanford HAI 2025 [8]

Was ich bei Vorlesungen an der Uni sehe

Als ich vor 15 Jahren das erste Mal als Dozent in einem Hörsaal stand, war ich die Quelle. Die Studierenden hatten das Wissen nicht, und ich vermittelte es. 2026 haben sie das Wissen, bevor ich den Raum betrete. 92% der Studierenden nutzen KI-Tools regelmäßig¹⁴. Ein Harvard-Experiment zeigt: Ein gut designter KI-Tutor erzielt den doppelten Lernzuwachs gegenüber aktivem Lernen im Hörsaal¹⁵.

Heute unterrichte ich u.a. Global Software Management und AI an der Universität Zürich. Der Wert meiner Vorlesungen liegt nicht mehr primär im Stoff. Der liegt auf YouTube, in Claude und in ChatGPT. Der Wert liegt in der Verbindung von Praxiserfahrung und Theorie sowie in der Fähigkeit, echte Implementierungserfahrung auf akademischem Niveau einzuordnen. Was mich überrascht hat: Genau diese Verschiebung macht mir 2026 mehr Freude als 2010. Weil die Studierenden das Grundwissen mitbringen und wir direkt in die Tiefe gehen können. Neustes Wissen, jahrelange Erfahrung, modernste Tools, alles zusammen. Das ist Lehre, wie sie sein sollte.

95% der Lehrenden sehen das anders und befürchten studentische Überabhängigkeit von KI¹⁶. 48% sagen, die Qualität studentischer Recherche hat sich verschlechtert¹⁶. Ich beobachte beides. Studierende, die KI als Abkürzung nutzen und dabei aufhören zu denken. Und Studierende, die KI als Werkzeug nutzen und damit schneller zu besseren Ergebnissen kommen. Der Unterschied? Die zweite Gruppe kann erklären, was sie abgegeben hat. Die erste Gruppe nicht.

Die Parallele zur KI Beratung im Mittelstand ist offensichtlich. KI liefert die Datenerhebung, die Synthese und den ersten Entwurf. Die Interpretation, die Bewertung, die strategische Anwendung auf den konkreten Kontext, das erfordert jemanden, der den Kontext kennt. Und der ist bereit, auch unbequeme Fragen zu stellen.

Was sollten Geschäftsführer jetzt konkret tun?

Messen Sie den tatsächlichen KI-Produktivitätsgewinn. Mitarbeiter-Befragungen liegen um 39 Prozentpunkte daneben². Vergleichen Sie KI-gestützte und KI-freie Ergebnisse an derselben Aufgabe. Messen Sie Output-Qualität und Durchlaufzeiten. Wenn der KI-Output besser ist, nutzen Sie KI. Wenn nicht, wissen Sie jetzt warum.

Trennen Sie KI-Arbeit und menschliche Arbeit bewusst. Was bei mir funktioniert: Recherche, Datenaufbereitung und erste Entwürfe laufen über KI-Tools. Die Bewertung, was davon für den konkreten Kunden relevant ist, die Priorisierung, die Implementierungsplanung, das bleibt menschlich. Bei einem KI-Strategie-Workshop bereite ich mit Claude die Marktanalyse vor. Im Workshop selbst geht es um Fragen, die kein Tool beantworten kann. Welche Abteilung hat die größte Bereitschaft für Veränderung? Wo sitzen die informellen Entscheider? Welche Altlasten in der IT-Architektur blockieren den nächsten Schritt?

Prüfen Sie bei regulierten Prozessen, ob der KI-Output die Nachvollziehbarkeit erfüllt, die der EU AI Act ab August 2026 verlangt¹⁰. Probabilistische KI-Outputs in regulierten Prozessen ohne dokumentierte Nachvollziehbarkeit bedeuten persönliche Haftung.

Externe Expertise lohnt sich genau dort, wo Ihr Unternehmen die Jagged Frontier überschreitet. Wo Aufgaben komplex, kontextabhängig und regulatorisch relevant sind. Für NIS2-Implementierung, KI-Strategie oder Software-Delivery-Prozesse ist der Werkstudent mit ChatGPT-Zugang die billigste Option mit dem teuersten Risiko. Prüfen Sie bei externer KI Beratung im Mittelstand, ob der Berater KI selbst als Werkzeug einsetzt. Wer 2026 ohne KI berät, verschenkt Geschwindigkeit. Wer nur mit KI berät, verschenkt Qualität.

Wie Sie Ihre KI-Strategie systematisch aufbauen, zeigt der KI-Strategie-Leitfaden für den Mittelstand.

Unsere Einordnung

Dieser Artikel ist selbst ein Beispiel für die Grenzziehung, die er beschreibt.
Ich habe Claude eingesetzt, um die Recherche durchzuführen. Sieben Studien gesichtet, Datenpunkte extrahiert, Widersprüche zwischen Harvard, MIT und Stanford identifiziert. Das hat Stunden gespart. Die Einordnung, welche dieser Zahlen für einen Geschäftsführer mit 200 Mitarbeitern relevant sind und welche akademisch bleiben, das kann kein Prompt. Die Entscheidung, den Artikel um die Jagged Frontier und die Centaur-Metapher herum zu strukturieren, kam aus meiner Erfahrung mit Mandaten. Die persönlichen Erfahrungen aus dem Uni-Alltag, die Gespräche und Meinungen von Kollegen und Kunden, das ist der Input, der diesen Artikel hoffentlich spannender macht als 90% der AI-generierten Einheitsartikel.

Neulich hat mich ein Geschäftsführer gefragt, ob sein Team die NIS2-Anforderungen mit ChatGPT selbst prüfen könnte. Ich habe ihn gebeten, mir das Ergebnis zu zeigen. Drei von acht kritischen Anforderungen fehlten. Die Lücken waren genau dort, wo es unternehmensspezifisch wurde: Lieferkettenabhängigkeiten, Zuständigkeiten über Abteilungsgrenzen, historisch gewachsene IT-Systeme, die in keinem offiziellen Dokument stehen. ChatGPT kannte die Regulierung. Es kannte das Unternehmen nicht.

Bei Software-Delivery-Prozessen beobachte ich dasselbe. KI-Agenten können Code generieren, Tests schreiben, Dokumentation erstellen. Ob der generierte Code in Ihre bestehende Architektur passt, ob er Ihre Compliance-Anforderungen erfüllt, ob Ihr Team die Kapazität hat, das Ergebnis abzuwarten und ob das Team durch die KI wirklich schneller geworden ist, kann kein Agent beurteilen. Das erfordert operative Erfahrung. Und die Bereitschaft, unbequeme Antworten zu geben.

Die Daten aus sieben Studien zeigen ein klares Muster. KI ist bei Aufgaben unter zwei Stunden dem Menschen 4:1 überlegen⁴. Bei Analysen über 32 Stunden übertrifft der Mensch die KI 2:1⁴. Beratungsprojekte dauern Wochen. Sie erfordern Kontextwissen, das in keinem Trainingsset existiert. Sie erfordern Urteilsvermögen, das keine Temperature-Einstellung liefert.

Zurück zur Fliegerei: Ich finde Technologie großartig, wenn sie das Leben erleichtert. Aber ich möchte mich nicht davon abhängig machen. Ich bin froh, wenn es drauf ankommt, noch von Hand steuern zu können. Das gilt für Flugzeuge. Und für Unternehmen.

Quellen

¹Dell'Acqua et al.: Navigating the Jagged Technological Frontier, Harvard/BCG 2023

²METR: Measuring the Impact of Early-2025 AI on Developer Productivity

³MIT NANDA: The GenAI Divide, State of AI in Business 2025

⁴Stanford HAI AI Index 2025: RE-Bench

⁵LSU Finance Centaur Analyst Study 2025

⁶Noy & Zhang: Experimental evidence on the productivity effects of generative AI, Science 2023

⁷Magesh et al.: Hallucination-Free? Stanford Legal AI Study 2025

⁸Enterprise AI Accuracy Data 2024-2025, aggregiert

⁹Thinking Machines Lab: Defeating Nondeterminism in LLM Inference 2025

¹⁰EU AI Act Verordnung 2024/1689, Art. 12, 15

¹¹BaFin Orientierungshilfe IKT-Risiken bei KI Dezember 2025

¹²DSK Orientierungshilfe KI und Datenschutz 2024

¹³BSI Management Blitzlicht: Sichere generative KI 2024

¹⁴HEPI/Kortext: Student Generative AI Survey 2025

¹⁵Kestin et al.: AI tutoring outperforms active learning, Scientific Reports 2025

¹⁶AAC&U/Elon University Faculty Survey 2026

¹⁷Sanzogni et al.: Tacit Knowledge and AI, MDPI Technologies 2025

Hat Ihnen dieser Artikel geholfen?

Sie haben Fragen zu diesem Thema?

Gespräch vereinbaren