Herausforderungen der KI

Warum 95 Prozent aller KI-Projekte scheitern

Und warum es nicht an der Technik liegt, sondern an dem einen Glied, das fast überall fehlt.

Irgendwann im Frühjahr fällt es niemandem mehr auf. Das Pilotprojekt, das vor einem Jahr mit einer Präsentation und drei Ausrufezeichen begann, steht auf keiner Tagesordnung mehr. Keiner hat es beerdigt, keiner hat es für gescheitert erklärt. Es ist eingeschlafen, leise, so wie die meisten Dinge scheitern, für die am Ende niemand geradestehen muss.

Dieses stille Einschlafen ist kein Einzelfall, es ist der Normalfall. Eine vielzitierte Untersuchung des MIT, der Bericht „The GenAI Divide: State of AI in Business 2025“ aus der Forschungsinitiative Project NANDA, hat es im Sommer 2025 in eine Zahl gegossen, die seither durch die Vorstandsetagen geistert: 95 Prozent aller KI-Pilotprojekte in Unternehmen liefern keinen messbaren Ergebnisbeitrag. Nicht wenige, nicht die Hälfte. Fünf von hundert funktionieren, der Rest versandet, trotz geschätzter dreißig bis vierzig Milliarden Dollar, die weltweit hineingeflossen sind.

Die Zahl, die niemand gern ausspricht

Man könnte die 95 Prozent für einen Ausreißer halten, für die übliche Übertreibung einer einzelnen Studie. Das Problem ist, dass die anderen Zahlen in dieselbe Richtung zeigen. Das Marktforschungshaus Gartner sagte schon im Juli 2024 voraus, dass bis Ende 2025 mindestens dreißig Prozent aller Projekte mit generativer KI nach dem ersten Probelauf wieder aufgegeben würden, wegen schlechter Datenqualität, unklarer Risiken, steigender Kosten und fehlenden Geschäftsnutzens. Die Datenanalysten von S&P Global Market Intelligence meldeten für 2025, dass schon 42 Prozent der Unternehmen die meisten ihrer KI-Vorhaben wieder einstellten, ein Jahr zuvor waren es noch 17 Prozent gewesen. Und die RAND Corporation, eine Denkfabrik, die nicht im Verdacht steht, Stimmung zu machen, kommt in ihrer Studie „The Root Causes of Failure for Artificial Intelligence Projects“ auf eine Misserfolgsquote von über achtzig Prozent, doppelt so hoch wie bei IT-Projekten ohne KI.

Vier Quellen, vier Methoden, ein Befund. Die Technologie, von der alle reden, scheitert in der Praxis öfter, als sie gelingt.

Fünf von hundert Projekten liefern messbaren Wert. Der Rest scheitert nicht an der Rechenleistung, sondern an Menschen, die nicht gelernt haben, mit der Maschine umzugehen.

Bemerkenswert ist, wer da scheitert. Die Studien befragen vor allem große Häuser mit großen Budgets, mit eigenen Datenabteilungen und teuren Beraterverträgen. Es sind nicht die Vorsichtigen, die hier auflaufen, es sind die Gutausgestatteten. Das ist die erste gute Nachricht für alle, die kleiner sind: Die Konzerne führen das teure Experiment gerade für alle anderen vor. Der Mittelstand muss nicht jeden dieser Fehler selbst bezahlen, er kann sie lesen.

Es liegt nicht an der Technik

Jetzt kommt der Teil, an dem die meisten Erklärungen falsch abbiegen. Wer fragt, warum KI-Projekte scheitern, bekommt fast immer dieselbe Antwort: an den Daten. Die Datenqualität sei zu schlecht, die Infrastruktur zu schwach, die Modelle noch nicht reif. Das klingt vernünftig, und in bestimmten Grenzen ist es das auch. Aber es übersieht den entscheidenden Punkt.

Die MIT-Forscher haben ihren eigenen Begriff dafür geprägt, die Lernlücke, im Original die „learning gap“. Gemeint ist nicht, dass die Maschine zu wenig kann, sondern dass die Organisation nicht lernt, mit ihr umzugehen. Die Modelle sind gut genug. Was fehlt, ist die Einbettung in echte Abläufe, in Zuständigkeiten, in den Alltag von Menschen, die ihnen vertrauen sollen. Bezeichnend ist ein zweiter Befund derselben Studie: Projekte, die internes Wissen mit externer Erfahrung verbinden, gelingen in etwa zwei von drei Fällen, reine Eigenbauten nur in einem von drei. Es ist also nicht die Technik, die den Unterschied macht, sondern die Frage, wer sie führt.

Die RAND-Forscher, die Dutzende gescheiterte Projekte nacherzählen ließen, kommen zur selben Wurzel. Die häufigste Ursache des Scheiterns ist kein technischer Defekt, sondern ein Missverständnis: Die Beteiligten haben nie sauber geklärt, welches Problem die KI überhaupt lösen soll. Wer die falsche Frage stellt, bekommt auch mit perfekten Daten die falsche Antwort, nur schneller.

Es scheitert nicht die Technik. Es scheitert die Korrektur, das fehlende dritte Glied zwischen Mensch und Maschine.

Die Boston Consulting Group hat dasselbe in eine Faustregel übersetzt, die man sich merken sollte. In ihrer Untersuchung „AI Adoption in 2024“, für die tausend Führungskräfte aus 59 Ländern befragt wurden, beziffert sie den Anteil der Faktoren, die über Erfolg oder Misserfolg entscheiden: zehn Prozent entfallen auf die Algorithmen, zwanzig Prozent auf die Technik und die Daten, und siebzig Prozent auf den Menschen und seine Prozesse. Zehn, zwanzig, siebzig. Die meisten Unternehmen verteilen ihre Aufmerksamkeit genau umgekehrt. 74 Prozent von ihnen, so dieselbe Studie, haben bis heute keinen skalierbaren Wert aus ihrer KI gezogen.

Die deutsche Variante des Problems

In Deutschland kommt eine Schicht hinzu, die man kennen muss, wenn man hier etwas bewegen will. Der Digitalverband Bitkom hat im September 2025 604 Unternehmen befragt. Das Ergebnis ist ein Land im Zwiespalt. Einerseits nutzt inzwischen jedes dritte Unternehmen KI, fast doppelt so viele wie im Jahr zuvor. Andererseits wächst die Skepsis mit der Nutzung. Die größten Hürden, die die Unternehmen selbst nennen, sind nicht technischer Natur: rechtliche Unsicherheit, genannt von 53 Prozent, fehlendes Know-how, ebenfalls 53 Prozent, und fehlende personelle Ressourcen, 51 Prozent. Kein einziges der großen Hemmnisse ist ein Problem der Rechenleistung. Alle drei sind Probleme des Menschen, der Organisation, des Vertrauens.

Wie sehr es am Menschen hängt, zeigt eine Auswertung des ifo-Instituts auf Basis der großen Beschäftigtenbefragung DiWaBe 2.0, für die rund 9.800 Beschäftigte in Deutschland befragt wurden. Sie macht einen Unterschied sichtbar, der leicht übersehen wird: Wo Unternehmen KI strukturiert einführen, mit Schulung und klaren Zuständigkeiten, berichten die Beschäftigten von spürbar höheren Produktivitätsgewinnen als dort, wo jeder auf eigene Faust experimentiert. Und genau das ist der Normalfall, denn zwei von drei Nutzern haben sich die Werkzeuge selbst beigebracht, nur einer von drei wurde vom Betrieb eingeführt. Nicht das Werkzeug entscheidet, sondern die Ordnung, in die es gestellt wird.

Eine KI, die über die Köpfe hinweg eingeführt wird, scheitert an den Köpfen.

Gerade im Mittelstand wird die Skepsis der Belegschaft gern als Rückständigkeit abgetan. Das ist ein Fehler. Wer von innen vorsichtig ist, baut robuster, vorausgesetzt, jemand übersetzt die Vorsicht in einen Maßstab, statt sie zu überfahren. Der Mittelstand hat hier sogar einen Vorteil, den der Konzern nicht hat. Die Wege sind kurz, der Chef kennt seine Leute, eine Entscheidung muss nicht durch sieben Gremien. Was im großen Haus eine Veränderungsinitiative mit eigenem Projektbüro braucht, ist im mittelständischen Betrieb oft ein gutes Gespräch und eine klare Ansage.

Das fehlende dritte Glied

Damit sind wir beim Kern. Wenn es nicht die Technik ist und nicht die Daten allein, was ist es dann? Es ist ein Arbeitsschritt, der so selbstverständlich klingt, dass ihn fast alle weglassen: die Korrektur. Der Mensch in der Schleife. Die Ingenieurswelt kennt das Prinzip seit Langem und hat einen Namen dafür, Human in the Loop, der Mensch, der nicht neben dem Prozess steht, sondern in ihm.

Die meisten Organisationen denken KI in zwei Gliedern: Der Mensch stellt die Aufgabe, die Maschine liefert das Ergebnis. Mensch plus Maschine. Das ist die Rechnung der gescheiterten 95 Prozent. Die erfolgreichen 5 Prozent rechnen anders. Der KI-Trainer Torsten Koerting hat die bessere Rechnung in eine Formel gebracht, die man nicht mehr vergisst:

HI + KI + HI = MAGI

Menschliche Intelligenz, künstliche Intelligenz, wieder menschliche Intelligenz. Der erste Mensch stellt die Aufgabe, gibt den Kontext, setzt den Maßstab. Die Maschine arbeitet schnell, variantenreich, unermüdlich. Der zweite Mensch prüft, urteilt, entscheidet, nicht aus Misstrauen, sondern weil ein erster Entwurf ein erster Entwurf bleibt, ob er von einem Praktikanten stammt oder von einem Sprachmodell. Erst dieses dritte Glied, der urteilende Mensch am Ende der Kette, macht aus maschineller Geschwindigkeit ein Ergebnis, für das ein Mensch geradesteht. Das ist die Magie: nicht das Werkzeug allein, nicht der Mensch allein, sondern das geordnete Zusammenspiel von beiden, mit dem Urteil am Schluss.

Redaktion als Systemprinzip

Der Unterschied zwischen den beiden Rechnungen ist nicht graduell, er ist grundsätzlich. Die folgende Gegenüberstellung zeigt, woran man die beiden Lager erkennt.

Die 95 %: Mensch und Maschine

Ein Werkzeug wird gekauft und eingeschaltet. Was die KI ausgibt, wird genommen. Es gibt keinen geschriebenen Maßstab, an dem sich Qualität messen ließe, und keinen festen Schritt, an dem jemand prüft, bevor etwas hinausgeht. Tempo entsteht sofort, Urteil bleibt aus. Ein Fehler fällt entweder gar nicht auf oder erst dort, wo er teuer wird, beim Kunden, in der Öffentlichkeit, im Vertrauen. Die Geschwindigkeit vervielfacht nicht die Stärke, sondern den Fehler.

Die 5 %: HI + KI + HI

Vor dem ersten Einsatz steht ein Maßstab: Woran erkennen wir, dass ein Ergebnis gut ist? In den Ablauf ist ein Prüfschritt eingebaut, an dem ein Mensch mit Urteil das maschinelle Ergebnis gegen diesen Maßstab hält. Die letzte Instanz bleibt menschlich. Was die Prüfung nicht besteht, geht zurück in die Schleife, wird verworfen, nachgeschärft. Aus Prüfen, Verwerfen, Nachschärfen wird eine Spirale, die steigt, statt einer Geraden, die bei mittelmäßig endet.

Was hier nach Handwerk und gutem Willen klingt, ist in den sensibelsten Bereichen längst Gesetz. Die KI-Verordnung der Europäischen Union schreibt für Hochrisiko-Systeme eine wirksame menschliche Aufsicht ausdrücklich vor: Ein Mensch muss das System verstehen, überwachen und im Zweifel eingreifen können, solange es läuft, so verlangt es Artikel 14 der Verordnung. Human in the Loop ist dort keine gute Praxis mehr, sondern Pflicht. Was der Gesetzgeber für die riskanten Fälle verlangt, ist für alle anderen schlicht vernünftig.

Human in the Loop ist kein Sicherheitsnetz. Es ist der Ort, an dem aus Tempo Verantwortung wird.

Dieses dritte Glied trägt im Handwerk seit Jahrhunderten einen Namen. Es heißt Redaktion. Die Maschine produziert, der erste Mensch gibt den Auftrag, der zweite redigiert gegen einen Maßstab. Wer in einem Verlag arbeitet, kennt das Prinzip. Der Rest der Wirtschaft entdeckt gerade, dass es für jeden gilt, der KI einsetzt, vom Maschinenbauer bis zur Steuerkanzlei. Man muss kein Medienhaus sein, um es zu brauchen. Übersetzen Sie das Wort Redaktion für Ihren Betrieb, und es heißt schlicht: Urteil, Maßstab, Prüfung vor der Freigabe.

Warum die Maschine einen Redakteur braucht

Der Grund liegt in der Natur der Sache. Ein Sprachmodell erzeugt Sätze, die nach Wahrheit klingen. Ob sie wahr sind, weiß es nicht, denn es rechnet Wahrscheinlichkeiten, es prüft keine Tatsachen. Es kann ein Datum erfinden, eine Quelle, eine Zusage, und es tut das in tadellosem Deutsch, höflich und überzeugend. Das macht seine Fehler gefährlicher als die eines Menschen, weil sie sich nicht durch Stümperei verraten.

Die Maschine schreibt schnell. Ob sie recht hat, weiß sie nicht.

Wie ernst die Organisationen das nehmen, verrät ein Blick darauf, wohin das Geld fließt. Laut dem MIT-Bericht stecken mehr als die Hälfte aller Budgets für generative KI in Vertrieb und Marketing, also dort, wo es nach außen glänzt, obwohl der größte messbare Nutzen in den unscheinbaren Vorgängen des Hauses liegt, im Backoffice, in der Verwaltung, in der Wissenspflege. Man kauft das Schaufenster und vergisst die Werkstatt. Gerade für ein kleines oder mittleres Unternehmen ist das die teuerste Versuchung, denn es hat nicht das Budget, um beides falsch zu machen.

Die Wertschöpfung, die in den gescheiterten Projekten fehlt, sitzt nicht in einem besseren Modell, sondern in einem Menschen, der schnell weiß, was zählt, und der den Maßstab pflegt, gegen den geprüft wird. Wie das in der Praxis aussieht, lässt sich an laufenden Beispielen zeigen: In den eigenen Produkten dieser Werkstatt, einem Reden-Generator und einer Software zur Erschließung historischer Handschriften, ist genau dieser Prüfschritt fest eingebaut, bevor irgendein Ergebnis als verlässlich gilt. Es ist dasselbe Prinzip, das eine KI-Redaktion in einer Organisation aufbaut. Wer es ernst meint, fängt nicht mit dem Werkzeug an, sondern mit der Frage, woran man Qualität erkennt.

Effizienz ist nicht Wirksamkeit

Es gibt einen zweiten Grund, warum so viele Projekte scheitern, und er ist subtiler. Er hat mit der Art zu tun, wie über KI geredet wird. Die Branche verkauft Effizienz. Neunzig Prozent Zeitersparnis ab Tag eins, auf Knopfdruck, in wenigen Klicks. Das klingt verführerisch, und es ist, mit Verlaub, der sicherste Weg, ein Team gegen die Sache aufzubringen.

Wer einem Menschen sagt, eine Maschine erledige seine Arbeit künftig in einem Zehntel der Zeit, weckt keine Begeisterung, sondern Angst um den eigenen Wert. Die Motivationsforschung weiß das seit Jahrzehnten. Die Selbstbestimmungstheorie der Psychologen Edward Deci und Richard Ryan, zusammengefasst bei der American Psychological Association, zeigt in über hundert Einzelstudien, dass äußerer Druck die innere Motivation nicht stärkt, sondern verdrängt. Wer nur des Drucks wegen mitmacht, hört auf, sobald der Druck nachlässt. Die Effizienz-Rhetorik demotiviert also genau die Menschen, von deren Mitarbeit das Gelingen abhängt. Und das Gelingen hängt immer am Menschen, denn Human in the Loop ist kein Schalter, den man umlegt, sondern eine Kultur, die man aufbaut.

Der Unterschied, auf den es ankommt, ist der zwischen Effizienz und Wirksamkeit. Eine Untersuchung von McKinsey zeigt das Auseinanderdriften deutlich: Fast alle Unternehmen nutzen inzwischen KI in irgendeiner Funktion, aber nur eine Minderheit sieht überhaupt eine Wirkung auf das Ergebnis, und wo es eine gibt, bleibt sie meist unter fünf Prozent. Wer Wirkung will, muss seine Arbeitsabläufe umbauen, nicht nur ein Werkzeug danebenstellen.

Effizienz spart Geld einmal. Wirksamkeit verdient es immer wieder.

Was der Mittelstand den Großen voraushat

Es klingt paradox, aber die kleinere Organisation ist im Vorteil, wenn sie es nur sehen will. Der Konzern hat das Geld, um den großen Eigenbau zu versuchen, die eigene Plattform, das eigene Modell, die siebenschichtige Architektur. Genau dieser Eigenbau scheitert laut MIT dreimal so oft wie der Weg über erfahrene Partner. Der Mittelständler hat dieses Geld nicht, und das zwingt ihn zur Bescheidenheit, die sich am Ende auszahlt.

Was den Konzern eine ganze Abteilung kostet, kostet den Mittelständler einen Menschen mit Urteil und einen geschriebenen Maßstab. Er braucht keine Redaktion mit zwanzig Köpfen, er braucht das redaktionelle Prinzip, HI plus KI plus HI, angewandt auf eine Handvoll wirklich wichtiger Vorgänge: das Angebot, das hinausgeht, die Kundenantwort, die seinen Namen trägt, den Bericht, auf den sich jemand verlässt. Wer dort den Prüfschritt einzieht, hat das Wesentliche, was die erfolgreichen 5 Prozent auszeichnet, ohne den Apparat, den sich nur die Großen leisten. Den richtigen Einstieg zeigt eine ehrliche KI-Beratung, die beim Menschen ansetzt und nicht beim Werkzeug.

Fazit: Den Umweg überspringen

Die 95 Prozent scheitern nicht, weil ihnen die Technik fehlt. Sie scheitern, weil ihnen ein Redakteur fehlt, das dritte Glied zwischen Mensch und Maschine, das aus einem maschinellen Entwurf eine Arbeit macht, der Menschen glauben. Die Studien des MIT, von RAND und BCG, die Zahlen des ifo-Instituts und des Bitkom sagen aus mehreren Richtungen dasselbe: Die Hürde ist nicht die Rechenleistung, sie ist der Mensch, die Organisation, das Vertrauen.

Daraus folgt eine ungewöhnlich klare Lehre für jeden, der kein Konzern ist. Die großen Häuser haben das teure Experiment längst für Sie bezahlt. Sie haben die spektakulären Fehler vorgeführt, den Eigenbau, das Schaufenster vor der Werkstatt, die Effizienz-Rhetorik, die das eigene Team verschreckt. Niemand zwingt den Mittelstand, denselben Umweg noch einmal zu gehen. Wer die Formel ernst nimmt, HI plus KI plus HI, und einen Maßstab und einen Prüfschritt von Anfang an einbaut, spart sich die teuerste Lektion und behält trotzdem das Tempo.

Vielleicht haben Sie sich an einer Stelle dieses Textes wiedererkannt. An dem Pilotprojekt, das niemand beerdigt hat. An der Skepsis im Team, die als Bremserei galt. An dem Ergebnis, das genommen wurde, weil niemand die Zeit hatte, es zu prüfen. Wenn ja, dann sind Sie nicht das Problem, Sie sind in der Mehrheit. Die ehrliche Frage ist nur, ob Sie warten, bis Ihr nächstes Pilotprojekt leise einschläft, oder ob Sie diesmal mit dem dritten Glied beginnen. Wo Ihre Organisation heute steht, sagt Ihnen in fünf Minuten der Reifegrad-Test, ohne geschönten Punktestand, auch wenn es unbequem ist.

Häufige Fragen

Warum scheitern die meisten KI-Projekte in Unternehmen?

Nicht an der Technik, sondern an der Einbettung in Menschen, Abläufe und Qualitätssicherung. Studien von MIT, RAND und BCG kommen übereinstimmend zu dem Schluss, dass der weitaus größte Teil der Erfolgsfaktoren beim Menschen und seinen Prozessen liegt, nicht beim Modell. Den erfolgreichen 5 Prozent fehlt nicht das bessere Werkzeug, sondern ein fester Schritt, an dem ein Mensch das maschinelle Ergebnis gegen einen Maßstab prüft, bevor es verwendet wird.

Was bedeutet Human in the Loop?

Dass ein Mensch mit Urteilsvermögen fest in den KI-Prozess eingebaut ist, nicht als Notlösung, sondern als Systemprinzip. Die Formel lautet: HI plus KI plus HI. Der erste Mensch gibt die Aufgabe und setzt den Maßstab, die KI arbeitet, der zweite Mensch prüft und entscheidet. Erst dieses dritte Glied verwandelt maschinelle Produktion in ein menschlich verantwortbares Ergebnis. Für Hochrisiko-Systeme schreibt die KI-Verordnung der EU eine solche menschliche Aufsicht in Artikel 14 sogar ausdrücklich vor.

Liegt es nicht doch an schlechten Daten?

Datenqualität spielt eine Rolle, aber sie ist selten die eigentliche Ursache. Die häufigste Ursache, die die RAND Corporation in ihren Fallanalysen fand, ist ein Missverständnis darüber, welches Problem überhaupt gelöst werden soll. Wer die falsche Frage stellt, bekommt auch mit perfekten Daten die falsche Antwort.

Was ist die Lernlücke (learning gap)?

So nennt das MIT in seinem Bericht „State of AI in Business 2025“ den entscheidenden Engpass: Nicht die Maschine kann zu wenig, sondern die Organisation lernt nicht schnell genug, mit ihr umzugehen. Die Werkzeuge sind reif, die Routinen, Zuständigkeiten und das Vertrauen um sie herum sind es nicht.

Lohnt sich KI überhaupt für ein kleines oder mittleres Unternehmen?

Gerade dort. Die spektakulären Misserfolge stammen meist von großen Häusern mit großen Budgets und teuren Eigenbauten, die laut MIT dreimal so oft scheitern wie der Weg über erfahrene Partner. Ein Mittelständler braucht keine eigene Plattform, sondern das redaktionelle Prinzip auf wenigen wichtigen Vorgängen: einen Maßstab, einen Prüfschritt, einen Menschen mit Urteil.

Wie finde ich heraus, wo mein Unternehmen steht?

Ein kurzer, ehrlicher Selbsttest entlang von vier Achsen, Nutzung, Prozesse, Menschen und Vision, ordnet Sie auf einer von fünf Reifegradstufen ein und benennt die schwächste Stelle. Der Reifegrad-Test auf dieser Seite dauert etwa fünf Minuten und liefert keine Schmeichelei, sondern eine Standortbestimmung.

Wo steht Ihre Organisation wirklich?

Fünf Minuten, vier Achsen, eine ehrliche Einordnung. Kein Verkaufsgespräch, sondern der erste Maßstab.

Reifegrad bestimmen