Die Illusion der Vernunft: Die Debatte, die die KI-Welt erschüttert

Newsletter

Die Illusion der Vernunft: Die Debatte, die die KI-Welt erschüttert

Apple veröffentlicht zwei verheerende Arbeiten - "GSM-Symbolic" (Oktober 2024) und "The Illusion of Thinking" (Juni 2025) -, die zeigen, wie LLM bei kleinen Variationen klassischer Probleme (Tower of Hanoi, Flussüberquerung) versagt: "Die Leistung nimmt ab, wenn nur numerische Werte geändert werden". Null Erfolg beim komplexen Turm von Hanoi. Doch Alex Lawsen (Open Philanthropy) kontert mit "The Illusion of Thinking" und zeigt, dass die Methodik versagt hat: Die Fehler lagen in den Grenzen der Token-Ausgabe und nicht im Zusammenbruch des Denkens, automatische Skripte klassifizierten teilweise korrekte Ausgaben falsch, einige Rätsel waren mathematisch unlösbar. Durch Wiederholung von Tests mit rekursiven Funktionen anstelle der Auflistung von Zügen lösten Claude/Gemini/GPT Tower of Hanoi mit 15 Rekorden. Gary Marcus macht sich die Apple-These von der "Verteilungsverschiebung" zu eigen, aber das Papier aus der Zeit vor der WWDC wirft strategische Fragen auf. Auswirkungen auf Unternehmen: Wie viel Vertrauen in KI für kritische Aufgaben? Lösung: Neurosymbolische Ansätze Neuronale Netze für Mustererkennung und Sprache, symbolische Systeme für formale Logik. Beispiel: KI-Buchhaltung versteht "Wie viel Reisekosten?", aber SQL/Berechnungen/Steuerprüfungen = deterministischer Code.

Geschäftsführer und Gründer von Electe‍

Fassen Sie diesen Artikel mit AI zusammen

Wenn KI-Schlußfolgerungen auf die Realität treffen: Der Roboter wendet die logische Regel korrekt an, identifiziert den Basketball aber als eine Orange. Eine perfekte Metapher dafür, wie LLMs logische Prozesse simulieren können, ohne ein echtes Verständnis zu besitzen.

‍

In den letzten Monaten wurde die Gemeinschaft der künstlichen Intelligenz von einer hitzigen Debatte heimgesucht, die durch zwei einflussreiche, von Apple veröffentlichte Forschungsarbeiten ausgelöst wurde. Das erste, Illusion des Denkens - Die Debatte, die die Welt der KI erschüttert&_bhlid=a540c17e5de7c2723906dabd9b8f31cdf0c5bf18" target="_blank" id="">"GSM-Symbolic" (Oktober 2024), und das zweite, "Die Illusion des Denkens" (Juni 2025), stellten die angeblichen Denkfähigkeiten von Large Language Models in Frage und lösten in der Branche gemischte Reaktionen aus.

‍

Wie bereits in unserer vorherigen Untersuchung zu „Die Illusion des Fortschritts: Allgemeine künstliche Intelligenz simulieren, ohne sie zu erreichen”, berührt die Frage des künstlichen Denkens den Kern dessen, was wir unter Intelligenz in Maschinen verstehen.

‍

Was die Apple Forschung sagt

Apple-Forscher führten eine systematische Analyse von Large Reasoning Models (LRM) durch, d. h. von Modellen, die ausführliche Argumentationsspuren erzeugen, bevor sie eine Antwort geben. Die Ergebnisse waren überraschend und für viele alarmierend.

‍

Durchgeführte Tests

In der Studie wurden die fortschrittlichsten Modelle klassischen algorithmischen Rätseln unterzogen:

Der Turm von Hanoi: Ein mathematisches Rätsel, das erstmals 1957 gelöst wurde
Flussüberquerungsprobleme: Logische Rätsel mit spezifischen Einschränkungen
GSM-Symbolic Benchmark: Variationen von mathematischen Grundschulaufgaben

‍

Das logische Denken mit klassischen Rätseln testen: das Problem vom Bauern, dem Wolf, der Ziege und dem Kohlkopf ist eines der logischen Rätsel, die in Apple-Studien verwendet werden, um die Denkfähigkeiten von LLMs zu bewerten. Die Schwierigkeit besteht darin, die richtige Reihenfolge der Überquerungen zu finden, ohne dass der Wolf die Ziege frisst oder die Ziege den Kohlkopf frisst, wenn sie allein gelassen werden. Ein einfacher, aber wirksamer Test, um zwischen algorithmischem Verständnis und dem Auswendiglernen von Mustern zu unterscheiden.

‍

Kontroverse Ergebnisse

Die Ergebnisse zeigten, dass selbst kleine Änderungen in der Problemformulierung zu erheblichen Leistungsschwankungen führen, was auf eine besorgniserregende Schwäche des Denkens hindeutet. Wie berichtet in AppleInsider-Berichterstattungnimmt die Leistung aller Modelle ab, wenn nur die numerischen Werte in den GSM-Symbolic-Benchmark-Fragen geändert werden".

‍

Die Gegenoffensive: Die Illusion des Denkens

‍

Die Antwort der KI-Gemeinschaft ließ nicht lange auf sich warten. Alex Lawsen von Open Philanthropy veröffentlichte in Zusammenarbeit mit Claude Opus von Anthropic eine ausführliche Gegendarstellung mit dem Titel "Die Illusion des Denkens'.in der er die Methodik und die Schlussfolgerungen der Apple-Studie anzweifelt.

Die wichtigsten Einwände

Output-Grenzwerte ignoriert: Viele Ausfälle, die auf einen 'Zusammenbruch der Argumentation' zurückgeführt wurden, waren in Wirklichkeit auf die Output-Token-Grenzwerte des Modells zurückzuführen
Falsche Bewertung: Automatische Skripte klassifizierten auch teilweise, aber algorithmisch korrekte Ausgaben als Totalausfälle
Unmögliche Probleme: Einige Rätsel waren mathematisch unlösbar, aber die Modelle wurden dafür bestraft, dass sie sie nicht lösten

Bestätigungsprüfungen

Als Lawsen die Tests mit alternativen Methoden wiederholte - indem er die Modelle aufforderte, rekursive Funktionen zu erzeugen, anstatt alle Züge aufzulisten - waren die Ergebnisse dramatisch anders. Modelle wie Claude, gemini und GPT lösten Tower of Hanoi-Probleme mit 15 Datensätzen korrekt, weit jenseits der Komplexität, bei der Apple null Erfolge meldete.

‍

Autoritäre Stimmen in der Debatte

‍

Gary Marcus: Der Geschichtskritiker

Gary Marcusein langjähriger Kritiker der Denkfähigkeiten von LLMs, begrüßte die Ergebnisse von Apple als Bestätigung seiner 20-jährigen These. Marcus zufolge haben LLMs nach wie vor Probleme mit der "Verteilungsverschiebung" - der Fähigkeit, über die Trainingsdaten hinaus zu verallgemeinern - und sind gleichzeitig "gute Löser von Problemen, die bereits gelöst wurden".

‍

Die LocalLlama-Gemeinschaft

Die Diskussion hat sich auch auf spezialisierte Gemeinschaften wie LocalLlama auf Redditwo Entwickler und Forscher über die praktischen Auswirkungen von Open-Source-Modellen und die lokale Umsetzung diskutieren.

‍

Jenseits der Kontroverse: Was das für Unternehmen bedeutet

Strategische Implikationen

Diese Debatte ist nicht rein akademisch. Sie hat direkte Auswirkungen auf:

KI-Einsatz in der Produktion: Wie sehr können wir Modellen bei kritischen Aufgaben vertrauen?
FuE-Investitionen: Wo sollen die Ressourcen für den nächsten Durchbruch konzentriert werden?
Kommunikation mit Stakeholdern: Wie lassen sich realistische Erwartungen an KI-Fähigkeiten steuern?

Der neurosymbolische Weg

Wie in mehreren Beiträgen hervorgehoben technischen Erkenntnissenhervorgehoben wurde, besteht ein zunehmender Bedarf an hybriden Ansätzen, die eine Kombination darstellen:

Neuronale Netze für Mustererkennung und Sprachverständnis
Symbolische Systeme für algorithmisches Schlussfolgern und formale Logik

Triviales Beispiel: ein KI-Assistent, der bei der Buchhaltung hilft. Das Sprachmodell versteht, wenn Sie fragen: "Wie viel habe ich diesen Monat für Reisen ausgegeben?" und extrahiert die relevanten Parameter (Kategorie: Reisen, Zeitraum: diesen Monat). Aber die SQL-Abfrage, die die Datenbank abfragt, die Summe berechnet und die steuerlichen Beschränkungen überprüft? Das wird durch deterministischen Code erledigt, nicht durch das neuronale Modell.

‍

Zeitplan und strategischer Kontext

Beobachtern ist nicht entgangen, dass das Apple-Papier kurz vor der WWDC veröffentlicht wurde, was Fragen nach den strategischen Beweggründen aufwirft. Wie dieAnalyse von 9to5Mac"Der Zeitpunkt der Veröffentlichung des Apple-Papiers - kurz vor der WWDC - hat einige Augenbrauen aufgeworfen. War dies ein Meilenstein in der Forschung oder ein strategischer Schritt, um Apple in der breiteren KI-Landschaft neu zu positionieren?"

‍

Lektionen für die Zukunft

Für Forscher

Versuchsplanung: Die Bedeutung der Unterscheidung zwischen architektonischen Einschränkungen und Implementierungsbeschränkungen
Strenge Bewertung: Die Notwendigkeit anspruchsvoller Benchmarks, die kognitive Fähigkeiten von praktischen Zwängen trennen
Methodische Transparenz: Die Verpflichtung zur vollständigen Dokumentation von Versuchsaufbauten und -begrenzungen

Für Unternehmen

Realistische Erwartungen: Aktuelle Grenzen erkennen, ohne das zukünftige Potenzial aufzugeben
Hybride Ansätze: Investitionen in Lösungen, die die Stärken verschiedener Technologien kombinieren
Kontinuierliche Bewertung: Implementierung von Testsystemen, die reale Nutzungsszenarien widerspiegeln

‍

‍

Schlussfolgerungen: Navigation in der Ungewissheit

‍

Die durch die Apple-Papiere ausgelöste Debatte erinnert uns daran, dass wir uns beim Verständnis der künstlichen Intelligenz noch in einem frühen Stadium befinden. Wie wir in unserem früheren Artikelhingewiesen, bleibt die Unterscheidung zwischen Simulation und echtem Denken eine der komplexesten Herausforderungen unserer Zeit.

‍

Die eigentliche Lektion ist nicht, ob LLMs im menschlichen Sinne "denken" können oder nicht, sondern vielmehr, wie wir Systeme entwickeln können, die ihre Stärken nutzen und gleichzeitig ihre Grenzen ausgleichen. In einer Welt, in der KI bereits ganze Sektoren umgestaltet, stellt sich nicht mehr die Frage, ob diese Werkzeuge "intelligent" sind, sondern wie man sie effektiv und verantwortungsvoll einsetzt.

‍

Die Zukunft der KI im Unternehmen wird wahrscheinlich nicht in einem einzigen revolutionären Ansatz liegen, sondern in der intelligenten Orchestrierung mehrerer sich ergänzender Technologien. Und in diesem Szenario wird die Fähigkeit, die Fähigkeiten unserer Tools kritisch und ehrlich zu bewerten, selbst zu einem Wettbewerbsvorteil.

‍

Neueste Entwicklungen (Januar 2026)

OpenAI veröffentlicht o3 und o4-mini: Am 16. April 2025 hat OpenAI o3 und o4-mini, die fortschrittlichsten Reasoning-Modelle der o-Serie, öffentlich vorgestellt. Diese Modelle können nun Tools auf agentenbasierte Weise nutzen und dabei Websuche, Dateianalyse, visuelles Denken und Bildgenerierung kombinieren. o3 hat neue Rekorde bei Benchmarks wie Codeforces, SWE-bench und MMMU aufgestellt, während o4-mini die Leistung und Kosten für umfangreiche Reasoning-Aufgaben optimiert. Die Modelle demonstrieren die Fähigkeit zum „Denken mit Bildern”, indem sie Inhalte für eine tiefergehende Analyse visuell transformieren.

DeepSeek-R1 revolutioniert die KI-Branche: Im Januar 2025 veröffentlichte DeepSeek R1, ein Open-Source-Modell für logisches Denken, das eine mit OpenAI o1 vergleichbare Leistung bei Trainingskosten von nur 6 Millionen US-Dollar (im Gegensatz zu Hunderten von Millionen bei westlichen Modellen) erzielte. DeepSeek-R1 beweist, dass Schlussfolgerungsfähigkeiten durch reines Reinforcement Learning gefördert werden können, ohne dass annotierte menschliche Demonstrationen erforderlich sind. Das Modell wurde in Dutzenden von Ländern zur kostenlosen App Nr. 1 im App Store und bei Google Play. Im Januar 2026 veröffentlichte DeepSeek ein 60-seitiges Papier, das die Geheimnisse des Trainings enthüllt und offen zugibt, dass Techniken wie Monte Carlo Tree Search (MCTS) für allgemeines Schlussfolgern nicht funktioniert haben.

Anthropic aktualisiert Claudes „Verfassung“: Am 22. Januar 2026 veröffentlichte Anthropic eine neue, 23.000 Wörter umfassende Verfassung für Claude, in der von einem regelbasierten Ansatz zu einem Ansatz übergegangen wird, der auf dem Verständnis ethischer Prinzipien basiert. Das Dokument ist das erste Rahmenwerk eines großen KI-Unternehmens, das die Möglichkeit eines Bewusstseins oder moralischen Status von KI formell anerkennt und bekräftigt, dass Anthropic sich um das „psychologische Wohlbefinden, Selbstbewusstsein und Wohlergehen” von Claude kümmert.

Die Debatte verschärft sich: Eine Studie vom Juli 2025 hat die Apple-Benchmarks wiederholt und verfeinert und bestätigt, dass LRM bei moderat steigender Komplexität (etwa 8 Scheiben im Turm von Hanoi) weiterhin kognitive Einschränkungen aufweisen. Die Forscher haben gezeigt, dass dies nicht nur auf Ausgabebeschränkungen zurückzuführen ist, sondern auch auf tatsächliche kognitive Grenzen, was deutlich macht, dass die Debatte noch lange nicht abgeschlossen ist.

‍

Für Einblicke in die KI-Strategie Ihres Unternehmens und die Implementierung robuster Lösungen steht unser Expertenteam für maßgeschneiderte Beratungen zur Verfügung.

‍

Quellen und Referenzen:

GSM-Symbolic: Die Grenzen des mathematischen Reasonings in großen Sprachmodellen verstehen - Apple Forschung zum maschinellen Lernen
Die Illusion des Denkens: Die Stärken und Grenzen von Denkmodellen verstehen - Apple Forschung zum maschinellen Lernen
Neues Papier widerlegt Apples LLM-Studie zum "Zusammenbruch des Denkens - 9to5Mac
Sieben Antworten auf das virale Apple-Argumentationspapier - Gary Marcus
Die Illusion des Denkens: Was das Apple AI Paper über LLM Reasoning aussagt - Arize AI
Apples Studie beweist, dass LLM-basierte KI-Modelle fehlerhaft sind - AppleInsider
Die Illusion des Fortschritts: Simulation einer allgemeinen künstlichen Intelligenz, ohne sie zu erreichen - Electe

Ressourcen für Unternehmenswachstum

26. Dezember 2025

Analyse anhand von Bilanzkennzahlen: Umfassender Leitfaden für KMU

Analyse anhand von Bilanzkennzahlen: Umfassender Leitfaden für KMU

Der vollständige Leitfaden zur Analyse von Bilanzkennzahlen. Lernen Sie, wie Sie Kennzahlen berechnen, interpretieren und automatisieren, um Ihr KMU wachsen zu lassen.

25. Dezember 2025

Leitfaden zum Design of Experiment: Wie man mit Daten bessere Entscheidungen trifft

Leitfaden zum Design of Experiment: Wie man mit Daten bessere Entscheidungen trifft

Erfahren Sie, wie Sie mit Design of Experiment (DOE) Prozesse optimieren, Kosten senken und Ihre Entscheidungen auf Daten stützen können. Leitfaden für Analysten und Manager.

24. Dezember 2025

Wie man eine PDF-Datei in Excel konvertiert, ohne die Formatierung zu verlieren

Wie man eine PDF-Datei in Excel konvertiert, ohne die Formatierung zu verlieren

Erfahren Sie, wie Sie eine PDF-Datei mit praktischen Methoden in Excel konvertieren können. Von integrierten Funktionen bis hin zu OCR-Tools – verwandeln Sie Ihre statischen Daten in Tabellenkalkulationen.

23. Dezember 2025

Umfassender Leitfaden zu OneDrive for Business: Optimieren Sie die Arbeit Ihres KMU

Umfassender Leitfaden zu OneDrive for Business: Optimieren Sie die Arbeit Ihres KMU

Erfahren Sie, was OneDrive for Business ist, wie es funktioniert und warum es das unverzichtbare Tool für die Zusammenarbeit und Datensicherheit in Ihrem KMU ist.