Newsletter

Die Illusion der Vernunft: Die Debatte, die die KI-Welt erschüttert

Apple veröffentlicht zwei verheerende Arbeiten - "GSM-Symbolic" (Oktober 2024) und "The Illusion of Thinking" (Juni 2025) -, die zeigen, wie LLM bei kleinen Variationen klassischer Probleme (Tower of Hanoi, Flussüberquerung) versagt: "Die Leistung nimmt ab, wenn nur numerische Werte geändert werden". Null Erfolg beim komplexen Turm von Hanoi. Doch Alex Lawsen (Open Philanthropy) kontert mit "The Illusion of Thinking" und zeigt, dass die Methodik versagt hat: Die Fehler lagen in den Grenzen der Token-Ausgabe und nicht im Zusammenbruch des Denkens, automatische Skripte klassifizierten teilweise korrekte Ausgaben falsch, einige Rätsel waren mathematisch unlösbar. Durch Wiederholung von Tests mit rekursiven Funktionen anstelle der Auflistung von Zügen lösten Claude/Gemini/GPT Tower of Hanoi mit 15 Rekorden. Gary Marcus macht sich die Apple-These von der "Verteilungsverschiebung" zu eigen, aber das Papier aus der Zeit vor der WWDC wirft strategische Fragen auf. Auswirkungen auf Unternehmen: Wie viel Vertrauen in KI für kritische Aufgaben? Lösung: Neurosymbolische Ansätze Neuronale Netze für Mustererkennung und Sprache, symbolische Systeme für formale Logik. Beispiel: KI-Buchhaltung versteht "Wie viel Reisekosten?", aber SQL/Berechnungen/Steuerprüfungen = deterministischer Code.
Fabio Lauria
Geschäftsführer und Gründer von Electe‍
Wenn KI-Schlußfolgerungen auf die Realität treffen: Der Roboter wendet die logische Regel korrekt an, identifiziert den Basketball aber als eine Orange. Eine perfekte Metapher dafür, wie LLMs logische Prozesse simulieren können, ohne ein echtes Verständnis zu besitzen.

In den letzten Monaten hat die Gemeinschaft der künstlichen Intelligenz eine hitzige Debatte erlebt, die durch zwei einflussreiche, von Apple veröffentlichte Forschungsarbeiten ausgelöst wurde. Die erste, 'GSM-Symbolik' (Oktober 2024), und das zweite, 'Die Illusion des Denkens' (Juni 2025), stellten die angeblichen Denkfähigkeiten von Large Language Models in Frage und lösten in der Branche gemischte Reaktionen aus.

Wie bereits in unserem früheren Artikel über "Die Illusion des Fortschritts: Simulation einer allgemeinen künstlichen Intelligenz, ohne sie zu erreichen".analysiert haben, berührt die Frage des künstlichen Denkens den Kern dessen, was wir unter Intelligenz bei Maschinen verstehen.

Was die Apple Forschung sagt

Apple-Forscher führten eine systematische Analyse von Large Reasoning Models (LRM) durch, d. h. von Modellen, die ausführliche Argumentationsspuren erzeugen, bevor sie eine Antwort geben. Die Ergebnisse waren überraschend und für viele alarmierend.

Durchgeführte Tests

In der Studie wurden die fortschrittlichsten Modelle klassischen algorithmischen Rätseln unterzogen:

  • Der Turm von Hanoi: Ein mathematisches Rätsel, das erstmals 1957 gelöst wurde
  • Flussüberquerungsprobleme: Logische Rätsel mit spezifischen Einschränkungen
  • GSM-Symbolic Benchmark: Variationen von mathematischen Grundschulaufgaben

Testen des logischen Denkens mit klassischen Rätseln: Das Problem des Bauern, des Wolfs, der Ziege und des Kohls ist eines der Logikrätsel, die in Apples Studien verwendet werden, um die logischen Fähigkeiten von LLMs zu bewerten. Die Schwierigkeit besteht darin, die richtige Reihenfolge der Kreuzungen zu finden und dabei zu vermeiden, dass der Wolf die Ziege frisst oder die Ziege den Kohl frisst, wenn sie allein gelassen wird. Ein einfacher, aber effektiver Test, um zwischen algorithmischem Verständnis und dem Auswendiglernen von Mustern zu unterscheiden.

Kontroverse Ergebnisse

Die Ergebnisse zeigten, dass selbst kleine Änderungen in der Problemformulierung zu erheblichen Leistungsschwankungen führen, was auf eine besorgniserregende Schwäche des Denkens hindeutet. Wie berichtet in AppleInsider-Berichterstattungnimmt die Leistung aller Modelle ab, wenn nur die numerischen Werte in den GSM-Symbolic-Benchmark-Fragen geändert werden".

Die Gegenoffensive: Die Illusion des Denkens

Die Antwort der KI-Gemeinschaft ließ nicht lange auf sich warten. Alex Lawsen von Open Philanthropy veröffentlichte in Zusammenarbeit mit Claude Opus von Anthropic eine ausführliche Gegendarstellung mit dem Titel "Die Illusion des Denkens'.in der er die Methodik und die Schlussfolgerungen der Apple-Studie anzweifelt.

Die wichtigsten Einwände

  1. Output-Grenzwerte ignoriert: Viele Ausfälle, die auf einen 'Zusammenbruch der Argumentation' zurückgeführt wurden, waren in Wirklichkeit auf die Output-Token-Grenzwerte des Modells zurückzuführen
  2. Falsche Bewertung: Automatische Skripte klassifizierten auch teilweise, aber algorithmisch korrekte Ausgaben als Totalausfälle
  3. Unmögliche Probleme: Einige Rätsel waren mathematisch unlösbar, aber die Modelle wurden dafür bestraft, dass sie sie nicht lösten

Bestätigungsprüfungen

Als Lawsen die Tests mit alternativen Methoden wiederholte - indem er die Modelle aufforderte, rekursive Funktionen zu erzeugen, anstatt alle Züge aufzulisten - waren die Ergebnisse dramatisch anders. Modelle wie Claude, Gemini und GPT lösten Tower of Hanoi-Probleme mit 15 Datensätzen korrekt, weit jenseits der Komplexität, für die Apple null Erfolge meldete.

Autoritäre Stimmen in der Debatte

Gary Marcus: Der Geschichtskritiker

Gary Marcusein langjähriger Kritiker der Denkfähigkeiten von LLMs, begrüßte die Ergebnisse von Apple als Bestätigung seiner 20-jährigen These. Marcus zufolge haben LLMs nach wie vor Probleme mit der "Verteilungsverschiebung" - der Fähigkeit, über die Trainingsdaten hinaus zu verallgemeinern - und sind gleichzeitig "gute Löser von Problemen, die bereits gelöst wurden".

Die LocalLlama-Gemeinschaft

Die Diskussion hat sich auch auf spezialisierte Gemeinschaften wie LocalLlama auf Redditwo Entwickler und Forscher über die praktischen Auswirkungen von Open-Source-Modellen und die lokale Umsetzung diskutieren.

Jenseits der Kontroverse: Was das für Unternehmen bedeutet

Strategische Implikationen

Diese Debatte ist nicht rein akademisch. Sie hat direkte Auswirkungen auf:

  • KI-Einsatz in der Produktion: Wie sehr können wir Modellen bei kritischen Aufgaben vertrauen?
  • FuE-Investitionen: Wo sollen die Ressourcen für den nächsten Durchbruch konzentriert werden?
  • Kommunikation mit Stakeholdern: Wie lassen sich realistische Erwartungen an KI-Fähigkeiten steuern?

Der neurosymbolische Weg

Wie in mehreren Beiträgen hervorgehoben technischen Erkenntnissenhervorgehoben wurde, besteht ein zunehmender Bedarf an hybriden Ansätzen, die eine Kombination darstellen:

  • Neuronale Netze für Mustererkennung und Sprachverständnis
  • Symbolische Systeme für algorithmisches Schlussfolgern und formale Logik

Triviales Beispiel: ein KI-Assistent, der bei der Buchhaltung hilft. Das Sprachmodell versteht, wenn Sie fragen: "Wie viel habe ich diesen Monat für Reisen ausgegeben?" und extrahiert die relevanten Parameter (Kategorie: Reisen, Zeitraum: diesen Monat). Aber die SQL-Abfrage, die die Datenbank abfragt, die Summe berechnet und die steuerlichen Beschränkungen überprüft? Das wird durch deterministischen Code erledigt, nicht durch das neuronale Modell.

Zeitplan und strategischer Kontext

Beobachtern ist nicht entgangen, dass das Apple-Papier kurz vor der WWDC veröffentlicht wurde, was Fragen nach den strategischen Beweggründen aufwirft. Wie dieAnalyse von 9to5Mac"Der Zeitpunkt der Veröffentlichung des Apple-Papiers - kurz vor der WWDC - hat einige Augenbrauen aufgeworfen. War dies ein Meilenstein in der Forschung oder ein strategischer Schritt, um Apple in der breiteren KI-Landschaft neu zu positionieren?"

Lektionen für die Zukunft

Für Forscher

  • Versuchsplanung: Die Bedeutung der Unterscheidung zwischen architektonischen Einschränkungen und Implementierungsbeschränkungen
  • Strenge Bewertung: Die Notwendigkeit anspruchsvoller Benchmarks, die kognitive Fähigkeiten von praktischen Zwängen trennen
  • Methodische Transparenz: Die Verpflichtung zur vollständigen Dokumentation von Versuchsaufbauten und -begrenzungen

Für Unternehmen

  • Realistische Erwartungen: Aktuelle Grenzen erkennen, ohne das zukünftige Potenzial aufzugeben
  • Hybride Ansätze: Investitionen in Lösungen, die die Stärken verschiedener Technologien kombinieren
  • Kontinuierliche Bewertung: Implementierung von Testsystemen, die reale Nutzungsszenarien widerspiegeln

Schlussfolgerungen: Navigation in der Ungewissheit

Die durch die Apple-Papiere ausgelöste Debatte erinnert uns daran, dass wir uns beim Verständnis der künstlichen Intelligenz noch in einem frühen Stadium befinden. Wie wir in unserem früheren Artikelhingewiesen, bleibt die Unterscheidung zwischen Simulation und echtem Denken eine der komplexesten Herausforderungen unserer Zeit.

Die eigentliche Lektion ist nicht, ob LLMs im menschlichen Sinne "denken" können oder nicht, sondern vielmehr, wie wir Systeme entwickeln können, die ihre Stärken nutzen und gleichzeitig ihre Grenzen ausgleichen. In einer Welt, in der KI bereits ganze Sektoren umgestaltet, stellt sich nicht mehr die Frage, ob diese Werkzeuge "intelligent" sind, sondern wie man sie effektiv und verantwortungsvoll einsetzt.

Die Zukunft der KI im Unternehmen wird wahrscheinlich nicht in einem einzigen revolutionären Ansatz liegen, sondern in der intelligenten Orchestrierung mehrerer sich ergänzender Technologien. Und in diesem Szenario wird die Fähigkeit, die Fähigkeiten unserer Tools kritisch und ehrlich zu bewerten, selbst zu einem Wettbewerbsvorteil.

Für Einblicke in die KI-Strategie Ihres Unternehmens und die Implementierung robuster Lösungen steht unser Expertenteam für maßgeschneiderte Beratungen zur Verfügung.

Quellen und Referenzen:

Ressourcen für Unternehmenswachstum

November 9, 2025

KI-Regulierung für Verbraucheranwendungen: Wie man sich auf die neuen Vorschriften für 2025 vorbereitet

Das Jahr 2025 markiert das Ende der "Wildwest"-Ära der KI: Das KI-Gesetz der EU ist ab August 2024 in Kraft und verpflichtet ab 2. Februar 2025 zu KI-Kenntnissen, ab 2. August zu Governance und GPAI. Kalifornien ist Vorreiter mit SB 243 (nach dem Selbstmord von Sewell Setzer, einem 14-Jährigen, der eine emotionale Beziehung zu einem Chatbot aufbaute), das ein Verbot von Belohnungssystemen mit Zwangscharakter, die Erkennung von Selbstmordgedanken, die Erinnerung alle drei Stunden "Ich bin kein Mensch", unabhängige öffentliche Audits und Strafen von 1.000 Dollar pro Verstoß vorsieht. SB 420 verlangt Folgenabschätzungen für "risikoreiche automatisierte Entscheidungen" mit Einspruchsrechten für Menschen. Reale Durchsetzung: Noom wurde 2022 wegen Bots, die sich als menschliche Trainer ausgaben, zitiert, Vergleich 56 Mio. $. Nationaler Trend: Alabama, Hawaii, Illinois, Maine, Massachusetts stufen das Versäumnis, KI-Chatbots zu benachrichtigen, als Verstoß gegen den UDAP ein. Dreistufiger Ansatz für risikokritische Systeme (Gesundheitswesen/Verkehr/Energie), Zertifizierung vor dem Einsatz, transparente Offenlegung gegenüber den Verbrauchern, allgemeine Registrierung und Sicherheitstests. Regulatorischer Flickenteppich ohne föderale Vorrangstellung: Unternehmen aus mehreren Staaten müssen sich mit unterschiedlichen Anforderungen auseinandersetzen. EU ab August 2026: Information der Nutzer über KI-Interaktion, sofern nicht offensichtlich, Kennzeichnung von KI-generierten Inhalten als maschinenlesbar.
November 9, 2025

Regulierung dessen, was nicht geschaffen wird: Riskiert Europa technologische Irrelevanz?

**TITEL: Europäisches KI-Gesetz - Das Paradoxon, wer reguliert, was sich nicht entwickelt** **ZUSAMMENFASSUNG:** Europa zieht nur ein Zehntel der weltweiten Investitionen in künstliche Intelligenz an, beansprucht aber, globale Regeln zu diktieren. Das ist der "Brüsseler Effekt" - die Auferlegung von Vorschriften auf globaler Ebene durch Marktmacht, ohne die Innovation voranzutreiben. Das KI-Gesetz tritt zeitlich gestaffelt bis 2027 in Kraft, aber multinationale Technologieunternehmen reagieren mit kreativen Umgehungsstrategien: Sie berufen sich auf Geschäftsgeheimnisse, um die Offenlegung von Trainingsdaten zu vermeiden, erstellen technisch konforme, aber unverständliche Zusammenfassungen, nutzen Selbsteinschätzungen, um Systeme von "hohem Risiko" auf "minimales Risiko" herabzustufen, und wählen Mitgliedsstaaten mit weniger strengen Kontrollen. Das Paradoxon des extraterritorialen Urheberrechts: Die EU verlangt, dass OpenAI die europäischen Gesetze auch bei Schulungen außerhalb Europas einhält - ein Prinzip, das es im internationalen Recht noch nie gab. Es entsteht ein "duales Modell": begrenzte europäische Versionen vs. fortgeschrittene globale Versionen der gleichen KI-Produkte. Das reale Risiko: Europa wird zu einer "digitalen Festung", die von der globalen Innovation isoliert ist, und die europäischen Bürger haben Zugang zu minderwertigen Technologien. Der Gerichtshof hat im Fall der Kreditwürdigkeitsprüfung bereits die Einrede des Geschäftsgeheimnisses" zurückgewiesen, aber die Auslegungsunsicherheit ist nach wie vor enorm - was genau bedeutet eine ausreichend detaillierte Zusammenfassung"? Das weiß niemand. Letzte unbeantwortete Frage: Schafft die EU einen ethischen dritten Weg zwischen dem US-Kapitalismus und der chinesischen Staatskontrolle oder exportiert sie einfach nur Bürokratie in einen Bereich, in dem sie nicht konkurrenzfähig ist? Fürs Erste: weltweit führend in der KI-Regulierung, marginal in ihrer Entwicklung. Umfangreiches Programm.
November 9, 2025

Ausreißer: Wo Datenwissenschaft auf Erfolgsgeschichten trifft

Die Datenwissenschaft hat das Paradigma auf den Kopf gestellt: Ausreißer sind nicht länger "zu eliminierende Fehler", sondern wertvolle Informationen, die es zu verstehen gilt. Ein einziger Ausreißer kann ein lineares Regressionsmodell völlig verzerren - die Steigung von 2 auf 10 ändern -, aber ihn zu eliminieren könnte bedeuten, das wichtigste Signal im Datensatz zu verlieren. Mit dem maschinellen Lernen werden ausgefeilte Tools eingeführt: Isolation Forest isoliert Ausreißer durch die Erstellung zufälliger Entscheidungsbäume, Local Outlier Factor analysiert die lokale Dichte, Autoencoder rekonstruieren normale Daten und melden, was sie nicht reproduzieren können. Es gibt globale Ausreißer (Temperatur -10°C in den Tropen), kontextuelle Ausreißer (1.000 € in einer armen Gegend ausgeben), kollektive Ausreißer (synchronisierte Spitzen im Verkehrsnetz, die auf einen Angriff hindeuten). Parallele zu Gladwell: die "10.000-Stunden-Regel" ist umstritten - Paul McCartneys Dixit "viele Bands haben 10.000 Stunden in Hamburg gespielt, ohne Erfolg, die Theorie ist nicht unfehlbar". Der mathematische Erfolg der Asiaten ist nicht genetisch, sondern kulturell bedingt: das chinesische Zahlensystem ist intuitiver, der Reisanbau erfordert eine ständige Verbesserung, während die westliche Landwirtschaft sich territorial ausdehnt. Reale Anwendungen: Britische Banken gewinnen durch die Erkennung von Anomalien in Echtzeit 18 % ihrer potenziellen Verluste zurück, in der Fertigung werden mikroskopisch kleine Defekte entdeckt, die bei einer menschlichen Inspektion übersehen würden, im Gesundheitswesen werden Daten aus klinischen Studien mit einer Empfindlichkeit von über 85 % bei der Erkennung von Anomalien validiert. Letzte Lektion: Da sich die Datenwissenschaft von der Eliminierung von Ausreißern zu deren Verständnis hinbewegt, müssen wir unkonventionelle Karrieren nicht als Anomalien betrachten, die korrigiert werden müssen, sondern als wertvolle Verläufe, die untersucht werden müssen.