Newsletter

Warum Mathe schwierig ist (auch für KI)

Sprachmodelle wissen nicht, wie man Ergebnisse multipliziert, so wie wir uns Pi merken, aber das macht sie nicht zu Mathematikern. Das Problem ist strukturell: Sie lernen durch statistische Ähnlichkeit, nicht durch algorithmisches Verständnis. Selbst die neuen "Denkmodelle" wie o1 versagen bei trivialen Aufgaben: Es zählt das "r" in "Erdbeere" nach wenigen Sekunden korrekt, irrt aber, wenn es einen Absatz schreiben soll, bei dem der zweite Buchstabe jedes Satzes ein Wort bildet. Die Premium-Version für 200 Dollar/Monat braucht vier Minuten, um das zu lösen, was ein Kind sofort schafft. DeepSeek und Mistral im Jahr 2025 zählen immer noch Buchstaben falsch. Die sich abzeichnende Lösung? Ein hybrider Ansatz - die klügsten Modelle haben herausgefunden, wann sie einen echten Taschenrechner aufrufen sollten, anstatt die Berechnung selbst vorzunehmen. Paradigmenwechsel: KI muss nicht alles können, sondern die richtigen Werkzeuge orchestrieren. Letztes Paradoxon: GPT-4 kann Ihnen auf brillante Weise die Grenzwerttheorie erklären, macht aber Multiplikationen falsch, die ein Taschenrechner immer richtig löst. Für den Mathematikunterricht sind sie hervorragend geeignet - sie erklären mit unendlicher Geduld, passen Beispiele an und schlüsseln komplexe Zusammenhänge auf. Für präzise Berechnungen? Verlassen Sie sich auf den Taschenrechner, nicht auf die künstliche Intelligenz.

Viele verlassen sich auf LLM um auch mathematische Operationen durchzuführen. Dieser Ansatz funktioniert nicht.

Das Problem ist eigentlich ganz einfach: Große Sprachmodelle (LLM) wissen nicht wirklich, wie man multipliziert. Sie können manchmal das richtige Ergebnis erzielen, so wie ich vielleicht den Wert von Pi auswendig weiß. Aber das bedeutet weder, dass ich ein Mathematiker bin, noch, dass LLMs wirklich wissen, wie man rechnet.

Praktisches Beispiel

Beispiel: 49858 *59949 = 298896167242 Das Ergebnis ist immer das gleiche, es gibt keinen Mittelweg. Es ist entweder richtig oder falsch.

Selbst mit umfangreichem mathematischen Training schaffen es die besten Modelle nur, einen Teil der Operationen richtig zu lösen. Ein einfacher Taschenrechner hingegen erhält immer 100 % der Ergebnisse richtig. Und je größer die Zahlen werden, desto schlechter wird die Leistung der LLMs.

Ist es möglich, dieses Problem zu lösen?

Das Grundproblem ist, dass diese Modelle durch Ähnlichkeit und nicht durch Verständnis lernen. Sie arbeiten am besten mit Problemen, die denen ähnlich sind, für die sie trainiert wurden, entwickeln aber nie ein wirkliches Verständnis für das, was sie sagen.

Für diejenigen, die mehr erfahren möchten, empfehle ich diesen Artikel über "wie ein LLM funktioniert".

Ein Taschenrechner hingegen verwendet einen präzisen, programmierten Algorithmus, um die mathematische Operation durchzuführen.

Aus diesem Grund sollten wir uns bei mathematischen Berechnungen nie vollständig auf LLMs verlassen: Selbst unter den besten Bedingungen, mit riesigen Mengen spezifischer Trainingsdaten, können sie selbst bei den grundlegendsten Operationen keine Zuverlässigkeit garantieren. Ein hybrider Ansatz könnte funktionieren, aber LLMs allein sind nicht genug. Vielleicht wird dieser Ansatz zur Lösung des sogenannten"Erdbeerproblems" verfolgt.

Anwendungen von LLMs im Studium der Mathematik

Im Bildungskontext können LLMs als personalisierte Tutoren fungieren, die in der Lage sind, die Erklärungen an das Verständnisniveau des Schülers anzupassen. Wenn ein Schüler beispielsweise mit einem Problem der Differentialrechnung konfrontiert wird, kann das LLM die Argumentation in einfachere Schritte aufschlüsseln und detaillierte Erklärungen für jeden Schritt des Lösungsprozesses liefern. Dieser Ansatz trägt dazu bei, ein solides Verständnis der grundlegenden Konzepte zu entwickeln.

Ein besonders interessanter Aspekt ist die Fähigkeit der LLMs, relevante und vielfältige Beispiele zu generieren. Wenn ein Schüler versucht, das Konzept eines Grenzwerts zu verstehen, kann das LLM verschiedene mathematische Szenarien präsentieren, beginnend mit einfachen Fällen und fortschreitend zu komplexeren Situationen, wodurch ein progressives Verständnis des Konzepts ermöglicht wird.

Eine vielversprechende Anwendung ist die Verwendung von LLM für die Übersetzung komplexer mathematischer Konzepte in leichter zugängliche natürliche Sprache. Dies erleichtert die Vermittlung von Mathematik an ein breiteres Publikum und kann dazu beitragen, die traditionelle Zugangsbarriere zu dieser Disziplin zu überwinden.

LLMs können auch bei der Vorbereitung von Lehrmaterial helfen, indem sie Übungen mit unterschiedlichem Schwierigkeitsgrad erstellen und ausführliche Rückmeldungen zu den Lösungsvorschlägen der Schüler geben. Auf diese Weise können die Lehrkräfte den Lernweg ihrer Schüler besser anpassen.

Der wahre Vorteil

Generell ist auch die extreme "Geduld" zu berücksichtigen, mit der selbst der am wenigsten "fähige" Schüler lernt: In diesem Fall hilft die Abwesenheit von Emotionen. Trotzdem verliert auch die KI manchmal die "Geduld". Siehe dieses 'amüsante' Beispiel.

Update 2025: Begründungsmodelle und der Hybrid-Ansatz

Die Jahre 2024-2025 brachten mit der Einführung so genannter "schlussfolgernder Modelle" wie OpenAI o1 und deepseek R1 bedeutende Entwicklungen. Diese Modelle haben bei mathematischen Benchmarks beeindruckende Ergebnisse erzielt: o1 löst 83 % der Probleme in der Internationalen Mathematik-Olympiade korrekt, verglichen mit 13 % bei GPT-4o. Aber Vorsicht: Sie haben das oben beschriebene grundlegende Problem nicht gelöst.

Das Erdbeerproblem - das Zählen des "r" in "Erdbeere" - veranschaulicht die anhaltende Einschränkung perfekt. o1 löst es nach ein paar Sekunden des "Nachdenkens" korrekt, aber wenn man es bittet, einen Absatz zu schreiben, in dem der zweite Buchstabe jedes Satzes das Wort "CODE" bildet, scheitert es. o1-pro, die $200/Monat-Version, löst es... nach 4 Minuten der Verarbeitung. Bei DeepSeek R1 und anderen neueren Modellen ist die Grundzahl immer noch falsch. Im Februar 2025 antwortete Mistral immer wieder, dass es nur zwei "r" in "Erdbeere" gibt.

Der Trick, der sich herauskristallisiert, ist der hybride Ansatz: Wenn sie 49858 mit 5994949 multiplizieren müssen, versuchen die fortschrittlicheren Modelle nicht mehr, das Ergebnis auf der Grundlage von Ähnlichkeiten mit Berechnungen aus dem Training zu "erraten". Stattdessen rufen sie einen Taschenrechner auf oder führen Python-Code aus - genau so, wie es ein intelligenter Mensch tun würde, der weiß, wo seine Grenzen liegen.

Diese "Werkzeugnutzung" stellt einen Paradigmenwechsel dar: Künstliche Intelligenz muss nicht alles selbst können, sondern muss in der Lage sein, die richtigen Werkzeuge zu orchestrieren. Denkmodelle kombinieren sprachliche Fähigkeiten, um das Problem zu verstehen, schrittweises Denken, um die Lösung zu planen, und Delegation an spezialisierte Werkzeuge (Taschenrechner, Python-Interpreter, Datenbanken) für die präzise Ausführung.

Die Lektion? Die LLMs des Jahres 2025 sind in der Mathematik nützlicher, nicht weilsie das Multiplizieren "gelernt" haben - sie haben es noch nicht wirklich getan -, sondern weil einige von ihnen begonnen haben zu verstehen, wann sie das Multiplizieren an diejenigen delegieren sollten, die es tatsächlich können. Das Grundproblem bleibt: Sie arbeiten mit statistischer Ähnlichkeit, nicht mit algorithmischem Verständnis. Ein 5-Euro-Rechner ist für genaue Berechnungen nach wie vor unendlich viel zuverlässiger.

Ressourcen für Unternehmenswachstum

November 9, 2025

KI-Regulierung für Verbraucheranwendungen: Wie man sich auf die neuen Vorschriften für 2025 vorbereitet

Das Jahr 2025 markiert das Ende der "Wildwest"-Ära der KI: Das KI-Gesetz der EU ist ab August 2024 in Kraft und verpflichtet ab 2. Februar 2025 zu KI-Kenntnissen, ab 2. August zu Governance und GPAI. Kalifornien ist Vorreiter mit SB 243 (nach dem Selbstmord von Sewell Setzer, einem 14-Jährigen, der eine emotionale Beziehung zu einem Chatbot aufbaute), das ein Verbot von Belohnungssystemen mit Zwangscharakter, die Erkennung von Selbstmordgedanken, die Erinnerung alle drei Stunden "Ich bin kein Mensch", unabhängige öffentliche Audits und Strafen von 1.000 Dollar pro Verstoß vorsieht. SB 420 verlangt Folgenabschätzungen für "risikoreiche automatisierte Entscheidungen" mit Einspruchsrechten für Menschen. Reale Durchsetzung: Noom wurde 2022 wegen Bots, die sich als menschliche Trainer ausgaben, zitiert, Vergleich 56 Mio. $. Nationaler Trend: Alabama, Hawaii, Illinois, Maine, Massachusetts stufen das Versäumnis, KI-Chatbots zu benachrichtigen, als Verstoß gegen den UDAP ein. Dreistufiger Ansatz für risikokritische Systeme (Gesundheitswesen/Verkehr/Energie), Zertifizierung vor dem Einsatz, transparente Offenlegung gegenüber den Verbrauchern, allgemeine Registrierung und Sicherheitstests. Regulatorischer Flickenteppich ohne föderale Vorrangstellung: Unternehmen aus mehreren Staaten müssen sich mit unterschiedlichen Anforderungen auseinandersetzen. EU ab August 2026: Information der Nutzer über KI-Interaktion, sofern nicht offensichtlich, Kennzeichnung von KI-generierten Inhalten als maschinenlesbar.
November 9, 2025

Regulierung dessen, was nicht geschaffen wird: Riskiert Europa technologische Irrelevanz?

Europa zieht nur ein Zehntel der weltweiten Investitionen in künstliche Intelligenz an, beansprucht aber, globale Regeln zu diktieren. Das ist der "Brüsseler Effekt" - die Auferlegung von Regeln auf globaler Ebene durch Marktmacht, ohne die Innovation voranzutreiben. Das KI-Gesetz tritt zeitlich gestaffelt bis 2027 in Kraft, aber multinationale Technologieunternehmen reagieren mit kreativen Umgehungsstrategien: Sie berufen sich auf Geschäftsgeheimnisse, um die Offenlegung von Trainingsdaten zu vermeiden, erstellen technisch konforme, aber unverständliche Zusammenfassungen, nutzen Selbsteinschätzungen, um Systeme von "hohem Risiko" auf "minimales Risiko" herabzustufen, und wählen Mitgliedsstaaten mit weniger strengen Kontrollen. Das Paradoxon des extraterritorialen Urheberrechts: Die EU verlangt, dass OpenAI die europäischen Gesetze auch bei Schulungen außerhalb Europas einhält - ein Prinzip, das es im internationalen Recht noch nie gab. Es entsteht ein "duales Modell": begrenzte europäische Versionen vs. fortgeschrittene globale Versionen der gleichen KI-Produkte. Das reale Risiko: Europa wird zu einer "digitalen Festung", die von der globalen Innovation isoliert ist, und die europäischen Bürger haben Zugang zu minderwertigen Technologien. Der Gerichtshof hat im Fall der Kreditwürdigkeitsprüfung bereits die Einrede des Geschäftsgeheimnisses" zurückgewiesen, aber die Auslegungsunsicherheit ist nach wie vor enorm - was genau bedeutet eine ausreichend detaillierte Zusammenfassung"? Das weiß niemand. Letzte unbeantwortete Frage: Schafft die EU einen ethischen dritten Weg zwischen dem US-Kapitalismus und der chinesischen Staatskontrolle oder exportiert sie einfach nur Bürokratie in einen Bereich, in dem sie nicht konkurrenzfähig ist? Fürs Erste: weltweit führend in der KI-Regulierung, marginal in ihrer Entwicklung. Umfangreiches Programm.
November 9, 2025

Ausreißer: Wo Datenwissenschaft auf Erfolgsgeschichten trifft

Die Datenwissenschaft hat das Paradigma auf den Kopf gestellt: Ausreißer sind nicht länger "zu eliminierende Fehler", sondern wertvolle Informationen, die es zu verstehen gilt. Ein einziger Ausreißer kann ein lineares Regressionsmodell völlig verzerren - die Steigung von 2 auf 10 ändern -, aber ihn zu eliminieren könnte bedeuten, das wichtigste Signal im Datensatz zu verlieren. Mit dem maschinellen Lernen werden ausgefeilte Tools eingeführt: Isolation Forest isoliert Ausreißer durch die Erstellung zufälliger Entscheidungsbäume, Local Outlier Factor analysiert die lokale Dichte, Autoencoder rekonstruieren normale Daten und melden, was sie nicht reproduzieren können. Es gibt globale Ausreißer (Temperatur -10°C in den Tropen), kontextuelle Ausreißer (1.000 € in einer armen Gegend ausgeben), kollektive Ausreißer (synchronisierte Spitzen im Verkehrsnetz, die auf einen Angriff hindeuten). Parallele zu Gladwell: die "10.000-Stunden-Regel" ist umstritten - Paul McCartneys Dixit "viele Bands haben 10.000 Stunden in Hamburg gespielt, ohne Erfolg, die Theorie ist nicht unfehlbar". Der mathematische Erfolg der Asiaten ist nicht genetisch, sondern kulturell bedingt: das chinesische Zahlensystem ist intuitiver, der Reisanbau erfordert eine ständige Verbesserung, während die westliche Landwirtschaft sich territorial ausdehnt. Reale Anwendungen: Britische Banken gewinnen durch die Erkennung von Anomalien in Echtzeit 18 % ihrer potenziellen Verluste zurück, in der Fertigung werden mikroskopisch kleine Defekte entdeckt, die bei einer menschlichen Inspektion übersehen würden, im Gesundheitswesen werden Daten aus klinischen Studien mit einer Empfindlichkeit von über 85 % bei der Erkennung von Anomalien validiert. Letzte Lektion: Da sich die Datenwissenschaft von der Eliminierung von Ausreißern zu deren Verständnis hinbewegt, müssen wir unkonventionelle Karrieren nicht als Anomalien betrachten, die korrigiert werden müssen, sondern als wertvolle Verläufe, die untersucht werden müssen.