Vom Erdbeerproblem zum Modell o1: Wie OpenAI das Tokenisierungsproblem (teilweise) gelöst hat
Im Sommer 2024 bringt ein virales Internet-Mem die fortschrittlichsten Sprachmodelle der Welt in Verlegenheit: "Wie viele 'r's' sind in dem Wort 'Erdbeere'?" Die richtige Antwort lautet drei, aber GPT-4o antwortete hartnäckig "zwei". Ein scheinbar trivialer Fehler, der eine grundlegende Einschränkung von Sprachmodellen offenbart: ihre Unfähigkeit, einzelne Buchstaben in Wörtern zu analysieren.
Am 12. September 2024 veröffentlichte OpenAI o1 - intern bekannt unter dem Codenamen "Strawberry" - das erste Modell einer neuen Reihe von "Reasoning Models", die speziell zur Überwindung dieser Art von Einschränkungen entwickelt wurden. Und ja, der Name ist kein Zufall: Wie ein OpenAI-Forscher bestätigte, schafft es o1 endlich, das "r" in "Erdbeere" korrekt zu zählen.
Aber die Lösung ist nicht das, was sich der ursprüngliche Artikel vorgestellt hat. OpenAI hat dem Modell nicht "beigebracht", Wörter Buchstabe für Buchstabe zu analysieren. Stattdessen wurde ein völlig anderer Ansatz entwickelt: Dem Modell wurde beigebracht, vor der Antwort "nachzudenken".
Das Problem liegt nach wie vor in der Tokenisierung begründet - dem grundlegenden Prozess, mit dem Sprachmodelle Text verarbeiten. Wie in einem technischen Artikel erläutert, der im Mai 2025 auf arXiv veröffentlicht wurde ("The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models"), sehen die Modelle Wörter nicht als Abfolgen von Buchstaben, sondern als "Token" - in Zahlen umgewandelte Bedeutungseinheiten.
Wenn GPT-4 das Wort "Erdbeere" verarbeitet, teilt sein Tokenizer es in drei Teile auf: [str][aw][berry], jeder mit einer bestimmten numerischen ID (496, 675, 15717). Für das Modell ist "strawberry" nicht eine Folge von 10 Buchstaben, sondern eine Folge von 3 numerischen Token. Es ist, als würde er ein Buch lesen, in dem jedes Wort durch einen Code ersetzt wird, und dann bittet ihn jemand, die Buchstaben in einem Code zu zählen, den er noch nie aufgeschrieben gesehen hat.
Das Problem verschärft sich bei zusammengesetzten Wörtern. "Timekeeper" ist in einzelne Token zerlegt, was es dem Modell unmöglich macht, die genaue Position der Buchstaben ohne einen expliziten Denkprozess zu bestimmen. Die Fragmentierung wirkt sich nicht nur auf die Buchstabenzählung, sondern auch auf das Verständnis der inneren Struktur von Wörtern aus.
OpenAI o1 löste das Problem auf unerwartete Weise: Anstatt die Tokenisierung zu ändern - was technisch schwierig ist und die Effizienz des Modells beeinträchtigen würde - brachte es dem System bei, mit einer Technik namens "chain of thought reasoning" zu denken, bevor es spricht.
Wenn Sie o1 fragen, wie viele 'r's in 'Erdbeere' sind, antwortet das Modell nicht sofort. Es verbringt mehrere Sekunden - bei komplexen Fragen manchmal sogar Minuten - mit der internen Verarbeitung einer für den Benutzer verborgenen "Argumentationskette". Dieser Prozess ermöglicht es ihm,:
Wie der OpenAI-Forscher Noam Brown in einer Reihe von Beiträgen auf X erklärte: "o1 wird mit Hilfe von Verstärkungslernen darauf trainiert, zu 'denken', bevor es über eine private Gedankenkette antwortet. Das Modell erhält während des Trainings Belohnungen für jeden richtigen Schritt im Denkprozess, nicht nur für die endgültige richtige Antwort.
Die Ergebnisse sind beeindruckend, aber kostspielig. Bei einer Qualifikationsprüfung für die Internationale Mathematik-Olympiade löste o1 83 % der Aufgaben richtig, GPT-4o dagegen nur 13 %. Bei Fragen auf Doktoratsniveau in den Naturwissenschaften erreichte es 78 % Genauigkeit gegenüber 56 % bei GPT-4o. Diese Leistung hat jedoch ihren Preis: o1 benötigt mehr als 30 Sekunden für die Beantwortung von Fragen, die GPT-4o in 3 Sekunden löst, und kostet 15 $ pro Million Token im Vergleich zu 5 $ für GPT-4o.
Die Technik ist nicht magisch, sondern methodisch. Wenn o1 eine Eingabeaufforderung erhält, erzeugt es intern eine lange Folge von "Gedanken", die dem Benutzer nicht angezeigt werden. Für das "r"-Problem in "Erdbeere" könnte der interne Prozess so aussehen:
"Zuerst muss ich die Wortstruktur verstehen. Erdbeere könnte als [str][aw][berry] tokenisiert werden. Um das 'r' zu zählen, muss ich das komplette Wort auf Zeichenebene rekonstruieren. Str enthält: s-t-r (1 'r'). Aw enthält: a-w (0 'r'). Berry enthält: b-e-r-y (2 'r'). Insgesamt: 1+0+2 = 3 'r'. Ich prüfe: Erdbeere = s-t-r-a-w-b-e-r-r-y. Ich zähle die "r": Position 3, Position 8, Position 9. Bestätigt: 3 'r's."
Diese internen Überlegungen sind von vornherein verborgen. OpenAI verbietet Nutzern ausdrücklich den Versuch, die Gedankenkette von o1 offenzulegen, überwacht Eingabeaufforderungen und entzieht denjenigen, die gegen diese Regel verstoßen, möglicherweise den Zugang. Das Unternehmen führt Gründe der KI-Sicherheit und des Wettbewerbsvorteils an, aber die Entscheidung wurde von Entwicklern, die mit Sprachmodellen arbeiten, als Verlust an Transparenz kritisiert.
Trotz dieser Fortschritte hat o1 das Problem nicht vollständig gelöst. In einer im Januar 2025 in Language Log veröffentlichten Studie wurden verschiedene Modelle an einer komplexeren Aufgabe getestet: "Schreiben Sie einen Absatz, in dem der zweite Buchstabe jedes Satzes das Wort 'CODE' bildet".
o1 standard ($20/Monat) scheiterte, weil es fälschlicherweise den ersten Buchstaben jedes Anfangswortes als "zweiten Buchstaben" zählte. o1-pro ($200/Monat) behob das Problem... nach 4 Minuten und 10 Sekunden "Nachdenken". DeepSeek R1, das chinesische Modell, das den Markt im Januar 2025 erschütterte, machte denselben Fehler wie o1 standard.
Das grundsätzliche Problem bleibt bestehen: Die Modelle sehen den Text immer noch durch Token, nicht durch Buchstaben. o1 hat gelernt, diese Einschränkung durch Argumentation zu "umgehen", hat sie aber nicht beseitigt. Wie ein Forscher in Language Log bemerkte: "Tokenisierung ist Teil des Wesens von Sprachmodellen; für jede falsche Antwort lautet die Erklärung genau 'nun ja, Tokenisierung'".
Eine wichtige Arbeit, die im Mai 2025 auf arXiv veröffentlicht wurde ("The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models"), analysiert dieses Phänomen aus einer theoretischen Perspektive. Die Forscher erstellten 19 synthetische Aufgaben, die das logische Denken auf Zeichenebene in kontrollierten Kontexten isolieren und zeigten, dass diese Fähigkeiten plötzlich und erst spät im Training auftauchen.
Die Studie geht davon aus, dass sich das Erlernen der Zeichenkomposition nicht grundlegend vom Erlernen des Wissens des gesunden Menschenverstands unterscheidet - es entsteht durch Prozesse der "konzeptionellen Perkolation", wenn das Modell eine kritische Masse an Beispielen und Verbindungen erreicht.
Die Forscher schlagen eine leichtgewichtige architektonische Änderung vor, die die Schlussfolgerungen auf Zeichenebene erheblich verbessert und gleichzeitig die induktiven Vorteile von subwortbasierten Modellen bewahrt. Diese Änderungen sind jedoch noch experimentell und wurden noch nicht in kommerzielle Modelle implementiert.
Der Erdbeerfall lehrt eine wichtige Lektion über die Zuverlässigkeit von Sprachmodellen: Sie sind probabilistische Werkzeuge, keine deterministischen Rechenmaschinen. Wie Mark Liberman in Language Log anmerkte: "Man sollte vorsichtig sein, wenn es darum geht, der Reaktion eines aktuellen KI-Systems bei Aufgaben zu vertrauen, die das Zählen von Dingen beinhalten.
Das bedeutet nicht, dass Modelle nutzlos sind. Wie ein Kommentator bemerkte: "Nur weil eine Katze den dummen Fehler macht, sich vor einer Gurke zu erschrecken, heißt das nicht, dass wir ihr nicht die viel schwierigere Aufgabe anvertrauen sollten, Nagetiere aus dem Gebäude fernzuhalten". Sprachmodelle sind nicht das richtige Werkzeug, wenn man systematisch Buchstaben zählen will, aber sie eignen sich hervorragend, um Tausende von Podcast-Transkripten automatisch zu verarbeiten und Namen von Gästen und Moderatoren zu extrahieren.
Für Aufgaben, die absolute Präzision erfordern - die Landung eines Raumschiffs auf dem Mars, die Berechnung von Arzneimitteldosierungen, die Überprüfung der Einhaltung von Rechtsvorschriften - sind die derzeitigen Sprachmodelle ohne menschliche Aufsicht oder externe Überprüfung unzureichend. Aufgrund ihres probabilistischen Charakters sind sie für den Musterabgleich und die kreative Generierung leistungsstark, aber unzuverlässig für Aufgaben, bei denen Fehler nicht akzeptabel sind.
OpenAI hat erklärt, dass es beabsichtigt, mit o1-Modellen zu experimentieren, die "stunden-, tage- oder sogar wochenlang denken", um ihre Denkfähigkeiten weiter zu verbessern. Im Dezember 2024 wurde o3 angekündigt (der Name o2 wurde ausgelassen, um Markenkonflikte mit dem Mobilfunkbetreiber O2 zu vermeiden), und im März 2025 wurde die API von o1-pro, dem bisher teuersten KI-Modell von OpenAI, zu einem Preis von 150 $ pro Million Token für den Input und 600 $ pro Million für den Output veröffentlicht.
Die Richtung ist klar: Anstatt die Modelle immer größer zu machen (Skalierung), investiert OpenAI darin, sie länger "denken" zu lassen (Testzeitberechnung). Dieser Ansatz könnte energetisch und rechnerisch nachhaltiger sein als das Training immer größerer Modelle.
Es bleibt jedoch eine offene Frage: Sind diese Modelle wirklich "denkend" oder simulieren sie lediglich das Denken durch ausgefeiltere statistische Muster? In einer im Oktober 2024 veröffentlichten Studie von Apple wurde berichtet, dass Modelle wie o1 Denkschritte aus ihren eigenen Trainingsdaten replizieren können. Durch das Ändern von Zahlen und Namen in mathematischen Problemen oder durch einfaches Wiederholen desselben Problems schnitten die Modelle deutlich schlechter ab. Durch Hinzufügen fremder, aber logisch irrelevanter Informationen brach die Leistung bei einigen Modellen um 65 % ein.
Das Erdbeerproblem und die o1-Lösung zeigen sowohl das Potenzial als auch die inhärenten Grenzen der aktuellen Sprachmodelle auf. OpenAI hat gezeigt, dass die Modelle durch gezieltes Training und zusätzliche Verarbeitungszeit bestimmte strukturelle Einschränkungen der Tokenisierung überwinden können. Aber sie haben sie nicht beseitigt - sie haben sie umgangen.
Für Benutzer und Entwickler liegt die praktische Lektion auf der Hand: Zu verstehen, wie diese Systeme funktionieren - was sie gut machen und wo sie versagen - ist entscheidend, um sie effektiv zu nutzen. Sprachmodelle sind großartige Werkzeuge für probabilistische Aufgaben, Mustervergleiche, kreative Generierung und Informationssynthese. Aber für Aufgaben, die deterministische Präzision erfordern - Berechnen, Berechnen, Überprüfen bestimmter Fakten - sind sie ohne externe Überwachung oder ergänzende Werkzeuge unzuverlässig.
Der Name "Strawberry" wird als ironische Erinnerung an diese grundlegende Einschränkung bleiben: Selbst die fortschrittlichsten KI-Systeme der Welt können über Fragen stolpern, die ein Sechsjähriger sofort lösen würde. Nicht weil sie dumm sind, sondern weil sie ganz anders "denken" als wir - und vielleicht sollten wir nicht erwarten, dass sie wie Menschen denken.
Quellen: