Fabio Lauria

Jenseits des Algorithmus: Wie Modelle der künstlichen Intelligenz trainiert und verfeinert werden

7. April 2025
Auf sozialen Medien teilen

Wie man ein Modell der künstlichen Intelligenz trainiert

Das Training von Modellen der künstlichen Intelligenz ist eine der komplexesten Herausforderungen in der heutigen technologischen Entwicklung. Das effektive Training eines Modells ist weit mehr als eine einfache algorithmische Angelegenheit. Es erfordert einen methodischen und multidisziplinären Ansatz, der Datenwissenschaft, Fachwissen und Softwaretechnik integriert. Wie James Luke in seinem bahnbrechenden Text"Beyond Algorithms: Delivering AI for Business" darlegt, hängt der Erfolg einer KI-Implementierung viel mehr von der Datenverwaltung und dem systemischen Design ab als von den Algorithmen selbst. Die Landschaft verändert sich schnell, wobei Innovationen wie das DeepSeek-R1-Modell Kosten und Zugänglichkeit neu definieren.

Die Grundlage: Datenerhebung und -verwaltung

Qualität statt Quantität

Anders als oft angenommen, ist die Menge der Daten nicht immer der entscheidende Faktor für den Erfolg. Die Qualität und Repräsentativität der Daten sind wesentlich wichtiger. In diesem Zusammenhang ist es entscheidend, verschiedene Quellen zu integrieren:

  • Proprietäre Daten: ethisch vertretbar gesammelt und anonymisiert durch bestehende Implementierungen
  • Autorisierte Daten: Bezogen von zuverlässigen Lieferanten, die strenge Qualitätsstandards erfüllen
  • Open-Source-Datensätze: Sorgfältig geprüft, um Vielfalt und Genauigkeit zu gewährleisten
  • Synthetische Daten: künstlich generiert, um Lücken zu schließen und Datenschutzprobleme zu lösen

Diese Integration schafft eine umfassende Schulungsgrundlage, die reale Szenarien abbildet und gleichzeitig ethische und datenschutzrechtliche Standards einhält.

Die Herausforderung der Datenaufbereitung

Bis zu 80 Prozent des Aufwands bei Projekten der künstlichen Intelligenz entfallen auf den Prozess der "Datenverarbeitung". Diese Phase umfasst:

  • Datenbereinigung: Beseitigung von Inkonsistenzen, Duplikaten und Ausreißern
  • Datenumwandlung: Umwandlung in für die Verarbeitung geeignete Formate
  • Datenintegration: Fusion verschiedener Quellen, die oft inkompatible Schemata und Formate verwenden
  • Umgang mit fehlenden Daten: Strategien wie die statistische Imputation oder die Verwendung von Proxy-Daten

Wie Hilary Packer, CTO von American Express, betonte: "Der Aha-Moment für uns waren ehrlich gesagt die Daten. Man kann die beste Modellauswahl der Welt treffen... aber Daten sind der Schlüssel. Validierung und Genauigkeit sind im Moment der heilige Gral der generativen KI."

Modellarchitektur: richtige Dimensionierung

Die Wahl der Modellarchitektur muss sich an der spezifischen Natur des zu lösenden Problems orientieren und nicht an persönlichen Neigungen oder Vorlieben. Unterschiedliche Arten von Problemen erfordern unterschiedliche Ansätze:

  • Transformator-basierte Sprachmodelle für Aufgaben, die ein tiefes sprachliches Verständnis erfordern
  • Faltungsneuronale Netze für die Bild- und Mustererkennung
  • Graphische neuronale Netze zur Analyse komplexer Beziehungen zwischen Entitäten
  • Verstärkungslernen für Optimierungs- und Entscheidungsprobleme
  • Hybride Architekturen, die mehrere Ansätze für komplexe Anwendungsfälle kombinieren

Die architektonische Optimierung erfordert eine systematische Bewertung verschiedener Konfigurationen, wobei der Schwerpunkt auf einem ausgewogenen Verhältnis zwischen Leistung und Rechenanforderungen liegt. Dieser Aspekt hat mit dem Aufkommen von Modellen wie DeepSeek-R1, die fortschrittliche Argumentationsfähigkeiten zu deutlich geringeren Kosten bieten, noch an Bedeutung gewonnen.

Fortgeschrittene Schulungsmethoden

Modell Destillation

Die Destillation hat sich im derzeitigen KI-Ökosystem als besonders leistungsfähiges Werkzeug erwiesen. Dieses Verfahren ermöglicht die Erstellung kleinerer, spezifischerer Modelle, die die Schlussfolgerungsfähigkeiten größerer, komplexerer Modelle wie DeepSeek-R1 übernehmen.

Wie das Beispiel DeepSeek zeigt, hat das Unternehmen seine Denkfähigkeiten auf mehrere kleinere Modelle destilliert, darunter Open-Source-Modelle aus der Llama-Familie von Meta und der Qwen-Familie von Alibaba. Diese kleineren Modelle können anschließend für bestimmte Aufgaben optimiert werden, wodurch der Trend zu schnellen und spezialisierten Modellen beschleunigt wird.

Sam Witteveen, Entwickler für maschinelles Lernen, bemerkt: "Wir beginnen, eine Welt zu betreten, in der die Menschen mehrere Modelle verwenden. Sie verwenden nicht immer nur ein Modell." Dazu gehören kostengünstige geschlossene Modelle wie Gemini Flash und GPT-4o Mini, die "für 80 Prozent der Anwendungsfälle sehr gut funktionieren".

Multi-Task-Lernen

Anstatt separate Modelle für verwandte Fähigkeiten zu trainieren, ermöglicht das Multi-Task-Lernen den Modellen, Wissen zwischen verschiedenen Funktionen auszutauschen:

  • Die Modelle optimieren gleichzeitig für mehrere miteinander verbundene Ziele
  • Die Basisfunktionalität profitiert von einer breiteren Einbindung in verschiedene Aufgaben
  • Die Leistung verbessert sich bei allen Aufgaben, insbesondere bei solchen mit begrenzten Daten
  • Höhere Rechenleistung durch gemeinsame Nutzung von Komponenten

Überwachte Feinabstimmung (SFT)

Für Unternehmen, die in sehr spezifischen Bereichen tätig sind, in denen Informationen im Internet oder in den Büchern, die üblicherweise für das Training von Sprachmodellen verwendet werden, nicht in großem Umfang verfügbar sind, ist die überwachte Feinabstimmung (SFT) eine effektive Option.

DeepSeek zeigte, dass es möglich ist, mit "Tausenden" von Frage- und Antwortdatensätzen gute Ergebnisse zu erzielen. So zeigte beispielsweise der IBM-Ingenieur Chris Hay, wie er ein kleines Modell mit seinen eigenen mathematikspezifischen Datensätzen einrichtete und extrem schnelle Antworten erhielt, die die Leistung des o1-Modells von OpenAI bei denselben Aufgaben übertrafen.

Verstärkungslernen (RL)

Unternehmen, die ein Modell trainieren möchten, das noch stärker auf spezifische Präferenzen ausgerichtet ist - zum Beispiel, um einen Chatbot für den Kundensupport einfühlsam, aber prägnant zu machen -, werden Techniken des verstärkenden Lernens (Reinforcement Learning, RL) einsetzen wollen. Dieser Ansatz ist besonders nützlich, wenn ein Unternehmen möchte, dass sein Chatbot seinen Tonfall und seine Empfehlungen auf der Grundlage des Nutzerfeedbacks anpasst.

Retrieval-Augmented Generation (RAG)

Für die meisten Unternehmen ist die Retrieval-Augmented Generation (RAG) der einfachste und sicherste Weg. Es ist ein relativ unkomplizierter Prozess, der es Unternehmen ermöglicht, ihre Modelle mit proprietären Daten aus ihren Datenbanken zu verankern und so sicherzustellen, dass die Ergebnisse genau und bereichsspezifisch sind.

Dieser Ansatz trägt auch dazu bei, einige der Probleme mit Halluzinationen, die mit Modellen wie DeepSeek verbunden sind, auszugleichen. Laut einer von Vectara durchgeführten Studie halluzinieren diese Modelle derzeit in 14 % der Fälle, verglichen mit 8 % bei dem o3-Modell von OpenAI.

Die Kombination von Modell-Destillation und RAG ist für die meisten Unternehmen der Schlüssel zum Erfolg, denn sie ist unglaublich einfach zu implementieren, selbst für Personen mit begrenzten Kenntnissen in Data Science oder Programmierung.

Bewertung und Verfeinerung: Jenseits von Genauigkeitsmetriken

Wirksame KI lässt sich nicht nur an der reinen Genauigkeit messen, sondern erfordert einen umfassenden Bewertungsrahmen, der alle Aspekte berücksichtigt:

  • Funktionale Genauigkeit: Häufigkeit, mit der das Modell korrekte Ergebnisse liefert
  • Robustheit: Beständigkeit der Leistung bei unterschiedlichen Eingaben und Bedingungen
  • Gleichheit: Konsistente Leistung über verschiedene Benutzergruppen und Szenarien hinweg
  • Kalibrierung: Abgleich zwischen Vertrauenswerten und tatsächlicher Genauigkeit
  • Effizienz: Rechen- und Speicherbedarf
  • Erklärbarkeit: Transparenz der Entscheidungsprozesse, ein Aspekt, in dem sich die destillierten Modelle von DeepSeek auszeichnen, indem sie ihren Argumentationsprozess zeigen

Die Auswirkungen der Kostenkurve

Die unmittelbarste Auswirkung der Veröffentlichung von DeepSeek ist die aggressive Preissenkung. Die Technologiebranche hatte erwartet, dass die Kosten im Laufe der Zeit sinken würden, aber nur wenige hatten vorausgesehen, wie schnell dies geschehen würde. DeepSeek hat gezeigt, dass leistungsstarke, offene Modelle sowohl kostengünstig als auch effizient sein können, wodurch sich Möglichkeiten für weitreichende Experimente und eine kostengünstige Implementierung ergeben.

Amr Awadallah, CEO von Vectara, betonte diesen Punkt und merkte an, dass der wirkliche Wendepunkt nicht nur die Kosten für das Training sind, sondern auch die Kosten für die Inferenz, die bei DeepSeek etwa 1/30 der Kosten von OpenAIs o1 oder o3 Modellen pro Inferenz pro Token betragen. "Die Margen, die OpenAI, Anthropic und Google Gemini erzielen konnten, müssen nun um mindestens 90 Prozent reduziert werden, da sie mit solch hohen Preisen nicht wettbewerbsfähig bleiben können", so Awadallah.

Und nicht nur das, diese Kosten werden weiter sinken. Der Geschäftsführer von Anthropic, Dario Amodei, erklärte kürzlich, dass die Kosten für die Entwicklung von Modellen weiterhin jedes Jahr um das Vierfache sinken. Infolgedessen werden auch die Preise, die LLM-Anbieter für ihre Nutzung verlangen, weiter sinken.

"Ich gehe fest davon aus, dass die Kosten auf Null sinken werden", sagte Ashok Srivastava, CDO von Intuit, einem Unternehmen, das KI in seinen Steuer- und Buchhaltungssoftwareangeboten wie TurboTax und Quickbooks stark gefördert hat. "... und die Latenzzeit wird auf Null sinken. Sie werden einfach zu Grundfunktionen, die wir nutzen können."

Fazit: Die Zukunft der KI für Unternehmen ist offen, billig und datengesteuert

DeepSeek und Deep Research von OpenAI sind mehr als nur neue Werkzeuge im KI-Arsenal - sie sind Anzeichen für einen tiefgreifenden Wandel, bei dem Unternehmen massenhaft eigens entwickelte Modelle einsetzen werden, die extrem kosteneffizient, kompetent und in den eigenen Daten und Ansätzen des Unternehmens verwurzelt sind.

Für Unternehmen ist die Botschaft klar: Die Werkzeuge für die Entwicklung leistungsfähiger bereichsspezifischer KI-Anwendungen stehen zur Verfügung. Sie riskieren, ins Hintertreffen zu geraten, wenn sie diese Werkzeuge nicht nutzen. Aber der wirkliche Erfolg wird sich aus der Art und Weise ergeben, wie Sie Daten kuratieren, Techniken wie RAG und Destillation nutzen und über die Pre-Trainingsphase hinaus innovativ sind.

Wie Packer von AmEx es ausdrückte: Unternehmen, die ihre Daten richtig verwalten, werden die nächste Innovationswelle im Bereich KI anführen.

Fabio Lauria

CEO & Gründer | Electe

Als CEO von Electe helfe ich KMU, datengestützte Entscheidungen zu treffen. Ich schreibe über künstliche Intelligenz in der Geschäftswelt.

Am beliebtesten
Melden Sie sich an, um die neuesten Nachrichten zu erhalten

Erhalten Sie wöchentlich Neuigkeiten und Einblicke in Ihren Posteingang
. Nicht verpassen!

Danke schön! Ihre Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist ein Fehler aufgetreten.