Das Training von Modellen der künstlichen Intelligenz ist eine der komplexesten Herausforderungen in der heutigen technologischen Entwicklung. Das effektive Training eines Modells ist weit mehr als eine einfache algorithmische Angelegenheit. Es erfordert einen methodischen und multidisziplinären Ansatz, der Daten, Datenwissenschaft, Fachwissen und Softwaretechnik integriert. Wie James Luke in seinem bahnbrechenden Text"Beyond Algorithms: Delivering AI for Business" darlegt, hängt der Erfolg einer KI-Implementierung viel mehr von der Datenverwaltung und dem systemischen Design ab als von den Algorithmen selbst. Die Landschaft verändert sich schnell, wobei Innovationen wie das DeepSeek-R1-Modell Kosten und Zugänglichkeit neu definieren.
Anders als oft angenommen, ist die Menge der Daten nicht immer der entscheidende Faktor für den Erfolg. Die Qualität und Repräsentativität der Daten sind wesentlich wichtiger. In diesem Zusammenhang ist es entscheidend, verschiedene Quellen zu integrieren:
Diese Integration schafft eine umfassende Schulungsgrundlage, die reale Szenarien abbildet und gleichzeitig ethische und datenschutzrechtliche Standards einhält.
Bis zu 80 Prozent des Aufwands bei Projekten der künstlichen Intelligenz entfallen auf den Prozess der "Datenverarbeitung". Diese Phase umfasst:
Die Wahl der Modellarchitektur muss sich an der spezifischen Natur des zu lösenden Problems orientieren und nicht an persönlichen Neigungen oder Vorlieben. Unterschiedliche Arten von Problemen erfordern unterschiedliche Ansätze:
Die architektonische Optimierung erfordert eine systematische Bewertung verschiedener Konfigurationen, wobei der Schwerpunkt auf einem ausgewogenen Verhältnis zwischen Leistung und Rechenanforderungen liegt. Dieser Aspekt hat mit dem Aufkommen von Modellen wie DeepSeek-R1, die fortschrittliche Argumentationsfähigkeiten zu deutlich geringeren Kosten bieten, noch an Bedeutung gewonnen.
Die Destillation hat sich im derzeitigen KI-Ökosystem als besonders leistungsfähiges Werkzeug erwiesen. Dieses Verfahren ermöglicht die Erstellung kleinerer, spezifischerer Modelle, die die Schlussfolgerungsfähigkeiten größerer, komplexerer Modelle wie DeepSeek-R1 übernehmen.
Wie das Beispiel DeepSeek zeigt, hat dasUnternehmen seine Denkfähigkeiten auf mehrere kleinere Modelle destilliert, darunter Open-Source-Modelle aus der Llama-Familie von Meta und der Qwen-Familie von Alibaba. Diese kleineren Modelle können anschließend für bestimmte Aufgaben optimiert werden, wodurch der Trend zu schnellen und spezialisierten Modellen beschleunigt wird.
Sam Witteveen, Entwickler für maschinelles Lernen, bemerkt: "Wir beginnen, eine Welt zu betreten, in der die Menschen mehrere Modelle verwenden. Sie verwenden nicht immer nur ein Modell." Dazu gehören kostengünstige geschlossene Modelle wie Gemini Flash und GPT-4o Mini, die "für 80 Prozent der Anwendungsfälle sehr gut funktionieren".
Anstatt separate Modelle für verwandte Fähigkeiten zu trainieren, ermöglicht das Multi-Task-Lernen den Modellen, Wissen zwischen verschiedenen Funktionen auszutauschen:
Für Unternehmen, die in sehr spezifischen Bereichen tätig sind, in denen Informationen im Internet oder in den Büchern, die üblicherweise für das Training von Sprachmodellen verwendet werden, nicht in großem Umfang verfügbar sind, ist die überwachte Feinabstimmung (SFT) eine effektive Option.
DeepSeek zeigte, dass es möglich ist, mit "Tausenden" von Frage- und Antwortdatensätzen gute Ergebnisse zu erzielen. So zeigte beispielsweise der IBM-Ingenieur Chris Hay, wie er ein kleines Modell mit seinen eigenen mathematikspezifischen Datensätzen einrichtete und extrem schnelle Antworten erhielt, die die Leistung des o1-Modells von OpenAI bei denselben Aufgaben übertrafen.
Unternehmen, die ein Modell trainieren möchten, das noch stärker auf spezifische Präferenzen ausgerichtet ist - zum Beispiel, um einen Chatbot für den Kundensupport einfühlsam, aber prägnant zu machen -, werden Techniken des verstärkenden Lernens (Reinforcement Learning, RL) einsetzen wollen. Dieser Ansatz ist besonders nützlich, wenn ein Unternehmen möchte, dass sein Chatbot seinen Tonfall und seine Empfehlungen auf der Grundlage des Nutzerfeedbacks anpasst.
Für die meisten Unternehmen ist die Retrieval-Augmented Generation (RAG) der einfachste und sicherste Weg. Es ist ein relativ unkomplizierter Prozess, der es Unternehmen ermöglicht, ihre Modelle mit proprietären Daten aus ihren Datenbanken zu verankern und so sicherzustellen, dass die Ergebnisse genau und bereichsspezifisch sind.
Dieser Ansatz trägt auch dazu bei, einigen der Halluzinationsprobleme entgegenzuwirken, die mit Modellen wie DeepSeek verbunden sind, die laut einer von Vectara durchgeführten Studie derzeit in 14 % der Fälle halluzinieren, verglichen mit 8 % beim o3-Modell von OpenAI.
Die Kombination von Modell-Destillation und RAG ist für die meisten Unternehmen der Schlüssel zum Erfolg, denn sie ist unglaublich einfach zu implementieren, selbst für Personen mit begrenzten Kenntnissen in Data Science oder Programmierung.
Wirksame KI lässt sich nicht nur an der reinen Genauigkeit messen, sondern erfordert einen umfassenden Bewertungsrahmen, der alle Aspekte berücksichtigt:
Die unmittelbarste Auswirkung der Veröffentlichung von DeepSeek ist die aggressive Preissenkung. Die Technologiebranche hatte erwartet, dass die Kosten im Laufe der Zeit sinken würden, aber nur wenige hatten vorausgesehen, wie schnell dies geschehen würde. DeepSeek hat gezeigt, dass leistungsstarke, offene Modelle sowohl kostengünstig als auch effizient sein können, wodurch sich Möglichkeiten für weitreichende Experimente und eine kostengünstige Implementierung ergeben.
Amr Awadallah, CEO von Vectara, betonte diesen Punkt und merkte an, dass der wirkliche Wendepunkt nicht nur die Kosten für das Training sind, sondern auch die Kosten für die Inferenz, die bei DeepSeek etwa 1/30 der Kosten von OpenAIs o1 oder o3 Modellen pro Inferenz pro Token betragen. "Die Margen, die OpenAI, Anthropic und Google Gemini erzielen konnten, müssen nun um mindestens 90 Prozent reduziert werden, da sie mit solch hohen Preisen nicht wettbewerbsfähig bleiben können", so Awadallah.
Und nicht nur das, diese Kosten werden weiter sinken. Der Geschäftsführer von Anthropic, Dario Amodei, erklärte kürzlich, dass die Kosten für die Entwicklung von Modellen weiterhin jedes Jahr um das Vierfache sinken. Infolgedessen werden auch die Preise, die LLM-Anbieter für ihre Nutzung verlangen, weiter sinken.
"Ich gehe fest davon aus, dass die Kosten auf Null sinken werden", sagte Ashok Srivastava, CDO von Intuit, einem Unternehmen, das die KI in seinen Steuer- und Buchhaltungssoftwareangeboten wie TurboTax und Quickbooks stark forciert hat. "... und die Latenzzeit wird auf Null sinken. Sie werden einfach zu Grundfunktionen, die wir nutzen können."
DeepSeek und Deep Research von OpenAI sind mehr als nur neue Werkzeuge im KI-Arsenal - sie sind Anzeichen für einen tiefgreifenden Wandel, bei dem Unternehmen massenhaft eigens entwickelte Modelle einsetzen werden, die extrem kosteneffizient, kompetent und in den eigenen Daten und Ansätzen des Unternehmens verwurzelt sind.
Für die Unternehmen ist die Botschaft klar: Die Werkzeuge für die Entwicklung leistungsfähiger bereichsspezifischer KI-Anwendungen stehen zur Verfügung. Sie riskieren, ins Hintertreffen zu geraten, wenn sie diese Werkzeuge nicht nutzen. Aber der wirkliche Erfolg wird sich aus der Art und Weise ergeben, wie Sie Daten kuratieren, Techniken wie RAG und Destillation nutzen und über die Pre-Trainingsphase hinaus innovativ sind.
Wie Packer von AmEx es ausdrückte: Unternehmen, die ihre Daten richtig verwalten, werden die nächste Innovationswelle im Bereich KI anführen.