Business

Jenseits des Algorithmus: Wie Modelle der künstlichen Intelligenz trainiert und verfeinert werden

"Daten sind der Schlüssel. Der heilige Gral der generativen KI"-Hilary Packer, CTO von American Express. 80 % des Aufwands bei KI-Projekten entfallen auf die Datenbeschaffung. DeepSeek hat die Regeln geändert: Inferenzkosten 1/30 im Vergleich zu OpenAI. Dario Amodei: Die Kosten sinken 4x pro Jahr. "Ich erwarte, dass die Kosten auf Null sinken werden" -CDO von Intuit. Die Kombination von Destillation + RAG ist für die meisten Unternehmen der Schlüssel zum Erfolg. Die Zukunft? Massen von spezifischen, kostengünstigen Modellen, die auf Unternehmensdaten basieren.

Geschäftsführer und Gründer von Electe‍

Fassen Sie diesen Artikel mit AI zusammen

Wie man ein Modell der künstlichen Intelligenz trainiert

Das Training von Modellen der künstlichen Intelligenz ist eine der komplexesten Herausforderungen in der heutigen technologischen Entwicklung. Das effektive Training eines Modells ist weit mehr als eine einfache algorithmische Angelegenheit. Es erfordert einen methodischen und multidisziplinären Ansatz, der Daten, Datenwissenschaft, Fachwissen und Softwaretechnik integriert. Wie James Luke in seinem bahnbrechenden Text"Beyond Algorithms: Delivering AI for Business" darlegt, hängt der Erfolg einer KI-Implementierung viel mehr von der Datenverwaltung und dem systemischen Design ab als von den Algorithmen selbst. Die Landschaft verändert sich schnell, wobei Innovationen wie das DeepSeek-R1-Modell Kosten und Zugänglichkeit neu definieren.

‍

Die Grundlage: Datenerhebung und -verwaltung

Qualität statt Quantität

Anders als oft angenommen, ist die Menge der Daten nicht immer der entscheidende Faktor für den Erfolg. Die Qualität und Repräsentativität der Daten sind wesentlich wichtiger. In diesem Zusammenhang ist es entscheidend, verschiedene Quellen zu integrieren:

‍

Proprietäre Daten: ethisch vertretbar gesammelt und anonymisiert durch bestehende Implementierungen
Autorisierte Daten: Bezogen von zuverlässigen Lieferanten, die strenge Qualitätsstandards erfüllen
Open-Source-Datensätze: Sorgfältig geprüft, um Vielfalt und Genauigkeit zu gewährleisten
Synthetische Daten: künstlich generiert, um Lücken zu schließen und Datenschutzprobleme zu lösen

Diese Integration schafft eine umfassende Schulungsgrundlage, die reale Szenarien abbildet und gleichzeitig ethische und datenschutzrechtliche Standards einhält.

Die Herausforderung der Datenaufbereitung

Bis zu 80 Prozent des Aufwands bei Projekten der künstlichen Intelligenz entfallen auf den Prozess der "Datenverarbeitung". Diese Phase umfasst:

Datenbereinigung: Beseitigung von Inkonsistenzen, Duplikaten und Ausreißern
Datenumwandlung: Umwandlung in für die Verarbeitung geeignete Formate
Datenintegration: Fusion verschiedener Quellen, die oft inkompatible Schemata und Formate verwenden
Umgang mit fehlenden Daten: Strategien wie die statistische Imputation oder die Verwendung von Proxy-Daten

Wie Hilary Packer, CTO von American Express, betonte: "Der Aha-Moment für uns waren ehrlich gesagt die Daten. Man kann die beste Modellauswahl der Welt treffen... aber Daten sind der Schlüssel. Validierung und Genauigkeit sind im Moment der heilige Gral der generativen KI."

‍

Modellarchitektur: richtige Dimensionierung

Die Wahl der Modellarchitektur muss sich an der spezifischen Natur des zu lösenden Problems orientieren und nicht an persönlichen Neigungen oder Vorlieben. Unterschiedliche Arten von Problemen erfordern unterschiedliche Ansätze:

‍

Transformator-basierte Sprachmodelle für Aufgaben, die ein tiefes sprachliches Verständnis erfordern
Faltungsneuronale Netze für die Bild- und Mustererkennung
Graphische neuronale Netze zurAnalyse komplexer Beziehungen zwischen Entitäten
Verstärkungslernen für Optimierungs- und Entscheidungsprobleme
Hybride Architekturen, die mehrere Ansätze für komplexe Anwendungsfälle kombinieren

Die architektonische Optimierung erfordert eine systematische Bewertung verschiedener Konfigurationen, wobei der Schwerpunkt auf einem ausgewogenen Verhältnis zwischen Leistung und Rechenanforderungen liegt. Dieser Aspekt hat mit dem Aufkommen von Modellen wie DeepSeek-R1, die fortschrittliche Argumentationsfähigkeiten zu deutlich geringeren Kosten bieten, noch an Bedeutung gewonnen.

‍

Fortgeschrittene Schulungsmethoden

‍

Modell Destillation

Die Destillation hat sich im derzeitigen KI-Ökosystem als besonders leistungsfähiges Werkzeug erwiesen. Dieses Verfahren ermöglicht die Erstellung kleinerer, spezifischerer Modelle, die die Schlussfolgerungsfähigkeiten größerer, komplexerer Modelle wie DeepSeek-R1 übernehmen.

‍

Wie das Beispiel DeepSeek zeigt, hat dasUnternehmen seine Denkfähigkeiten auf mehrere kleinere Modelle destilliert, darunter Open-Source-Modelle aus der Llama-Familie von Meta und der Qwen-Familie von Alibaba. Diese kleineren Modelle können anschließend für bestimmte Aufgaben optimiert werden, wodurch der Trend zu schnellen und spezialisierten Modellen beschleunigt wird.

‍

Sam Witteveen, Entwickler für maschinelles Lernen, bemerkt: "Wir beginnen, eine Welt zu betreten, in der die Menschen mehrere Modelle verwenden. Sie verwenden nicht immer nur ein Modell." Dazu gehören kostengünstige geschlossene Modelle wie Gemini Flash und GPT-4o Mini, die "für 80 Prozent der Anwendungsfälle sehr gut funktionieren".

Multi-Task-Lernen

Anstatt separate Modelle für verwandte Fähigkeiten zu trainieren, ermöglicht das Multi-Task-Lernen den Modellen, Wissen zwischen verschiedenen Funktionen auszutauschen:

Die Modelle optimieren gleichzeitig für mehrere miteinander verbundene Ziele
Die Basisfunktionalität profitiert von einer breiteren Einbindung in verschiedene Aufgaben
Die Leistung verbessert sich bei allen Aufgaben, insbesondere bei solchen mit begrenzten Daten
Höhere Rechenleistung durch gemeinsame Nutzung von Komponenten

Überwachte Feinabstimmung (SFT)

Für Unternehmen, die in sehr spezifischen Bereichen tätig sind, in denen Informationen im Internet oder in den Büchern, die üblicherweise für das Training von Sprachmodellen verwendet werden, nicht in großem Umfang verfügbar sind, ist die überwachte Feinabstimmung (SFT) eine effektive Option.

DeepSeek zeigte, dass es möglich ist, mit "Tausenden" von Frage- und Antwortdatensätzen gute Ergebnisse zu erzielen. So zeigte beispielsweise der IBM-Ingenieur Chris Hay, wie er ein kleines Modell mit seinen eigenen mathematikspezifischen Datensätzen einrichtete und extrem schnelle Antworten erhielt, die die Leistung des o1-Modells von OpenAI bei denselben Aufgaben übertrafen.

Verstärkungslernen (RL)

Unternehmen, die ein Modell trainieren möchten, das noch stärker auf spezifische Präferenzen ausgerichtet ist - zum Beispiel, um einen Chatbot für den Kundensupport einfühlsam, aber prägnant zu machen -, werden Techniken des verstärkenden Lernens (Reinforcement Learning, RL) einsetzen wollen. Dieser Ansatz ist besonders nützlich, wenn ein Unternehmen möchte, dass sein Chatbot seinen Tonfall und seine Empfehlungen auf der Grundlage des Nutzerfeedbacks anpasst.

Retrieval-Augmented Generation (RAG)

Für die meisten Unternehmen ist die Retrieval-Augmented Generation (RAG) der einfachste und sicherste Weg. Es ist ein relativ unkomplizierter Prozess, der es Unternehmen ermöglicht, ihre Modelle mit proprietären Daten aus ihren Datenbanken zu verankern und so sicherzustellen, dass die Ergebnisse genau und bereichsspezifisch sind.

Dieser Ansatz trägt auch dazu bei, einigen der Halluzinationsprobleme entgegenzuwirken, die mit Modellen wie DeepSeek verbunden sind, die laut einer von Vectara durchgeführten Studie derzeit in 14 % der Fälle halluzinieren, verglichen mit 8 % beim o3-Modell von OpenAI.

Die Kombination von Modell-Destillation und RAG ist für die meisten Unternehmen der Schlüssel zum Erfolg, denn sie ist unglaublich einfach zu implementieren, selbst für Personen mit begrenzten Kenntnissen in Data Science oder Programmierung.

‍

Bewertung und Verfeinerung: Jenseits von Genauigkeitsmetriken

Wirksame KI lässt sich nicht nur an der reinen Genauigkeit messen, sondern erfordert einen umfassenden Bewertungsrahmen, der alle Aspekte berücksichtigt:

Funktionale Genauigkeit: Häufigkeit, mit der das Modell korrekte Ergebnisse liefert
Robustheit: Beständigkeit der Leistung bei unterschiedlichen Eingaben und Bedingungen
Gleichheit: Konsistente Leistung über verschiedene Benutzergruppen und Szenarien hinweg
Kalibrierung: Abgleich zwischen Vertrauenswerten und tatsächlicher Genauigkeit
Effizienz: Rechen- und Speicherbedarf
Erklärbarkeit: Transparenz der Entscheidungsprozesse, ein Aspekt, in dem sich die destillierten Modelle von DeepSeek auszeichnen, indem sie ihren Argumentationsprozess zeigen

Die Auswirkungen der Kostenkurve

Die unmittelbarste Auswirkung der Veröffentlichung von DeepSeek ist die aggressive Preissenkung. Die Technologiebranche hatte erwartet, dass die Kosten im Laufe der Zeit sinken würden, aber nur wenige hatten vorausgesehen, wie schnell dies geschehen würde. DeepSeek hat gezeigt, dass leistungsstarke, offene Modelle sowohl kostengünstig als auch effizient sein können, wodurch sich Möglichkeiten für weitreichende Experimente und eine kostengünstige Implementierung ergeben.

‍

Amr Awadallah, CEO von Vectara, betonte diesen Punkt und merkte an, dass der wirkliche Wendepunkt nicht nur die Kosten für das Training sind, sondern auch die Kosten für die Inferenz, die bei DeepSeek etwa 1/30 der Kosten von OpenAIs o1 oder o3 Modellen pro Inferenz pro Token betragen. "Die Margen, die OpenAI, Anthropic und Google Gemini erzielen konnten, müssen nun um mindestens 90 Prozent reduziert werden, da sie mit solch hohen Preisen nicht wettbewerbsfähig bleiben können", so Awadallah.

‍

Und nicht nur das, diese Kosten werden weiter sinken. Der Geschäftsführer von Anthropic, Dario Amodei, erklärte kürzlich, dass die Kosten für die Entwicklung von Modellen weiterhin jedes Jahr um das Vierfache sinken. Infolgedessen werden auch die Preise, die LLM-Anbieter für ihre Nutzung verlangen, weiter sinken.

‍

"Ich gehe fest davon aus, dass die Kosten auf Null sinken werden", sagte Ashok Srivastava, CDO von Intuit, einem Unternehmen, das die KI in seinen Steuer- und Buchhaltungssoftwareangeboten wie TurboTax und Quickbooks stark forciert hat. "... und die Latenzzeit wird auf Null sinken. Sie werden einfach zu Grundfunktionen, die wir nutzen können."

‍

Fazit: Die Zukunft der KI im Unternehmen ist offen, günstig und datengesteuert

DeepSeek und Deep Research von OpenAI sind mehr als nur neue Werkzeuge im KI-Arsenal - sie sind Anzeichen für einen tiefgreifenden Wandel, bei dem Unternehmen massenhaft eigens entwickelte Modelle einsetzen werden, die extrem kosteneffizient, kompetent und in den eigenen Daten und Ansätzen des Unternehmens verwurzelt sind.

‍

Für die Unternehmen ist die Botschaft klar: Die Werkzeuge für die Entwicklung leistungsfähiger bereichsspezifischer KI-Anwendungen stehen zur Verfügung. Sie riskieren, ins Hintertreffen zu geraten, wenn sie diese Werkzeuge nicht nutzen. Aber der wirkliche Erfolg wird sich aus der Art und Weise ergeben, wie Sie Daten kuratieren, Techniken wie RAG und Destillation nutzen und über die Pre-Trainingsphase hinaus innovativ sind.

‍

Wie Packer von AmEx es ausdrückte: Unternehmen, die ihre Daten richtig verwalten, werden die nächste Innovationswelle im Bereich KI anführen.

Ressourcen für Unternehmenswachstum

18. Dezember 2025

10 Arten von Diagrammen, die für die Umwandlung von Daten in Entscheidungen unerlässlich sind

Entdecken Sie wichtige Diagrammtypen, die Ihnen helfen, klare Geschäftsentscheidungen zu treffen: praktische Beispiele, Anwendungsfälle und Tipps zur effektiven Datenvisualisierung.

18. Dezember 2025

Leitfaden zum Programm für die Lagerverwaltung für KMU

Finden Sie das beste Programm für die Lagerverwaltung. Unser Leitfaden erklärt die Funktionen, Vorteile und wie Sie die ideale Lösung für Ihr KMU auswählen.

18. Dezember 2025

Der vollständige Leitfaden: Wie künstliche Intelligenz für Ihr Unternehmen funktioniert

Ein umfassender Leitfaden, der erklärt, wie künstliche Intelligenz funktioniert, von Daten bis hin zu Algorithmen, mit praktischen Beispielen, wie Sie Ihr Unternehmen mit KI voranbringen können.

18. Dezember 2025

Leistungskennzahlen: 10 praktische Beispiele für das Wachstum Ihres Unternehmens

Entdecken Sie Beispiele für Key Performance Indicators und deren Anwendung: 10 praktische Kennzahlen zur Verbesserung von Vertrieb, Marketing und Finanzen. Optimieren Sie Ihre Entscheidungen mit Electe.