Schichtweise Skalierung

Apple präsentiert generatives KI-Modell OpenELM

Uhr
von Maximilian Schenner und tme

Apple hat ein KI-Modell namens OpenELM vorgestellt. Es ist Apples erstes offenes Sprachmodell und soll mit weniger Tokens auskommen, dabei aber ähnlich genau sein wie LLMs anderer Hersteller. OpenELM könnte speziell für Entwickler interessant sein.

(Source: flutie8211 / pixabay.com)
(Source: flutie8211 / pixabay.com)

Apple hat sein neues KI-Modell OpenELM vorgestellt. Das Sprachmodell verwende eine schichtweise Skalierungsstrategie, um Parameter innerhalb jeder Schicht des Transformatormodells effizient zuzuweisen, versprechen die Entwickler. Dies sorge für eine erhöhte Genauigkeit im Vergleich zu Modellen anderer Entwickler.  

Mit einem Parameterbudget von etwa einer Milliarde Parametern sei OpenELM beispielsweise um 2,36 Prozent effizienter als das Sprachmodell OLMo vom Allen Institute for AI, benötige dafür aber nur halb so viele Tokens für das Pre-Training.

OpenELM wurde laut einem Bericht von "The Register" unter anderem mit dem Redpajama-Datensatz von Github, einer Menge Bücher, Wikipedia, Stackexchange-Beiträgen, Arxiv-Papieren und mehr sowie dem Dolma-Datensatz von Reddit, Wikibooks und dem Project Gutenberg vortrainiert.

"Die Veröffentlichung von OpenELM durch Apple stellt einen bedeutenden Fortschritt für die KI-Community dar und bietet eine effiziente KI-Verarbeitung auf dem Gerät, die ideal für mobile Apps und IoT-Geräte mit begrenzter Rechenleistung ist", sagt Shahar Chen, CEO und Mitbegründer des KI-Dienstleisters Aquant, gegenüber "The Register". "Dies ermöglicht eine schnelle, lokale Entscheidungsfindung, die für alles von Smartphones bis hin zu Smart-Home-Geräten wichtig ist, und erweitert das Potenzial von KI in der Alltagstechnologie."

Apple setzt auf Open Source

Wie der Name vermuten lässt, handelt es sich bei OpenELM um ein offenes Sprachmodell - untypisch für Apple, legt der Konzern doch normalerweise wenig Wert auf die Offenheit seiner Software. 

"Im Gegensatz zu früheren Praktiken, die nur Modellgewichte und Inferenzcode bereitstellen und auf privaten Datensätzen vortrainieren, enthält unsere Version das komplette Framework für das Training und die Evaluierung des Sprachmodells auf öffentlich zugänglichen Datensätzen, einschliesslich Trainingsprotokollen, mehreren Kontrollpunkten und Vortrainingskonfigurationen", schreibt das Unternehmen in der Mitteilung zum Sprachmodell. Apple stelle ausserdem Code für die Konvertierung von Modellen in die MLX-Bibliothek für Inferenz und Feinabstimmung auf Apple-Geräten zur Verfügung. Damit wolle Apple "die offene Forschungsgemeinschaft unterstützen" und "den Weg für zukünftige offene Forschungsvorhaben zu ebnen" - kein Witz.

MLX ist ein im letzten Jahr veröffentlichtes Framework für Machine Learning auf Apple-Geräten, wie "The Register" erklärt. Die Möglichkeit, lokal auf Apple-Geräten und nicht über das Netzwerk zu arbeiten, sollte OpenELM für Entwickler interessanter machen, vermutet das Portal. OpenELM ist in vortrainierten und durch Instruktionen abgestimmten Modellen mit 270 Millionen, 450 Millionen, 1,1 Milliarden und 3 Milliarden Parametern verfügbar.

Übrigens: Meta hat die nächste Generation seines Sprachmodells Llama vorgestellt. Llama 3 soll leistungsfähiger sein als alle anderen Modelle. Hier erfahren sie mehr dazu.

Webcode
dma3WNTo