Kompressionsalgorithmus "Turboquant"

Google reduziert Speicherbedarf von KI-Modellen um das Sechsfache

Uhr
von Alexia Muanza und Joël Orizet und NetzKI Bot und rja

Google hat mit Turboquant einen neuen Kompressionsalgorithmus entwickelt, der den Speicherbedarf von Sprachmodellen um das Sechsfache senkt. Die Methode soll die Genauigkeit der KI-Modelle kaum beeinträchtigen und ihre Antwortzeit bei bestimmten Berechnungen erheblich steigern.

(Source: NingPhattraphorn / AdobeStock)
(Source: NingPhattraphorn / AdobeStock)

Forschende von Google haben mit Turboquant einen neuen Kompressionsalgorithmus vorgestellt, der die Effizienz grosser Sprachmodelle (LLMs) deutlich verbessern soll. Im Mittelpunkt steht dabei die Inferenzphase - also die Nutzung eines bereits trainierten Modells zur Generierung von Antworten - und nicht das rechenintensive Training selbst.

Kern der Technik ist eine effizientere Handhabung des sogenannten Key-Value-(KV)-Caches, eines Zwischenspeichers, in dem das Modell Zwischenergebnisse früherer Verarbeitungsschritte ablegt, um wiederholte Berechnungen zu vermeiden. Die neue Methode reduziere den Speicherbedarf des KV-Caches um mindestens das Sechsfache, teilt Google in einem Blogbeitrag mit. Bestimmte Berechnungen auf Nvidia-H100-GPUs liessen sich je nach Anwendungsszenario sogar um ein Achtfaches beschleunigen, wobei es sich um experimentelle Spitzenwerte unter klar definierten Testbedingungen handelt.

So funktioniert der neue Algorithmus

Der KV-Cache gilt als einer der grössten Engpässe, wenn KI-Modelle lange Texteingaben verarbeiten müssen. Er wächst mit jeder erzeugten Token-Sequenz und belastet sowohl Speicher als auch Bandbreite moderner Beschleuniger. Klassische Kompressionsverfahren erzeugen hier oft einen eigenen Speicher-Overhead, der den Einspareffekt teilweise wieder aufhebt.

Turboquant komprimiert die im Zwischenspeicher enthaltenen Datenvektoren nach Angaben von Google auf bis zu drei Bit pro Wert (statt typischerweise 16 oder 32 Bit). Somit sinkt nicht nur der Speicherbedarf, sondern auch die Menge der zwischen Speicher und Recheneinheit zu übertragenden Daten - ein entscheidender Faktor für die tatsächliche Beschleunigung.

Dies soll durch eine Kombination zweier neuer Ansätze gelingen: Zuerst würden die Vektoren mittels Polarkoordinaten - also über Winkel und Radius statt über X/Y-Achsen - effizienter dargestellt. Dieser Schritt soll die geometrische Struktur der Daten nutzen, um Redundanzen zu reduzieren. Anschliessend korrigiere ein weiterer Schritt verbleibende Fehler, um die hohe Genauigkeit zu gewährleisten, schreibt Google weiter.

Keine Leistungseinbussen in den Tests

In Tests mit den Open-Source-Modellen Gemma und Mistral zeigte Turboquant laut Google eine nahezu identische Leistung wie die Originalmodelle. Die gemessenen Abweichungen liegen laut den veröffentlichten Ergebnissen innerhalb der üblichen Schwankungsbreiten gängiger Benchmarks. Die Resultate basieren allerdings auf ausgewählten Modellen und Testszenarien, eine unabhängige Validierung steht noch aus.

Ein entscheidender Vorteil für die Implementierung: Der Algorithmus erfordert kein zusätzliches Training der KI-Modelle und keine datenspezifischen Anpassungen, was seine Integration in bestehende Systeme stark vereinfacht.

Google betont, dass die Technologie auch ausserhalb von Sprachmodellen interessant sein soll. Bei der grossflächigen Vektorsuche und in semantischen Suchmaschinen könnte die Reduzierung des Speicherbedarfs den Aufbau von Indizes und die Ähnlichkeitssuche ebenfalls erheblich beschleunigen. Solche Anwendungen nutzen ähnliche Vektoroperationen wie LLMs, weshalb sich die Effizienzgewinne potenziell übertragen lassen. Somit soll Turboquant ein zentrales Problem moderner KI-Infrastruktur adressieren: den steigenden Bedarf an Speicherbandbreite, der zunehmend zum limitierenden Faktor gegenüber reiner Rechenleistung wird.

 

Übrigens: Wie LLMs und insbesondere Open-Source-LLMs funktionieren, erklären Julien Siebert und Patricia Kelbert vom Fraunhofer-­Institut für Experimentelles ­Software Engineering in einem Hintergrundbeitrag

Webcode
k8CNeQGM