Google, TurboQuant algoritması sayesinde yapay zeka modellerinin bellek tüketimini altı kat azalttı ve doğruluğu korudu

Kısa Özet

Google Research, büyük dil modellerinin KV‑önbelleğini sıkıştırmak için TurboQuant adlı yeni bir yöntem tanıttı. Algoritma, önbelleğin bit derinliğini 3 bite (hata düzeltme eklenirse 4 bite) indirir; yanıt doğruluğunu düşürmeden ve ek eğitim gerektirmeden. Nvidia H100 hızlandırıcılarında TurboQuant, dikkat logitlerinin hesaplanmasını 8 kat artırdı ve KV‑önbelleği altı kat küçülttü.

KV‑önbelleği nedir ve neden önemlidir
* KV‑önbelleği, dikkat mekanizmasının hesaplanması sırasında elde edilen anahtarları (K) ve değerleri (V) saklar.
Bu sayede model, token üretiminin her adımında bunları yeniden hesaplamaz.

* Bağlam penceresi genişledikçe önbellek üssel artar, bu da yüksek bellek tüketimine yol açar.

* Geleneksel kuantizasyon yöntemleri önbelleği küçültür ancak ZIP/RAR benzeri kuantizasyon sabitlerini (sözlükler) saklamayı gerektirir.
Bu sözlükler önemli ek maliyet yaratır.

TurboQuant nasıl çalışır
TurboQuant, iki aşamadan oluşur ve tamamen sözlüklerden kurtulur.

Aşama	Ne Yapılır	Neden Önemli
1. PolarQuant	Vektörleri kartesyen koordinatlardan polar (yarıçap + açı) koordinatlara çevirir.	Açısal dağılımlar öngörülebilir ve yoğun olduğu için her blok için pahalı normalizasyon adımı gerekmez. Bu, sözlükler olmadan yüksek kaliteli sıkıştırma sağlar.
2. 1‑bit Hata Düzeltme Katmanı	Johnson‑Lindenstrauss kuantize edilmiş algoritması uygulanır; kalan hata tek bir bite indirilir.	Dikkat hesaplamalarındaki sistematik hatayı minimum ek maliyetle ortadan kaldırır.

Pratik Sonuçlar
| Test | Algoritmalar | Sonuçlar |
|------|--------------|----------|
| LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: KV‑önbelleğinde en az 6 kat sıkıştırma; “yığın içinde iğne” arama görevlerinde doğruluk kaybı yok. LongBench’te KIVI’den daha kötü değil, bazen daha iyi. |
| Vektör Araması (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Eğitim olmadan bile TurboQuant, eğitimli rakipleri performans ve bellek tüketiminde geride bırakır. |

Çıkarımlar
* TurboQuant, KV‑önbelleğini 3–4 bite sıkıştırırken doğruluk kaybı ve ek eğitim gerektirmez.

* Nvidia H100’te performans 8 kat artarken önbellek boyutu altı kat küçülür.

* Algoritma, büyük dil modelleri ve vektör arama görevleri için ince ayar gerektirmeden çalışır.

Bu nedenle TurboQuant, yüksek yük altında bile pratik kullanım için hazırdır ve büyük modellerle verimli çalışma için yeni fırsatlar sunar.

Google, TurboQuant algoritması sayesinde yapay zeka modellerinin bellek tüketimini altı kat azalttı ve doğruluğu korudu

Related news

Yeni bölüm: “Darwin’s Paradox!” – karakteri ve tentacle’ları olan bir platform oyunu, inceleme.

AMD, Intel'i neredeyse üçte bir oranla geride bırakarak 454 milyar dolarlık rekor piyasa değerine ulaştı.

DeepSeek’in değerini 10 milyar dolara çıkarabilecek 300 milyon dolar yatırım müzakereleri.

Dünya bilgisayar tedarikleri ilk çeyrekte %3,2 arttı, ancak bellek maliyetindeki artış tüketicileri korkutuyor

Yorumlar (0)

Yorum yapmak için giriş yapın