Google, TurboQuant algoritması sayesinde yapay zeka modellerinin bellek tüketimini altı kat azalttı ve doğruluğu korudu

Google, TurboQuant algoritması sayesinde yapay zeka modellerinin bellek tüketimini altı kat azalttı ve doğruluğu korudu

6 hardware

Kısa Özet

Google Research, büyük dil modellerinin KV‑önbelleğini sıkıştırmak için TurboQuant adlı yeni bir yöntem tanıttı. Algoritma, önbelleğin bit derinliğini 3 bite (hata düzeltme eklenirse 4 bite) indirir; yanıt doğruluğunu düşürmeden ve ek eğitim gerektirmeden. Nvidia H100 hızlandırıcılarında TurboQuant, dikkat logitlerinin hesaplanmasını 8 kat artırdı ve KV‑önbelleği altı kat küçülttü.

KV‑önbelleği nedir ve neden önemlidir
* KV‑önbelleği, dikkat mekanizmasının hesaplanması sırasında elde edilen anahtarları (K) ve değerleri (V) saklar.
Bu sayede model, token üretiminin her adımında bunları yeniden hesaplamaz.

* Bağlam penceresi genişledikçe önbellek üssel artar, bu da yüksek bellek tüketimine yol açar.

* Geleneksel kuantizasyon yöntemleri önbelleği küçültür ancak ZIP/RAR benzeri kuantizasyon sabitlerini (sözlükler) saklamayı gerektirir.
Bu sözlükler önemli ek maliyet yaratır.

TurboQuant nasıl çalışır
TurboQuant, iki aşamadan oluşur ve tamamen sözlüklerden kurtulur.

AşamaNe YapılırNeden Önemli
1. PolarQuantVektörleri kartesyen koordinatlardan polar (yarıçap + açı) koordinatlara çevirir.Açısal dağılımlar öngörülebilir ve yoğun olduğu için her blok için pahalı normalizasyon adımı gerekmez. Bu, sözlükler olmadan yüksek kaliteli sıkıştırma sağlar.
2. 1‑bit Hata Düzeltme KatmanıJohnson‑Lindenstrauss kuantize edilmiş algoritması uygulanır; kalan hata tek bir bite indirilir.Dikkat hesaplamalarındaki sistematik hatayı minimum ek maliyetle ortadan kaldırır.

Pratik Sonuçlar
| Test | Algoritmalar | Sonuçlar |
|------|--------------|----------|
| LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: KV‑önbelleğinde en az 6 kat sıkıştırma; “yığın içinde iğne” arama görevlerinde doğruluk kaybı yok. LongBench’te KIVI’den daha kötü değil, bazen daha iyi. |
| Vektör Araması (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Eğitim olmadan bile TurboQuant, eğitimli rakipleri performans ve bellek tüketiminde geride bırakır. |

Çıkarımlar
* TurboQuant, KV‑önbelleğini 3–4 bite sıkıştırırken doğruluk kaybı ve ek eğitim gerektirmez.

* Nvidia H100’te performans 8 kat artarken önbellek boyutu altı kat küçülür.

* Algoritma, büyük dil modelleri ve vektör arama görevleri için ince ayar gerektirmeden çalışır.

Bu nedenle TurboQuant, yüksek yük altında bile pratik kullanım için hazırdır ve büyük modellerle verimli çalışma için yeni fırsatlar sunar.

Yorumlar (0)

Düşüncenizi paylaşın — lütfen kibar olun ve konu dışına çıkmayın.

Henüz yorum yok. Yorum bırakın ve düşüncenizi paylaşın!

Yorum bırakmak için lütfen giriş yapın.

Yorum yapmak için giriş yapın