Google намали консумацията на памет от AI модели шестнадесетично, запазвайки точността, благодарение на алгоритъма TurboQuant

Google намали консумацията на памет от AI модели шестнадесетично, запазвайки точността, благодарение на алгоритъма TurboQuant

9 hardware

Кратко съдържание

Google Research представи нов начин за компресиране на KV‑кеша на големи езикови модели – TurboQuant. Алгоритъмът намалява битовата дълбочина на кеша до 3 бита (4 бита, ако се добави корекция на грешки), без да смущава точността на отговорите и без допълнително обучение. На ускорителите Nvidia H100 TurboQuant повиши производителността при изчисляване на логитите за внимание в 8‑пъти и намали размера на KV‑кеша шест пъти.

Какво е KV‑кеш и защо е важен
* KV‑кешът съхранява ключовете (K) и стойностите (V), получени при изчисляване на механизма за внимание.
Това позволява модела да не ги пресмята отново при всеки стъпка на генериране на токени.

* При разширяване на контекстния прозорец кешът расте експоненциално, което води до високи разходи за памет.

* Традиционните методи за квантиране намаляват размера на кеша, но изискват съхраняване на константи за квантиране (словарни таблици), подобни на ZIP/RAR.
Тези словари създават значителни накладни разходи.

Как работи TurboQuant
TurboQuant се състои от два етапа и напълно премахва нуждата от словари.

ЕтапКакво се правиЗащо това е важно
1. PolarQuantПревръщане на вектори от декартови координати в полярни (радиус + ъгъл).Уголовите разпределения са предсказуеми и концентрирани, така че не е нужен скъп процес за нормализиране на всеки блок. Получава се висококачествена компресия без словари.
2. 1‑битово ниво за корекция на грешкиИзползва квантираната версия на алгоритъма Джонсон‑Линденштраус; остатъчната грешка се сведе до един бит.Устранява систематичната погрешност в изчисленията за внимание с минимални допълнителни разходи.

Практически резултати
Тест | Алгоритми | Резултати
---|---|---
LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: минимум 6‑пъти компресия на KV‑кеша; в задачите за „иглика в стога сено“ – без загуба на точност. В LongBench – не по-лошо, а понякога и по-добре от KIVI.
Векторно търсене (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Дори без обучение TurboQuant надминава обучените конкуренти по качество на резултатите и потребление на памет.

Изводи
* TurboQuant осигурява силна компресия на KV‑кеша до 3–4 бита без загуба на точност и без допълнително обучение.
* Производителността на Nvidia H100 се увеличи в 8 пъти, а размерът на кеша намали шест пъти.
* Алгоритъмът работи както за големи езикови модели, така и за задачи с векторно търсене, без нужда от финна настройка.

Следователно TurboQuant е готов за практическо използване дори при висока натовареност и отваря нови възможности за ефективна работа с големи модели.

Коментари (0)

Споделете мнението си — моля, бъдете учтиви и по темата.

Все още няма коментари. Оставете коментар и споделете мнението си!

За да оставите коментар, моля, влезте в профила си.

Влезте, за да коментирате