Google намали консумацията на памет от AI модели шестнадесетично, запазвайки точността, благодарение на алгоритъма TurboQuant
Кратко съдържание
Google Research представи нов начин за компресиране на KV‑кеша на големи езикови модели – TurboQuant. Алгоритъмът намалява битовата дълбочина на кеша до 3 бита (4 бита, ако се добави корекция на грешки), без да смущава точността на отговорите и без допълнително обучение. На ускорителите Nvidia H100 TurboQuant повиши производителността при изчисляване на логитите за внимание в 8‑пъти и намали размера на KV‑кеша шест пъти.
Какво е KV‑кеш и защо е важен
* KV‑кешът съхранява ключовете (K) и стойностите (V), получени при изчисляване на механизма за внимание.
Това позволява модела да не ги пресмята отново при всеки стъпка на генериране на токени.
* При разширяване на контекстния прозорец кешът расте експоненциално, което води до високи разходи за памет.
* Традиционните методи за квантиране намаляват размера на кеша, но изискват съхраняване на константи за квантиране (словарни таблици), подобни на ZIP/RAR.
Тези словари създават значителни накладни разходи.
Как работи TurboQuant
TurboQuant се състои от два етапа и напълно премахва нуждата от словари.
| Етап | Какво се прави | Защо това е важно |
|---|---|---|
| 1. PolarQuant | Превръщане на вектори от декартови координати в полярни (радиус + ъгъл). | Уголовите разпределения са предсказуеми и концентрирани, така че не е нужен скъп процес за нормализиране на всеки блок. Получава се висококачествена компресия без словари. |
| 2. 1‑битово ниво за корекция на грешки | Използва квантираната версия на алгоритъма Джонсон‑Линденштраус; остатъчната грешка се сведе до един бит. | Устранява систематичната погрешност в изчисленията за внимание с минимални допълнителни разходи. |
Практически резултати
Тест | Алгоритми | Резултати
---|---|---
LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: минимум 6‑пъти компресия на KV‑кеша; в задачите за „иглика в стога сено“ – без загуба на точност. В LongBench – не по-лошо, а понякога и по-добре от KIVI.
Векторно търсене (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Дори без обучение TurboQuant надминава обучените конкуренти по качество на резултатите и потребление на памет.
Изводи
* TurboQuant осигурява силна компресия на KV‑кеша до 3–4 бита без загуба на точност и без допълнително обучение.
* Производителността на Nvidia H100 се увеличи в 8 пъти, а размерът на кеша намали шест пъти.
* Алгоритъмът работи както за големи езикови модели, така и за задачи с векторно търсене, без нужда от финна настройка.
Следователно TurboQuant е готов за практическо използване дори при висока натовареност и отваря нови възможности за ефективна работа с големи модели.
Коментари (0)
Споделете мнението си — моля, бъдете учтиви и по темата.
Влезте, за да коментирате