Google намали консумацията на памет от AI модели шестнадесетично, запазвайки точността, благодарение на алгоритъма TurboQuant

Кратко съдържание

Google Research представи нов начин за компресиране на KV‑кеша на големи езикови модели – TurboQuant. Алгоритъмът намалява битовата дълбочина на кеша до 3 бита (4 бита, ако се добави корекция на грешки), без да смущава точността на отговорите и без допълнително обучение. На ускорителите Nvidia H100 TurboQuant повиши производителността при изчисляване на логитите за внимание в 8‑пъти и намали размера на KV‑кеша шест пъти.

Какво е KV‑кеш и защо е важен
* KV‑кешът съхранява ключовете (K) и стойностите (V), получени при изчисляване на механизма за внимание.
Това позволява модела да не ги пресмята отново при всеки стъпка на генериране на токени.

* При разширяване на контекстния прозорец кешът расте експоненциално, което води до високи разходи за памет.

* Традиционните методи за квантиране намаляват размера на кеша, но изискват съхраняване на константи за квантиране (словарни таблици), подобни на ZIP/RAR.
Тези словари създават значителни накладни разходи.

Как работи TurboQuant
TurboQuant се състои от два етапа и напълно премахва нуждата от словари.

Етап	Какво се прави	Защо това е важно
1. PolarQuant	Превръщане на вектори от декартови координати в полярни (радиус + ъгъл).	Уголовите разпределения са предсказуеми и концентрирани, така че не е нужен скъп процес за нормализиране на всеки блок. Получава се висококачествена компресия без словари.
2. 1‑битово ниво за корекция на грешки	Използва квантираната версия на алгоритъма Джонсон‑Линденштраус; остатъчната грешка се сведе до един бит.	Устранява систематичната погрешност в изчисленията за внимание с минимални допълнителни разходи.

Практически резултати
Тест | Алгоритми | Резултати
---|---|---
LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: минимум 6‑пъти компресия на KV‑кеша; в задачите за „иглика в стога сено“ – без загуба на точност. В LongBench – не по-лошо, а понякога и по-добре от KIVI.
Векторно търсене (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Дори без обучение TurboQuant надминава обучените конкуренти по качество на резултатите и потребление на памет.

Изводи
* TurboQuant осигурява силна компресия на KV‑кеша до 3–4 бита без загуба на точност и без допълнително обучение.
* Производителността на Nvidia H100 се увеличи в 8 пъти, а размерът на кеша намали шест пъти.
* Алгоритъмът работи както за големи езикови модели, така и за задачи с векторно търсене, без нужда от финна настройка.

Следователно TurboQuant е готов за практическо използване дори при висока натовареност и отваря нови възможности за ефективна работа с големи модели.

Google намали консумацията на памет от AI модели шестнадесетично, запазвайки точността, благодарение на алгоритъма TurboQuant

Related news

Тиндер и други услуги ще въведат проверка на реални потребители, съобщава Уорълд Алтман относно разширяването извън криптовалутната сфера.

Microsoft Edge на Android сега възпроизвежда видеа от YouTube във фон, като заобикаля предишните ограничения.

Apple‑Car може да изглежда така: Ferrari показва интериора на електрическия автомобил Luce, разработен от Джоним Айв.

Продажбите на Mortal Kombat 1 надвишиха 8 милиона копия, но рекорда за предходната игра все още е недостъпен

Коментари (0)

Влезте, за да коментирате

Google намали консумацията на памет от AI модели шестнадесетично, запазвайки точността, благодарение на алгоритъма TurboQuant

Related news

Тиндер и други услуги ще въведат проверка на реални потребители, съобщава Уорълд Алтман относно разширяването извън криптовалутната сфера.

Microsoft Edge на Android сега възпроизвежда видеа от YouTube във фон, като заобикаля предишните ограничения.

Apple‑Car може да изглежда така: Ferrari показва интериора на електрическия автомобил Luce, разработен от Джоним Айв.

Продажбите на Mortal Kombat 1 надвишиха 8 милиона копия, но рекорда за предходната игра все още е недостъпен

Влезте, за да коментирате

Продажбите на Mortal Kombat 1 надвишиха 8 милиона копия, но рекорда за предходната игра все още е недостъпен