Nvidia отбеляза, че благодарение на усъвършенстванията в архитектурата Blackwell намаляването на разходите за инференция на невронни мрежи достигна десетичен ниво, а успехът се приписва не само хардуера.
Съкращаване на разходите за инференс при архитектура Nvidia Blackwell
Нови ускорители Nvidia Blackwell позволяват да се намали цената на стартиране на обучени ИИ системи 4–10 пъти. Това са данни, публикувани от самата Nvidia. Въпреки това без съпътстващи софтуерни и инфраструктурни подобрения такъв прирост е недостижим.
Как се постигна значително намаляване на разходите
Показател | Как помогна | Архитектура Blackwell | Ускорители | Модели | Отворен код (MoE, NVFP4 и др.) | Платформи | Baseten, DeepInfra, Fireworks AI, Together AI | Софтуерни стекове | Оптимизирани пайплайни за ниска точност
---|---|---|---|---|---|---|---|---|---
* Преводът на Blackwell удвоява ефективността спрямо предходното поколение ускорители.
* Използването на формати с ниска точност (например NVFP4) допълнително намалява разходите.
Практически примери
Компания | Задача | Резултат
---|---|---
Sully.ai | Здравеопазване, отворени модели в Baseten | 90 % спестяване на инференс (10‑кратно намаление), 65 % намаление на времето за реакция. Автоматизацията на кода и медицинските записи спести 30 млн минути работа.
Latitude (AI Dungeon) | Игра, модели MoE в DeepInfra | Цената на инференс за 1 млн токена падна от $0,20 до $0,05: първо с MoE (до $0,10), след това с NVFP4.
Sentient Foundation | Агентски чат, Fireworks AI | Икономическата ефективност се увеличи с 25–50 %. Платформата обработи 5,6 млн заявки седмично без увеличение на латентността.
Decagon | Голосова поддръжка за клиенти, Together AI | Цената на заявката намали се шест пъти благодарение на многомоделния стек на Blackwell. Времето за отговор <400 мс дори при няколко хиляди токена.
Защо характеристиките на натоварването са важни
* Размислящите модели генерират повече токени, което изисква по-мощни ускорители.
* Платформите използват *дезагрегирано обслужване*: отделен предварителен контекст и генерация на токени, за да обработват дълги последователности ефективно.
* При големи обеми генериране може да се постигне до 10‑кратна ефективност; при малки – само до 4‑кратно.
Алтернативи на Blackwell
Преводът към ускорители AMD Instinct MI300, Google TPU, Groq или Cerebras също намалява разходите. Ключовият момент е да се подбере комбинация от хардуер, софтуер и модели за конкретното натоварване, а не просто да се използва Blackwell.
Извод:
Намаляването на разходите за инференс се постига чрез комплексен подход: хардуерна мощ (Blackwell), отворени модели, оптимизирани стекове и правилно разпределение на задачите. Това позволява на компаниите да спестят до десетично в здравеопазването, игрите, агентския ИИ и голосовата поддръжка без загуба на качество или скорост.
Коментари (0)
Споделете мнението си — моля, бъдете учтиви и по темата.
Влезте, за да коментирате