Apple е обучила компактни модели на изкуствен интелект да разписват изображения по-добре от своите големи конкуренти
Apple разкрива нова технология „RubiCap“ за описание на изображения
Учениците от Apple създадоха метод, наречен *RubiCap*, който позволява на малки ИИ модели да генерират по-точни и детайлни описания на картинки отколкото големите аналози.
Как работи RubiCap
1. Анализ на изображението
За да създаде подробен текст, моделът първо разпознава множество обекти и области в кадъра. Това осигурява дълбоко разбиране на композицията, а не повърхностно описание.
2. Практическа стойност
Тези умения са полезни за обучение на подчинени ИИ модели, генератори на картинки по текст и специализирани функции (например подобряване на визуалното съдържание).
3. Проблем с ресурсите
Традиционните подходи към обучението на системи за подробно описание изискват големи изчислителни разходи както в началната фаза, така и при последващото обучение чрез подсилване.
Експериментална методика
- Избор на изображения – случайно избрани 50 000 картинки от наборите *PixMoCap* и *DenseFusion‑4V‑100K*.
- Генериране на описания – използвани съществуващи модели за компютърно зрение: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT и Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, както и модели на Apple в процес на обучение.
- Оценка на качеството – Gemini 2.5 Pro изпълнява ролята на експерт: анализира описанията, открива съвпадения и грешки, формулира ясни критерии за оценка.
- Судейска оценка – моделът Qwen 2.5‑7B‑Instruct присъжда точки по всеки критерий и генерира сигнал за награда към обучаемия модел.
Резултати
- Обучаемият модел получава конкретна обратна връзка, което позволява бързо подобряване на точността на описанията без нужда от разчитане на единствен „правилен“ отговор.
- В крайна сметка Apple създаде три собствени модели: RubiCap‑2B, RubiCap‑3B и RubiCap‑7B (соответно 2, 3 и 7 милиарда параметри).
- При тестове по задачата за описание на изображения RubiCap превъзмогна конкурентите с 32 млрд и дори 72 млрд параметри. В някои случаи RubiCap‑3B показваше по-добри резултати от RubiCap‑7B, потвърждавайки, че размерът на модела не винаги гарантира по-висока производителност.
Така технологията RubiCap демонстрира как може да се постигне високо качество при описание на изображения с по-малки ресурси и по-ефективно обучение.
Коментари (0)
Споделете мнението си — моля, бъдете учтиви и по темата.
Влезте, за да коментирате