Apple е обучила компактни модели на изкуствен интелект да разписват изображения по-добре от своите големи конкуренти

Apple разкрива нова технология „RubiCap“ за описание на изображения

Учениците от Apple създадоха метод, наречен *RubiCap*, който позволява на малки ИИ модели да генерират по-точни и детайлни описания на картинки отколкото големите аналози.

Как работи RubiCap
1. Анализ на изображението

За да създаде подробен текст, моделът първо разпознава множество обекти и области в кадъра. Това осигурява дълбоко разбиране на композицията, а не повърхностно описание.

2. Практическа стойност

Тези умения са полезни за обучение на подчинени ИИ модели, генератори на картинки по текст и специализирани функции (например подобряване на визуалното съдържание).

3. Проблем с ресурсите

Традиционните подходи към обучението на системи за подробно описание изискват големи изчислителни разходи както в началната фаза, така и при последващото обучение чрез подсилване.

Експериментална методика
- Избор на изображения – случайно избрани 50 000 картинки от наборите *PixMoCap* и *DenseFusion‑4V‑100K*.

- Генериране на описания – използвани съществуващи модели за компютърно зрение: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT и Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, както и модели на Apple в процес на обучение.

- Оценка на качеството – Gemini 2.5 Pro изпълнява ролята на експерт: анализира описанията, открива съвпадения и грешки, формулира ясни критерии за оценка.

- Судейска оценка – моделът Qwen 2.5‑7B‑Instruct присъжда точки по всеки критерий и генерира сигнал за награда към обучаемия модел.

Резултати
- Обучаемият модел получава конкретна обратна връзка, което позволява бързо подобряване на точността на описанията без нужда от разчитане на единствен „правилен“ отговор.

- В крайна сметка Apple създаде три собствени модели: RubiCap‑2B, RubiCap‑3B и RubiCap‑7B (соответно 2, 3 и 7 милиарда параметри).

- При тестове по задачата за описание на изображения RubiCap превъзмогна конкурентите с 32 млрд и дори 72 млрд параметри. В някои случаи RubiCap‑3B показваше по-добри резултати от RubiCap‑7B, потвърждавайки, че размерът на модела не винаги гарантира по-висока производителност.

Така технологията RubiCap демонстрира как може да се постигне високо качество при описание на изображения с по-малки ресурси и по-ефективно обучение.

Apple е обучила компактни модели на изкуствен интелект да разписват изображения по-добре от своите големи конкуренти

Related news

Google Gemini набра 750 млн месечни активни потребители, като остави ChatGPT само на малко разстояние от лидера.

Nothing представи бета‑версия на Essential Apps – платформа за създаване на мини‑приложения с помощта на изкуствен интелект

Майкрософт обясни защо акаунтовете на VeraCrypt и други отворени услуги са блокирани – поради пренебрегване от страна на създателите им

Прилагането Meta✴ AI заема петото място в App Store след старта на Muse Spark

Коментари (0)

Влезте, за да коментирате

Apple е обучила компактни модели на изкуствен интелект да разписват изображения по-добре от своите големи конкуренти

Related news

Google Gemini набра 750 млн месечни активни потребители, като остави ChatGPT само на малко разстояние от лидера.

Nothing представи бета‑версия на Essential Apps – платформа за създаване на мини‑приложения с помощта на изкуствен интелект

Майкрософт обясни защо акаунтовете на VeraCrypt и други отворени услуги са блокирани – поради пренебрегване от страна на създателите им

Прилагането Meta✴ AI заема петото място в App Store след старта на Muse Spark

Влезте, за да коментирате

Google Gemini набра 750 млн месечни активни потребители, като остави ChatGPT само на малко разстояние от лидера.

Nothing представи бета‑версия на Essential Apps – платформа за създаване на мини‑приложения с помощта на изкуствен интелект

Прилагането Meta✴ AI заема петото място в App Store след старта на Muse Spark