Apple разработва собственен AI‑асистент за iPhone, способен да стартира приложения от името на потребителя

Apple разработва собственен AI‑асистент за iPhone, способен да стартира приложения от името на потребителя

7 hardware

Apple разработва компактен локален ИИ‑агент за работа с потребителски интерфейси

Apple работи по нов алгоритъм – Ferret‑UI Lite, който може „да разбира“ интерфейсите на приложения и да взаимодействува с тях от името на потребителя, но всичко това се случва на самото устройство. Моделът има 3 млн параметри и в тестовете показва резултати, сравними или дори надминаващи големи модели до 24 пъти по-големи.

Източници на проекта
В декември 2023 г. екип от девет изследователи публикува работа FERRET: Refer and Ground Anything Anywhere at Any Granularity. В нея се представя мултимодален езиков модел, обучаван върху различни типове данни и способен да свързва текстови описания с конкретни части на изображението.

Оттогава Apple разшири семейството Ferret‑модели:

МоделНазначение
Ferretv2Подобрена базова модел
Ferret‑UIСпециализиран MLLM за мобилни интерфейси
Ferret‑UI 2Поддръжка на няколко платформи и по-висока резолюция

Ferret‑UI в частност решава една от проблемите на съвременните мултимодални големи езикови модели (MLLM): те не разпознават UI‑елементи добре. Моделът добавя „произволна резолюция“ върху Ferret, увеличавайки детайлността на изображенията и използвайки подобрени визуални признаци.

Нови постижения
Скорошно Apple представи две допълнителни версии:

1. Ferret‑UI Lite – лек модел с 3 млн параметри, оптимизиран за локално стартиране на мобилни устройства.
2. Ferret‑UI 2 – разширена версия, поддържаща няколко платформи и по-висока резолюция на скрийншоти.

Главната разлика между Ferret‑UI Lite и големите сървърни модели е, че той запазва конкурентоспособност при значително по-малки изчислителни изисквания.

Защо това е важно
Повечето съществуващи GUI‑агенти се базират на огромни фундаментални модели, защото техните мощни възможности за разсъждение и планиране позволяват постигане на впечатляващи резултати при навигация по графични интерфейси. Тези модели обаче са твърде громоздки за изпълнение директно на устройството.

Ferret‑UI Lite решава тази задача, комбинирайки:

- Множество ключови компоненти и идеи от обучението на малки LLM;
- Реални и синтетични данни от различни GUI области;
- Техники динамично кадриране и оптимизация на качеството на сегментация на интерфейса;
- Контролирана финна настройка и обучение с подкрепление.

Резултатът е модел, който практически е равен или дори надминава по-големите конкурентни GUI‑агенти в задачи за нискоуровенно свързване със UI‑елементите, разбиране на събитията на екрана, многостъпово планиране и самоанализ.

Коментари (0)

Споделете мнението си — моля, бъдете учтиви и по темата.

Все още няма коментари. Оставете коментар и споделете мнението си!

За да оставите коментар, моля, влезте в профила си.

Влезте, за да коментирате