Apple разработва собственен AI‑асистент за iPhone, способен да стартира приложения от името на потребителя
Apple разработва компактен локален ИИ‑агент за работа с потребителски интерфейси
Apple работи по нов алгоритъм – Ferret‑UI Lite, който може „да разбира“ интерфейсите на приложения и да взаимодействува с тях от името на потребителя, но всичко това се случва на самото устройство. Моделът има 3 млн параметри и в тестовете показва резултати, сравними или дори надминаващи големи модели до 24 пъти по-големи.
Източници на проекта
В декември 2023 г. екип от девет изследователи публикува работа FERRET: Refer and Ground Anything Anywhere at Any Granularity. В нея се представя мултимодален езиков модел, обучаван върху различни типове данни и способен да свързва текстови описания с конкретни части на изображението.
Оттогава Apple разшири семейството Ferret‑модели:
| Модел | Назначение |
|---|---|
| Ferretv2 | Подобрена базова модел |
| Ferret‑UI | Специализиран MLLM за мобилни интерфейси |
| Ferret‑UI 2 | Поддръжка на няколко платформи и по-висока резолюция |
Ferret‑UI в частност решава една от проблемите на съвременните мултимодални големи езикови модели (MLLM): те не разпознават UI‑елементи добре. Моделът добавя „произволна резолюция“ върху Ferret, увеличавайки детайлността на изображенията и използвайки подобрени визуални признаци.
Нови постижения
Скорошно Apple представи две допълнителни версии:
1. Ferret‑UI Lite – лек модел с 3 млн параметри, оптимизиран за локално стартиране на мобилни устройства.
2. Ferret‑UI 2 – разширена версия, поддържаща няколко платформи и по-висока резолюция на скрийншоти.
Главната разлика между Ferret‑UI Lite и големите сървърни модели е, че той запазва конкурентоспособност при значително по-малки изчислителни изисквания.
Защо това е важно
Повечето съществуващи GUI‑агенти се базират на огромни фундаментални модели, защото техните мощни възможности за разсъждение и планиране позволяват постигане на впечатляващи резултати при навигация по графични интерфейси. Тези модели обаче са твърде громоздки за изпълнение директно на устройството.
Ferret‑UI Lite решава тази задача, комбинирайки:
- Множество ключови компоненти и идеи от обучението на малки LLM;
- Реални и синтетични данни от различни GUI области;
- Техники динамично кадриране и оптимизация на качеството на сегментация на интерфейса;
- Контролирана финна настройка и обучение с подкрепление.
Резултатът е модел, който практически е равен или дори надминава по-големите конкурентни GUI‑агенти в задачи за нискоуровенно свързване със UI‑елементите, разбиране на събитията на екрана, многостъпово планиране и самоанализ.
Коментари (0)
Споделете мнението си — моля, бъдете учтиви и по темата.
Влезте, за да коментирате