Xiaomi е разработила AI-модел със 4,7 млрд. параметри, която комбинира визуално възприемане, реч и управление за роботи.
Xiaomi влиза на пазара на роботиката
Китайският гигант за мобилни устройства и умния дом, известен като Xiaomi, обяви нова стъпка: разработване на собствен модел изкуствен интелект за роботи. Компанията представи Xiaomi‑Robotics‑0, система с отворен код, която съчетава визуално разпознаване, разбиране на езика и контрол на действия в реално време. Моделът има 4,7 млн параметри и вече е установил няколко рекорда както в симулации, така и на практика.
Как работи моделът
Роботът обикновено преминава цикъла „възприятие → решение → действие“. Xiaomi‑Robotics‑0 балансира между широкото разбиране на ситуацията и точния контрол на моториката благодарение на архитектурата Mixture‑of‑Transformers (MoT).
1. Визуално‑езиков модел (VLM) – „мозък“ на системата.
* Обучен да интерпретира команди, дори размыти („моля, сложи кърпата“).
* Разбира пространствени отношения въз основа на висококачествени изображения.
* Задачи: откриване на обекти, отговори на визуални въпроси и логическо рассъждане.
2. Експерт по действия (Action Expert) – генератор на движения.
* Основан на дифузионен трансформер (DiT).
* Не генерира едно действие наведнъж; създава последователност от действия чрез сравняване на потоци, което осигурява плавност и точност.
Обучение без загуба на разбиране
Обичайните VLM губят част от възприемането си при обучение по физически задачи. Xiaomi реши тази проблематика, обучавайки модела едновременно с мултимодални данни (изображения + текст) и данни за действията. Процесът на обучение се състои от няколко етапа:
1. Предложение на действия – VLM предсказва възможните разпределения на действия по изображения, синхронизирайки вътрешното представяне с реалните операции.
2. След това VLM „изключва се“, и DiT преминава към отделно обучение за генериране на точни последователности от шум, опирайки се на ключови признаци, а не на езикови токени.
Минимизиране на забавяния
За да елиминира паузите между прогнозите на модела и реалните движения на робота, използва асинхронно изпълнение: изчисленията на ИИ и действията на робота са разделени. Това позволява роботите да се движат непрекъснато дори при нужда от допълнителни пресмятания.
* Clean Action Prefix – метод за връщане на предишно предвидено действие, осигуряващ плавност без скокове.
* Маска за внимание фокусира се върху текущата визуална последователност, игнорирайки минали състояния, което прави робота по-отзивчив към внезапни промени в околната среда.
Резултати
В симулационните среди LIBERO, CALVIN и SimplerEnv Xiaomi‑Robotics‑0 надминал около 30 конкуренти. На реален робот с два манипулатори моделът успешно се справил със сложни задачи: сглобяване на кърпи, разборка на конструктор. Роботът демонстрирал стабилна координация между ръцете и очите, ефективно манипулирайки обекти в различни сценарии.
Така Xiaomi не само разширила своя портфейл продукти, но и заложила фундамент за бъдещи изследвания в областта на „физическия интелект“ на роботите.
Коментари (0)
Споделете мнението си — моля, бъдете учтиви и по темата.
Влезте, за да коментирате