Загрузка...

Gemini становится реальным: готовьтесь к революции роботов

78Опубликовано 14.03.2025 в 04:31Категория: РобототехникаИсточник

Gemini Robotics - новая модель, сосредоточенная на физическом мире и предназначенная для использования роботами. Она визуальная, интерактивная и универсальная.

Google Gemini хорошо справляется с многими задачами, происходящими внутри экрана, включая генерацию текста и изображений. Однако последняя модель, Google Robotics, является моделью языка-действия, которая переносит генерирующий ИИ в физический мир и может значительно ускорить гонку за революцию гуманоидных роботов.

Gemini Robotics, которую DeepMind Google представила в среду, улучшает возможности Gemini в трех ключевых областях:

Ловкость
Взаимодействие
Обобщение

Каждая из этих трех сторон существенно влияет на успех робототехники на рабочем месте и в неизвестных средах. Обобщение позволяет роботу использовать обширные знания Gemini о мире и вещах, применять их к новым ситуациям и выполнять задачи, на которые он никогда не был обучен.

В одном видео исследователи показывают пару роботизированных рук, управляемых Gemini Robotics, игру в настольный баскетбол и просят «провести данк». Несмотря на то, что робот раньше не видел эту игру, он поднял маленький оранжевый мяч и забросил его в пластиковую корзину. Google Gemini Robotics также делает роботов более интерактивными и способными реагировать не только на изменяющиеся устные задания, но и на непредвиденные обстоятельства.

В другом видео исследователи попросили робота положить виноград в миску с бананами, но затем передвинули миску, а роботизированная рука отрегулировала свое положение и все равно смогла положить виноград в миску. Google также продемонстрировал ловкость роботов, позволяющую им выполнять такие задачи, как игра в крестики-нолики на деревянной доске, стирание белой доски и складывание бумаги в виде оригами. Вместо того чтобы тратить часы на обучение каждой задаче, роботы реагируют на почти постоянные инструкции на естественном языке и выполняют задачи без руководства. Это впечатляет.

Естественно, добавление ИИ к робототехнике не ново. В прошлом году OpenAI сотрудничала с Figure AI для разработки гуманоидного робота, который может выполнять задачи на основе устных инструкций. Как и Gemini Robotics, визуальная языковая модель Figure 01 работает вместе с речевой моделью OpenAI для ведения диалогов.

В одном видео исследователи показывают гуманоидного робота, который взял небольшой мяч и перенес его в указанное место. Figure подчеркивает, что это демонстрация их технологий восприятия и манипуляции с объектами. Кроме того, они утверждают, что их роботы обладают "когнитивной способностью", позволяющей им понимать контекст окружающего мира.

Google называет Gemini Robotics ER комплексным решением и утверждает, что «он может выполнить все необходимые шаги для управления роботом прямо из коробки, включая восприятие, оценку состояния, пространственное понимание, планирование и генерацию кода».

Google предоставляет модель Gemini Robotics ER нескольким компаниям-разработчикам робототехники для бизнеса и исследований, в том числе Boston Dynamics (производители Atlas), Agile Robots и Agility Robots. В целом, это может стать благом для разработчиков гуманоидных роботов.

Однако, поскольку большинство из этих роботов разработаны для фабрик или все еще находятся в лаборатории, может пройти некоторое время, прежде чем у вас появится робот с улучшенными функциями Gemini в доме.