Как Google DeepMind Gemini Robotics 1.5 соединяет ИИ и реальный мир

Google DeepMind анонсировала обновленные модели ИИ, которые позволяют роботам выполнять более сложные задачи, используя интернет для получения помощи. В ходе пресс-брифинга Каролина Парада, глава робототехники Google DeepMind, сообщила, что новые модели ИИ позволяют роботам «думать на несколько шагов вперед» перед выполнением действий в физическом мире.

Что такое Gemini Robotics 1.5?

Система основана на новейшей модели Gemini Robotics 1.5 и модели обоснованного рассуждения Gemini Robotics-ER 1.5. Эти обновления представляют собой развитие ИИ-моделей, которые Google DeepMind ввела в эксплуатацию в марте. Теперь роботы могут выполнять не только отдельные задачи, такие как сгибание бумаги или расстегивание сумки, но и справляться с такими заданиями, как:

  • сортировка белья по цветам;
  • упаковка чемодана в зависимости от текущей погоды в Лондоне;
  • помощь в сортировке мусора, компоста и перерабатываемых материалов на основе поиска в интернете.

Переход от инструкций к пониманию

Каролина Парада отметила, что «предыдущие модели могли хорошо справляться с одной инструкцией за раз». С обновлением «мы переходим от одной инструкции к настоящему пониманию и решению задач для физических объектов».

Использование веб-ресурсов для выполнения задач

Роботы могут использовать обновленную модель Gemini Robotics-ER 1.5 для формирования понимания своего окружения и использования цифровых инструментов, таких как Google Search, для получения дополнительной информации. Затем Gemini Robotics-ER 1.5 преобразует эту информацию в инструкции на естественном языке для Gemini Robotics 1.5, что позволяет роботу использовать навыки в области восприятия и понимания языка для выполнения каждой задачи.

Обучение и взаимопомощь среди роботов

Также было объявлено, что Gemini Robotics 1.5 помогает роботам «учиться» друг у друга, даже если они имеют различные конфигурации. Google DeepMind обнаружила, что задачи, заданные роботу ALOHA2 (двум механическим рукам), могут быть легко выполнены другим роботам, таким как бипедальный робот Franka и гуманоидный робот Apollo от Apptronik. Как отметил инженер-программист Google DeepMind Кани́шка Рао, «это позволяет нам контролировать очень разные роботы, включая гуманоидов, с помощью одной модели». Кроме того, навыки, освоенные одним роботом, теперь могут быть переданы другому.

Доступность обновления

В рамках обновления Google DeepMind запускает Gemini Robotics-ER 1.5 для разработчиков через API Gemini в Google AI Studio, в то время как доступ к Gemini Robotics 1.5 в настоящее время предоставляется только отдельным партнерам.




Прокомментировать в Телеграм: https://t.me/n8nhow

Подписаться на канал обучения n8n: https://t.me/n8ncoaching