Масштабирование аннотации данных с помощью визуально-языковых моделей для обеспечения работы физических ИИ‑систем — Amazon Web Services (AWS)

Острый дефицит рабочей силы сдерживает рост в таких отраслях, как производство, логистика, строительство и сельское хозяйство. Особенно критична ситуация в строительстве: в Соединённых Штатах остаётся незаполненной почти 500 000 вакансий, при этом 40 % нынешних работников приближаются к пенсионному возрасту в течение ближайшего десятилетия.

Такие ограничения приводят к задержкам проектов, росту затрат и откладыванию планов развития. Чтобы преодолеть эти трудности, организации разрабатывают автономные системы, которые могут:

  • восполнить нехватку мощностей;
  • расширить операционные возможности;
  • обеспечить круглосуточную производительность.

Проблемы подготовки данных для обучения ИИ

Создание автономных систем требует больших объёмов аннотированных данных для обучения моделей ИИ. Эффективность обучения определяет, будет ли система приносить бизнес-ценность. Однако существует узкое место — высокая стоимость подготовки данных.

Ключевой этап — разметка видеоданных, то есть идентификация информации об оборудовании, задачах и окружающей среде. Это необходимо, чтобы данные были полезны для обучения моделей. Данный этап может замедлить развёртывание моделей, что, в свою очередь, тормозит поставку продуктов и услуг на базе ИИ клиентам.

Для строительных компаний, управляющих миллионами часов видео, ручная подготовка и разметка данных становятся непрактичными. На помощь приходят визуально-языковые модели (VLM, Vision-Language Models). Они:

  • интерпретируют изображения и видео;
  • отвечают на запросы на естественном языке;
  • генерируют описания с такой скоростью и в таких масштабах, которые недостижимы для ручных процессов.

Таким образом, VLM предоставляют экономически эффективную альтернативу.

Bedrock Robotics: кейс по ускорению автономного строительства

Компания Bedrock Robotics с 2024 года разрабатывает автономные системы для строительной техники. Её продукт — Bedrock Operator — представляет собой решение для модернизации, которое сочетает аппаратное обеспечение с моделями ИИ. Это позволяет экскаваторам и другой технике работать с минимальным вмешательством человека.

Системы способны выполнять такие задачи, как:

  • копание;
  • планировка;
  • погрузочно-разгрузочные работы — с точностью до сантиметра.

Для обучения моделей требуются огромные объёмы видеоматериалов, фиксирующих оборудование, задачи и окружающую среду. Это ресурсоёмкий процесс, ограничивающий масштабируемость.

Как VLM помогают решить проблему

Визуально-языковые модели анализируют изображения и видео, генерируя текстовые описания. Это делает их идеальными для задач аннотации, которые критически важны для обучения моделей связывать визуальные паттерны с человеческим языком.

Bedrock Robotics использовала эту технологию, чтобы оптимизировать подготовку данных для обучения ИИ-моделей, обеспечивающих автономную работу техники. Благодаря правильному выбору модели и разработке промптов компания повысила точность идентификации инструментов с 34 % до 70 %. Это превратило ручной, трудоёмкий процесс в автоматизированный, масштабируемый конвейер данных.

Основополагающие модели (FM) и их роль

Основополагающие модели (FM, Foundation Models) — это модели, обученные на огромных объёмах данных с использованием методов самообучения. Они осваивают общие представления, которые можно адаптировать для множества последующих задач.

VLM используют методы масштабного предварительного обучения, чтобы объединить визуальные и текстовые модальности. Это позволяет им:

  • понимать;
  • анализировать;
  • генерировать контент — как на уровне изображений, так и на уровне языка.

От неструктурированных видеоданных к стратегическому активу

Для обеспечения работы автономной строительной техники необходимо извлекать полезную информацию из миллионов часов неструктурированных оперативных видеозаписей. Bedrock Robotics нужно было идентифицировать:

  • навесное оборудование;
  • задачи;
  • условия на строительной площадке — в различных сценариях.

Компания сосредоточила усилия на нескольких ключевых категориях инструментов:

  • подъёмные крюки для погрузочно-разгрузочных работ;
  • молоты для демонтажа бетона;
  • планировочные балки для выравнивания поверхности;
  • ковши для узкой выемки грунта.

Метки позволяют Bedrock Robotics отбирать соответствующие сегменты видео и формировать наборы данных для обучения, отражающие разнообразие конфигураций оборудования и условий эксплуатации.

Ускорение развёртывания ИИ через оптимизацию моделей

Готовые VLM (без оптимизации промптов) плохо справляются с видеоданными из строительной сферы, поскольку они обучены на веб-изображениях, а не на записях из кабин экскаваторов. У них возникают проблемы с:

  • необычными углами съёмки;
  • визуальными особенностями оборудования;
  • плохой видимостью из-за пыли и погодных условий.

Кроме того, им не хватает предметных знаний, чтобы различать визуально похожие инструменты, например, ковши для копания и ковши для узкой выемки грунта.

Bedrock Robotics и Инновационный центр AWS решили эту проблему через:

  • целенаправленный выбор моделей;
  • оптимизацию промптов.

Команды оценили несколько VLM, включая открытые варианты и FM, доступные в Amazon Bedrock. Затем они усовершенствовали промпты, добавив:

  • подробные визуальные описания каждого инструмента;
  • руководства для часто путаемых пар инструментов;
  • пошаговые инструкции для анализа видеокадров.

Эти модификации повысили точность классификации с 34 % до 70 % на тестовом наборе из 130 видео при стоимости $10 за час обработки видео.

Перспективы: борьба с дефицитом рабочей силы через автоматизацию

Для Bedrock Robotics визуально-языковые системы позволили:

  • быстро идентифицировать и извлекать критически важные наборы данных;
  • получать необходимые инсайты из огромных объёмов видеоматериалов со строительных площадок.

При общей точности в 70 % этот экономически эффективный подход создаёт практическую основу для масштабирования подготовки данных для обучения моделей. Он демонстрирует, как стратегические инновации в области ИИ могут:

  • преобразовать ограничения, связанные с рабочей силой;
  • ускорить трансформацию отрасли.

Организации, оптимизирующие подготовку данных, могут:

  • ускорить развёртывание автономных систем;
  • снизить операционные расходы;
  • исследовать новые направления для роста в отраслях, страдающих от дефицита рабочей силы.

Этот воспроизводимый фреймворк позволяет лидерам в области производства и промышленной автоматизации, сталкивающимся с аналогичными проблемами, применять эти принципы для достижения конкурентных преимуществ в своих областях.




Прокомментировать в Телеграм: https://t.me/n8nhow

Подписаться на канал обучения n8n: https://t.me/n8ncoaching