Масштабирование аннотации данных с помощью визуально-языковых моделей для обеспечения работы физических ИИ‑систем — Amazon Web Services (AWS)

Нехватка рабочей силы сдерживает рост в таких отраслях, как производство, логистика, строительство и сельское хозяйство. Особенно остро проблема стоит в строительстве: в США остаются незаполненными почти 500 000 вакансий, при этом 40 % нынешних работников приближаются к пенсионному возрасту в течение ближайшего десятилетия.

Такие ограничения приводят к задержкам проектов, росту затрат и откладыванию планов развития. Чтобы преодолеть эти трудности, организации разрабатывают автономные системы, которые способны:

  • восполнять нехватку рабочих рук;
  • расширять операционные возможности;
  • обеспечивать круглосуточную производительность.

Проблемы подготовки данных для обучения ИИ

Для создания автономных систем требуются большие объёмы аннотированных данных для обучения ИИ‑моделей. От качества обучения зависит, принесёт ли система реальную пользу бизнесу. Однако существует узкое место — высокая стоимость подготовки данных.

Особенно трудоёмким является процесс разметки видеоданных — идентификации информации об оборудовании, задачах и окружающей среде. Без этой работы данные не будут полезны для обучения моделей. Этот этап может замедлить внедрение моделей, что, в свою очередь, тормозит вывод на рынок продуктов и услуг на базе ИИ.

Для строительных компаний, работающих с миллионами часов видео, ручная подготовка и разметка данных становятся непрактичными. Здесь на помощь приходят визуально‑языковые модели (VLM). Они способны:

  • интерпретировать изображения и видео;
  • отвечать на запросы на естественном языке;
  • генерировать описания с такой скоростью и в таком масштабе, которые недостижимы при ручной обработке.

Таким образом, VLM предлагают экономически эффективное решение.

Пример Bedrock Robotics: ускорение автоматизации строительства

Компания Bedrock Robotics, участвуя в программе AWS Physical AI Fellowship, сотрудничала с AWS Generative AI Innovation Center. Цель — применить визуально‑языковые модели для анализа видеозаписей со строительных площадок. Задачи:

  • извлечение операционных деталей;
  • создание размеченных наборов данных для обучения ИИ в больших масштабах;
  • улучшение подготовки данных для автономного строительного оборудования.

С 2024 года Bedrock Robotics разрабатывает автономные системы для строительного оборудования. Их продукт — Bedrock Operator — это решение, которое объединяет аппаратное обеспечение с ИИ‑моделями. Оно позволяет экскаваторам и другой технике работать с минимальным вмешательством человека. Системы способны выполнять такие задачи, как копание, планировка и перемещение материалов с точностью до сантиметра.

Для обучения моделей требуются огромные объёмы видеозаписей, фиксирующих оборудование, задачи и окружающую среду. Это ресурсоёмкий процесс, ограничивающий масштабируемость.

Как VLM решают проблему

Визуально‑языковые модели анализируют изображения и видео, генерируя текстовые описания. Это делает их идеальными для задач аннотации, которые критически важны для обучения моделей связывать визуальные паттерны с человеческим языком.

Bedrock Robotics использовала эту технологию, чтобы оптимизировать подготовку данных для обучения ИИ‑моделей. В результате:

  • процесс, который раньше был ручным и отнимал много времени, превратился в автоматизированный и масштабируемый;
  • точность идентификации инструментов выросла с 34 % до 70 % благодаря правильному выбору модели и разработке промптов;
  • ускорилось внедрение автономного оборудования.

Основополагающие модели (FM) и их роль

Основополагающие модели (FM) — это модели, обученные на огромных объёмах данных с использованием методов самообучения. Они осваивают общие представления, которые можно адаптировать для множества последующих задач.

VLM используют методы масштабного предварительного обучения, чтобы объединить визуальные и текстовые модальности. Это позволяет им понимать, анализировать и генерировать контент, охватывающий как изображения, так и язык.

От неструктурированных видеоданных к стратегическому активу

Для обеспечения работы автономного строительного оборудования необходимо извлекать полезную информацию из миллионов часов неструктурированных видеозаписей. Bedrock Robotics нужно было идентифицировать:

  • навесное оборудование;
  • задачи;
  • условия на строительной площадке в различных сценариях.

Компания сосредоточилась на нескольких ключевых категориях инструментов:

  • подъёмные крюки для перемещения материалов;
  • молоты для демонтажа бетона;
  • планировочные балки для выравнивания поверхности;
  • траншейные ковши для узкого копания.

Эти метки позволяют Bedrock Robotics отбирать соответствующие сегменты видео и составлять наборы данных для обучения, отражающие разнообразие конфигураций оборудования и условий эксплуатации.

Ускорение развёртывания ИИ через оптимизацию моделей

Готовые VLM (без оптимизации промптов) плохо справляются с видеоданными со строительных площадок, поскольку они обучены на веб‑изображениях, а не на кадрах из кабин экскаваторов. У них возникают проблемы с:

  • необычными углами съёмки;
  • визуальными особенностями оборудования;
  • плохой видимостью из‑за пыли и погодных условий;
  • отсутствием знаний предметной области (например, они не могут отличить ковши для копания от траншейных ковшей).

Bedrock Robotics и Innovation Center решили эту проблему за счёт:

  • целевого выбора моделей;
  • оптимизации промптов.

Команды оценили несколько VLM, включая открытые варианты и модели, доступные в Amazon Bedrock. Затем они усовершенствовали промпты, добавив:

  • подробные визуальные описания каждого инструмента;
  • рекомендации для часто путаемых пар инструментов;
  • пошаговые инструкции для анализа кадров видео.

Эти изменения повысили точность классификации с 34 % до 70 % на тестовом наборе из 130 видео при стоимости $10 за час обработки видео.

Перспективы: борьба с нехваткой рабочей силы через автоматизацию

Для Bedrock Robotics визуально‑языковые системы позволили:

  • быстро идентифицировать и извлекать критически важные наборы данных;
  • получить необходимые инсайты из огромных объёмов видеозаписей со строительных площадок.

При общей точности в 70 % этот экономически эффективный подход создаёт практическую основу для масштабирования подготовки данных для обучения моделей. Он демонстрирует, как стратегические инновации в области ИИ могут:

  • преобразовать ограничения, связанные с нехваткой рабочей силы;
  • ускорить трансформацию отрасли.

Организации, которые оптимизируют подготовку данных, могут:

  • ускорить развёртывание автономных систем;
  • снизить операционные расходы;
  • исследовать новые направления для роста в отраслях, страдающих от нехватки рабочей силы.

Эта повторяемая схема позволяет лидерам в области производства и промышленной автоматизации, сталкивающимся с аналогичными проблемами, применять эти принципы для достижения конкурентных преимуществ в своих областях.




Прокомментировать в Телеграм: https://t.me/n8nhow

Подписаться на канал обучения n8n: https://t.me/n8ncoaching