Сейчас ваша корзина пуста!
Масштабирование аннотации данных с помощью визуально-языковых моделей для обеспечения работы физических ИИ‑систем — Amazon Web Services (AWS)

Острый дефицит рабочей силы сдерживает рост в таких отраслях, как производство, логистика, строительство и сельское хозяйство. Особенно критична ситуация в строительстве: в Соединённых Штатах остаётся незаполненной почти 500 000 вакансий, при этом 40 % нынешних работников приближаются к пенсионному возрасту в течение ближайшего десятилетия.
Такие ограничения приводят к задержкам проектов, росту затрат и откладыванию планов развития. Чтобы преодолеть эти трудности, организации разрабатывают автономные системы, которые могут:
- восполнить нехватку мощностей;
- расширить операционные возможности;
- обеспечить круглосуточную производительность.
Проблемы подготовки данных для обучения ИИ
Создание автономных систем требует больших объёмов аннотированных данных для обучения моделей ИИ. Эффективность обучения определяет, будет ли система приносить бизнес-ценность. Однако существует узкое место — высокая стоимость подготовки данных.
Ключевой этап — разметка видеоданных, то есть идентификация информации об оборудовании, задачах и окружающей среде. Это необходимо, чтобы данные были полезны для обучения моделей. Данный этап может замедлить развёртывание моделей, что, в свою очередь, тормозит поставку продуктов и услуг на базе ИИ клиентам.
Для строительных компаний, управляющих миллионами часов видео, ручная подготовка и разметка данных становятся непрактичными. На помощь приходят визуально-языковые модели (VLM, Vision-Language Models). Они:
- интерпретируют изображения и видео;
- отвечают на запросы на естественном языке;
- генерируют описания с такой скоростью и в таких масштабах, которые недостижимы для ручных процессов.
Таким образом, VLM предоставляют экономически эффективную альтернативу.
Bedrock Robotics: кейс по ускорению автономного строительства
Компания Bedrock Robotics с 2024 года разрабатывает автономные системы для строительной техники. Её продукт — Bedrock Operator — представляет собой решение для модернизации, которое сочетает аппаратное обеспечение с моделями ИИ. Это позволяет экскаваторам и другой технике работать с минимальным вмешательством человека.
Системы способны выполнять такие задачи, как:
- копание;
- планировка;
- погрузочно-разгрузочные работы — с точностью до сантиметра.
Для обучения моделей требуются огромные объёмы видеоматериалов, фиксирующих оборудование, задачи и окружающую среду. Это ресурсоёмкий процесс, ограничивающий масштабируемость.
Как VLM помогают решить проблему
Визуально-языковые модели анализируют изображения и видео, генерируя текстовые описания. Это делает их идеальными для задач аннотации, которые критически важны для обучения моделей связывать визуальные паттерны с человеческим языком.
Bedrock Robotics использовала эту технологию, чтобы оптимизировать подготовку данных для обучения ИИ-моделей, обеспечивающих автономную работу техники. Благодаря правильному выбору модели и разработке промптов компания повысила точность идентификации инструментов с 34 % до 70 %. Это превратило ручной, трудоёмкий процесс в автоматизированный, масштабируемый конвейер данных.
Основополагающие модели (FM) и их роль
Основополагающие модели (FM, Foundation Models) — это модели, обученные на огромных объёмах данных с использованием методов самообучения. Они осваивают общие представления, которые можно адаптировать для множества последующих задач.
VLM используют методы масштабного предварительного обучения, чтобы объединить визуальные и текстовые модальности. Это позволяет им:
- понимать;
- анализировать;
- генерировать контент — как на уровне изображений, так и на уровне языка.
От неструктурированных видеоданных к стратегическому активу
Для обеспечения работы автономной строительной техники необходимо извлекать полезную информацию из миллионов часов неструктурированных оперативных видеозаписей. Bedrock Robotics нужно было идентифицировать:
- навесное оборудование;
- задачи;
- условия на строительной площадке — в различных сценариях.
Компания сосредоточила усилия на нескольких ключевых категориях инструментов:
- подъёмные крюки для погрузочно-разгрузочных работ;
- молоты для демонтажа бетона;
- планировочные балки для выравнивания поверхности;
- ковши для узкой выемки грунта.
Метки позволяют Bedrock Robotics отбирать соответствующие сегменты видео и формировать наборы данных для обучения, отражающие разнообразие конфигураций оборудования и условий эксплуатации.
Ускорение развёртывания ИИ через оптимизацию моделей
Готовые VLM (без оптимизации промптов) плохо справляются с видеоданными из строительной сферы, поскольку они обучены на веб-изображениях, а не на записях из кабин экскаваторов. У них возникают проблемы с:
- необычными углами съёмки;
- визуальными особенностями оборудования;
- плохой видимостью из-за пыли и погодных условий.
Кроме того, им не хватает предметных знаний, чтобы различать визуально похожие инструменты, например, ковши для копания и ковши для узкой выемки грунта.
Bedrock Robotics и Инновационный центр AWS решили эту проблему через:
- целенаправленный выбор моделей;
- оптимизацию промптов.
Команды оценили несколько VLM, включая открытые варианты и FM, доступные в Amazon Bedrock. Затем они усовершенствовали промпты, добавив:
- подробные визуальные описания каждого инструмента;
- руководства для часто путаемых пар инструментов;
- пошаговые инструкции для анализа видеокадров.
Эти модификации повысили точность классификации с 34 % до 70 % на тестовом наборе из 130 видео при стоимости $10 за час обработки видео.
Перспективы: борьба с дефицитом рабочей силы через автоматизацию
Для Bedrock Robotics визуально-языковые системы позволили:
- быстро идентифицировать и извлекать критически важные наборы данных;
- получать необходимые инсайты из огромных объёмов видеоматериалов со строительных площадок.
При общей точности в 70 % этот экономически эффективный подход создаёт практическую основу для масштабирования подготовки данных для обучения моделей. Он демонстрирует, как стратегические инновации в области ИИ могут:
- преобразовать ограничения, связанные с рабочей силой;
- ускорить трансформацию отрасли.
Организации, оптимизирующие подготовку данных, могут:
- ускорить развёртывание автономных систем;
- снизить операционные расходы;
- исследовать новые направления для роста в отраслях, страдающих от дефицита рабочей силы.
Этот воспроизводимый фреймворк позволяет лидерам в области производства и промышленной автоматизации, сталкивающимся с аналогичными проблемами, применять эти принципы для достижения конкурентных преимуществ в своих областях.
Прокомментировать в Телеграм: https://t.me/n8nhow
Подписаться на канал обучения n8n: https://t.me/n8ncoaching
