Внутренняя гибридная архитектура нового модели генерации изображений от Salesforce

Salesforce представила BLIP3o-NEXT, новую открыто-source модель, которая объединяет генерацию изображений из текста и редактирование изображений в единой, упрощенной архитектуре. Несмотря на относительную малость рк 3 миллиарда параметров, BLIP3o-NEXT демонстрирует высокую эффективность, соответствуя или превосходя другие открытые модели по нескольким ключевым тестам.

Как работает BLIP3o-NEXT

BLIP3o-NEXT использует гибридную архитектуру, которая сочетает в себе авторегрессионную модель (архитектура, используемая в классических языковых моделях) и модель диффузии (архитектура, используемая в большинстве моделей генерации изображений). Этот двухступенчатый подход использует уникальные преимущества каждого компонента. Авторегрессионная модель выступает в роли мозга, интерпретируя запрос пользователя и определяя общую структуру и содержание изображения. Затем модель диффузии действует как художник, создавая детализированные и фотореалистичные детали.

Процесс обучения и детали модели

Основные возможности модели были разработаны путем обучения авторегрессионного компонента на трех главных задачах:

  • генерация изображений из текста,
  • восстановление изображений,
  • редактирование изображений.

После этого первичного обучения исследователи использовали обучение с подкреплением (RL) для дальнейшей настройки производительности модели по специфическим навыкам, таким как улучшение качества текста, отображаемого в изображениях.

Редактирование изображений и его вызовы

При редактировании изображений поддержание согласованности с эталонным изображением является существенной задачей, так как высокоуровневые семантические представления могут упускать мелкие пиксельные детали. Исследователи отметили, что это ключевая область, где открытые модели сталкиваются с фундаментальным ограничением.

Для решения этой задачи в этих условиях команда внедрила низкоуровневые VAE-латенты как дополнительный сигнал для модели диффузии. VAE (векторный автокодировщик) может сжать изображение в компактное представление (его латентное состояние), которое сохраняет детальную визуальную информацию.

Перспективы улучшения и будущее

Несмотря на впечатляющие результаты, исследователи отмечают, что по-прежнему есть возможности для улучшения. В их статье указывается, что «направления, представленные здесь, указывают на многообещающие пути для следующего поколения фундаментальных моделей, где объединенные архитектуры, обучение с подкреплением и масштабируемая послетренировочная настройка совместно способствуют прогрессу в создании контролируемых, согласованных по инструкциям и высококачественных систем генерации изображений».




Прокомментировать в Телеграм: https://t.me/n8nhow

Подписаться на канал обучения n8n: https://t.me/n8ncoaching