Внутренняя гибридная архитектура нового модели генерации изображений от Salesforce

Salesforce представила BLIP3o-NEXT, новую открыто-source модель, которая объединяет генерацию изображений из текста и редактирование изображений в единой, упрощенной архитектуре. Несмотря на относительную малость рк 3 миллиарда параметров, BLIP3o-NEXT демонстрирует высокую эффективность, соответствуя или превосходя другие открытые модели по нескольким ключевым тестам.

Как работает BLIP3o-NEXT

BLIP3o-NEXT использует гибридную архитектуру, которая сочетает в себе авторегрессионную модель (архитектура, используемая в классических языковых моделях) и модель диффузии (архитектура, используемая в большинстве моделей генерации изображений). Этот двухступенчатый подход использует уникальные преимущества каждого компонента. Авторегрессионная модель выступает в роли мозга, интерпретируя запрос пользователя и определяя общую структуру и содержание изображения. Затем модель диффузии действует как художник, создавая детализированные и фотореалистичные детали.

Процесс обучения и детали модели

Основные возможности модели были разработаны путем обучения авторегрессионного компонента на трех главных задачах:

генерация изображений из текста,
восстановление изображений,
редактирование изображений.

После этого первичного обучения исследователи использовали обучение с подкреплением (RL) для дальнейшей настройки производительности модели по специфическим навыкам, таким как улучшение качества текста, отображаемого в изображениях.

Редактирование изображений и его вызовы

При редактировании изображений поддержание согласованности с эталонным изображением является существенной задачей, так как высокоуровневые семантические представления могут упускать мелкие пиксельные детали. Исследователи отметили, что это ключевая область, где открытые модели сталкиваются с фундаментальным ограничением.

Для решения этой задачи в этих условиях команда внедрила низкоуровневые VAE-латенты как дополнительный сигнал для модели диффузии. VAE (векторный автокодировщик) может сжать изображение в компактное представление (его латентное состояние), которое сохраняет детальную визуальную информацию.

Перспективы улучшения и будущее

Несмотря на впечатляющие результаты, исследователи отмечают, что по-прежнему есть возможности для улучшения. В их статье указывается, что «направления, представленные здесь, указывают на многообещающие пути для следующего поколения фундаментальных моделей, где объединенные архитектуры, обучение с подкреплением и масштабируемая послетренировочная настройка совместно способствуют прогрессу в создании контролируемых, согласованных по инструкциям и высококачественных систем генерации изображений».

Прокомментировать в Телеграм: https://t.me/n8nhow

Подписаться на канал обучения n8n: https://t.me/n8ncoaching

Внутренняя гибридная архитектура нового модели генерации изображений от Salesforce

Как работает BLIP3o-NEXT

Процесс обучения и детали модели

Редактирование изображений и его вызовы

Перспективы улучшения и будущее

Больше записей

Google сокращает затраты на искусственный интеллект с помощью запуска новой модели

Бывшие исследователи Google и Apple запустили Trajectory для улучшения обратной связи AI

Основные модели ИИ постоянно нарушают регламенты ЕС, показывает исследование — TechRepublic

Компании сокращают рабочие места из-за ИИ — но не миллиарды, выплачиваемые инвесторам — 24/7 Wall St.