Исследователи из TikTok представили ИИ для генерации изображений BitDance — он быстрее и качественнее Z-Image

17 февраля 2026 года исследовательская группа, в которую вошли представители компании ByteDance (разработчика TikTok) и Китайского университета Гонконга, представила модель искусственного интеллекта для генерации изображений — BitDance.

Особенности модели BitDance

В отличие от большинства современных ИИ для генерации изображений, которые используют диффузионные модели, BitDance базируется на авторегрессионной модели (AR-модели). Разработчики утверждают, что такой подход позволяет добиться:

  • более высокой скорости генерации изображений;
  • улучшенного качества итоговой картинки.

Модель BitDance содержит 14 миллиардов параметров. Её создали, чтобы преодолеть главный недостаток авторегрессионных моделей — медленную обработку запросов.

Сравнение с конкурентами

Для оценки эффективности BitDance были проведены тесты, результаты которых отображены на графике. На горизонтальной оси показана скорость генерации изображений, а на вертикальной — оценка по бенчмарку. Результаты демонстрируют, что:

  • BitDance работает в 4,3 раза быстрее, чем GLM-Image (ещё одна авторегрессионная модель), при этом обеспечивая более высокое качество;
  • скорость обработки запросов у BitDance превышает показатели диффузионных моделей Qwen-Image и Z-Image.

Примеры работы модели

На специальной галерее представлены изображения, сгенерированные BitDance, вместе с текстовыми запросами (промптами), на основе которых они были созданы. Примеры демонстрируют способность модели генерировать:

  • высококачественные и реалистичные изображения по текстовым описаниям на естественном языке;
  • картинки в стиле аниме.

Среди примеров — изображение популярного персонажа Дораэмона.

Демонстрационное приложение

Для ознакомления с возможностями BitDance было выпущено демонстрационное приложение. Чтобы попробовать его в действии, достаточно ввести текстовый запрос и нажать кнопку «Сгенерировать».

Например, для создания «реалистичного изображения горничной, показывающей знак мира в кафе», использовался следующий промпт:

«Высокодетализированный фотореалистичный портрет молодой девушки восточноазиатского происхождения в помещении, с гладкой кожей и естественным мягким сиянием, большими круглыми тёмно‑карими глазами с чёткими отражениями, лёгкой мягкостью под глазами, маленьким изящным носом, светло‑розовыми невинными слегка глянцевыми губами и нежным выражением лица. На щеке есть маленькая родинка для реалистичности. Тёмно‑каштановые блестящие волосы заплетены в две длинные толстые косы, спадающие на плечи, с немного распущенными прядями. Прямые чёлки мягко закрывают лоб, несколько естественных выбившихся прядей. Девушка одета в костюм горничной. Её поза игривая и непринуждённая: голова слегка наклонена к камере, она наклоняется вперёд, обе руки подняты возле кадра, показывая знак мира. Фон — уютное современное кафе с деревянным столом и стулом, мягко размыт. Мягкое тёплое освещение в помещении равномерно освещает лицо, без резких теней, подчёркивая текстуру кожи и блеск волос. Снято на профессиональную DSLR или беззеркальную камеру, объектив 50 мм, f/1.8, кинематографическое боке, резкий фокус на лице, естественная цветопередача, высокий динамический диапазон, реалистичные пропорции, эстетика японской/корейской портретной фотографии, уютная зимняя атмосфера, ощущение случайного снимка, чрезвычайно детализированное, качество 8K».

В результате за около 30 секунд было сгенерировано изображение размером 1024 × 1024 пикселя.

Ограничения модели

Несмотря на впечатляющие результаты, BitDance имеет некоторые ограничения:

  • модель не поддерживает японский язык — при вводе запросов на японском генерируются нерелевантные изображения;
  • BitDance специализируется на английском и китайском языках.

Доступность модели и кода

Данные модели BitDance доступны по ссылке:

BitDance — a shallowdream204 Collection.

Связанный код опубликован на GitHub:

GitHub — shallowdream204/BitDance: BitDance: Open-source autoregressive model with binary visual tokens. A research project for building powerful multimodal autoregressive model.




Прокомментировать в Телеграм: https://t.me/n8nhow

Подписаться на канал обучения n8n: https://t.me/n8ncoaching