Сейчас ваша корзина пуста!
Как модели ИИ генерируют видео?

С мощными инструментами для генерации видео, доступными сейчас большему количеству пользователей, давайте рассмотрим, как они работают.
Как генерируется видео?
Предположим, что вы обычный пользователь. В настоящее время существует множество высококачественных инструментов, которые позволяют профессиональным видеомейкерам внедрять модели генерации видео в их рабочие процессы. Но большинство людей будет использовать эту технологию в приложении или через веб-сайт. Вы знаете, как это работает: «Эй, Gemini, сделай мне видео единорога, который ест спагетти. Теперь сделай так, чтобы его рог улетел как ракета». То, что вы получите взамен, будет удачным или неудачным, и вам обычно придется попросить модель сделать еще несколько попыток, прежде чем вы получите более-менее то, что хотели.
Основы генерации видео
Итак, что происходит под капотом? Почему результат может быть разным и почему это требует так много энергии? Последняя волна моделей генерации видео известна как латентные диффузионные трансформеры. Да, это довольно сложно. Давайте разберем каждый из элементов по очереди, начиная с диффузии.
Что такое диффузионная модель?
Представьте, что вы берете изображение и добавляете к нему случайные пиксели. Если повторить это несколько раз, вы превратите начальное изображение в случайную массу пикселей, похожую на статическое изображение на старом телевизоре.
Диффузионная модель — это нейронная сеть, обученная обратить этот процесс, превращая случайный шум в изображения. В процессе обучения ей показывают миллионы изображений на различных стадиях пикселизации. Она учится, как эти изображения меняются каждый раз, когда к ним добавляются новые пиксели, и, следовательно, как отменить эти изменения.
Латентные диффузионные модели
Все это требует огромных вычислительных ресурсов (читай: энергии). Поэтому большинство диффузионных моделей, используемых для генерации видео, применяют метод латентной диффузии. Вместо обработки сырых данных — миллионов пикселей в каждом кадровом изображении — модель работает в известном как латентное пространство, в котором видеокадры (и текстовый запрос) сжаты в математический код, который захватывает только основные характеристики данных и отбрасывает остальное.
Что такое латентная диффузионная модель?
При помощи латентной диффузии процесс диффузии работает почти так же, как и для изображения, но отличие заключается в том, что пикселированные кадры теперь представляют собой математические коды этих кадров, а не сами кадры. Это делает латентную диффузию намного более эффективной, чем типичная диффузионная модель. (Тем не менее, генерация видео все еще требует больше энергии, чем генерация изображений или текста. Здесь действительно требуется огромное количество вычислений.)
Трансформеры и видеогенерация
Еще одним элементом является то, как гарантировать, что процесс диффузии производит последовательность кадров, которые сохраняют объекты и освещение из кадра в кадр. OpenAI сделала это с помощью Sora, сочетая свою диффузионную модель с другим типом модели, называемой трансформером. Трансформеры прекрасно обрабатывают длинные последовательности данных и помогают модели диффузии поддерживать последовательность кадров в процессе их генерации.
А как насчет звука?
Одно из больших достижений в Veo 3 заключается в том, что он генерирует видео с аудио – от синхронизированного диалога до звуковых эффектов и фонового шума. Это стало прорывом для моделей генерации видео. Важным было найти способ синхронизировать видео и аудио данные так, чтобы процесс диффузии работал одновременно для обоих.
Заключение
В итоге, хотя генерация видео требует огромных ресурсов, диффузионные модели на самом деле более эффективны, чем трансформеры. Время покажет, как они будут развиваться в будущем, и мы можем ожидать увидеть новые разработки в этой области!
Прокомментировать в Телеграм: https://t.me/n8nhow
Подписаться на канал обучения n8n: https://t.me/n8ncoaching
