«ИИ — не замена съёмкам, а другой художественный язык»

Как сделать клип с помощью нейросетей — советы Арсения Кузнецова

Сегодня искусственный интеллект помогает музыкантам создавать клипы, не выходя из дома и не имея больших бюджетов. Но с чего артисту начать свой путь в создании ИИ-видео и как разобраться во всех нюансах? Об этом мы поговорили с Арсением Кузнецовым, лауреатом фестиваля Berlin Music Video Awards, призёром фестивалей Big Picture Fest и Silver Mercury Регионы, а также автором короткометражных фильмов и клипов для Стереополины.

Арсений Кузнецов

Лауреат фестиваля Berlin Music Video Awards, призёр фестивалей Big Picture Fest и Silver Mercury Регионы, автор короткометражных фильмов, клипов для Стереополины

— Как ИИ может помочь артисту при работе над клипом?

— В ИИ можно собрать клип целиком: начиная с генерации статичных изображений и заканчивая их анимацией с последующим монтажом получившихся отрывков в полноценное видео. По сути, это новый вид производства, в котором можно обойтись без классических съёмок. Теперь мы не едем на локацию и не собираем большую команду, а просто воплощаем каждый кадр, сидя дома перед экраном компьютера. Креативную часть я бы не доверял нейросетям, всё-таки есть особое удовольствие в живых идеях, приходящих изнутри. ИИ пока что пишет очень банальные и шаблонные заходы.

— В каких случаях артисту стоит выбрать ИИ вместо традиционных живых съёмок?

— Наверное, основная причина — бюджетные ограничения. Лично я, как режиссёр, всегда за реальные съёмки. Но если ресурсы ограничены, можно прибегнуть к генерации. Тут важно понимать одну вещь: это иной художественный язык. Он синтетический, нереальный. С одной стороны, в этом его недостаток, но одновременно — сила и новизна. Он не заменяет живые съёмки, но в ряде задач может стать рабочей альтернативой.

— Какие преимущества даёт использование ИИ в клипах?

— Ваш полёт фантазии почти ничем не ограничен. Можно сгенерировать всё целиком, можно комбинировать живые съёмки и сгенерированные сцены, опять же, в целях экономии бюджета. Допустим, раньше сложные художественные сцены создавались бы командой с помощью компьютерной графики или физически в мастерских художников. Теперь есть альтернатива — точечно заменить их сгенерированными кадрами. В этом есть серьёзный минус — точность. При генерации вы не можете дотошно контролировать каждый аспект, как в случае, если бы это делал человек. Но если постараться, никто может этого и не заметить.

— Какие нейросети наиболее эффективны для создания клипов?

— Я предпочитаю работать на площадке Higgsfield — это агрегатор, где собрано множество различных инструментов. Конкретнее сказать сложно: каждый выбирает то, что ему по душе. Стоит попробовать разные нейросети и посмотреть самостоятельно. Они работают по-разному и выдают разный результат. Это хорошее поле для экспериментов. Как алхимический стол, на котором у вас вместо реагентов — фантазийные сущности, смыслы и идеи.

— Чем отличаются разные ИИ-инструменты и для каких целей их лучше использовать?

— Одни инструменты лучше подходят для создания быстрых концептов и поиска визуального стиля. Другие — сильнее в анимации. Третьи полезны там, где нужен более точный контроль над исходным кадром. Например, Midjourney я бы использовал именно для поиска образа, стилистики и первых визуальных решений. Он хорошо помогает быстро создать нужное настроение и понять, в какую сторону двигаться. Nano Banana идеально подходит для точечной редактуры и экспериментов с углами обзора.

Если речь про анимацию готового изображения, то тут нужны другие инструменты. Для этого подходят Kling (лично мой выбор на данный момент), Seedance или Runway. У каждого свой характер. Где-то лучше движение, где-то лучше считывается исходный кадр, где-то удобнее собирать быстрые тесты.

Важно не просто сгенерировать что-то красивое, а удержать конкретный образ, персонажа и композицию. Я рекомендую смотреть в сторону инструментов, которые работают с исходным изображением. Мне такой подход ближе, он даёт больше контроля. Поэтому на практике обычно используется не одна нейросеть, а несколько — под разные этапы работы.

— Какие ИИ-инструменты лучше использовать новичкам, у которых нет опыта работы с нейросетями, но которые хотят получить качественный результат?

— Я бы не стал делить людей таким образом. Скорее вопрос в ваших компетенциях как режиссёров, сценаристов и арт-директоров. ИИ — это просто очередной инструмент для реализации видения, не волшебная кнопка «сделать красиво». Я бы рекомендовал посмотреть десяток-другой видеоуроков в интернете, попутно закрепляя материал экспериментами, чтобы нащупать пульс этого процесса. Или же можно воспользоваться личными консультациями и обучаться напрямую у специалиста в формате мастерской. Это эффективнее курсов. Как я уже говорил выше, лучше всего посмотреть обзоры и выбрать в процессе личного опыта то, что ближе, благо агрегаторы предоставляют доступ к широкому пулу ИИ-инструментов.

— Достаточно ли использовать одну нейросеть?

— Иногда да. Например, клип «Пьеро» для Стереополины я сделал, используя только Midjourney, но это было прошлым летом, сейчас инструментов стало гораздо больше и делать визуал можно быстрее и эффективнее. Обычно я ограничиваюсь 4−5 разными ИИ. Это может быть ChatGPT для интерпретации задач в промпты; Midjourney — для создания стилистического визуала; для анимации я люблю использовать Kling, но сейчас ещё Seedance показывает хорошие результаты. В общем, те инструменты, которые позволяют работать с исходным изображением. ИИ, генерирующие визуал из текста, меня не устраивают, так как оставляют слишком большой простор для рандома, а я люблю конкретику в работе.

Стереополина — «Пьеро»

— Как грамотно написать промпт для создания визуала? Есть ли какие-то универсальные схемы?

— В целом, сейчас модели научились понимать стандартные текстовые запросы, и «танцев с бубном» становится всё меньше. Но я всё же рекомендую писать их через языковые модели, такие как ChatGPT, Gemini или Claude. Главное здесь — перечитывать и дополнять получившийся текст, потому что там может содержаться много отсебятины от модели. А так ключевое правило — быть логичным, последовательным и подробным. Представьте, что вы разговариваете с очень конкретным серьёзным дядькой и даёте ему задание. Чем точнее и подробнее вы опишете, что вы хотите, тем лучше он справится.

— Какие главные сложности связаны с работой с ИИ при создании клипов? Как с ними бороться?

— На мой взгляд, главная сложность в том, что это ИИ. Как ни крути, но люди чувствуют искусственность на подсознательном уровне, и от этого не уйти. Поэтому основная сложность здесь — найти такой визуальный и образный киноязык, которым можно будет увлечь зрителя и сгладить чувство искусственности. Сделать акцент на интересной истории, постановке и образности. Всё это зависит от автора, а не от инструмента, который он использует.

— Сколько времени в среднем уходит на создание минуты экранного времени?

— Это зависит от количества кадров и от человека, который делает работу. Я могу часами делать лишь один кадр, доводя его до совершенства. Зачастую в этом и разница: многие люди берут в работу первые 2−3 генерации. Я же перебираю десятки вариантов в поиске того самого, и это требует времени. Так и со съёмками: я стараюсь делать столько дублей, сколько возможно, пока не получу то, что меня устроит. Дотошность в творчестве — это хорошо. Если говорить о конкретной цифре, я бы ориентировался на неделю плотной работы.

— Какой минимальный бюджет нужен для создания ИИ-клипа?

— Всё зависит от задачи, хронометража и уровня требований к результату. Бюджет здесь складывается из двух частей: гонорара автора и технических расходов на генерацию, подписки, токены и количество итераций. Потому что хороший ИИ-клип — это не быстро. Это долгий процесс с большим количеством проб и ошибок.

Если говорить очень примерно, я бы ориентировался на сумму от 100 тысяч рублей. Дешевле сделать можно, если задача компактная и без завышенных ожиданий. Но если нужен цельный, продуманный клип с сильным визуалом, то закладывать слишком маленький бюджет я бы не советовал. ИИ действительно может сэкономить часть продакшена, но он не отменяет время, талант и работу автора.