опыт
ИИ

«ИИ — не замена съёмкам, а другой художественный язык»

Как сделать клип с помощью нейросетей — советы Арсения Кузнецова
Сегодня искусственный интеллект помогает музыкантам создавать клипы, не выходя из дома и не имея больших бюджетов. Но с чего артисту начать свой путь в создании ИИ-видео и как разобраться во всех нюансах? Об этом мы поговорили с Арсением Кузнецовым, лауреатом фестиваля Berlin Music Video Awards, призёром фестиваля Big Picture Fest и автором короткометражных фильмов и клипов для Стереополины.

Как ИИ может помочь артисту при работе над клипом?

— В ИИ можно собрать клип целиком: начиная с генерации статичных изображений и заканчивая их анимацией с последующим монтажом получившихся отрывков в полноценное видео. По сути, это новый вид производства, в котором можно обойтись без классических съёмок. Теперь мы не едем на локацию и не собираем большую команду, а просто воплощаем каждый кадр, сидя дома перед экраном компьютера. Креативную часть я бы не доверял нейросетям, всё-таки есть особое удовольствие в живых идеях, приходящих изнутри. ИИ пока что пишет очень банальные и шаблонные заходы.

— В каких случаях артисту стоит выбрать ИИ вместо традиционных живых съёмок?

— Наверное, основная причина — бюджетные ограничения. Лично я, как режиссёр, всегда за реальные съёмки. Но если ресурсы ограничены, можно прибегнуть к генерации. Тут важно понимать одну вещь: это иной художественный язык. Он синтетический, нереальный. С одной стороны, в этом его недостаток, но одновременно — сила и новизна. Он не заменяет живые съёмки, но в ряде задач может стать рабочей альтернативой.

— Какие преимущества даёт использование ИИ в клипах?

— Ваш полёт фантазии почти ничем не ограничен. Можно сгенерировать всё целиком, можно комбинировать живые съёмки и сгенерированные сцены, опять же, в целях экономии бюджета. Допустим, раньше сложные художественные сцены создавались бы командой с помощью компьютерной графики или физически в мастерских художников. Теперь есть альтернатива — точечно заменить их сгенерированными кадрами. В этом есть серьёзный минус — точность. При генерации вы не можете дотошно контролировать каждый аспект, как в случае, если бы это делал человек. Но если постараться, никто может этого и не заметить.

— Какие нейросети наиболее эффективны для создания клипов?

— Я предпочитаю работать на площадке Higgsfield — это агрегатор, где собрано множество различных инструментов. Конкретнее сказать сложно: каждый выбирает то, что ему по душе. Стоит попробовать разные нейросети и посмотреть самостоятельно. Они работают по-разному и выдают разный результат. Это хорошее поле для экспериментов. Как алхимический стол, на котором у вас вместо реагентов — фантазийные сущности, смыслы и идеи.

— Чем отличаются разные ИИ-инструменты и для каких целей их лучше использовать?

— Одни инструменты лучше подходят для создания быстрых концептов и поиска визуального стиля. Другие — сильнее в анимации. Третьи полезны там, где нужен более точный контроль над исходным кадром. Например, Midjourney я бы использовал именно для поиска образа, стилистики и первых визуальных решений. Он хорошо помогает быстро создать нужное настроение и понять, в какую сторону двигаться. Nano Banana идеально подходит для точечной редактуры и экспериментов с углами обзора.

Если речь про анимацию готового изображения, то тут нужны другие инструменты. Для этого подходят Kling (лично мой выбор на данный момент), Seedance или Runway. У каждого свой характер. Где-то лучше движение, где-то лучше считывается исходный кадр, где-то удобнее собирать быстрые тесты.

Важно не просто сгенерировать что-то красивое, а удержать конкретный образ, персонажа и композицию. Я рекомендую смотреть в сторону инструментов, которые работают с исходным изображением. Мне такой подход ближе, он даёт больше контроля. Поэтому на практике обычно используется не одна нейросеть, а несколько — под разные этапы работы.

— Какие ИИ-инструменты лучше использовать новичкам, у которых нет опыта работы с нейросетями, но которые хотят получить качественный результат?

— Я бы не стал делить людей таким образом. Скорее вопрос в ваших компетенциях как режиссёров, сценаристов и арт-директоров. ИИ — это просто очередной инструмент для реализации видения, не волшебная кнопка «сделать красиво». Я бы рекомендовал посмотреть десяток-другой видеоуроков в интернете, попутно закрепляя материал экспериментами, чтобы нащупать пульс этого процесса. Или же можно воспользоваться личными консультациями и обучаться напрямую у специалиста в формате мастерской. Это эффективнее курсов. Как я уже говорил выше, лучше всего посмотреть обзоры и выбрать в процессе личного опыта то, что ближе, благо агрегаторы предоставляют доступ к широкому пулу ИИ-инструментов.

— Достаточно ли использовать одну нейросеть?

Иногда да. Например, клип «Пьеро» для Стереополины я сделал, используя только Midjourney, но это было прошлым летом, сейчас инструментов стало гораздо больше и делать визуал можно быстрее и эффективнее. Обычно я ограничиваюсь 4−5 разными ИИ. Это может быть ChatGPT для интерпретации задач в промпты; Midjourney — для создания стилистического визуала; для анимации я люблю использовать Kling, но сейчас ещё Seedance показывает хорошие результаты. В общем, те инструменты, которые позволяют работать с исходным изображением. ИИ, генерирующие визуал из текста, меня не устраивают, так как оставляют слишком большой простор для рандома, а я люблю конкретику в работе. 
— 100% да. Как я уже отмечал ранее, процесс создания музыки перетекает в плоскость менеджмента и курирования нейросетей.

Если мы с вами говорим об условном коммерческом продакшене, то с появлением ИИ возникло гораздо больше возможностей сделать его самостоятельно — и быстрее, и дешевле.

Снова откатимся на 10 лет назад и вспомним, что для того, чтобы написать какую-нибудь увертюру, музыку для фильма, для определённой сцены, приходилось открывать свою цифровую студию, лазить по библиотекам, прописывать руками скрипочки, духовые и прочие детали. Конечно, так можно делать и сейчас, но если тогда это был единственный вариант, то теперь можно просто сгенерировать эту музыку по определённым запросам.

То же самое касается и записи. Допустим, мне нужен оркестр для саундтрека — и раньше мне нужно было писать партитуры, бронировать студию, искать музыкантов. Теперь же я могу «записать» оркестр исключительно с помощью ИИ. Другое дело, что есть некий потолок качества, и сегодняшние технологии не позволяют добиться уровня звучания аналоговых инструментов. Но если использовать нейросети для создания демок, драфтов на стадии тендеров — это очень удобно, и ты можешь быстрее претворить в жизнь свои идеи.

— А что касается этого «потолка»: насколько он может стать «выше» в будущем? Повлияет ли этот рост в целом на музыкальную индустрию, на её акторов: тех самых участников оркестра, звукорежиссёров, продюсеров и так далее?

— Я думаю, что повлияет точно. Раньше в треках, созданных с помощью Suno или Udio, расслышать нейросетевую музыку было несложно — её выдавали и неправильные ударения, и скупость, и однообразие тембров. Теперь же эти композиции вышли на совершенно новый уровень. Как я уже говорил, мы идём к тому, что созданная с помощью нейросетей музыка будет для обывателя практически неотличима от «аналоговой». Я уверен, что это дело времени.

Эта уверенность, кстати, натолкнула меня и моих коллег заняться запуском стартапа, который позволит детектировать нейросетевые треки. Мы сотрудничаем, в том числе, с коллегами — лейблом «Дружба Музыка», обкатываем технологию, которая позволит понять, сколько процентов трека было создано нейросетью, какой нейросетью и не только. Мне кажется, это очень важный и нужный инструмент.
Подробнее о работе лейбла «Дружба Музыка» с ИИ — в интервью с руководителями лейбла Денисом Дубовиком и Иваном Калашниковым
Необязательно что-то запрещать — всё равно всё не запретишь, и прогресс невозможно тормозить искусственно, это никогда не приводило ни к чему хорошему. Но считаю, что нужно знать, насколько в создании трека принимали участие нейросети.

— Вы немного опередили мой следующий вопрос. Возвращаясь снова к этике: насколько вообще нужно контролировать использование ИИ? Повлияет ли знание об участии нейросетей в создании трека на восприятие музыки слушателями?

— Могу ответить и с личной, и с профессиональной точки зрения. Что касается личной — то мне, например, по большому счёту не важно, что я слушаю. Периодически я ради интереса что-то генерирую в Suno, и этот результат сохраняется, то есть я всегда могу к нему вернуться. Таким образом я иногда чуть-чуть меняю парадигму для себя как для слушателя.

А представителям, так скажем, меломанского сообщества, думаю, важно понимать, кто и как создавал трек. Тот же комитет премии Grammy, например, объявил цифру — 20% обязательного участия человека в треке. И это здорово, что они в целом не запретили ИИ-историю. Но опасения слушателей о том, что всю музыку могут вытеснить 100%-нейросетевые композиции, тоже понятны, поэтому, чтобы их сгладить, в индустрии ещё предстоит ввести нормы для этой сферы.

— С чего бы вы посоветовали начать знакомство с нейросетями начинающему музыканту?

Однозначно — с утилитарных плагинов, в первую очередь для мастеринга. Как говорится, мастеринг есть смысл делать либо дорогой, либо не делать вообще, и нейросети с такими утилитарными вещами отлично справляются. Сейчас есть ИИ-инструменты для мастеринга — тот же Ozone, например. Кстати, разработчики часто проводят акции и раздают бесплатно свои флагманские продукты — пусть и с чуть-чуть урезанным функционалом.

Кроме того, артистам важно изучить сервисы, предлагающие ИИ-помощников для микширования, компрессирования звука. Все сейчас стараются использовать для этих целей ИИ, потому что это действительно удобный способ оптимизации.

Плюс интересны и полезны такие сервисы, как Sooner — с его помощью можно запустить свою студию и выгрузить проект по дорожкам. Нейросети могут «разделить» трек, и автор может взять какой-нибудь риф или басовую партию, а затем интегрировать их в Ableton. Кстати, в его новой версии разработчики сделали нейросетевой инструмент разделения на стемы — с его помощью можно, например, взять любимые треки, досконально изучить, из чего они были созданы, и вдохновиться этим знанием в своей работе.

Все те инструменты, которые раньше были недосягаемы, сейчас становятся доступны именно с помощью нейросетей. Я думаю, это очень здорово может помочь ребятам, которые только начинают свой путь в музыкальном продакшене.
Другим громким ИИ-кейсом стала Xania Monet — проект сонграйтера Телиши «Никки» Джонс. Телиша сама пишет тексты песен, а для работы над треками прибегает как к помощи Suno, так и к помощи команды реальных людей. В сентябре прошлого года Xania Monet стала первым ИИ-проектом в чартах Billboard: артистка дебютировала в Hot Gospel Songs с композицией «Let Go, Let Go», а также в Hot R&B Songs с треком «How Was I Supposed to Know?». По данным Billboard, помимо Xania Monet за лето и осень в чарты залетело ещё как минимум шесть артистов, либо полностью созданных с помощью ИИ, либо частично использующих нейросети.