интервью
ИИ

«Недосягаемые инструменты становятся доступными»: Александр Василенко — о роли ИИ в развитии индустрии

За последние несколько лет роль нейросетей в музыкальной индустрии значительно изменилась. Если ещё недавно они использовались в основном для создания функциональной музыки — например, звуковых сред для сна, концентрации или медитации, — то сегодня алгоритмы всё активнее помогают артистам на самых разных этапах музыкального продакшена. ИИ-сервисы могут как полностью сгенерировать трек по запросу, так и точечно помочь автору: развить идею, работать с мастерингом трека, генерировать демки и не только.

Как в этих условиях меняется роль автора? Что изменилось в технологиях за 10 лет? Что важнее — идея или способ её реализации? Об этом мы поговорили с Александром Василенко — мультидисциплинарным художником и композитором, а также бывшим руководителем звукового департамента в компании Endel. В разное время Александр работал с такими артистами как Grimes, Sia и Джеймс Блейк, лейблами Universal Music Group, Warner Music Group и Sony Music, а также сотрудничал с научными лабораториями Fraunhofer, Arctop, Sleepscore Lab в рамках исследований влияния звука на человеческий мозг.

Прежде чем говорить об искусственном интеллекте в музыке, хотелось бы определиться с понятиями — существует как стопроцентно нейросетевая музыка, так и генеративная. В чём их принципиальное различие?

Есть чёткое разделение. Когда я работал в Endel, мы создавали именно генеративный функциональный звук. Функциональная музыка должна быть очень спокойной и предсказуемой, ведь она сделана с определённой целью — помочь расслабиться и сфокусироваться. В её создании сначала принимают участие люди, а уже потом с помощью алгоритмов генерируется бесконечная последовательность, выстраивается целая режиссура в рамках дневного цикла и так далее.

А нейросетевые генеративные алгоритмы (например, Suno) целиком создают трек по определённому запросу, и всё зависит в первую очередь от него.
Сервис и приложение, которое с помощью алгоритмов и искусственного интеллекта генерирует персонализированные звуковые ландшафты для концентрации, расслабления и сна

Какой путь прошли ИИ-технологии в музыке? С чего всё началось и что происходит сейчас?

Глобально одним из первых сервисов, запущенных в рамках генерации именно звуковых композиций, был Jukebox от OpenAI, но он настолько плохо работал, что про него почти сразу все забыли. И это было, кстати, буквально 5−6 лет назад. А в 2023-м на рынке появилась модель MusicLM, которая по сути перевернула всю нейросетевую музыкальную индустрию — на базе этой технологии возникли всем известные стартапы Suno, Udio и прочие более мелкие сервисы, которые у нас сейчас плотно ассоциируются с генерацией.

Помимо этого, вокруг всей этой истории развивались и нейросетевые инструменты — разнообразные плагины для помощи в создании музыкального контента. И с этого момента ИИ стал потихоньку отвоёвывать себе место на рынке — не только среди профессионалов музыкальной индустрии, занимающихся генерацией музыки, но и среди широкой аудитории, и превратился в своеобразный культурный феномен.

Мне кажется, что-то, что сейчас происходит с ИИ, — это всё большая попытка осмыслить его резкое развитие и востребованность. Крупные мейджор-компании пытаются если не бороться с этой технологией, то каким-то образом лицензировать, ограничить её. Udio и Suno, например, уже договорились с Warner Music об обучении моделей только на лицензированных композициях.

Получается, что за последние лет 10 максимум мы прошли путь от буквально пустого поля, где были только какие-то визуальные нейросети, которые только-только осваивались в продуктовом смысле (про музыку тогда даже никто и не думал), — до полноценных музыкальных сервисов, которые настолько здорово генерируют музыку, что её уже очень сложно отличить на слух от настоящей.

Я недавно читал статью, в которой говорилось, что проводились исследования, показавшие: обычный меломан уже далеко не всегда может распознать, какая музыка написана «руками», а какая — нейросетью.

Как изменилось восприятие нейросетевой музыки слушателями? Не возникает ли у них ощущения так называемой «зловещей долины» от прослушивания ИИ-треков?

Могу привести личный пример. У меня есть бабушка — директор школы искусств, которая прекрасно разбирается в музыке, особенно любит песни советской эпохи, поэтов-песенников, которые занимали в ней главное место. И вот недавно она скинула мне ролик, полностью сгенерированный нейросетями, и пишет мне: «Саш, я не пойму — видео какое-то странное, а вот музыка понятная». Я ей отвечаю: «Бабушка, это всё нейросети». И в тот же момент сгенерировал штук 10 песен — взял стихи Есенина, написал небольшой промпт, показал ей. Она сказала, что музыка более-менее посредственная, а вот голос красивый и тексты нормальные. Но в целом для неё не было большой разницы, сделал ли это человек или искусственный интеллект.
Понятно, что в силу профессии я в этом разбираюсь и могу распознать какие-то артефакты или особенности, но для неё, даже для человека с более-менее музыкальным бэкграундом, особой разницы уже нет. И мне кажется, что большинство людей в этом плане похожи. Другой вопрос — к чему это может привести. Вы правильно заметили, что есть эффект «зловещей долины», а ещё есть такое понятие, как «нейроканнибализм» — его феномен заключается в том, что если обучать нейросеть на её же генерациях, то со временем продукт, который она будет выдавать, будет всё хуже и хуже.

И я думаю, что такая тенденция уже есть, когда нейросетевой контент захватывает пространство. Это ни хорошо и ни плохо, но есть шанс, что мы можем уйти немного не туда. В том плане, что, возможно, вся эта история с нейросетями исчерпается, так как они, по сути, не придумывают ничего нового. Это всего лишь алгоритм, который все пусть и называют «искусственным интеллектом», но по факту он не работает как ИИ в том «традиционном» понимании, как его себе представляли писатели-фантасты. Просто огромный алгоритм на миллиарды параметров, который подставляет их в зависимости от запроса и перебирает варианты в соответствии с тем, на чём его обучали. И в какой-то момент, мне кажется, перебор этих параметров может себя исчерпать.

Но главное, чтобы не исчерпались креаторы, иначе мы рискуем оказаться в таком лимбе, из которого найти выход будет довольно трудно.

Когда вы создаёте музыку с помощью ИИ, вы больше ощущаете себя соавтором или наблюдателем? Можно ли сравнить создание музыки без использования ИИ и работу над генерацией музыки?

Я ощущаю себя полноценным автором, если честно. У меня нет с этим проблем, но многие мои коллеги задаются подобными вопросами. И — да — некоторые и правда ощущают себя условным наблюдателем. А мне кажется, что это просто новая форма создания контента. Потому что на протяжении всей истории музыкальной индустрии любые новые технологии так или иначе меняли саму музыку.

Может быть, никто об этом не задумывается, но, допустим, даже фортепиано появилось не из ниоткуда — оно не создано Богом, оно создано человеком. И его возникновение было сильным прорывом для музыки в целом — до него были куда более простые и «прямолинейные» инструменты.

Я думаю, что технологический бэкграунд у ИИ-инструментов более глубокий, чем у фортепиано, но в целом нейросети тоже меняют лишь производство музыки, но не меняют суть автора. В нейросетях нет никакого сознания, как многие любят говорить, «божественной искры». Конечно, про меня тоже можно сказать, что я не создатель в привычном понимании слова — и скорее назвать меня «куратором». Процесс создания музыки здесь немножко меняется, и на первое место становится идея, нежели физические и механические скиллы автора. Так же, как, например, с электронной музыкой: когда мы пишем треки с помощью алгоритмов синтезатора или секвенсеров, мы же не передаём им авторство, даже если результат появился благодаря каким-то случайностям, вроде найденного на синтезаторе звука.

В конечном итоге без идеи не может родиться нормальная композиция. И так или иначе — что в рамках «механического» производства музыки, что в рамках производства через нейросети — это очень хорошо видно.

Сейчас на рынке огромное количество музыкального контента — порог вхождения, так скажем, усреднился, а за ним усреднился и общий уровень контента.

Получается, образовался такой вакуум идей — и если у тебя есть хорошая и классная идея, то это супер-возможность сделать что-то по-настоящему интересное. В том числе и с помощью нейросетевых продуктов.

Как вы относитесь к идее обучать модели на музыке конкретных артистов? Существуют ли в отношении ИИ этические нормы или их ещё предстоит выработать? 

Я думаю, что когда нейросети генерируют контент, обученный на работах конкретных авторов, — это в целом пиратство. Одно дело — обучать ИИ на публичном достоянии, то есть когда авторство уже перешло «народу» — на классической музыке, которая уже была давно написана. И совсем другое — когда для этих целей используется современная музыка, на которую закреплены авторские права. Я тут полностью на стороне авторов и креаторов.

Я уверен, что нам предстоит пройти довольно большой путь, чтобы отрегулировать этот рынок и сделать так, чтобы все его участники были довольны. На мой взгляд, это должно решаться каким-то профсоюзом — должен быть выработан механизм защиты авторов. Потому что понятно, что прогресс не отменить — это как, не знаю, сжечь колёса или печатные станки: в своё время многие бастовали после их появления, потому что это лишало людей профессии и работы. В общем — да, сложная история.

Чем генеративные и нейросетевые генеративные алгоритмы могут помочь музыканту?

В первую очередь тем, что могут предоставить бескрайнее поле для развития идей. Мой коллега — довольно талантливый и известный композитор (не буду называть имён) — недавно начал активно пользоваться нейросетью Udio, чтобы развивать свои идеи. Мы все знаем, что такое «кризис идей», «страх белого листа» и так далее — когда садишься за рабочий стол и не знаешь, с чего начать. И вот такие штуки очень здорово преодолеваются с помощью как генеративных, так и нейросетевых генеративных моделей. У них не бывает ни «творческого кризиса», ни чего-то ещё, что стопорит работу человека.

Генеративные алгоритмы, например, могут здорово разложить вариативные последовательности, подсказать, в какую сторону можно двигаться. А если говорить о нейросетевых генеративных алгоритмах, то они вообще способны предложить конкретное развитие трека, если загрузить в них какой-то музыкальный отрывок. По крайней мере, в Udio это было возможно, пока они не подписали партнёрство с Universal. То есть модель предлагала вполне конкретное продолжение трека — с развитием, пассажами и так далее — исходя из вашего запроса и заложенного в нейросеть датасета. То же самое делает и Suno — просто чуть менее интересно, на мой взгляд. По моему мнению, это пример этичного использования нейросетей в музыке. С одной стороны, ты вкладываешь свой контент и остаёшься полноценным креатором. С другой — пользуешься нейросетью как современным инструментом и получаешь какой-то дополнительный буст своему творчеству.

Правильно ли будет сказать, что нейросети несколько переформатируют роль музыканта — от композитора до «куратора» или даже «инженера»? Может ли ИИ в музыке стать настоящим прорывом, который проложит новый путь для следующего поколения музыкантов?

100% да. Как я уже отмечал ранее, процесс создания музыки перетекает в плоскость менеджмента и курирования нейросетей.

Если мы с вами говорим об условном коммерческом продакшене, то с появлением ИИ возникло гораздо больше возможностей сделать его самостоятельно — и быстрее, и дешевле.

Снова откатимся на 10 лет назад и вспомним, что для того, чтобы написать какую-нибудь увертюру, музыку для фильма, для определённой сцены, приходилось открывать свою цифровую студию, лазить по библиотекам, прописывать руками скрипочки, духовые и прочие детали. Конечно, так можно делать и сейчас, но если тогда это был единственный вариант, то теперь можно просто сгенерировать эту музыку по определённым запросам.

То же самое касается и записи. Допустим, мне нужен оркестр для саундтрека — и раньше мне нужно было писать партитуры, бронировать студию, искать музыкантов. Теперь же я могу «записать» оркестр исключительно с помощью ИИ. Другое дело, что есть некий потолок качества, и сегодняшние технологии не позволяют добиться уровня звучания аналоговых инструментов. Но если использовать нейросети для создания демок, драфтов на стадии тендеров — это очень удобно, и ты можешь быстрее претворить в жизнь свои идеи.

А что касается этого «потолка»: насколько он может стать «выше» в будущем? Повлияет ли этот рост в целом на музыкальную индустрию, на её акторов: тех самых участников оркестра, звукорежиссёров, продюсеров и так далее?

Я думаю, что повлияет точно. Раньше в треках, созданных с помощью Suno или Udio, расслышать нейросетевую музыку было несложно — её выдавали и неправильные ударения, и скупость, и однообразие тембров. Теперь же эти композиции вышли на совершенно новый уровень. Как я уже говорил, мы идём к тому, что созданная с помощью нейросетей музыка будет для обывателя практически неотличима от «аналоговой». Я уверен, что это дело времени.

Эта уверенность, кстати, натолкнула меня и моих коллег заняться запуском стартапа, который позволит детектировать нейросетевые треки. Мы сотрудничаем, в том числе, с коллегами — лейблом «Дружба Музыка», обкатываем технологию, которая позволит понять, сколько процентов трека было создано нейросетью, какой нейросетью и не только. Мне кажется, это очень важный и нужный инструмент.
Подробнее о работе лейбла «Дружба Музыка» с ИИ — в интервью с руководителями лейбла Денисом Дубовиком и Иваном Калашниковым
Необязательно что-то запрещать — всё равно всё не запретишь, и прогресс невозможно тормозить искусственно, это никогда не приводило ни к чему хорошему. Но считаю, что нужно знать, насколько в создании трека принимали участие нейросети.

Вы немного опередили мой следующий вопрос. Возвращаясь снова к этике: насколько вообще нужно контролировать использование ИИ? Повлияет ли знание об участии нейросетей в создании трека на восприятие музыки слушателями?

Могу ответить и с личной, и с профессиональной точки зрения. Что касается личной — то мне, например, по большому счёту не важно, что я слушаю. Периодически я ради интереса что-то генерирую в Suno, и этот результат сохраняется, то есть я всегда могу к нему вернуться. Таким образом я иногда чуть-чуть меняю парадигму для себя как для слушателя.

А представителям, так скажем, меломанского сообщества, думаю, важно понимать, кто и как создавал трек. Тот же комитет премии Grammy, например, объявил цифру — 20% обязательного участия человека в треке. И это здорово, что они в целом не запретили ИИ-историю. Но опасения слушателей о том, что всю музыку могут вытеснить 100%-нейросетевые композиции, тоже понятны, поэтому, чтобы их сгладить, в индустрии ещё предстоит ввести нормы для этой сферы.

С чего бы вы посоветовали начать знакомство с нейросетями начинающему музыканту?

Однозначно — с утилитарных плагинов, в первую очередь для мастеринга. Как говорится, мастеринг есть смысл делать либо дорогой, либо не делать вообще, и нейросети с такими утилитарными вещами отлично справляются. Сейчас есть ИИ-инструменты для мастеринга — тот же Ozone, например. Кстати, разработчики часто проводят акции и раздают бесплатно свои флагманские продукты — пусть и с чуть-чуть урезанным функционалом.

Кроме того, артистам важно изучить сервисы, предлагающие ИИ-помощников для микширования, компрессирования звука. Все сейчас стараются использовать для этих целей ИИ, потому что это действительно удобный способ оптимизации.

Плюс интересны и полезны такие сервисы, как Sooner — с его помощью можно запустить свою студию и выгрузить проект по дорожкам. Нейросети могут «разделить» трек, и автор может взять какой-нибудь риф или басовую партию, а затем интегрировать их в Ableton. Кстати, в его новой версии разработчики сделали нейросетевой инструмент разделения на стемы — с его помощью можно, например, взять любимые треки, досконально изучить, из чего они были созданы, и вдохновиться этим знанием в своей работе.

Все те инструменты, которые раньше были недосягаемы, сейчас становятся доступны именно с помощью нейросетей. Я думаю, это очень здорово может помочь ребятам, которые только начинают свой путь в музыкальном продакшене.