Полезное

Как работает генератор песен — и что нейросеть не сделает за тебя

8 мин чтения

Если ты вбил в поиск «генератор песен» или «нейросеть для песен», ты, скорее всего, в одной из двух точек. Либо тебе любопытно, как эти штуки внезапно научились выдавать музыку, которая звучит по-настоящему. Либо ты прикидываешь сгенерировать песню для чего-то важного — на годовщину, в память о человеке, в подарок тому, кого любишь, — и хочешь понять, можно ли ей доверять, прежде чем жать кнопку.

Здесь будет честная версия. Без хайпа («нейросеть пишет хиты!») и без снобского отмахивания («бездушный мусор»). Правда посередине, и она полезнее любой из крайностей. Генератор песен — действительно мощный инструмент: из пары строчек ввода он собирает законченную музыку. Но он понятия не имеет, какая у тебя история, что в ней важно и от чего у твоего человека встанет ком в горле. Понять, где заканчивается инструмент и начинаешься ты, — и есть разница между песней, которая звучит «ни про кого», и песней, которая звучит именно про неё.

Как генератор песен работает простыми словами

Генератор песен берёт короткое описание и превращает его в готовый трек — обычно сразу вокал, мелодию, инструменты и аранжировку, за минуту-две.

Внутри сидит модель, которую обучили на гигантских объёмах записанной музыки. Она выучила статистические закономерности: как куплет обычно перетекает в припев, чем «тёплая акустическая баллада» отличается от «бодрого попа», как голос ложится поверх аккордов. Ты даёшь ей вход — обычно это текст и описание стиля (жанр, настроение, темп, тип голоса), — а она генерирует звук, попадающий в эти закономерности.

Большинство нынешних сервисов делят работу на две части, и их полезно различать:

Слова. Либо ты пишешь текст сам, либо языковая модель набрасывает его по твоему описанию.
Музыка и голос. Отдельная аудиомодель исполняет этот текст — сочиняет мелодию, поёт и собирает аранжировку.

Это разделение важнее, чем кажется. С музыкой движок справляется поразительно: он почти наверняка выдаст тебе то, что звучит как настоящий, профессионально сведённый трек. Чего он сделать не может — это решить, о чём-то реальном твои слова или ни о чём. А вот это уже тянется прямо к вводу. К тебе.

Что нейросеть и правда умеет

Стоит трезво признать, насколько эти инструменты хороши, потому что скепсис обычно отстал на пару лет.

Сегодняшняя нейросеть для песен может:

Выдать звук студийного качества. Чистое сведение, естественный вокал, убедительные инструменты. Тот самый «слышно, что робот», который выдавал ранние сервисы, почти исчез.
Попасть в стиль по запросу. Попроси R&B в духе нулевых, колыбельную под гитару или стадионный рок-припев — модель уверенно возьмёт жанр, инструментал и настроение.
Держать структуру. Куплеты, припев, бридж, вступление и концовка — каркас песни идёт в комплекте.
Работать быстро и дёшево. То, на что раньше нужны были студия, вокалист и бюджет, теперь занимает минуты.

Если твоя цель — «мне нужен приятный, профессионально звучащий трек в конкретном жанре», технология уже здесь. Это больше не сложная часть.

Где она спотыкается: проблема безликого результата

Вот сбой, о котором не пишут в рекламе. Дай генератору тонкий, размытый ввод — и он вернёт тебе тонкую, размытую песню. Красиво сведённую и ни про кого.

Напиши «песня про мою жену, она потрясающая и я её люблю» — модели не за что зацепиться. И она затыкает дыру самым усреднённым текстом, какой может выдать: ты свет моей жизни, ты всегда рядом, навсегда вместе. Каждая строчка формально про любовь и одинаково подходит любой жене на свете. Сведение будет безупречным. Песня — проходной.

Это главное, что нужно понять про всю категорию: инструмент усиливает твой ввод, а не заменяет его. Генератор — это множитель, а не источник. Умножь насыщенный, конкретный, настоящий ввод — получишь то, что могло быть только про одного человека. Умножь пустой — получишь отполированный штамп. Аудиодвижок не отличает одно от другого: звучит одинаково хорошо в обоих случаях. Именно поэтому в ловушку так легко попасть.

Что можешь только ты: история и детали

Нейросеть не знает твою историю. Она не знает, что отец учил тебя водить на пустой парковке у гаражей по воскресеньям, что жена забирает себе пригоревший блин, чтобы тебе достались целые, или ровно ту фразу, которую мама говорила тебе у школьных ворот. Она не выберет, какая деталь важна, потому что никогда не встречала человека, для которого песня.

Это не баг, который надо чинить. Это постоянное разделение труда. Человек поставляет то, что модель не сгенерирует никогда:

Конкретную деталь. Не «она добрая», а «она ответила со второго гудка в два часа ночи и не спросила почему». Конкретику модель буквально не может придумать за тебя — её нет в обучающих данных. Она есть в твоей памяти.
Суждение, что важно. Из тысячи вещей, которые можно сказать, какие три на самом деле про неё? Модель взвешивает всё одинаково. Ты — нет.
Эмоциональную правду. Строчку, которая на шаг дальше зоны комфорта; то, что чувствуешь, но вслух не произносишь. Это идёт только от человека, который действительно это чувствует.

Дай генератору настоящее воспоминание, превращённое в конкретный образ, — и та же технология, что секунду назад выдала штамп, теперь соберёт вокруг него по-настоящему трогающую песню. Потолок качества задаётся качеством ввода — почти полностью. (Как именно превратить воспоминание в рабочую строчку — это отдельное ремесло, и оно того стоит.)

DIY-инструмент против сервиса, который помогает

Как только ты понял, что решает ввод, практический вопрос смещается: кто поможет тебе сделать этот ввод правильным?

Голый DIY-генератор даёт тебе пустое поле для промпта и полный контроль. Он гибкий, часто бесплатный для экспериментов и отлично заходит, если ты уже умеешь писать конкретный текст и описывать стиль. Подвох в том, что пустое поле ничего не подсказывает — поэтому большинство вбивает что-то размытое, получает безликий результат и делает вывод «ИИ-песни бездушные». Виноват был не инструмент. Виноват пустой промпт.

Сервис, построенный под задачу (например, сервис персональных песен), делает иначе: он сначала задаёт тебе правильные вопросы. Вместо пустого поля — подсказки, которые вытягивают из тебя конкретное воспоминание и нужный жанр, а дальше тот же тип движка это исполняет. Источник истории по-прежнему ты — но структура помогает самому не свалиться в шаблон.

Ни то, ни другое не «лучше» в вакууме. Если ты уверенно пишешь и экспериментируешь ради удовольствия — голый инструмент развязывает руки. Если песня — это подарок и попытка одна, направляемый путь обычно стоит того. Не потому, что нейросеть умнее, а потому, что она помогает тебе быть конкретнее.

Частые заблуждения

«Нейросеть сама разберётся, что важно в моём человеке.» Не разберётся и не может. Она его не встречала. Она работает только с деталями, которые ты дал; не упомянул пригоревший блин — в песне его нет.
«Жмёшь кнопку — и готово.» Можешь — и результат будет безликим. Кнопка — это лёгкие 10%. Остальные 90%, от которых песня попадает в сердце, — это выбор правильных конкретных деталей, которые ты в неё закладываешь.
«ИИ-песни все на одно лицо, без души.» Это зависит целиком от ввода, а не от технологии. Пустой промпт даёт бездушную песню; конкретный и настоящий — то, что по-настоящему трогает людей. «Душа» никогда не была в модели. Она в том, что ты в неё принёс.
«Нейросеть заменяет автора.» Точнее считать её инструментом. Гитара тоже не пишет песню — она воспроизводит то, что приносит играющий. ИИ берёт на себя сочинение и исполнение, но выбор, история и смысл остаются человеческими.
«Чем больше фактов на входе, тем лучше песня.» Запихнёшь тридцать фактов — получишь рифмованное резюме, а не песню. Несколько точно выбранных конкретных деталей всегда бьют длинный список. Отбор — человеческое суждение, и модель его за тебя не сделает.

Частые вопросы

Можно ли сгенерировать песню про конкретного человека?

Да — но настолько конкретно, насколько конкретны детали, которые ты дашь. Сама по себе нейросеть ничего о твоём человеке не знает, поэтому размытое описание («мой брат, он лучший») даст безликую песню. Дай настоящую конкретику — фразу, которую он вечно повторяет, общее воспоминание, вашу внутреннюю шутку — и песня станет безошибочно про него. Конкретика идёт от тебя; инструмент её исполняет.

Кому принадлежат права на ИИ-песню?

Зависит от условий сервиса, и закон пока устаканивается. По нынешней практике (в том числе в США) чисто машинно-сгенерированный материал, как правило, нельзя зарегистрировать как свой авторский. Но большинство сервисов даёт тебе лицензию на использование созданной песни — нередко с коммерческим использованием на платных тарифах. Всегда смотри условия конкретной площадки: правила по владению, использованию и роялти заметно отличаются от сервиса к сервису.

Звучит ли ИИ-песня как настоящая?

По большей части да. Современные генераторы выдают вокал и инструментал, которые большинство слушателей не отличит от живой записи, особенно в массовых жанрах. Качество звука давно перестало быть слабым местом. Если ИИ-песня звучит «не так», дело обычно в тексте — шаблонные или корявые слова, — а не в сведении.

Не стыдно ли дарить сгенерированную песню?

Нет. Главная работа в персональной песне — не запись, а выбор воспоминаний, решение, что важно, и перенос своих чувств в слова. Это целиком твоё. Использовать инструмент, чтобы спеть и свести песню, — не больше «обман», чем купить открытку и написать в ней своё. Человек откликается на мысль и на конкретику, а не на способ записи.

Сколько времени занимает сделать песню?

Сама генерация обычно идёт одну-три минуты. А вот часть, которая реально определяет качество, — собрать конкретные воспоминания и решить, что включить, — занимает дольше и стоит этого времени. Реально закладывай пятнадцать-тридцать минут, если хочешь результат, который ощущается личным, а не дежурным.

Деталь, которую знают только они.

Персональная песня с бесплатным превью на 1 минуту — до оплаты.

▶ Создать песню