Как я генерил нейрослоп в Suno
Я - Альфарий и вместо игры в игорей, всё свободное время последнее время я сливал в нейронки. А раз у нас появился новомодный значок по теме, то почему бы и не рассказать о своём опыте? Первый раз я познакомился с suno мельком с год назад, в поисках готишного метала с женским вокалом я рыскал по ютубу, нашёл плейлистик, послушал, в целом оценил, начал искать дискографию по названию группы - и не нашёл. Прочитал внимательно, и понял, что оценил я творчество машины, а не живых музыкантов. Хмыкнул, и дальше пошёл, забыв об этом. Натыкался я потом и на посты нашего Black Fox на тематику, но не погружался в приложение. А в субботу наткнулся на ещё один пример, и задался вопросом - а почему бы мне самому не попробовать?

Оторваться я смог примерно в районе трёх утра, когда биологические часы окончательно стали требовать меня идти на боковую. И то, не выдержав, я в телефоне набросал в заметках новый текст. Потом я продолжил на следующий день. И в понедельник. И во вторник. Всё потому, что меня внезапно пробило на написание текстов по вахе, естественно бессмысленно-пафосных как и сама вселенная (да, я делал кринж со скатыванием в самоповторы, и что вы мне сделаете? я в другом городе). Вахофанаты могут знать группу HM Kids у которой бывали неплохие песни но специфичный вокал и зачастую неидеальное качество звука. У меня же перед глазами был инструмент, обещающий власть, которая и не снилась.
Основная мысль у меня была простая: сделать музыку, которую я хотел бы слушать сам.
Спойлер, для тех кому лень читать всю стену текста: получилось, хотя и не полностью, как хотелось бы.
Первое, с чем я столкнулся, это ожидаемое выпрашивание денег. Да, бесплатная версия позволит запилить музыку на свои слова, примет промпт, а если с фантазией совсем туго может и за пользователя это сделать. Больше того, для каждой песни Suno сгенерит обложку - или на основе заголовка, или текста, или промпта, заполненного юзером. Но базовая бесплатная версия ограничена прошлой версией, не даёт коммерческих прав (на что мне естественно пофиг) и в ней меньше возможностей. Но обо всём не по порядку.

Огромное число потраченного времени и созданных треков вызвано вовсе не тем, что у меня было столько идей и это какой то магический инструмент которым я запилил себе солидную дискографию. Хотя, своя доля цифрового волшебства, в нём, конечно, присутствует.
Я просто не мог добиться от него того, что я хотел. Уровень моей техномагии не очень высок, а поведение AI - не всегда предсказуемо. Дело в том, что Suno может просто неправильно читать слова. Даже на английском, не говоря уже о великом и могучем. И если со сложными словами это ещё можно понять, то когда после затраченных "кредитов" на промпт он неправильно произносит банальное RAGE, rage возникает уже у меня. Бывали и куръёзные генерации, когда в "дрожат" ж отчётливо превращалась в "ч".
Решение у проблемы вполне очевидное: нужно писать не слово, а его фонетическую транскрипцию. В большинстве случаев это не требуется, и скорее актуально для слов со специфичными для языка произношениями. Например Sanguinius для нормального звучания должен превратиться SAN-GWIN-EE-US. В целом, перенос через чёрточку - решение для большинства длинных слов, а иногда и коротких. Достаточно часто также пригождался лайфхак с задваиванием и затраиванием Р и Л, модель их упорно "проглатывает".

Возвращаясь к кредитам, прогрелся я почти сразу же, оплатив месячный доступ. Годовая подписка выходит в среднем дешевле, но я, зная свою натуру, был уверен, что наиграюсь быстрее.
Сравнение бесплатного пакета с базовой подпиской:
- 5 генераций в день / 250 генераций сразу (на месяц) т.е. +сотня генераций
- Модель: Free — v3.5 / Pro — v4.5+ (лучше вокал и качество)
- Права: Free — без коммерческого использования / Pro — коммерческие права
- В платной версии доступны так называемые персоны и редактирование. Про это я ещё остановлюсь.
- Докупка кредитов %)
- Аплоад аудио сэмпла: Free — до 1 минуты / Pro — до 8 минут
- Платная добавляет ранний доступ к новым функциям
- При создани: Free — общая очередь / Pro — приоритетная очередь генерации, до 10 песен сразу.
Уходят кредиты и на редактирование кусков готового трека - в том самом редакторе, который доступен только в про версии. Я несколько раз пробовал перегенерировать части в целом "удачных" треков в которых было запорото одно или два слова: и ни разу не смог заставить суно сделать это нормально. Или он игнорировал все варианты написания, или делал кривые переходы музыки, учитывая, что каждая попытка стоит как генерация трека, я для себя выбрал вариант генерить заново, или идентично, или пробуя отредактировать произношения в новой версии. Ну и корректировать стандарты.

Для своих целей все тексты я писал сам, сверяйсь с чатжпт по английской грамматике (я до сих пор иногда косячу в has и have), а также обращаясь за помощью в составлении описания музыки. Suno не примет запрос "хочу микс звучания Amon Amarth и Sabaton", так что нужно будет описывать хитрее.
Пример промпта по мнению ChatGPT:
Epic war metal, 110 BPM, marching drums, heavy guitars, war horns, and male choir.
Vocals: shouted clean male with strong rolled R sounds, like a war chant.
Chorus: powerful anthemic chant with choir, every "R" strongly pronounced (rolled).
Verses: rhythmic, chant-like male vocals, dramatic and aggressive.
Bridge/slow parts: darker tone, tragic, with heavy drums and slower pace.
Final chorus: fading war chant with echo and reverb, desperate and tragic.
Atmosphere: grim, tragic, epic war hymn
Короткое описание типа "Готик-метал реквием, 100 BPM, Куплеты: ангельский мужской тенор, неземной и чистый, напоминающий литургического кантора" можно доверить доработать и самой нейронке по волшебной оранжевой кнопке.

Дополнительно параметры можно прописывать и на уровне каждого куплета и припева, если хочется накинуть темпа или драматизма в какой то момент.
[Intro – chant, slow drums, dark atmosphere]
[Chorus – ritual chant, choir + growl underlay]
[Verse 2 – chant with growl accents]
[Bridge - darker, slower, dramatic]
[Intro – шёпот, vox distortion]
[Verse – речитатив с шёпотами, индустриальный ритм]
[Припев – хор + скандирование]

Если с лирикой и стилями всё понятно, то продвинутые опции чуть более интересны и непредсказуемы. Audio позволяет подгружать свою аудиодорожку для основы (суно потребует с человека подтвердить, что он владеет правами на запись, подозреваю народ на это забивает). Персона же - это возможность выбрать понравившийся ранее трек и попросить запилить "похоже". Inspo же даёт возможность выбрать сразу плейлист из множество треков.
Weirdness - странность - это то, насколько наш abominable intelligence будет эксперементировать. Так я удивился услышав в одной из версии околодетхового трека бодрые ска-панковые саксофоны.
Влияние стиля в свою очередь заставляет его выдерживать промпт, но и тут я ловил странное - пытаясь создать частушку, я ловил результаты, в которых он вместо лирики пел вариацию требований к инструментам и вокалу. Частушка получилась не очень, но текстом я скорее доволен.
Третий же ползунок, audio influence доступен не всегда - он отвечает за влияние загруженного трека, персоны или плейлиста.
Генерация осуществляется за кредиты, каждая из них делает две отличающиеся версии на промпт. То насколько они отличаются зависит от ползунков и желания левой цифровой пятки Suno.

После генерации песню можно попробовать отредактировать (про свои безуспешные попытки я уже писал), замиксовать, выгрузить голос и минус (в про версии). Также доступно добавление в новую папочку, к плейлисту (текущему, queue и постоянному), лайк, дислайк, публикация на общественное осуждение и настройки видимости.
Скачивание доступно в mp3 и wav для про версии. Ну и конечно, кнопка отправить в корзину, которой я неоднократно пользовался.
Потратив кучу времени и наигравшись с приложением, я сделал около десятка треков, которые закинул себе в плейлист. Для пары песен я делал русскую и английскую версию, но хотя использовал идентичные промпты разобраться до конца как сделать одинаковую музыку с разным текстом мне было лень.
Некоторые из треков я слушал на повторе, хотя самый первый, который мне хочется переделать в одной строчке отремастерить я не смог, и он остался в несовершенной по тексту, но бодрой по музыке версии.

Не могу сказать, что это идеальный инструмент, но это однозначно интересная игрушка, которая позволила мне закрыть гештальт "музыкального творчества" - серъёзно заниматься электрогитарой я так и не смог как из нехватки времени так и отсутсвия слуха, а уж иметь возможность записывать тексты с разными звучаниями, аккомпанементами и вокалами мне и мечтать не приходилось. Если бы я был терпеливее и лучше разобрался с промптами ползунками, вероятно, можно было бы сделать лучше, но я доволен результатом.
У меня осталось ещё около 90 генераций до конца месяца, так что если меня припрёт создать ещё какую то песню, я знаю куда идти, но скорее всего уйдут они на попытки сделать существующие треки лучше и ближе к ожиданиям.
С вами был Альфарий, и помните - Император защищает.