AI Technology26.09.2025 г.8 мин четене

Suno v5: Технически впечатляващ, но все още бездушен AI генератор на музика

Когато не се опитва да се защити от съдебни дела от големи музикални компании, Suno продължава да усъвършенства своя инструмент за създаване на музика с изкуствен интелект. Последният модел, Suno v5, е очевидно техническо подобрение спрямо предишната версия v4.5+, но все още не може да избяга от бездушната празнота, която прониква в повечето изкуства, създадени от AI.

Има някои общи подобрения в качеството на звука, които са неоспорими, като по-малко артефакти и по-ясно разделение между инструментите. Някои тракове, произведени с v4.5+, могат да смесват всички мелодични части по начин, който замъглява линиите между китара, бас и синтезатор. Но с v5, миксовете са много по-чисти.

По време на демонстрация, Хенри Фипс, продуктов мениджър на Suno, посочи песен, която моделът генерира, включваща синтезатор, наподобяващ флейта с ефект на забавяне, наподобяващ пинг-понг: „Никога не съм чувал това в предишни модели... това ми казва, че моделът разбира, че това е изолиран звук, който трябва да бъде възпроизведен вярно в различни части на стерео полето.“ Тъй като Suno всъщност не прилага ефекти в традиционния смисъл, това означава, че моделът идентифицира определен инструмент и приблизително възпроизвежда звука на стерео забавяне, защото е решил, че така трябва да звучи.

Няма остри ръбове в никакви от вокалите на Suno. Всичко е обляно в реверберация, наслоено с хармонии и перфектно в тон. Дори ако изрично му кажете да не прави тези неща, моделът просто ви игнорира.

Suno също твърди, че v5 има по-добро разбиране на жанра, въпреки че това твърдение изглежда съмнително от моите тестове. С някои от моите подканвания като „модерен авант R&B с гличи, но фънки барабани, атмосферни мелодични части и дишащи вокали,“ нито v5, нито v4.5+ изглеждаха като ясен победител в доставянето на това, което имах предвид (предимно Kelela’s Take Me Apart). Те и двата се доближиха, давайки ми даунтемпо тракове с някои мрачни синтезатори, но им липсваше странността, която търсех.

Нито Suno успя да разбере какво търся с „ранен ‘90-те лоу-фай инди рок, записан на 4-пистов касетофон с неточни вокали и леко разстроени китари,“ но v5 определено беше по-далеч от целта. Въпреки всичко, което опитах, не можах да накарам Suno да изкара нещо, което дори отдалечено да звучи като Pavement. Свободният шумен поп, който свързвам със Slanted and Enchanted, не беше никъде. Вместо това получих бомбастичен „инди“ рок с тежки рифове и чисти, движещи се пауър акорди. Suno v5 продължаваше да предлага песни, които звучаха повече като Arctic Monkeys, отколкото нещо, издадено преди началото на века.

По същия начин, в моите тестове, v5 изглеждаше, че се затруднява с подканвания, специфични за епоха или десетилетие. Когато поисках „края на 1970-те краутрок,“ v4.5+ почти го уцели извън вокалите (повече за това по-късно). Но v5 често доставяше синтпоп от ‘80-те и тракове, които са ясно по-модерно звучащи, дори ако имат някои от класическата ДНК на краутрок.

Това, което ще кажа, е, че аранжиментите, които създава моделът v5 на Suno, са много по-сложни. В сравнение с v4.5+, има повече еднократни музикални украшения, които предотвратяват прекалено повтарящото се звучене и по-разнообразни структури на песните. Където v4.5+ обикновено се задоволява да се придържа към основна структура куплет-хор-куплет (с мост за добра мярка), v5 често има предварителни или последващи хор секции, множество мостове или разбивки и обикновено изгражда в хода на трака, предлагайки повече дъга, отколкото просто отделни секции.

Той също така понякога доставяше интересни резултати при ремиксиране на съществуващи тракове. Качих песен от EP, който издадох преди няколко години (което вероятно трябваше да задейства неговия филтър за авторски права) и, няма да лъжа, хареса ми начина, по който транскрибира части от моето китарно соло в повтарящ се синтезаторен мотив и превърна моите големи акорди в движещи се арпежи.

Но това, което липсваше във всички тези кавъри на моята песен, които поисках Suno да създаде, беше суровата, лоу-фай природа на трака, който записах в хола си в 3 часа сутринта преди около шест години. И това е нещо като основна тема тук. Докато Suno може да имитира някои от повърхностните характеристики на стар запис или човешко изпълнение като шум от лента или дишания, винаги се чувства неавтентично.

Фипс признава, че не е чул вокалният модел да възпроизвежда уникалните несъвършенства на истинско човешко изпълнение. В ранните си съобщения за v5, Suno рекламираше своите „емоционално богати вокали“ и „човекоподобна емоционална дълбочина,“ но тази фраза вече липсва от всички публични материали. Вместо това, компанията сега избира да описва вокалите като „естествени, автентични,“ приписвайки промяната на „стилистичен избор.“

Но дори това изглежда като преувеличение. Да, в сравнение с v4.5+ вокалите се усещат по-човешки, но все още са сковани. Фипс обясни, че „когато възприемаме вокал от Suno [v4.5] като емоционално плосък, мисля, че това е защото просто липсва някакъв детайл, който му придава този ръб,“ и че по-високата вярност на модела v5 доставя този детайл.

Трудно е да се спори с техническите аспекти на това твърдение — вокалните изпълнения са по-подробни — но все още са болезнено общи. Всеки рок вокал в крайна сметка звучи като Imagine Dragons или Mumford and Sons, всяка R&B песен като сънлива Adele или безчарова Ariana Grande.

Няма остри ръбове в никакви от вокалите на Suno. Всичко е обляно в реверберация, наслоено с хармонии и перфектно в тон. Дори ако изрично му кажете да не прави тези неща, моделът просто ви игнорира. Поисках от v5 „необработено емоционално соло а капела женско вокално изпълнение без реверберация, без хармонии, без ефекти, само сухи вокали.“ Двете песни, които достави, бяха обляни в реверберация, включваха допълнителни вокалисти, които хармонизираха с първия, и една дори имаше нещо, което звучеше като бас акомпанимент. (Въпреки че, може би беше глас, който имитира бас.) Но Фипс не беше изненадан. „Моделите все още не разбират описания на специфични ефекти и техники на запис. Начинът, по който се изпълнява вокалът, е най-вече повлиян от текста и общото настроение,“ каза той.

Така че, нахраних Suno с текстове, които бяха достатъчно различни от „Gimme Shelter“ на Rolling Stone, за да избегнат флаг за нарушение на авторски права. На пръв поглед изглеждаше, че има всички елементи, които правят оригинала толкова опустошителен. Мощен женски вокалист, който крещи над пълно, блусово аранжиране, но имаше цялото емоционално въздействие на учебник по стоматология.

Когато слушам „Gimme Shelter,“ това е начинът, по който гласът на Мери Клейтън се пропуква, докато изпява „изнасилване и убийство“ по време на моста, който ме кара да се задавя. Това е напълно разстроеното трептене на Робърт Смит, което предава отчаянието в „Why Can’t I Be You“ и осезаемото изтощение в дъха на Кърт Кобейн точно преди да изрече последния ред в „Where Did You Sleep Last Night,“ което ви казва, че това е човек, борещ се с истински демони.

Като цяло, опитите да накарам Suno да звучи „лошо“ — разстроено, сурово, неточно, небрежно — бяха безплодни. За всички разговори на компанията за това колко „естествени“ звучат новите вокали на модела, му липсват несъвършенствата, които често носят емоционалната тежест на изпълнението. Виртуалните вокалисти на Suno все още звучат откъснати. Модел v5 може да разбере, че даден текст трябва да е тъжен, но няма никаква действителна емоционална връзка с думите, защото е куп код, а не артист.

Повече AI новини и услуги:

AI Новини | AI Услуги | Начало