图1:Suno.AI
昔日的几周内,通过Suno V3生成的音乐出当今互联网各个边际,导致诸君音乐东谈主当今是惊悸值暴增。今天让咱们准备作念一组评测,试试Suno与其他东谈主工智能音乐居品比拟有若干提高。另外,为了探究Suno在音乐阛阓上与东谈主类音乐竞争的情况,咱们还将音乐素材库乃至流媒体就业纳入比较。
当前阛阓上粗略无门槛免费使用的音频音乐径直生成居品包括:
Suno:https://www.suno.ai/。Google Music FX(原Google MusicLM):https://aitestkitchen.withgoogle.com/tools/music-fx。参考新闻《Google 作念了一个输入刻画翰墨就可以自动生成歌曲的 AI》Stable Audio:https://www.stableaudio.com/。参考新闻《深远告发音乐东谈主的恶梦 Stable Audio:音乐生成 AI 的贸易期间布景 + 使用教程》Riffusion:https://www.riffusion.com/。参考新闻《被谷歌的音乐生成器具 Lyria 刷屏了?不如先试试 Riffusion》[https://m.midifan.com/news_body.php?id=48819]。
其他已知正处于研发或测式阶段的居品有:
Google Dream Track:https://deepmind.google/discover/blog/transforming-the-future-of-music-creation/Adobe Project Music GenAI Control:https://blog.adobe.com/en/publish/2024/02/28/adobe-research-audio-creation-editingTikTok尚不决名的音乐生成居品。参考新闻《立场移动 AI 成果器 Comboulator 发布,另有一波 Google 和 Adobe 音乐 AI 新品袭来》Meta前年早些时候发布的开源模子MusicGen:https://huggingface.co/spaces/facebook/MusicGen。参考新闻《深远告发:Facebook 东谈主工智能音乐模子 MusicGen 是如何通过参考旋律生成音乐的?》[https://m.midifan.com/news_body.php?id=47566]由于生成质料差距较大因此不纳入本次测试。
此次评测将局限于莫得演唱的纯音乐生成任务。由于Suno、Riffusion以及Google Dream Track等居品的歌声生成机制尚无太多公开信息,因此无法实在判定其是径直音频生成照旧辗转的歌声合成。咱们会在有更多公开府上和访佛居品发布后再进行歌曲生成评测。
Suno一类的音乐生成居品是通过文本领导词来指挥深度学习模子输出对应的音频。与此访佛,各样音乐素材库的发现机制亦然以文本搜索行动基础,再辅以乐器、立场、速率等贬抑条目匡助用户筛选出合适的音乐。因此,天然文本到音频的音乐生成在旨趣上与音乐素材库检索完全不同,但其当前的使用过程却是访佛的。本次评测中将会使用到的音乐素材库包括:
Audiosparx:https://www.audiosparx.com/APM Music:https://www.apmmusic.com/Universal Production Music:https://www.universalproductionmusic.com/Soundstripe:https://www.soundstripe.com/除此以外,YouTube和Spotify因其容纳了更等闲的音乐素材实质也被纳入测试比较。
测试样子尽头约略,咱们将使用5组约略的文本领导词刻画咱们思要的纯音乐类型特征,然后区分交由各个东谈主工智能器具和音乐素材库进行生成和检索。在不进行屡次生成和过多搜索驱逐挑选的情况下,咱们将终末得到的音频驱逐进行对比分析。
2024年2月,在Suno V3模子发布之前的几周,滚石杂志的记者在离马萨诸塞州剑桥市哈佛大学校园仅几步之遥的Suno临时总部的会议室听到了由东谈主工智能生成的密西西比蓝调音乐。这首歌曲被定名为Soul of the Machine,由ChatGPT缓助歌词创作。Suno使用的领导词为"solo acoustic Mississippi Delta blues about a sad AI”。歌曲中富含的情绪丰富进程让东谈主惶恐。
音频1:Soul of the Machine
当滚石记者将这首歌发送给乐手好友后,环球盘考到东谈主工智能演唱布鲁斯音乐所形成的困惑和不天然,因为“这是一种好意思国黑东谈主的抒发神态,与他们在历史上的摄取的奴役和祸害息息商量” 。在精炼的新英格兰的Suno执行室中,东谈主工智能“学会了”来自上世纪初好意思国燥热的密西西比三角洲贫瘠黑东谈主的赞颂。这种音乐立场本已在20世纪中世镇静衰落,但因一批历史保留主义而录制的唱片在其时流入英国,激励了英国蓝调郁勃和随后由披头士和滚石乐队指导的英伦入侵,就此改变了宇宙流行音乐的形貌。
音频2:solo acoustic Mississippi Delta blues about a sad musician
如果你期待Suno可以掀翻一波新的音乐立场降生的话,那当前的驱逐可能会让你失望。天然Soul of the Machine的曲长入演奏都足以让东谈主信服,但生成式东谈主工智能每一次推理都有不细目性,同期也要推敲到使用者的取舍偏见。当领导词稍作改变换成“solo acoustic Mississippi Delta blues about a sad musician”之后,Suno生成的音乐就澈底没了蓝调味儿,成了一首白东谈主民谣。为了搞明晰领导词和生成音频究竟有多密切的商量,咱们进行了所有这个词5组测试。整个取得的音频均经过响度圭臬化养息至-20 Integrated LUFS。
第一组领导词:solo acoustic Mississippi Delta blues
第一组咱们采用了跟刚刚基本沟通的领导词,但将其改为生成纯器乐作品。
东谈主工智能组Suno
音频3:Suno_1_blues.mp3 音频4:Suno_2_blues.mp3
咱们防卫到Suno生成的第一段音频是完全圭臬的蓝调,来因去果挑不出罪状。但相通领导词生成的第二段音频就应该归类到乡村民谣了。这里出现的立场泄露问题与之前的歌曲是一致的。
Google Music FX
音频5:Google_music_fx_1_blues.mp3 音频6:Google_music_fx_2_blues.mp3
Google生成的音乐更像是东拼西凑的乐句,但在立场和配器上莫得问题。
Riffusion
音频7:Riffusion_blues.mp3
Riffusion公司最近似乎是把要点转向了歌曲生成,是以纯音乐生成的成果与昔日莫得什么启程点,音质较差。乐器使用的是原声吉他,但立场上似乎也莫得蓝调的特色。
Stable Audio
音频8:Stable_Audio_blues.mp3
咱们能听出来是木吉他演奏的蓝调,但除了音质上的障碍外,好像节拍也不太肃肃。
东谈主类组Audiosparx
音频9:Audiosparx_blues.mp3
在Audiosparx网站上搜索关键词后取得共34个驱逐,小编及第的最好驱逐来自第五名。出于时辰推敲咱们莫得在这里展示完好音频,但东谈主类扮演在音乐结构上是完全过关的。不外音频中有东谈主声演唱,与关键词不太相宜,但在立场和乐器上是完全正确的。
图2:Audiosparx不仅提供了音乐,还对每首音乐有着更详备的翰墨刻画。在这个例子里,翰墨刻画包括了乐器、立场、歌词实质简介、用途、情绪以及速率等信息。
APM Music
音频10:APM_blues.mp3
完全相宜刻画的圭臬蓝调,灌音质料也尽头可以!这是在264个搜索驱逐中排行第二的音乐。
Universal Production Music
音频11:Universal_Production_Music_blues.mp3
这首音乐听起来有些意境灌音的嗅觉,还有脚打球拍的声息。Universal Production Music网站仅提供了一个搜索驱逐,不外恰好相宜要求。
Soundstripe
图3:
音频12:Soundstripe_blues.mp3
Soundstripe也只提供了一个搜索驱逐,不外乐器却变成了电吉他。音乐倒是很宛转,揉弦骚骚的。
Youtube
音频13:Youtube_blues.mp3
一般来讲,在YouTube岂论搜索如何的关键词总会得到大都的驱逐。这是排行第一的视频,一位博主我方录制的演奏。
Spotify
音频14:Spotify_blues.mp3
Spotify其实并不妥当进行这样的搜索,不外该平台实质的音乐性照实会高过罐头音乐网站。这首歌曲排行第五,但包含了不需要的东谈主声演唱。
第二组领导词:surf rock with organ and claps
冲浪摇滚是流行于上世纪六十年代的一种早期摇滚立场,时时会有特有的吉他成果器。如今很难找到有乐队扮演这种立场,是以要录制一首维抓的冲浪摇滚并不是一件容易的任务。咱们还要求音乐内部有管风琴和鼓掌节拍,这是该立场常见的乐器。
东谈主工智能组Suno
音频15:Suno_1_rock.mp3 音频16:Suno_2_rock.mp3
立场、和声进行、节律型、饱读点、这些统统莫得问题,连混响的立场亦然对的。除了高频的杂音部分不太真实外,小编挑不出什么罪状来。推敲到当年的灌音水平,混音上倒没必要吹毛求疵了。天然最大的障碍是Suno莫得按要求加入管风琴和鼓掌节拍,不知谈其他东谈主工智能会推崇如何。
Google Music FX
音频17:Google_music_fx_1_rock.mp3 音频18:Google_music_fx_2_rock.mp3
哦,这不算冲浪摇滚吧?不好讲这是什么音乐立场。第一段音乐有好多的管风琴,但莫得鼓掌声。第二段天然多了些架子饱读,但音乐性上也没什么启程点。
Riffusion
音频19:Riffusion_rock.mp3
一如既往地节拍不稳,也听不出有什么乐器,不评价。
Stable Audio
音频20:Stable_Audio_rock.mp3
管风琴是有了,但不太冲浪,鼓掌声也莫得。音质上照实有待提高,迥殊是打击节律乐器。
东谈主类组Audiosparx
音频21:Audiosparx_rock.mp3
完全相宜要求!吉他、solo、管风琴、架子饱读、clap、全皆!这是所有这个词4个搜索驱逐中的终末一个,前三个都不相宜要求。小编仅仅认为声场有点怪怪的,怀疑制作主谈主塞了些别的乐器到Lesile speaker里。
APM Music
图4:
音频22:APM_rock.mp3
管风琴的声息很小,但照实能听到。可惜莫得鼓掌声。这段音乐是APM网站上复返的独逐个个搜索驱逐。
Universal Production Music
音频23:Universal_Production_Music_rock.mp3
跟APM的驱逐很像,亦然莫得鼓掌声。Universal Production Music所有这个词有5个搜索驱逐,这是第三首音乐。
Soundstripe
Soundstripe莫得搜到任何东西。冲浪摇滚能用到的方位照实不太多。
YouTube
音频24:Youtube_rock.mp3
陈腐的混音神态!架子饱读完全放在右边声谈。这是YouTube排行第二的搜索驱逐,可惜并莫得鼓掌和管风琴。
Spotify
音频25:Spotify_rock.mp3
架子饱读独奏咚咚咚!Spotify排第一的搜索驱逐,也莫得管风琴和鼓掌。
第三组领导词:cinematic orchestra with epic drums
说到罐头音乐,何如能少了大气磅礴史诗管弦,配干戈配风物配游戏配新闻配主播配短视频,生存便是斗争!
东谈主工智能组Suno
音频26:Suno_1_cinematic.mp3 音频27:Suno_2_cinematic.mp3
尽头及格的管弦布景音乐。音质上有障碍,弦乐像是在刷砂纸。不外手机外放也够用了对吧?
Google Music FX
音频28:Google_music_fx_1_cinematic.mp3 音频29:Google_music_fx_2_cinematic.mp3
这个音质昭着就不够用了,中间也有些额外音符。
Riffusion
图5:
音频30:Riffusion_cinematic.mp3
这个也不太行。
Stable Audio
音频31:Stable_Audio_cinematic.mp3
除开音质的问题,结构和音乐性都是不差的。
东谈主类组Audiosparx
音频32:Audiosparx_cinematic.mp3
东谈主类作品的节律型和结构发展上照旧要高出东谈主工智能不少。比拟之下Suno和Stable Audio生成的作品就过于布景音乐化了,互相之间都是叠加的。在Audiosparx中搜索该关键词有越过1000条驱逐。该段音乐排行第二。
APM Music
音频33:APM_cinematic.mp3
112个搜索驱逐中排行第三。前两个莫得被选中是因为它们用上了合成器和摇滚的元素,并非音乐质料的原因。如果这段音乐要用到刊行级的影视作品里可能还需要在混音上再下下功夫,不外APM赶巧也提供分轨音频下载。二次裁剪才略亦然当前东谈主工智能所不具备的方位。
Universal Production Music
图6:
音频34:Universal_Production_Music_cinematic.mp3
167个驱逐中排行第一,莫得什么问题,中规中矩。
Soundstripe
音频35:Soundstripe_cinematic.mp3
唯二的两个驱逐中排行第一,和弦进行有些特色。
YouTube
音频36:Youtube_cinematic.mp3
真实的epic drums,来自YouTube排行第一的驱逐。
Spotify
音频37:Spotify_cinematic.mp3
莫得什么问题,不外多评价。
第四组领导词:trap beat in country
当今初始,咱们要试试东谈主工智能有莫得革命的可能。这几年最出名的会通新立场便是乡村与嘻哈的邻接了。从一曲Old Town Road初始,流行乡牧歌曲多了一些808 Hi-Hat,而Trap也多了少许班卓琴。让咱们期待一下东谈主工智能会带来什么不一样的组合。
东谈主工智能组Suno
音频38:Suno_1_trap.mp3 音频39:Suno_2_trap.mp3
大失所望!Trap倒是Trap,可惜小编莫得听到少许点乡村元素。用的Lo-Fi键盘音色若是换成个吉他倒还有可圈可点之处。
Google Music FX
音频40:Google_music_fx_1_trap.mp3 音频41:Google_music_fx_2_trap.mp3
第一段音乐好像坏掉的音乐盒的声息,只可说有点出其不料。不外第二段音乐真的有吉他耶,但跟乡村音乐扯不扯得上关系就另说了。
Riffusion
音频42:Riffusion_trap.mp3
这有点搞笑,Lo-Fi味儿倒是对了。只可说嘻哈搞采样Lo-Fi是预判了东谈主工智能,启程点时期40年。
Stable Audio
音频43:Stable_Audio_trap.mp3
图7:
好骚好放克的Hi-Hat,别的就真莫得了。
东谈主类组Audiosparx
音频44:Audiosparx_trap.mp3
没思到,在嘻哈这种重复性很强的音乐立场上,东谈主类作品中的小小细节可以展现出如斯创造力。30秒事后的吉他弯音简直把小编击中了。本首音乐在4个搜索驱逐中排行第三。
APM Music
音频45:APM_trap.mp3
来自APM的独一搜索驱逐。这首beat的创意性就略显失态,不外亦然完全相宜关键词要求的作品。
Universal Production Music
音频46:Universal_Production_Music_trap.mp3
这个beat好像不那么trap,有点流行。乡村元素也有点淡。
Soundstripe
莫得搜索驱逐。
YouTube
音频47:Youtube_trap.mp3
YouTube排行第一的搜索驱逐。饱读机的节律型更靠乡村那一边,有点意义。
Spotify
音频48:Spotify_trap.mp3
相通是排行第一的驱逐,中规中矩,得志关键词要求。
第五组领导词:Chinese style jazz
终末,咱们准备尝试一个不成能完成的任务:中国风爵士!在小编本东谈主简便的音乐常识中,这两者的邻接是少之又少,也不像Trap乡村这种会通神态粗略复刻。让咱们期待古迹吧!
东谈主工智能组Suno
音频49:Suno_1_jazz.mp3 音频50:Suno_2_jazz.mp3
天然完全不是咱们思要的中国风爵士,关联词当看到Suno将其定名为Moonlit Shanghai时小编有笑到耶,还蛮准确的。
Google Music FX
图8:
音频51:Google_music_fx_1_jazz.mp3 音频52:Google_music_fx_2_jazz.mp
这个反而有点对味,不知谈有莫得让环球思到一些上世纪三十年代的流行歌。
Riffusion
音频53:Riffusion_jazz.mp3
跑调咯!(爵士也能跑调么)
Stable Audio
音频54:Stable_Audio_jazz.mp3
不解觉厉,Modal Jazz? Free Jazz?
东谈主类组Audiosparx
音频55:Audiosparx_jazz.mp3
当小编听到这一曲时惊喜不已,改编神态和和声让东谈主过耳不忘。“在那东山顶上”,来自CoCo Zhao的专辑《一只鸟Solitary Bird》,Audiosparx网站的独一搜索驱逐。
APM Music
莫得搜索驱逐,正耿介当。
Universal Production Music
莫得搜索驱逐。
Soundstripe
莫得搜索驱逐。
YouTube
图9:
音频56:Youtube_jazz.mp3
再次发现矿藏!一曲“Taiwan”收录于音乐家Zac Zinger的专辑《Fulfillment》,用上了笛子、二胡和古筝的会通爵士,完完全全超出了小编的思象。贝斯手竟是环球闇练的YouTube音乐博主Adam Neely,好神奇。他们的其他视频有被搬到B站[https://www.bilibili.com/video/BV1a4411i7uC/],宽贷围不雅。
Spotify
莫得搜索驱逐。
回来听过了这样些音乐,敬佩环球如故对Suno的底细有更深的泄露了。天然,本次测试比较约略,并莫得遮蔽更多的立场和领导词,也莫得触及最火的歌曲生见遵守。当前看来,岂论是东谈主工智能照旧已有的音乐素材库,在对语义泄露上有很大的提高空间。由于磨练数据集遮蔽的原因,Suno无法泄露诸如乡村嘻哈这样的立场。音乐素材库也因为穷乏对音频的泄露器具,完全依赖创作家提供的标签信息,甚而连暗昧搜索功能都不具备。天然音乐素材库在准确度和实质质料上都是完胜Suno,但Suno在毁灭匹配度的情况下提供音乐,在一些情况反而是一种上风。总之,音乐音频实质的自动泄露、标注、相似音乐搜索是当前急需的研究标的。
终末,对于版权问题不得不提。在滚石杂志对Suno的采访中,Suno团队阻隔报酬对其磨练数据的来源的质疑。当前有事理怀疑Suno越过其他东谈主工智能居品的原因之一便是其更巨大且可能侵权的磨练数据。此前,来自Stability AI的Stable Audio就因作恶使用Audiosparx平台上的音乐进行磨练进而激励贬责层愤然辞职(参考新闻《立场移动 AI 成果器 Comboulator 发布,另有一波 Google 和 Adobe 音乐 AI 新品袭来》)。Stability AI的CEO也因该起事件和其他不谈德举止于近期被动辞职,公司也靠近成为首家倒闭AI独角兽的不利风物。Suno取舍隔绝在领导词中包含音乐东谈主名字的神态幸免生成某位环球熟知歌手声息,但这并不代表其生成的音乐莫得版权风险。在当前Suno阻隔露出其磨练数据来源的情况下,贸然使用其生成的音乐可能会靠近版权方追责。对于东谈主工智能音乐的版权问题咱们将抓续跟进报谈。