知名大型模型开源平台Stability AI发布了音频生成模型Stable Audio 2.0,现在允许用户上传自己的音频样本,然后通过提示转换音频样本,免费创建AI生成的歌曲。
当稳定音频的第一个版本于2023 年9 月发布时,它只会向一些付费客户提供最多90 秒的音频,这意味着用户将只能创建简短的音频剪辑来进行试验。 Stable Audio 2.0 提供完整的三分钟音频片段。此长度的大多数歌曲都适合广播,并且所有上传的音频必须无版权。
据了解,与OpenAI的音频生成模型Voice Engine仅向少数用户开放不同,Stability AI通过其网站向公众免费提供Stable Audio,并且未来很快将提供API接口。
Stability AI 表示,Stable Audio 2.0 与其早期版本的一个主要区别是它能够创建类似于真实歌曲的歌曲结构,包括前奏、进行和结尾。
不过,尝试过Stable Audio 2.0的媒体表示,这个级别的AI歌曲与帮助用户通过音乐表达想法的差距还是比较大的。例如,有用户使用“美国风格的民间流行歌曲”(美国乡村音乐)作为提示。在某些部分,Stable Audio生成的歌曲听起来像是山谷中清晨的氛围,疑似添加了人声。
理论上,Stable Audio 2.0的新功能可以让用户调整生成的AI音频作品,使其更符合用户的聆听风格。例如,您可以根据提示调整符合程度或设置转换上传音频的哪一部分。用户还可以添加声音效果,例如人群呼喊声或键盘点击声。
不过,这类AI歌曲最大的问题就是感觉没有灵魂。但这并不奇怪,因为其他大厂的AI音频也存在同样的问题。例如,Meta 和Google 也一直在尝试AI 音频生成,但两家公司都没有公开发布自己的模型,因为他们仍在收集开发者的反馈,以解决AI 歌曲没有灵魂的问题。
Stability AI 在一份新闻稿中表示,Stable Audio 接受了AudioSparx 数据的训练,该数据库拥有超过800,000 个音频文件的库。
然而,这些音频可能会引起版权纠纷。 Stability AI 表示,其作品包含在AudioSparx 中的艺术家可以选择退出,以避免他们的作品被用来训练模型。事实上,使用受版权保护的音频来训练模型是Stability AI 前音频副总裁Ed Newton-Rex 在Stable Audio 发布后不久离开公司的原因之一。 Stability AI 表示,对于2.0 版本,它与Audible Magic 合作,使用其内容识别技术来跟踪和阻止受版权保护的音频进入该平台。
总之,Stable Audio 2.0确实让AI歌曲比以前更像真实的歌曲,但仍然没有完全实现这个目标。该媒体表示,如果稳定音频2.0模型坚持加入某种人声,或许下一个版本的AI音频作品将拥有更具区分性的语言。
本文来自金融界