灰度_找资源，谈合作，上灰度

相较于Stable Audio模型可生成3分钟的连贯音乐结构，开源版Stable Audio Open模型则能生成47秒的样本与声音效果

Stability AI周三（6/5）发布了文本生成声音模型的开源版本Stable Audio Open，在用户输入文本描述后，它便能生成长达47秒的样本与声音效果。

Stability AI以超过48万个声音纪录来训练Stable Audio Open模型，其中超过9成的纪录来自Freesound，另有少数来自「免费音乐文件」（Free Music Archive ，FMA），所有的音频档都取得了免费的共享许可，并使用预训练的T5（Text-to-Text Transfer Transformer）文本模型来处理与生成文本。

Stable Audio Open让用户输入简单的文本提示，即可生成最多长达47秒的高品质声音，Stability AI宣称它很适合用来创建鼓点、音乐即兴片段、环境音效、模拟录音，或是其它与音乐及声音有关的样本。开源版本的好处之一还包括用户可以利用自己的声音数据来调整模型，例如鼓手可以加入自己的录音样本来生成新的节奏。

其实该公司在去年9月便先推出了商业版的Stable Audio，同时提供免费与付费方案。Stability AI解释，Stable Audio可生成高品质、完整且长达3分钟的连贯音乐结构，而Stable Audio Open则专注于声音样本、音效与制作元素，尽管Stable Audio Open能够生成简短的音乐，但并未针对完成的歌曲、旋律或人声进行优化。

用户也可迳自利用Stable Audio免费版来测试与Stable Audio Open的差异，Stable Audio Open 1.0现阶段则可通过Hugging Face取得。