ElevenLabs专门从事语音和声音应用研究,去年公布AI声音生成的AI平台Text to Speech,可让用户在文本对话中设置性别、年龄、口音和说话风格合成逼真人声,并于同年募得近2,000万美元的A轮资金。ElevenLabs今年2月搭上OpenAI视频AI生成模型Sora列车,预告可为视频配音的AI声音模型,并在上周正式向大众公开Text to Sound Effects,包括免费版及付费版。
Text to Sound Effects目的在为电影或电视节目、电玩开发商,甚至社群内容创作者、个人提供工具,使其得以快速且大规模生成丰富、沈浸式声音场景,而且不需大成本。只要在提示窗口输入文本,就可以生成音效、22秒的乐器演奏音频、声音场景或各种角色声音。该公司网页并提供多种范例说明输入的文本提示和生成音效,包括动物叫声、打雷、爆炸声、恐怖电影音效,或是吉他等乐器演奏。
为训练这新工具,ElevenLabs和知名图库和音频平台Shutterstock合作,以其多样化及高品质的合法声音档微调其AI模型。
Text to Sound Effects并提供用户微调工具,让用户能针对一种对象再细分出不同类别,例如「脚步声」可以文本再微调成是高跟鞋、靴子或球鞋,或是走在沙地、雪地或叶子上的声音。完成后,用户可选择下载声音或存储在ElevenLabs平台上。
Text to Sound Effects提供免费及付费版。付费版是通过在付费帐号供用户使用。免费版用户需要在生成的音乐加上elevenlabs.io,以说明来自ElevenLabs。付费帐号用户则不需注明。不过不论是哪个版本,版权责任都由用户自付。
收费标准是根据生成音频的长度控制参数计算。若用户设置为最适长度,会被收取200字符的费用,如果用户想自行控制长度,则会被设置该长度每秒40字符的费用。收费是每运行4次生成计算一次。收费是每次调用(而非下载),即每按一次「Generate」就多一次费用。但若用户认为计算结果有误,需自行向业者([email protected])反映。
根据ElevenLabs说明,付费帐号分成3类。Creator为0.30美元/1,000字符,Pro为 0.24美元/1,000字符,Scale则为 0.18美元/1,000字符。



2024-06-03
