Meta 发布开源 AI 工具 AudioCraft,文本自动生成音乐
发布日期: 2023-08-05 09:45:38 来源: 开源中国


(资料图片仅供参考)

Facebook 母公司 Meta宣布开源文本生成音乐工具 Audiocraft,该工具可以帮助用户根据文本提示创作音乐和音频。

Meta 表示,这款人工智能工具将 AudioGen、EnCodec 和 MusicGen 三种模型或技术融为一炉,可用文本内容生成高质量、逼真的音频和音乐。比如用文本就能生成鸟叫、汽车喇叭声、脚步等背景音频,或更复杂的音乐,适用于游戏开发、社交、视频配音等业务场景。

根据官网的介绍,MusicGen 接受过 Meta 拥有的和特别授权的音乐训练,可以从文本提示生成音乐,而 AudioGen 接受过公共音效训练,可从文本提示生成音频,比如模拟狗叫或脚步声;再加上 EnCodec 编解码器的改进版本,用户可以更高效率地生成更高质量的音乐。

总结就是,Audiocraft 由 MusicGen、AudioGen 和 EnCodec 三个模型组合而成:

MusicGen是一个文本生成音乐的自回归语言模型,大约使用了40万份文本描述和元数据的录音,总计2万小时的授权音乐进行训练。可通过文本自动生成摇滚、流行、重金属、RPA等类型音乐。 AudioGen是一个文本生成音频的自回归语言模型,具备分离音频功能,例如,可识别背景声、说话声和物体发出的声音等。这有助于仅使用文本生成音频时,更准确贴近用户的目标音乐。 EnCodec是一个高保真音频、音乐的压缩和解压器,可以用最小的体积尽可能还原原始音乐,这对于打造高质量音频模型来说至关重要。EnCodec由编码器、量化器和解码器三大块组成。 编码器,通过获取未压缩的数据,并将其转换为更高维度和更低帧速率的表示。 量化器,将编码器生成的“表示”压缩到目标大小,同时保留最重要的信息来重建原始信号。 解码器,将压缩信号转换回,与原始信号尽可能相似的波形。因为在低比特率下不可能进行完美的重建,所以,使用了鉴别器来提高音频生成样本的质量。

关键词:

相关文章

  • Meta 发布开源 AI 工具 AudioCraft,文本自动生成音乐

  • 2023版8克熊猫金币价格(2023年08月01日)

  • 8月或有2至3个热带气旋登陆或明显影响我国

  • 快递赔偿回应;茶饮男色营销

  • 迎战强降雨!河北水文昼夜测报护安澜

  • 莱音珠宝黄金价格今天多少一克(2023年08月01日)

  • 这个“亚洲第一”,你见过吗?丨高质量发展调研行

  • 周六福铂金多少钱一克(2023年08月01日)参考价格

  • 张雨霏第4金!53秒34破大运会纪录,夺得女子100米自由泳金牌

  • 今日pd900钯金回收价格查询(2023年08月01日)

  • pt900铂金回收价格今日多少钱一克(2023年08月01日)

  • 电商卷增长,同向不同路:集权VS放权,公域VS私域

  • 电影《热烈》声明:拒绝票房造假

  • 山东逆转青岛!陈培东+陶汉林47分,何思雨陷低迷,张辉真不行

  • 世界排名仅72!摩洛哥女足首轮0-6惨败德国,最终两连胜力压后者

  • 零跑汽车将合作大众的捷达品牌 零跑汽车香港股价一度上涨4%

  • OPPO李开新离职:业务已受影响

  • 水壶里的水垢怎么去除?分享小妙招

  • 理想L9 Pro上市 42.98万元 激光雷达保留

  • 物理学界重大突破:常温常压下实现零电阻

热点图集