Riffusion 是如何通过文本生成音乐的？

Riffusion 使用经过微调的 Stable Diffusion 模型来生成声谱图（声音的视觉表示），然后将其转换为可播放的音频文件。

Riffusion 是开源的吗？

是的，Riffusion 是开源的，其代码和模型可供开发者探索和二次开发。

我可以使用什么样的提示词？

用户可以输入描述性的文本提示词，例如“伴随雨声的低保真嘻哈”或“爵士萨克斯独奏”，即可立即生成独特的音频片段。

AIGC便利店

Riffusion

Riffusion 是一款创新的 AI 工具，通过将文本提示词转换为视觉频谱图，再将其还原为声音，从而生成原创音乐和音频。

访问官网

产品介绍

Riffusion 是一款突破性的实时音乐生成工具，它利用基于图像的 AI 力量来创造声音。与传统的基于 MIDI 或波形的生成器不同，Riffusion 将音频视为一种视觉媒介。它利用经过微调的 Stable Diffusion 版本来生成频谱图——即声音随时间变化的频率和幅度的视觉表示。随后，这些图像通过逆傅里叶变换处理，生成高质量的音频片段。

该平台解决了快速、创意音频原型设计的挑战。无论您是需要视频背景音乐、游戏中的独特循环音效，还是仅仅想尝试声音设计，Riffusion 都提供了一个易于使用的界面进行即时创作。通过弥合计算机视觉与音频工程之间的鸿沟，它提供了一种独特的“无限”音乐流，可以在不同的风格和情绪之间平滑过渡。

核心能力包括实时插值（AI 可以将一种音乐风格演变为另一种风格）以及社区驱动的模式（用户可以分享和重混提示词）。它代表了我们对生成式媒体思考方式的转变，证明了为图像设计的模型同样可以……

常见问题

Back

基本信息

网站www.riffusion.com
发布时间2026/01/12

分类

Riffusion 的替代产品

你是这个工具的开发者吗？

认领此列表，获取 dofollow 外链、精选推荐位，以及产品页面的完整控制权。

认领并升级免费提交你的工具

Nanorater

AD

趣味工具AI 图像识别AI 图片编辑器

Nanorater 是一款 AI 驱动的面部评分工具，利用 37 种以上独特的人设提供精准的美学评分、标注反馈以及可操作的改进建议。

FreemiumWeb AppBeginner Friendly

产品信息

定价模式

🆓 免费

支持的平台

web

api

支持的语言

英文

主要功能

🎨

基于频谱图生成音乐

通过使用微调后的 Stable Diffusion 模型创建并解析频谱图来生成音乐。

⚡

实时合成音频

实时生成音频，让用户几乎能即刻听到文字提示词转化为现实。

🔄

风格插值融合

无缝融合不同的音乐流派和提示词，创造平滑的过渡和无限循环。

优缺点分析

优点

创新性地将 Stable Diffusion 用于高质量音频生成。
完全免费且开源，方便社区进行实验。
通过频谱图可视化声音的独特能力。
处理速度快，可实现快速的创意迭代。

缺点

过度依赖视觉频谱图，对于传统音乐家来说可能不够直观。
输出质量可能因提示词的复杂程度而有显著差异。
Web 界面内的高级音频编辑工具较为有限。

使用场景

1为社交媒体视频创建独特的、无版权限制的背景循环音乐。
2为独立游戏生成氛围感十足的声景。
3探索视觉艺术与音频合成交叉领域的实验。

适合谁使用？

👤寻找独特背景音乐和循环素材的内容创作者。
👤对多模态生成模型感兴趣的 AI 研究人员和开发人员。
👤探索新制作工具的音效设计师和实验音乐家。

Riffusion

产品介绍

常见问题

目录

基本信息

分类

标签

Riffusion 的替代产品

你是这个工具的开发者吗？

Nanorater

更多产品

VividManga

Nano Banana AI Image Generator

Kairval

产品信息

主要功能

基于频谱图生成音乐

实时合成音频

风格插值融合

优缺点分析

优点

缺点

使用场景

适合谁使用？

订阅

加入社区

订阅

加入社区

Riffusion

产品介绍

常见问题

Riffusion 是如何通过文本生成音乐的？

Riffusion 是开源的吗？

我可以使用什么样的提示词？

目录

基本信息

分类

标签

Riffusion 的替代产品

你是这个工具的开发者吗？

Nanorater

更多产品

VividManga

Nano Banana AI Image Generator

Kairval

产品信息

主要功能

基于频谱图生成音乐

实时合成音频

风格插值融合

优缺点分析

优点

缺点

使用场景

适合谁使用？