Music 2.6 之后，我们先查年代，再听歌曲

2026/04/28-09:56:23

1999 字

只听声音，很容易错过 AI 音乐生成正在发生的变化。

Cloudflare 在 X 上提到了 MiniMax 的 Music-2.6，Cloudflare 的 AI Models 中也已经列出 minimax/music-2.6。¹² 文档说明，它可以根据文本提示和歌词生成带人声的完整歌曲，也可以生成纯音乐，控制 BPM 和调性，并自动生成歌词。音乐生成正在从“在专用应用里试试看”的东西，变得越来越像一次普通的 API 调用。

但这里让我在意的，不只是又多了一个模型。创作一侧的阻力降低时，听众一侧的戒备也会改变。最近也有人观察到，大家开始不是靠耳朵，而是靠“年代”去判断一首歌是不是生成式 AI 音乐。³

这看起来只是一个很小的搜索习惯。可是，音乐的可信度正在一点点从声音本身移向元数据。作为征兆，这件事并不小。

创作变成 API 的形状

Cloudflare 文档中对 Music 2.6 的说明，与其说是音乐制作的语言，不如说更接近面向开发者的输入输出规格。

在 prompt 里写风格和情绪。需要时传入 lyrics。想把歌词交给模型处理，就用 lyrics_optimizer。不需要人声，就把 is_instrumental 设为 true。输出是生成音频文件的 URL。²

这种形式本身，已经不算多么未来。我们在图像生成和视频生成中见过类似结构，现在它进入了音乐。只是放到音乐里，这个变化有另一种重量。

音乐一直把“谁演奏了它”“谁唱了它”“它在哪个房间里响起”“它属于哪个年代的录音”这些信息，包在声音的质感里。老录音的噪声，鼓声的距离，声音贴近麦克风的方式，合成器的触感。这些不是装饰，而是告诉我们声音从哪里来的手感。

Music 2.6 这样的模型，让这种手感变成可以用提示词召唤的东西。深夜的咖啡馆。Boss 战。弗拉门戈里的停顿。低频很重的俱乐部曲目。这些词会成为制作音乐的指令。

到这个时候，音乐会从“被录下来的事件”，一点点偏向“被生成出来的状态”。

2.6 的卖点，正在靠近人的感觉

MiniMax 自己的公告并没有把 Music 2.6 写成一张规格表，而是用四个使用场景来讲它：舞者、游戏开发者、咖啡馆播放列表、送给母亲的生日惊喜。它强调的也不只是能做出一首歌，而是停顿、低频、情绪展开、稍微不完美的声音，以及把既有旋律移到另一种风格中的 Cover 功能。⁴

这里很值得停一下。

早期 AI 音乐生成的卖点是“几秒钟做出一首歌”。Music 2.6 的语言则靠近了更细的地方。它瞄准的不只是“像音乐”，而是人会在音乐中感到有人存在的那些位置。

如果是弗拉门戈，不只是音符，还有沉默。如果是游戏音乐，不只是华丽，还有打到胸口的低频。如果是咖啡馆，不是完美歌唱，而是还残留一点生活感的声音。它的说法是，模型已经可以抵达那里。

当然，这是官方公告，不等于对实际输出的直接评价。即便如此，卖法转向了那里，本身就不能忽略。生成式 AI 音乐已经不再只竞争“能不能做歌”，而是开始竞争“能把歌曲感做细到什么程度”。

听众开始看年代

听众这边，则出现了另一种反应。

听到一首歌。做得很好。声音自然，编曲也像那么回事。可是心里还是会有一点怀疑。这真的是以前的音源吗？还是最近做出来的生成式 AI 歌曲？于是，不只查歌名和艺人名，还会查发行年、上传时间、这首作品所属的年代。

catnose 的帖子指向的，大概就是这种感觉。³ 只在声音内部，已经很难判断它是不是生成式 AI。于是人会走到声音外面，去看年表。这是一首 2026 年突然出现的“80 年代风”歌曲吗？还是真实存在的旧录音？它属于某个人的过去，还是模型重组出了过去的手感？

作为一种听音乐的方式，这相当奇怪。

过去查年代，是为了加深语境。它什么时候发行？属于哪个场景？受了什么影响，又影响了什么？现在，另一个目的混了进来。我们看年代，是为了确认：这个声音是否穿过了人的时间。

音乐的真假，不再只在耳朵里结束。

元数据也成了音乐的一部分

这种变化多少有些不舒服。

音乐本来应该先响起来。听见它，身体反应，然后决定喜不喜欢。署名和制作过程，是后来才进入的信息。可是当生成式 AI 音乐足够像音乐时，我们会一边听声音，一边去搜周围的信息。

发行日是什么时候？艺人有没有履历？有没有现场影像？过去作品是否连续？厂牌是否真实存在？说明文字是不是空的？署名里有没有人的名字？

这些信息已经不再是附属物。它们变成了我们相信一段音乐所需要的一部分。

这不只是 AI 音乐的问题。匿名翻唱、看不见版权处理的音源、在短视频里突然流行的来历不明的曲子、虚构艺人。现在的平台上，音乐从一开始就是带着元数据流通的。生成式 AI 把这种不透明一下子放大了。

对创作者来说，Music 2.6 这样的模型可以作为 API 使用，当然方便。影像、游戏、播客、店铺、广告。可以按场景输出所需长度和质感的声音。

可是对听众来说，方便之外还有另一个问题。声音好听就够了吗？一个没有穿过任何人的时间的声音，我们能把自己的时间交给它到什么程度？

留下来的，也许不是耳朵，而是履历

围绕生成式 AI 音乐的讨论，常常会走向“人类作曲家是否会变得不再必要”。这是个大问题。但在日常聆听里，更不起眼的变化先来了。

我们听完一首歌，然后搜索。看年代。看作者。看评论区。找有没有人写“这是 AI 吗？”音乐经验从耳朵移向浏览器。

Music 2.6 显示的不只是音乐生成能力的提升。当音乐变成随时随地都能从 API 中出来的东西，听众反而会比以前更想知道，那个声音究竟从哪里来。

比起歌曲本身，履历更让人在意。

这有点寂寞。但我不觉得它完全是坏事。听音乐，本来就不是只接收声音。谁在什么时候、在哪里、出于什么需要让它响起。我们一直也在听这些背后的时间。

如果生成式 AI 能够开始伪装那段时间，听众就会开始寻找时间的痕迹。

Music 2.6 的新闻留下来的，不只是未来感作曲工具带来的惊讶。更像是，在数字音乐的表面上，重新出现了拿起一张旧唱片时的手势：这是哪一年的声音？

参照

Cloudflare 的 X 帖子。https://x.com/Cloudflare/status/2048817969933787333 ↩
Cloudflare AI Docs, “MiniMax Music 2.6.” https://developers.cloudflare.com/ai/models/minimax/music-2.6/ ↩ ↩²
catnose 的 X 帖子。https://x.com/catnose99/status/2048586623126999502 ↩ ↩²
MiniMax, “MiniMax Music 2.6: Four Stories We Want to Tell.” 2026 年 4 月 10 日。https://www.minimax.io/news/music-26 ↩