Music 2.6 之后,我们先查年代,再听歌曲
只听声音,很容易错过 AI 音乐生成正在发生的变化。
Cloudflare 在 X 上提到了 MiniMax 的 Music-2.6,Cloudflare 的 AI Models 中也已经列出 minimax/music-2.6。12 文档说明,它可以根据文本提示和歌词生成带人声的完整歌曲,也可以生成纯音乐,控制 BPM 和调性,并自动生成歌词。音乐生成正在从“在专用应用里试试看”的东西,变得越来越像一次普通的 API 调用。
但这里让我在意的,不只是又多了一个模型。创作一侧的阻力降低时,听众一侧的戒备也会改变。最近也有人观察到,大家开始不是靠耳朵,而是靠“年代”去判断一首歌是不是生成式 AI 音乐。3
这看起来只是一个很小的搜索习惯。可是,音乐的可信度正在一点点从声音本身移向元数据。作为征兆,这件事并不小。
创作变成 API 的形状
Cloudflare 文档中对 Music 2.6 的说明,与其说是音乐制作的语言,不如说更接近面向开发者的输入输出规格。
在 prompt 里写风格和情绪。需要时传入 lyrics。想把歌词交给模型处理,就用 lyrics_optimizer。不需要人声,就把 is_instrumental 设为 true。输出是生成音频文件的 URL。2
这种形式本身,已经不算多么未来。我们在图像生成和视频生成中见过类似结构,现在它进入了音乐。只是放到音乐里,这个变化有另一种重量。
音乐一直把“谁演奏了它”“谁唱了它”“它在哪个房间里响起”“它属于哪个年代的录音”这些信息,包在声音的质感里。老录音的噪声,鼓声的距离,声音贴近麦克风的方式,合成器的触感。这些不是装饰,而是告诉我们声音从哪里来的手感。
Music 2.6 这样的模型,让这种手感变成可以用提示词召唤的东西。深夜的咖啡馆。Boss 战。弗拉门戈里的停顿。低频很重的俱乐部曲目。这些词会成为制作音乐的指令。
到这个时候,音乐会从“被录下来的事件”,一点点偏向“被生成出来的状态”。
2.6 的卖点,正在靠近人的感觉
MiniMax 自己的公告并没有把 Music 2.6 写成一张规格表,而是用四个使用场景来讲它:舞者、游戏开发者、咖啡馆播放列表、送给母亲的生日惊喜。它强调的也不只是能做出一首歌,而是停顿、低频、情绪展开、稍微不完美的声音,以及把既有旋律移到另一种风格中的 Cover 功能。4
这里很值得停一下。
早期 AI 音乐生成的卖点是“几秒钟做出一首歌”。Music 2.6 的语言则靠近了更细的地方。它瞄准的不只是“像音乐”,而是人会在音乐中感到有人存在的那些位置。
如果是弗拉门戈,不只是音符,还有沉默。如果是游戏音乐,不只是华丽,还有打到胸口的低频。如果是咖啡馆,不是完美歌唱,而是还残留一点生活感的声音。它的说法是,模型已经可以抵达那里。
当然,这是官方公告,不等于对实际输出的直接评价。即便如此,卖法转向了那里,本身就不能忽略。生成式 AI 音乐已经不再只竞争“能不能做歌”,而是开始竞争“能把歌曲感做细到什么程度”。
听众开始看年代
听众这边,则出现了另一种反应。
听到一首歌。做得很好。声音自然,编曲也像那么回事。可是心里还是会有一点怀疑。这真的是以前的音源吗?还是最近做出来的生成式 AI 歌曲?于是,不只查歌名和艺人名,还会查发行年、上传时间、这首作品所属的年代。
catnose 的帖子指向的,大概就是这种感觉。3 只在声音内部,已经很难判断它是不是生成式 AI。于是人会走到声音外面,去看年表。这是一首 2026 年突然出现的“80 年代风”歌曲吗?还是真实存在的旧录音?它属于某个人的过去,还是模型重组出了过去的手感?
作为一种听音乐的方式,这相当奇怪。
过去查年代,是为了加深语境。它什么时候发行?属于哪个场景?受了什么影响,又影响了什么?现在,另一个目的混了进来。我们看年代,是为了确认:这个声音是否穿过了人的时间。
音乐的真假,不再只在耳朵里结束。
元数据也成了音乐的一部分
这种变化多少有些不舒服。
音乐本来应该先响起来。听见它,身体反应,然后决定喜不喜欢。署名和制作过程,是后来才进入的信息。可是当生成式 AI 音乐足够像音乐时,我们会一边听声音,一边去搜周围的信息。
发行日是什么时候?艺人有没有履历?有没有现场影像?过去作品是否连续?厂牌是否真实存在?说明文字是不是空的?署名里有没有人的名字?
这些信息已经不再是附属物。它们变成了我们相信一段音乐所需要的一部分。
这不只是 AI 音乐的问题。匿名翻唱、看不见版权处理的音源、在短视频里突然流行的来历不明的曲子、虚构艺人。现在的平台上,音乐从一开始就是带着元数据流通的。生成式 AI 把这种不透明一下子放大了。
对创作者来说,Music 2.6 这样的模型可以作为 API 使用,当然方便。影像、游戏、播客、店铺、广告。可以按场景输出所需长度和质感的声音。
可是对听众来说,方便之外还有另一个问题。声音好听就够了吗?一个没有穿过任何人的时间的声音,我们能把自己的时间交给它到什么程度?
留下来的,也许不是耳朵,而是履历
围绕生成式 AI 音乐的讨论,常常会走向“人类作曲家是否会变得不再必要”。这是个大问题。但在日常聆听里,更不起眼的变化先来了。
我们听完一首歌,然后搜索。看年代。看作者。看评论区。找有没有人写“这是 AI 吗?”音乐经验从耳朵移向浏览器。
Music 2.6 显示的不只是音乐生成能力的提升。当音乐变成随时随地都能从 API 中出来的东西,听众反而会比以前更想知道,那个声音究竟从哪里来。
比起歌曲本身,履历更让人在意。
这有点寂寞。但我不觉得它完全是坏事。听音乐,本来就不是只接收声音。谁在什么时候、在哪里、出于什么需要让它响起。我们一直也在听这些背后的时间。
如果生成式 AI 能够开始伪装那段时间,听众就会开始寻找时间的痕迹。
Music 2.6 的新闻留下来的,不只是未来感作曲工具带来的惊讶。更像是,在数字音乐的表面上,重新出现了拿起一张旧唱片时的手势:这是哪一年的声音?
参照
Footnotes
-
Cloudflare 的 X 帖子。https://x.com/Cloudflare/status/2048817969933787333 ↩
-
Cloudflare AI Docs, “MiniMax Music 2.6.” https://developers.cloudflare.com/ai/models/minimax/music-2.6/ ↩ ↩2
-
catnose 的 X 帖子。https://x.com/catnose99/status/2048586623126999502 ↩ ↩2
-
MiniMax, “MiniMax Music 2.6: Four Stories We Want to Tell.” 2026 年 4 月 10 日。https://www.minimax.io/news/music-26 ↩