Refine MOSS-Audio backbone enhancement bullets

7b065d2 verified about 1 month ago

19.3 kB

license: apache-2.0
language:
  - en
  - zh
library_name: transformers
pipeline_tag: audio-text-to-text
tags:
  - music
  - music-understanding
  - audio
  - audio-language-model
  - moss
  - moss-music
  - lyrics-asr
  - music-captioning
  - chord-recognition

MOSS-Music

MOSS-Music logo

English | 简体中文

MOSS-Music 是由 MOSI.AI、OpenMOSS 团队与上海创智学院推出的开源 音乐理解模型。它基于与 MOSS-Audio 相同的音频 backbone，在音乐上进行了专门的 持续预训练 和 监督微调，面向 音乐描述、歌词 ASR、结构分析、和弦 / 调式 / 节奏推理以及长时音乐问答 等任务。本次发布共提供 两个 8B 模型：MOSS-Music-8B-Instruct 和 MOSS-Music-8B-Thinking。其中 Instruct 版本更适合直接指令跟随，Thinking 版本则具备更强的音乐分析链式思维推理能力。

新闻

2026.04.27：🎉🎉🎉 我们已发布 MOSS-Music。
2026.04.27：🎉🎉🎉 我们已发布用于大规模音乐数据标注与处理的 MOSS-Music-Data-Pipeline。

介绍

理解音乐并不只是「一段音频 + 一段文字」：它需要模型同时感知和声结构、节奏、音色、乐器编排、演唱细节以及歌词语义，并在时间维度上进行联合推理。 MOSS-Music 的目标就是在单一模型中统一这些能力。

歌词 ASR 与时间戳对齐：抗伴奏的歌唱 ASR，支持句级 / 词级时间戳。
音乐描述与标签：用自然语言刻画情绪、风格、配器、制作风格以及情绪走向。
调式 / 节奏 / 和弦推理：识别调式、节拍、下拍以及和弦进行，支持和弦转录与带时间戳和弦转录。
结构分析：将歌曲切分为 intro / verse / chorus / bridge / outro，并对重复与对比段落进行推理。
乐器与声音识别：识别主奏乐器、演唱声部（独唱 / 合唱、性别、音区）等。
音乐问答与长时分析：针对一首完整作品进行开放式问答，Thinking 版本还支持链式思维推理。

模型架构

MOSS-Music 继承了 MOSS-Audio 的模块化设计：音频编码器、模态适配器与大语言模型三个部分。原始音频首先由 MOSS-Audio-Encoder 编码为 12.5 Hz 的连续时序表征，然后通过适配器投影到语言模型的嵌入空间，最终由 LLM 完成自回归文本生成。

我们没有依赖现成的通用音频前端，而是从零训练专用编码器，以获得更鲁棒的声学表征、更紧密的时间对齐能力，以及在音乐风格、歌唱与非语音内容上的更好扩展性。

DeepStack 跨层特征注入

如果仅使用编码器顶层特征，往往会丢失底层韵律、瞬态事件以及局部时频结构。为了解决这一问题，我们在编码器与语言模型之间采用了受 DeepStack 启发的跨层注入模块：除了编码器最终层输出外，还会选取更早期和中间层特征，分别进行独立投影，并注入语言模型的前几层，从而保留从低层声学细节到高层语义抽象的多粒度信息。

这一设计尤其适合音乐理解任务：它有助于保留节奏、音色、瞬态与乐器质感 —— 这些信息无法仅用一个高层表征承载，却对和弦识别、结构分析和细粒度音乐描述至关重要。

时间感知表示

时间是音乐理解中的关键维度。为了增强模型对显式时间位置的感知能力，我们在预训练阶段采用 时间标记插入 策略：按照固定时间间隔，在音频帧表征之间插入显式时间 token 用于标记时间位置。该设计使模型能够在统一的文本生成框架中学习「什么发生在什么时候」，从而自然支持带时间戳的歌词 ASR、节拍 / 下拍定位、段落边界检测以及长歌回溯问答。

在 MOSS-Audio 骨干之上，MOSS-Music 做了：

持续预训练：使用用于大规模音乐数据标注与处理的流水线 MOSS-Music-Data-Pipeline 构建的大规模多样音乐语料，重点覆盖歌唱、歌词及完整歌曲；
音乐指令 SFT：覆盖描述、歌词 ASR、和弦 / 调式 / 结构分析、长时音乐问答；
Thinking 版本的推理调优。

已发布模型

模型	音频编码器	LLM 骨干	总规模	Hugging Face	ModelScope
MOSS‑Music‑8B‑Instruct	MOSS-Audio-Encoder	Qwen3-8B	~9.1B
MOSS‑Music‑8B‑Thinking	MOSS-Audio-Encoder	Qwen3-8B	~9.1B

更小规模（4B）及更多变体将后续放出，敬请期待。

音乐数据流水线

MOSS-Music 的训练数据由一条端到端的流水线生成：从原始音频直接产出 chat 格式训练样本。该流水线见仓库 MOSS-Music-Data-Pipeline，其中包括时长检测、MIR 特征抽取、歌曲结构切分、歌词 ASR、元数据清洗，以及基于 ALM 的 caption / query 生成；ALM 侧可对接 Qwen3-Omni、MusicFlamingo 等音频语言模型。

评测

我们在一组公开音乐理解基准上评测 MOSS-Music，当前结果如下：

音乐 QA 与理解：MOSS-Music-8B-Instruct 在 8 个公开音乐 QA / 理解基准上取得 80.38 的平均准确率。
音乐描述（Music Captioning）：在当前初步 GPT-5.4-as-a-Judge 评测中，MOSS-Music 系列在两个 caption benchmark 上均保持领先，其中 MOSS-Music-8B-Thinking 在 MusicCaps 上取得 4.53，MOSS-Music-8B-Instruct 在 SDD 上取得 4.58。
歌词 ASR（歌声场景）：MOSS-Music-8B-Thinking 在 MUSDB18、MIR-1K、Opencpop 三个歌声数据集上取得 15.88% 的平均 WER/CER，明显优于包括 Gemini-3.1-Pro-Preview、MusicFlamingo 与 Qwen3-Omni 在内的所有对比 audio-language 模型。详细的歌声时间戳 ASR 结果将在后续版本补充。
和弦转录：MOSS-Music 支持和弦转录与带时间戳和弦转录，可用于和声分析、伴奏参考以及音乐教学等场景。详细 benchmark 结果将在后续版本补充。

音乐 QA 与理解（Accuracy↑）

模型	MMAU-music	MMAU-mini-music	MMAU-Pro-music	MMAR-music	MuChoMusic	Music-AVQA	NSynth (instrument)	NSynth (source)	NSynth (pitch)	GTZAN	Medley-Solos-DB	Avg
MOSS‑Music‑8B‑Instruct	79.33	80.78	71.02	59.70	89.39	76.78	86.55	61.07	86.94	93.59	92.42	80.38
Gemini‑3.1‑Pro	71.69	77.18	73.06	71.64	79.53	61.51	13.38	38.90	6.47	86.39	80.34	75.17
MOSS‑Music‑8B‑Thinking	74.09	77.78	67.98	50.25	82.90	68.90	56.17	57.48	77.83	84.78	87.42	74.26
MusicFlamingo	76.83	76.35	65.60	48.66	74.58	73.60	80.76	75.89	0.00	84.45	90.86	73.87
Audio‑Flamingo‑Next	72.39	72.07	61.64	45.27	75.62	62.94	86.40	66.73	0.05	77.68	91.47	69.89
MiMo‑Audio‑7B‑Instruct	66.36	72.97	66.50	45.77	75.40	57.05	25.01	1.49	4.86	65.67	93.81	67.94
Step‑Audio‑R1	66.46	75.08	62.34	50.75	72.62	57.98	13.75	15.87	2.39	73.67	82.45	67.67
Qwen3‑Omni	65.76	68.77	66.27	48.54	78.77	56.05	30.92	44.30	28.08	80.15	69.65	66.75
Kimi‑Audio‑7B‑Instruct	47.95	52.25	59.10	45.27	70.18	68.90	6.01	0.81	3.88	39.54	71.98	56.90

Avg 由 8 个公开音乐 QA / 理解基准计算得到： MMAU-music、MMAU-mini-music、MMAU-Pro-music、MMAR-music、 MuChoMusic、Music-AVQA、GTZAN 与 Medley-Solos-DB。

之所以不将 3 个 NSynth 子任务并入主平均分，是因为它们更强调短时单音上的细粒度识别能力，包括乐器类别、声源属性（acoustic / electronic）以及精确音高判别。部分对比模型并不是面向这种 note-level classification 设定设计的，因此我们将 NSynth 结果单独保留在表中作为参考，而不混入 headline 平均分。

音乐描述（Music Captioning）

我们进一步在 MusicCaps 与 Song Describer Dataset (SDD) 上进行了 GPT-5.4-as-a-Judge 的初步 caption 评测。评分采用 1-5 分制，覆盖以下 9 个维度：风格/流派、情绪/氛围、速度/节奏感、配器/音色、人声相关、 旋律/和声、结构与段落变化、制作与声学质感、场景/用途/语义联想。

整体表现：MOSS-Music 系列在两个 caption benchmark 上均保持领先，其中 MOSS-Music-8B-Thinking 在 MusicCaps 上取得 4.53，而 MOSS-Music-8B-Instruct 在 SDD 上取得 4.58。
结构理解优势明显：在 Structure / Form / Progression 维度上， MOSS-Music 相比基线更强，尤其在 SDD 上优势更明显。
细粒度配器与场景联想：MusicFlamingo 与 Gemini-3.1-Pro 在 Instrumentation / Timbre 维度更有竞争力，其中 Gemini-3.1-Pro 在 Scene / Use Case 维度表现最好。

MusicCaps

模型	Genre	Mood	Tempo	Instr.	Vocals	Melody/Harmony	Structure	Production	Scene	Avg
MOSS‑Music‑8B‑Thinking	4.78	4.69	4.62	4.40	4.46	4.40	4.86	4.35	4.18	4.53
Gemini‑3.1‑Pro	4.70	4.60	4.48	4.68	4.18	4.18	3.86	4.40	4.72	4.42
MOSS‑Music‑8B‑Instruct	4.60	4.52	4.46	4.02	4.30	4.38	4.78	4.20	3.96	4.36
MusicFlamingo	4.80	4.36	4.50	4.64	3.94	4.08	3.58	4.30	3.72	4.21
Audio‑Flamingo‑Next	4.34	4.56	4.08	4.30	4.18	3.78	3.66	4.04	3.92	4.10
MiMo‑Audio‑7B‑Instruct	4.02	4.20	4.46	4.28	4.36	3.62	3.30	4.08	3.50	3.98
Step‑Audio‑R1	4.22	4.02	4.20	3.96	3.84	4.02	3.24	4.10	3.54	3.90
Qwen3‑Omni	4.58	4.50	4.26	3.62	3.64	3.48	2.98	4.18	4.42	3.96
Kimi‑Audio‑7B‑Instruct	3.98	3.92	4.32	3.88	4.48	3.28	2.72	3.72	3.24	3.73

Song Describer Dataset (SDD)

模型	Genre	Mood	Tempo	Instr.	Vocals	Melody/Harmony	Structure	Production	Scene	Avg
MOSS‑Music‑8B‑Instruct	4.84	4.76	4.68	4.24	4.52	4.56	4.92	4.42	4.24	4.58
Gemini‑3.1‑Pro	4.72	4.64	4.52	4.72	4.22	4.24	3.94	4.46	4.82	4.48
MOSS‑Music‑8B‑Thinking	4.66	4.58	4.50	4.36	4.36	4.44	4.84	4.26	4.02	4.45
MusicFlamingo	4.82	4.40	4.52	4.70	3.98	4.14	3.66	4.36	3.80	4.26
Audio‑Flamingo‑Next	4.40	4.62	4.14	4.36	4.22	3.84	3.74	4.10	4.00	4.16
MiMo‑Audio‑7B‑Instruct	4.08	4.26	4.52	4.34	4.42	3.70	3.38	4.16	3.58	4.05
Step‑Audio‑R1	4.30	4.10	4.26	4.02	3.92	4.10	3.32	4.18	3.62	3.98
Qwen3‑Omni	4.62	4.54	4.30	3.68	3.70	3.56	3.06	4.24	4.50	4.02
Kimi‑Audio‑7B‑Instruct	4.04	3.98	4.38	3.96	4.54	3.36	2.80	3.80	3.32	3.80

歌词 ASR（WER / CER↓）

我们进一步在三个代表性的歌声歌词 ASR 基准上评测 MOSS-Music：

MUSDB18：带伴奏的英文流行歌曲，以 WER 衡量；
MIR-1K：中文卡拉 OK 片段，带伴奏，以 CER 衡量；
Opencpop：干净的普通话棚录歌声，以 CER 衡量。

Avg 为三个数据集错误率的简单平均。

模型	MUSDB18 WER	MIR-1K CER	Opencpop CER	Avg
MOSS‑Music‑8B‑Thinking	29.19%	15.84%	2.60%	15.88%
MOSS‑Music‑8B‑Instruct	32.99%	23.96%	4.62%	20.52%
Gemini‑3.1‑Pro‑Preview	26.25%	36.37%	6.00%	22.87%
MusicFlamingo	23.41%	38.98%	18.73%	27.04%
Qwen3‑Omni‑30B‑A3B‑Instruct	62.67%	20.48%	2.26%	28.47%
MiMo‑Audio‑7B‑Instruct	94.16%	23.34%	6.77%	41.42%
Kimi‑Audio‑7B‑Instruct	97.53%	25.83%	4.90%	42.75%
Step‑Audio‑R1	81.67%	48.03%	4.15%	44.62%
Audio‑Flamingo‑Next	94.93%	55.63%	12.47%	54.34%

MOSS-Music-8B-Thinking 在三个数据集上取得 15.88% 的最优平均错误率，尤其在带伴奏的中文场景 MIR-1K 与干净普通话歌声 Opencpop 上有显著优势。 MOSS-Music 还继承了 MOSS-Audio 的时间感知表示能力，歌声时间戳 ASR 的详细结果将在后续版本补充。

和弦转录

MOSS-Music 支持和弦转录与带时间戳和弦转录，能够输出随时间变化的和弦进行，可用于和声分析、伴奏参考、教学标注等任务。相关 benchmark 结果将在后续更新中补充。

快速开始

环境配置

我们建议使用 Python 3.12 和 Conda 环境部署。

可选：FlashAttention 2

如果你的 GPU 支持 FlashAttention 2，可以把最后一条安装命令替换为：

pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-runtime,flash-attn]"

基础用法

先下载模型：

hf download OpenMOSS-Team/MOSS-Music-8B-Instruct --local-dir ./weights/MOSS-Music-8B-Instruct
hf download OpenMOSS-Team/MOSS-Music-8B-Thinking --local-dir ./weights/MOSS-Music-8B-Thinking

然后按需修改 infer.py 中的 MODEL_PATH / AUDIO_PATH，并执行：

python infer.py

为获得最佳生成质量和整体模型能力，我们强烈推荐使用 SGLang Serving 进行推理。

infer.py 中默认的 prompt 是 Please give a detailed musical description of this clip.。如果你想尝试歌词转写、和弦 / 调式 / 节奏分析、结构切分或开放式音乐问答，可以直接修改这一行。常用 prompt 示例：

请对这段音乐片段做一个详细的音乐性描述。
请从风格与速度、音色与和声、配器与编排、结构组织以及整体情绪氛围等方面描述这段音乐。
请转录这首歌的歌词。（可以加时间戳）
请转录这段音乐的和弦进行，并带上时间戳，以 JSON 格式输出。
这首曲子的调式、速度和情绪分别是什么？
请将这首歌划分为 verse / chorus / bridge 等段落。

Gradio 应用

使用以下命令启动 Gradio Demo：

python app.py

可通过 MOSS_MUSIC_SERVER_NAME / MOSS_MUSIC_SERVER_PORT 环境变量覆盖监听地址与端口，并通过 MOSS_MUSIC_MODEL_ID 覆盖默认模型。

SGLang 服务

如果你希望使用 SGLang 部署 MOSS-Music，可参考完整说明文档 moss_music_usage_guide.md。

最短的启动方式如下：

cd sglang
pip install -e "python[all]"
pip install nvidia-cudnn-cu12==9.16.0.29
cd ..

sglang serve \
  --model-path ./weights/MOSS-Music-8B-Instruct \
  --trust-remote-code

如果需要，也可以将 ./weights/MOSS-Music-8B-Instruct 替换为 ./weights/MOSS-Music-8B-Thinking。

如果你使用的是默认的 torch==2.9.1+cu128 运行时，建议在启动 sglang serve 之前先安装 nvidia-cudnn-cu12==9.16.0.29。

LICENSE

MOSS-Music 中的模型基于 Apache License 2.0 许可证发布，与 MOSS-Audio 保持一致。

引用

@misc{mossmusic2026,
      title={MOSS-Music Technical Report},
      author={OpenMOSS Team},
      year={2026},
      howpublished={\url{https://github.com/OpenMOSS/MOSS-Music}},
      note={GitHub repository}
}

OpenMOSS-Team
/

MOSS-Music-8B-Thinking