FEATUREDAI HOT 精选· aihot-apiZH14:30 · 06·08
面壁智能开源 VoxCPM2 语音模型,200 万小时数据训练,支持 30 种语言和 9 种方言
OpenBMB 把 VoxCPM2 的技术报告和模型都放出来了,Apache 2.0 协议。这是个 20 亿参数的语音生成模型,用超过 200 万小时的多语言语音数据训练,能说 30 种语言和 9 种中文方言。它主要干三件事:按自然语言指令设计语音、可控地克隆声音,以及高保真地延续一段语音。技术方案上,它把语音拆成两步走——先用 16kHz 做语义编码...
#Audio#Fine-tuning#Benchmarking#OpenBMB
精选理由
HKR 三项都踩中了:200 万小时训练数据和 9 种方言是实打实的钩子,参数和协议信息也够新,对国内语音开发者有直接参考意义。分数定在 78 是因为技术报告正文没给出具体的评测基准和对比数字,实际效果和落地表现还不清楚,这点先别太激动。
一句话点评
OpenBMB 开源了一个 20 亿参数的语音模型,200 万小时训练数据,能说 30 种语言和 9 种方言,Apache 2.0 协议可以直接商用。
锐评
VoxCPM2 这次把技术报告、模型权重和微调代码全放出来了,Apache 2.0 协议,对想自己改语音模型的人来说门槛很低。20 亿参数不算大,但 200 万小时的多语言训练数据量很扎实,覆盖 30 种语言和 9 种中文方言,零样本克隆声音和指令控制语音风格这两项能力在公开基准上跑到了领先水平。
技术路线上它把语音拆成两步:先用 16kHz 做语义编码,再用 48kHz 重建波形,相当于先理解要说什么、再精细还原怎么说。这个设计的好处是保真度高,但正文没披露推理延迟和显存占用,实际部署成本还不清楚。另外,200 万小时数据的具体来源和清洗方式也没展开,方言效果到底怎么样得自己试。
我会先打个折:基准成绩好看,但真实场景里噪音、口音、长文本稳定性这些才是硬仗。如果你要做语音助手或配音工具,值得拿自己的数据跑一轮微调看看。
HKR 分解
hook ✓knowledge ✓resonance ✓