小米正式上线MiMo-V2系列多模态AI模型,全面布局智能应用生态
3月19日凌晨,小米发布新一代AI模型MiMo-V2系列,包含旗舰级推理模型Pro、全模态基础模型Omni及语音合成模块TTS,覆盖从通用推理到跨模态理解的完整能力链。
旗舰推理模型性能跃升,性价比优势显著
MiMo-V2-Pro拥有超过1万亿参数(420亿激活参数),支持长达百万级Token上下文处理,专为复杂Agent任务优化。在Artificial Analysis榜单中位列全球第八、中国第二,在PinchBench与ClawEval评测中均居全球第三。其综合表现超越Claude Sonnet 4.6,接近Opus 4.6水平,但定价仅为后者的五分之一:100万上下文内输入每百万token仅需1美元,输出3美元;100万以上上下文则为输入2美元、输出6美元。该模型已与金山WebOffice深度打通,WPS灵犀同步集成。
全模态基座实现四路输入融合,理解能力再升级
MiMo-V2-Omni作为统一基础模型,支持文本、图像、音频、视频四种模态同时输入,具备256K上下文容量。其音频处理能力可支持超10小时连续长音频解析,综合评估表现超越Gemini 3 Pro;图像理解能力超越Claude Opus 4.6,并逼近Gemini 3 Pro水准,展现出强大的跨模态融合潜力。
自研语音合成引擎实现情绪与风格精准调控
MiMo-V2-TTS基于自主研发的Audio Tokenizer架构,依托上亿小时语音数据训练而成,支持从整体语调风格到局部情感表达的多层次控制。不仅能生成自然流畅的口语内容,还可高质量合成歌声,并覆盖东北话、四川话、河南话、粤语及台湾腔等多元方言体系。
目前三款模型已全面接入Xiaomi miclaw、MiMo Studio、金山办公系统及小米浏览器,同时可通过OpenClaw、OpenCode、KiloCode、Blackbox、Cline五大Agent开发框架调用,首周限时免费开放使用。
