乐天发布Rakuten AI 3.0 开源模型引发关注

乐天集团于3月17日宣布推出名为Rakuten AI 3.0的高性能人工智能模型,称其为“日本最大”且具备领先性能。该模型以混合专家(MoE)架构构建,总参数量达671B,推理时激活参数为37B,支持长达128K的上下文窗口,特别针对日语语言特性进行优化,在多项日语基准测试中表现优于GPT-4o。

模型开源背后的技术溯源

尽管乐天在公告中强调“充分利用开源社区最优成果”,并未明确指出基础模型来源,但开源社区迅速对HuggingFace上发布的模型文件展开分析。结果显示,config.json中明确标注model_type为deepseek_v3,architectures为DeepseekV3ForCausalLM,且参数规模、激活机制与上下文长度均与DeepSeek V3完全一致。 这一发现表明,Rakuten AI 3.0实为在DeepSeek V3基础上,通过大规模日语语料进行微调所形成的本地化版本。其技术底座源自公开开源模型,而日本经济产业省与新能源产业技术综合开发机构(NEDO)则为其提供了部分训练算力支持,属于国家推动的GENIAC项目成果之一。