Claude 的中文语言分词成本比英文高 65%，OpenAI 仅高 15%

Gate 新闻消息，4 月 29 日——AI 研究员 Aran Komatsuzaki 通过将 Rich Sutton 的奠基性论文《The Bitter Lesson》翻译成九种语言，并将其交由 OpenAI、Gemini、Qwen、DeepSeek、Kimi 和 Claude 的分词器进行处理，对六个主要 AI 模型的分词效率进行了对比分析。研究以在 OpenAI 上使用英文版本的分词数量作为基准 (1x)，结果显示出显著差异：在 Claude 上处理相同内容需要的代币（tokens）为 1.65 倍，而在 OpenAI 上仅为 1.15 倍。印地语在 Claude 上的结果更为极端，较基准高出超过 3 倍。在所测试的六个模型中，Anthropic 的表现最低。

关键在于，当相同的中文文本在不同模型中进行处理——且都以同一个英文基准来衡量——结果出现了惊人的分歧：Kimi 消耗的代币仅为 0.81 倍 (，甚至比英文还少)；Qwen 为 0.85 倍；而 Claude 需要 1.65 倍。这个差距揭示的是纯粹的分词效率问题，而非语言本身的问题。中文模型在处理中文时展现出更高的效率，这表明差异源于分词器的优化，而不是语言属性。

对用户而言，其实际影响相当可观：代币消耗的增加会直接推高 API 成本，延长模型响应延迟，并更快耗尽上下文窗口。分词效率取决于模型训练数据的语言构成——如果模型主要在英文数据上训练，那么对英文文本的压缩会更高效；而数据代表性较低的语言，则会被分割成更小、效率更低的片段。

Komatsuzaki 的结论强调了一个基础原则：市场规模决定分词效率。更大的市场往往带来更好的优化；而在市场中代表性不足的语言，将面临显著更高的代币成本。

声明：文章不代表币圈网立场和观点，不构成本站任何投资建议。内容仅供参考！

Claude 的中文语言分词成本比英文高 65%，OpenAI 仅高 15%

相关阅读