张驰描述了 Seed 内部的“基准测试文化”,即团队负责人会根据其所负责的基准分数来被评估,所有成员都专注于提升数据。然而,他指出这在实践中并不会转化为更好的用户体验。尽管从纸面上看,中国头部公司的模型似乎与美国的前沿模型具有竞争力,但在实际使用中却有所欠缺。Seed 的目标是达到全球顶级水平,但张驰表示他不认为团队已经达成,且也未达到国内领导层目标。
到 2024 年底,Seed 认为自己与 GPT-4o 水平相当,但在 DeepSeek 发布之后,团队意识到差距仍然存在。张驰加入时,这个团队的整个组正紧急转向强化学习,以弥补不足。
