团队在超过 4000 万个数据样本上进行了训练,并发现学术论文中使用的三种常见训练技术在规模化时变得无效。关键思路证明很简单:以常规数字输出坐标,例如“523, 417.” 先前的研究为坐标发明了专门的位置词汇,但这些方法无法规模化。团队还发现,将文本指令放在图像之前可以提升性能,因为模型在处理像素时能够识别目标。此外,诸如 DPO 之类的强化学习方法在微调之后仍能提高准确率。

团队在超过 4000 万个数据样本上进行了训练,并发现学术论文中使用的三种常见训练技术在规模化时变得无效。关键思路证明很简单:以常规数字输出坐标,例如“523, 417.” 先前的研究为坐标发明了专门的位置词汇,但这些方法无法规模化。团队还发现,将文本指令放在图像之前可以提升性能,因为模型在处理像素时能够识别目标。此外,诸如 DPO 之类的强化学习方法在微调之后仍能提高准确率。
声明:文章不代表币圈网立场和观点,不构成本站任何投资建议。内容仅供参考!
免责声明:本站所有内容仅供用户学习和研究,不构成任何投资建议.不对任何信息而导致的任何损失负责.谨慎使用相关数据和内容,并自行承担所带来的一切风险.