在使用 Nvidia 的开源 Cosmos-Predict2 模型的实验中,推理时规划生成的连贯视频超过 20 秒。该系统在目标持续性、时间一致性和文本-视频对齐方面,优于 Greedy Search 和 Beam Search 等基线方法。与业界领先的闭源模型相比,此方法生成的视频时长比 Sora 长 18%,比 Kling 长 47%,且视觉保真度相当。作为即插即用的推理优化框架,该框架无需对底层模型进行再训练。

在使用 Nvidia 的开源 Cosmos-Predict2 模型的实验中,推理时规划生成的连贯视频超过 20 秒。该系统在目标持续性、时间一致性和文本-视频对齐方面,优于 Greedy Search 和 Beam Search 等基线方法。与业界领先的闭源模型相比,此方法生成的视频时长比 Sora 长 18%,比 Kling 长 47%,且视觉保真度相当。作为即插即用的推理优化框架,该框架无需对底层模型进行再训练。
声明:文章不代表币圈网立场和观点,不构成本站任何投资建议。内容仅供参考!
免责声明:本站所有内容仅供用户学习和研究,不构成任何投资建议.不对任何信息而导致的任何损失负责.谨慎使用相关数据和内容,并自行承担所带来的一切风险.