小米发布 ControlFoley，开放源代码的视频音频框架，支持精确的声音控制

据 Beating 称，小米的 AI 团队发布并开源了 ControlFoley，这是一个用于视频音频生成的框架，能够通过文本描述或参考音频为创作者提供对声音风格的精确控制。与传统的 AI 配音系统仅根据视觉内容推断声音不同，ControlFoley 允许创作者在保持音视频同步的同时修改音频特征——例如将敲门声改为金属撞击，或为网球撞击应用鼓点音色。该框架采用时空音频-视觉编码器，并使用时间-音色解耦策略。该项目的技术报告、代码、模型权重和演示现在均已提供。

声明：文章不代表币圈网立场和观点，不构成本站任何投资建议。内容仅供参考！

小米发布 ControlFoley，开放源代码的视频音频框架，支持精确的声音控制

相关阅读