据 Beating 称,小米的 AI 团队发布并开源了 ControlFoley,这是一个用于视频音频生成的框架,能够通过文本描述或参考音频为创作者提供对声音风格的精确控制。与传统的 AI 配音系统仅根据视觉内容推断声音不同,ControlFoley 允许创作者在保持音视频同步的同时修改音频特征——例如将敲门声改为金属撞击,或为网球撞击应用鼓点音色。该框架采用时空音频-视觉编码器,并使用时间-音色解耦策略。该项目的技术报告、代码、模型权重和演示现在均已提供。