Google 发布 Gemini 3.1 Flash TTS：增强情感表达与多说话人能力

4 月 17 日——Google 于 4 月 15 日公布 Gemini 3.1 Flash TTS，这是一款先进的文本转语音模型，具备增强的情感表达与控制特性。新模型将通过开发者 API、企业 Vertex AI 以及协作工具逐步推出。

该模型的核心能力包括基于自然语言的音频标签，用于加快微调速度、控制语调与情感；另配备“导演模式”，可用于指定场景与角色身份，以生成更细腻的语音输出。多说话人功能可实现同时生成对话内容，使对话流程更自然，适用于播客、有声内容以及 AI 助手。该模型支持 70 多种语言和方言，体现了地区口音与表达方式，为全球本地化语音体验提供支持。

Google 强调性能与成本效率，在盲测的人类评估基准上取得了高分，同时通过其 Flash 架构降低了计算成本——该架构面向大规模企业采用进行了设计。生成的音频包含 SynthID 水印，用于识别 AI 生成内容并打击不实信息。

此举体现了语音交互领域竞争的进一步加剧。OpenAI 正将实时语音能力与对话式 AI 结合，以实现类似人类的交互，而 Meta 则在具有语音驱动的社交体验方面扩大对 AI 角色的投入。行业观察者指出，尽管高水平的表演和创意工作目前仍可能由人类主导，但重复性与大规模生产市场可能会在配音、广告和有声读物等领域逐步迎来 AI 采用。

声明：文章不代表币圈网立场和观点，不构成本站任何投资建议。内容仅供参考！

Google 发布 Gemini 3.1 Flash TTS：增强情感表达与多说话人能力

相关阅读