OmniVoice 采用简化架构,使用单个双向 Transformer,直接将文本映射到离散的声学标记,从而在 PyTorch 中实现比实时快 40 倍的推理速度。该模型在来自 50 个开源数据集的 580,000 小时音频上进行训练。在对 24 种测试语言的评估中,OmniVoice 在语音相似度和可懂度方面优于商业系统;在 102 种语言中,它与人类录音相当或表现更好。

OmniVoice 采用简化架构,使用单个双向 Transformer,直接将文本映射到离散的声学标记,从而在 PyTorch 中实现比实时快 40 倍的推理速度。该模型在来自 50 个开源数据集的 580,000 小时音频上进行训练。在对 24 种测试语言的评估中,OmniVoice 在语音相似度和可懂度方面优于商业系统;在 102 种语言中,它与人类录音相当或表现更好。
声明:文章不代表币圈网立场和观点,不构成本站任何投资建议。内容仅供参考!
免责声明:本站所有内容仅供用户学习和研究,不构成任何投资建议.不对任何信息而导致的任何损失负责.谨慎使用相关数据和内容,并自行承担所带来的一切风险.