精选· 重要性 4/5

Gemini 3.1 Flash TTS：新一代富有表现力的AI语音模型

Google DeepMind Blog·大约 2 个月前·约 4 分钟阅读

中文导读

Google DeepMind发布Gemini 3.1 Flash TTS文本转语音模型，在语音质量、可控性和表现力上显著提升，支持70多种语言和原生多说话人对话，并通过音频标签实现精细的创意控制。

Gemini 3.1 Flash TTS：新一代富有表现力的AI语音今天，我们推出Gemini 3.1 Flash TTS，这是最新的文本转语音模型，在可控性、表现力和质量上均有提升——赋能开发者、企业和日常用户构建下一代AI语音应用。

从今天起，3.1 Flash TTS将陆续推出：- 面向开发者：通过Gemini API和Google AI Studio提供预览- 面向企业：在Vertex AI上提供预览- 面向Workspace用户：

通过Google Vids提供改进的语音质量和可控性我们提升了Gemini 3.1 Flash TTS的整体语音质量，使其成为迄今为止最自然、最富有表现力的模型。

在Artificial Analysis TTS排行榜（一项捕捉数千个盲人偏好的基准测试）上，3.1 Flash TTS获得了令人印象深刻的1211 Elo评分。

Artificial Analysis还将Gemini 3.1 Flash TTS置于其“最具吸引力象限”，因其高质量语音生成与低成本的理想结合。该模型凭借原生多说话人对话、支持70多种语言以及通过自然语言实现的精细创意控制而进一步脱颖而出。

新的音频标签，实现更具表现力的语音生成3.1 Flash TTS还引入了音频标签——一种控制声音风格、节奏和表达的直观方式。通过将自然语言命令直接嵌入文本输入，您可以以更高的粒度水平引导AI语音输出。

您可以开始尝试这些音频标签以及Google AI Studio中开发人员体验的其他更新，通过可配置的控件将开发者置于“导演席”：- 场景指导：通过定义环境并提供具体对话指令来搭建场景。这种构建世界的上下文帮助角色保持“入戏”，并在多个回合中自然地相互反应。

- 说话人级别特异性：使用独特的音频配置文件分配角色，然后指定导演笔记以切换节奏、语调和口音。使用内联标签，说话者可以从这些高级设置中切换，在句子中间改变表达。

- 无缝导出：一旦表演完善，这些精确参数可以导出为Gemini API代码，以确保在不同项目和平台上声音一致且可识别。通过这些新配置，开发者可以提升特定场景的精确度，创造令人难忘的角色和沉浸式音频体验。

在Google AI Studio Playground中开始高保真语音生成。为全球规模而构建Gemini 3.1 Flash TTS在70多种语言中提供高保真语音和更精确的控制。

这些核心优化为主要市场带来了先进的风格、节奏和口音控制，帮助开发者为全球用户创建本地化、富有表现力的语音体验。早期开发者和企业测试者已经看到了3.1 Flash TTS的影响，

凸显了其令人印象深刻的可控性和表现力。他们告诉我们，音频标签提供了新水平的创意精确度，将简单文本转化为高保真的声音表演。使用SynthID添加水印所有由Gemini 3.1 Flash TTS生成的音频均带有SynthID水印。

这种难以察觉的水印直接嵌入音频输出中，能够可靠地检测AI生成的内容，从而帮助防止错误信息。有关我们安全与责任方法的更多信息，您可以查看模型卡。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读