Gemini 3.1 Flash TTS:新一代富有表现力的AI语音模型
Google DeepMind发布Gemini 3.1 Flash TTS文本转语音模型,在语音质量、可控性和表现力上显著提升,支持70多种语言和原生多说话人对话,并通过音频标签实现精细的创意控制。
Gemini 3.1 Flash TTS:新一代富有表现力的AI语音今天,我们推出Gemini 3.1 Flash TTS,这是最新的文本转语音模型,在可控性、表现力和质量上均有提升——赋能开发者、企业和日常用户构建下一代AI语音应用。
从今天起,3.1 Flash TTS将陆续推出:- 面向开发者:通过Gemini API和Google AI Studio提供预览- 面向企业:在Vertex AI上提供预览- 面向Workspace用户:
通过Google Vids提供改进的语音质量和可控性我们提升了Gemini 3.1 Flash TTS的整体语音质量,使其成为迄今为止最自然、最富有表现力的模型。
在Artificial Analysis TTS排行榜(一项捕捉数千个盲人偏好的基准测试)上,3.1 Flash TTS获得了令人印象深刻的1211 Elo评分。
Artificial Analysis还将Gemini 3.1 Flash TTS置于其“最具吸引力象限”,因其高质量语音生成与低成本的理想结合。该模型凭借原生多说话人对话、支持70多种语言以及通过自然语言实现的精细创意控制而进一步脱颖而出。
新的音频标签,实现更具表现力的语音生成3.1 Flash TTS还引入了音频标签——一种控制声音风格、节奏和表达的直观方式。通过将自然语言命令直接嵌入文本输入,您可以以更高的粒度水平引导AI语音输出。
您可以开始尝试这些音频标签以及Google AI Studio中开发人员体验的其他更新,通过可配置的控件将开发者置于“导演席”:- 场景指导:通过定义环境并提供具体对话指令来搭建场景。这种构建世界的上下文帮助角色保持“入戏”,并在多个回合中自然地相互反应。
- 说话人级别特异性:使用独特的音频配置文件分配角色,然后指定导演笔记以切换节奏、语调和口音。使用内联标签,说话者可以从这些高级设置中切换,在句子中间改变表达。
- 无缝导出:一旦表演完善,这些精确参数可以导出为Gemini API代码,以确保在不同项目和平台上声音一致且可识别。通过这些新配置,开发者可以提升特定场景的精确度,创造令人难忘的角色和沉浸式音频体验。
在Google AI Studio Playground中开始高保真语音生成。为全球规模而构建Gemini 3.1 Flash TTS在70多种语言中提供高保真语音和更精确的控制。
这些核心优化为主要市场带来了先进的风格、节奏和口音控制,帮助开发者为全球用户创建本地化、富有表现力的语音体验。早期开发者和企业测试者已经看到了3.1 Flash TTS的影响,
凸显了其令人印象深刻的可控性和表现力。他们告诉我们,音频标签提供了新水平的创意精确度,将简单文本转化为高保真的声音表演。使用SynthID添加水印所有由Gemini 3.1 Flash TTS生成的音频均带有SynthID水印。
这种难以察觉的水印直接嵌入音频输出中,能够可靠地检测AI生成的内容,从而帮助防止错误信息。有关我们安全与责任方法的更多信息,您可以查看模型卡。
本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。