AI 见闻
精选· 重要性 4/5

谷歌发布Gemini 3.5 Live Translate,实现即时语音翻译

Ars Technica — AI··Ryan Whitwam·约 2 分钟阅读
中文导读

谷歌推出基于Gemini 3.5模型的语音到语音翻译功能,支持70多种语言,延迟低至数秒,并匹配语调节奏,已在多个平台开放预览。

谷歌多年来一直在追求实时翻译,称这是其“开创性的机器学习实验之一”。过去,我们在谷歌活动的舞台上看到过许多演示,但需要谷歌手机、耳机或其他特定设置。去年,谷歌通过Translate应用为更多用户带来了实时翻译,现在它正在进一步扩大可用性。

随着Gemini 3.5 Live Translate的发布,您将可以在更多地方获得即时翻译,且延迟比以往任何时候都低。这个新AI模型是I/O大会上发布的3.5系列的一部分。在此之前,谷歌只推出了Flash版本,但我们预计Pro模型将在未来几周内推出。

Gemini 3.5 Live Translate是一种语音到语音模型,可自动检测并翻译70多种语言。谷歌称,Gemini 3.5 Live Translate的速度足以跟上正常对话,仅落后说话者几秒钟,同时还能匹配语调、节奏和音高。

简而言之,声音听起来更像你,而不是一个通用的机器人。这些演示都是在受控条件下录制的,听起来确实令人印象深刻。不过,您不必等待太久即可亲自验证模型的能力。Gemini 3.5 Live Translate正在谷歌生态系统的多个部分推出。

开发者可以通过Gemini Live API或AI Studio的公开预览开始构建。

该模型连续处理语音,并自动处理所有多语言输入,使开发者无需手动配置设置。它还能在嘈杂环境中过滤背景噪音。

原文出处
Google announces Gemini 3.5 Live Translate for instant voice-to-voice translation

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。

相关阅读