精选· 重要性 4/5

谷歌发布Gemini 3.5 Live Translate，实现即时语音翻译

Ars Technica — AI·1 天前·Ryan Whitwam·约 2 分钟阅读

中文导读

谷歌推出基于Gemini 3.5模型的语音到语音翻译功能，支持70多种语言，延迟低至数秒，并匹配语调节奏，已在多个平台开放预览。

谷歌多年来一直在追求实时翻译，称这是其“开创性的机器学习实验之一”。过去，我们在谷歌活动的舞台上看到过许多演示，但需要谷歌手机、耳机或其他特定设置。去年，谷歌通过Translate应用为更多用户带来了实时翻译，现在它正在进一步扩大可用性。

随着Gemini 3.5 Live Translate的发布，您将可以在更多地方获得即时翻译，且延迟比以往任何时候都低。这个新AI模型是I/O大会上发布的3.5系列的一部分。在此之前，谷歌只推出了Flash版本，但我们预计Pro模型将在未来几周内推出。

Gemini 3.5 Live Translate是一种语音到语音模型，可自动检测并翻译70多种语言。谷歌称，Gemini 3.5 Live Translate的速度足以跟上正常对话，仅落后说话者几秒钟，同时还能匹配语调、节奏和音高。

简而言之，声音听起来更像你，而不是一个通用的机器人。这些演示都是在受控条件下录制的，听起来确实令人印象深刻。不过，您不必等待太久即可亲自验证模型的能力。Gemini 3.5 Live Translate正在谷歌生态系统的多个部分推出。

开发者可以通过Gemini Live API或AI Studio的公开预览开始构建。

该模型连续处理语音，并自动处理所有多语言输入，使开发者无需手动配置设置。它还能在嘈杂环境中过滤背景噪音。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读