首页 > 综合

亚马逊推新AI语音模型Nova Sonic 价格比GPT-4o低约80%

【太平洋科技快讯】4 月9日，亚马逊正式推出其新一代生成式 AI 语音模型——Nova Sonic。官方表示，新模型在语音交互方面表现出色，能够自然地处理说话者的停顿和打断，并在合适的时机发言，相比亚马逊早期的 Alexa 等模型，交互体验更加自然流畅。

在多语言 LibriSpeech 基准测试中，Nova Sonic 在英语、法语、意大利语、德语和西班牙语上的平均单词错误率仅为 4.2%，远低于行业平均水平。此外，在多人参与的高音量互动测试中，其单词错误率比 OpenAI 的 GPT-4o-transcribe 模型低 46.7%。

Nova Sonic 的平均感知延迟仅为 1.09 秒，比 OpenAI 的 GPT-4o 模型(响应时间为 1.18 秒)更快。亚马逊声称 Nova Sonic 是市场上“最具成本效益”的 AI 语音模型，其价格比 OpenAI 的 GPT-4o 便宜约 80%。

Nova Sonic 通过亚马逊的 Bedrock 开发者平台提供给用户，该平台专注于构建企业级 AI 应用。此外，Nova Sonic 可通过一个全新的双向流式 API 进行接入，方便开发者快速部署和使用。Nova Sonic 的部分组件已经为亚马逊升级版数字语音助手 Alexa 提供了动力支持，进一步提升了 Alexa 的语音交互能力。

据悉，Nova Sonic 是亚马逊构建人工通用智能(AGI)战略的重要组成部分。AGI 被定义为“能够在计算机上完成人类所能做的一切事情的 AI 系统”。亚马逊计划在未来推出更多能够理解不同模态(包括图像、视频和语音)的 AI 模型，以拓展其在 AI 领域的布局。

亚马逊表示，从 Nova Sonic 开始，将逐步将更多内部 AI 模型提供给开发者使用，以助力开发者构建各种创新应用。此外，亚马逊还推出了 Nova Act 的预览版，这是一个使用浏览器的 AI 模型，为 Alexa 和亚马逊的“代我购买”功能的部分元素提供了支持。