首页 > 生活

试图干翻所有 AI 公司，谷歌全家桶到底有多硬核？

2025 年，AI 越卷越狠，各家大模型你追我赶。进入 Gemini 时代的谷歌，在自家产品上的应用更是全面开花。

刚过去不久的 Google I/O 2025 开发者大会，不出所料，"AI" 依然是绝对主角。

去年，"AI" 一词在大会上被提及 120 次，今年也毫不逊色，被提及 92 次。

其中，"Gemini" 一词贯穿全场，高调亮相 95 次，频率还反超了 "AI"，俨然成了谷歌新一代 AI 的代名词。

这次大会更新，让老狐眼前一亮，再次刷新了对 AI 潜力的认知：这才像谷歌，有老大哥的气魄。

作为谷歌主力的语言模型，Gemini 2.5 Pro 和 Gemini 2.5 Flash 自三月推出以来就保持高热度。

尤其 2.5 Pro，在 WebDev Arena 和 LMArena 等多个评测平台上，各个子任务几乎全线领先，属于实打实的 " 榜单霸主 "。

不过，谷歌并不满足于 " 够用 "，而是进一步强化 Buff：这次更新加入了全新的 Deep Think 模式。

当模型遇到更复杂的问题，Gemini 可以切换到 Deep Think 模式：它会 " 多想一会儿 "，牺牲一些响应时间，换取更准确的推理与回答。

这项机制让模型在作答前，就预先模拟多种可能的解法，推理路径更深、更稳。

按照谷歌公开的数据，Gemini 2.5 Pro 搭配 Deep Think 后，在数学、编程和多模态推理上的表现，甚至优于 OpenAI 的 o3。

比如，它在 2025 年 USAMO 这类难度很高的数学测试中得分惊艳，也在编程比赛和多模态推理测试中表现出色。

不过，Deep Think 目前还在安全评估阶段，只向受信测试者开放。

Gemini 小将 Gemini 2.5 Flash 也迎来了升级，在推理、多模态、编程和长上下文等关键测试中都有提升，同时效率更高，谷歌评测显示其用 token 数量减少了 20% 到 30%。

全新的 2.5 Flash 版本已经在 Google AI Studio、Vertex AI 和 Gemini app 中开放预览体验。

有了强大模型做基础，谷歌开始在 Gemini 平台上玩出更多新花样。

Gemini 2.5 系列引入了不少新功能，最引人注意的是通过升级 Live API 实现的原生音频输出。

AI 不光会说话，声音还带感情，能听懂对话情绪，自动换语气，交流更自然。

感兴趣的狐友可以点击下方视频自行感受一下。

开发者可以直接用这套语音能力做出更自然的互动体验，而且还能调节语速、语调、口音，甚至模拟不同风格的说话方式。

与此同时，谷歌还上了多扬声器的文本转语音功能，能模拟两个人对话，支持 24 种语言，现在已经在 Gemini API 上能用了。

除了 " 能说 "，Gemini 现在也更 " 能干 " 了。

谷歌把原本只在实验项目里的 Project Mariner 加到了 Gemini API 和 Vertex AI 里，AI 可以一次做 10 件事，还能学会自动完成重复的任务。

为了方便开发者，Gemini 2.5 引入了 Thought Summaries 功能，能清晰展示模型的思考过程和调用细节。

同时配备 Thinking Budgets，方便控制模型思考时使用的 token 数量，避免资源浪费。

Gemini SDK 也兼容 MCP 工具，方便与开源软件集成。

谷歌这波升级不止是做加法，还在试着改变游戏规则。

他们推出了一个新模型叫 Gemini Diffusion，完全不用 Transformer 架构，跑得更快，用起来更省。

虽然目前表现刚和之前的 Flash-Lite 持平，但速度快了五倍。

Transformer 用了这么多年，算力又贵又慢，但苦于没啥替代手段，大家只能 " 将就着用 "。

如果这套扩散模型能继续打磨下去，说不定真能成为新的主流架构。

大模型之外，谷歌在多模态生成这块也疯狂上新，直接覆盖图像、视频、音频全赛道，真的是 " 全都要 "。

先说图像。最新上线的 Imagen 4，不仅细节超清晰，支持写实和抽象风，能做贺卡、海报，速度还比上一代快了 10 倍。

现在已经在 Gemini App、Whisk、Vertex AI 等多个平台上线。

图像有了，视频当然也不能缺。Veo 3 带来了原生 " 音画同步 " 生成，不光能做高质量视频，甚至连人物对白、背景音乐、环境音都能一起生成。

文本讲故事，几秒出片，连口型都能对上，像是开了电影拍摄外挂。

Veo 3 已向美国 Ultra 用户开放，企业用户也可通过 Vertex AI 使用。

音频方面，Lyria 2 同样不简单。现场演示的一段秘鲁风格舞曲节奏明快、旋律自然，完全听不出是 AI 做的，电吉他、鼓点、贝斯配合得一气呵成。

多个模型齐发还不够，谷歌还推出了电影制作工具 Flow，整合了 Imagen、Veo 和 Gemini 的能力。

只需用自然语言描述故事，还能导入角色素材，Flow 就能一键生成电影级的镜头，角色、场景还能跨镜头连续复用，创作流程更像是在 " 搭乐高 " 一样简单。

据介绍，美国 Google AI Pro 和 Ultra 用户可优先体验 Flow。

而在一边搞底层技术革新的同时，谷歌在 AI 落地应用上也可圈可点。

全新上线的 AI UI 设计工具 Google Stitch，老狐看完只想感叹一句：设计师的饭碗，又不稳了。

只需要用自然语言描述需求，它就能自动生成完整的网页或移动端界面，连 HTML/CSS 代码都能一起打包好，甚至一键导出到 Figma，直接接着做交互图和上线。

不像很多产品还卡在 " 排队申请内测 "，Stitch 是直接全量开放的，现在就能玩，地址在这儿 stitch.withgoogle.com

有网友拿创客贴首页随手截了张图，丢进去随口打了句 " 还原页面 "，几秒钟后，AI 不仅给出了 HTML 文件，跑起来后还原度居然高得离谱。

其实这种风格的产品更新，在谷歌今年的布局里并不少见。

很多人原以为，AI 会把传统搜索打废，但谷歌的做法恰恰相反：它干脆把搜索重做了一遍。

这次在美国先上线的全新 AI Mode，就是一个结合多模态和推理能力的搜索新形态。

这不是简单在原有引擎上加个大模型接口，而是基于 Gemini 2.5，重构了整个搜索逻辑。

它背后采用的是一套叫 query fan-out 的技术，简单来说就是能自动把你提的问题拆解成多个子任务，再同时搜索、整合信息。

谷歌还提前预告了 AI Mode 的几项重磅功能：

比如 Deep Search，AI 会自己发起上百次搜索，生成带引用的深度报告。

Search Live 支持实景互动，你对着镜头提问，它能看图识物并语音回答。

还有 " 帮我买票 " 这种 Agent 功能，能自动跨平台比价、下单。

除了查信息、买门票，这波升级对购物体验也进行了全面改造。

新的 AI Mode 把 Gemini 的智能能力和 Google 的购物知识图谱结合，整合了 500 亿 + 商品信息。

用户只需要告诉它预算、颜色、尺寸，它就能快速帮你筛选、比价、下单。

最后，至于大家关心的价格，Google 这次也端出了 " 大杯 " 和 " 超大杯 " 套餐：AI Pro 和 AI Ultra，顶配 Ultra 直接开价 249 美元 / 月。

听起来不便宜，但服务确实顶：几乎不限量的使用额度，加上 30TB 的 Google Cloud 云存储，性价比对得起这个价，尤其是对那种靠 AI 吃饭、挣美元花美元的用户来说，比很多国内会员都值。

不过谷歌也清楚，这年头用户忠诚度稀缺，隔壁 Perplexity、OpenAI、微软天天虎视眈眈，不追着更新点杀手锏，用户分分钟 " 人走茶凉 "。

好在谷歌一直都知道，自己最大底牌就是那些用户天天离不开的工具。AI 用得再花哨，最后还得回到搜索、Gmail、Docs 这些刚需里来。

谷歌干脆一句话：你最常用的，全都给你装上 AI。

参考资料：差评、量子位、机器之心、谷歌等其他网络截图编辑：不吃麦芽糖