Google Gemini升级:实时音频翻译功能支持任意耳机,推动无障碍多语言交流
Google Translate现已集成Gemini 2.5 Flash Native Audio模型,支持70多种语言的实时语音翻译,兼容所有耳机,并能保留说话者语气和语速,显著提升跨语言交流体验;此外,Google还扩展了语言练习模式和发音反馈,推动AI在全球沟通中的普及。
阅读原文Google Translate现已集成Gemini 2.5 Flash Native Audio模型,支持70多种语言的实时语音翻译,兼容所有耳机,并能保留说话者语气和语速,显著提升跨语言交流体验;此外,Google还扩展了语言练习模式和发音反馈,推动AI在全球沟通中的普及。
阅读原文Zoom宣布其“联邦”AI系统在Humanity's Last Exam推理基准测试中取得48.1%高分,超越Gemini 3 Pro(45.8%),仅次于GPT-5.2(50%);该系统通过“Z-scorer”动态编排OpenAI、Anthropic、Google等多家模型,成为企业级AI多模型协作的新范式。
阅读原文OpenAI正式推出GPT-5.2系列,主打专业知识工作场景,GDPval基准测试中71%任务超越行业专家,显著提升了幻觉率、视觉理解、代码能力和深度推理,成为对抗Google Gemini 3的“Code Red”战略产品。
阅读原文Runway推出GWM-1通用世界模型,基于Gen-4.5架构,支持24FPS 720p多分钟交互式视频生成,可通过动作、摄像头、音频等多模态输入实时操控虚拟环境,助力机器人策略训练和数字孪生,标志着生成式AI向仿真AI转型。
阅读原文Oracle因季度资本开支激增至120亿美元、营收不及预期及自由现金流转负,市值蒸发800亿美元,暴露出AI基础设施建设面临的物理瓶颈和ROI压力,市场开始从“GPU囤积”转向关注数据中心实际投产与现金流纪律。
阅读原文由前Databricks AI负责人创立的Unconventional AI成立仅两月即获4.75亿美元融资,估值45亿美元,致力于开发受人脑启发的全新AI计算平台,解决AI能耗瓶颈,反映行业对“算力-电力”危机的高度关注。
阅读原文Google DeepMind将在英国设立首个自动化AI科学实验室,利用AI加速新材料(如超导体、半导体、太阳能)研发,并为英国科学家和AI安全研究机构开放模型访问,推动AI在教育、能源等公共服务领域的应用。
阅读原文Tinker API现已全面开放,新增Kimi K2 Thinking推理模型和Qwen3-VL视觉输入能力,兼容OpenAI API,支持图文混合推理和高效微调,助力企业和开发者构建多模态AI应用。
阅读原文Claude Code等AI开发工具通过边界感知队列、计划模式和记忆系统,提升了代码生成、项目迁移(如CMS到Markdown)等任务的效率和准确性,AI辅助开发逐步实现从“玩具”到生产力工具的转变。
阅读原文传统IAM难以追踪AI代理动态权限链,能力授权(capability-based)机制通过加密令牌实现权限最小化和可追溯,防止提示注入导致的数据泄露,成为AI安全治理新趋势;同时,AI相关攻击(如npm供应链蠕虫、React2Shell漏洞)频发,安全防护需升级。
阅读原文数千位专业人士的首选,用 AI Daily Brief 开启每天的工作与生活。