AI Daily Brief

2026年3月11日星期三

10 点要闻3 分钟阅读

今日要闻

OpenAI收购Promptfoo，补齐Agent安全评测工具链

并购AI安全评测工具

OpenAI宣布收购开源LLM评测与红队平台Promptfoo，计划把其自动化回归评测、攻击用例生成、越狱/提示注入测试与CI/CD集成能力纳入自身模型与基础设施，用于在发布与更新前更早发现权限越界、工具链误用等Agent操作风险，并强化企业平台的安全合规交付。Promptfoo将继续保持开源并服务现有用户与客户，交易条款未披露。

阅读原文

谷歌将Gemini深入Workspace，Sheets基准成功率70.48%

产品更新办公套件基准

谷歌宣布将Gemini能力扩展至Google Workspace：Docs可用“Help me create”生成带格式初稿并匹配写作风格/模板；Sheets支持自然语言生成与填充表格，并在SpreadsheetBench上取得70.48%任务成功率；Slides将支持从提示生成整套演示文稿；Drive加入“Ask Gemini”跨文件、邮件与日历问答并提供引用来源。功能以英文Beta向AI Ultra/Pro订阅者推出，Drive初期限美国。

阅读原文

谷歌发布Gemini Embedding 2，统一文图音视频向量

模型发布向量检索多模态

Google发布Gemini Embedding 2，这是其首个原生多模态向量模型，可把文本、图片、视频、音频与文档映射到统一语义空间，面向跨模态检索与RAG。模型支持交错输入（如图+文同请求），覆盖100多种语言，并引入Matryoshka Representation Learning，默认3072维向量可按需降到768等以权衡精度与成本。官方称原生多模态可将延迟最高降低70%。

阅读原文

英伟达与Thinking Machines签约1GW Vera Rubin训练集群

基础设施合作算力

英伟达与Thinking Machines Lab宣布长期战略合作：将为其前沿模型训练与可定制化AI平台交付部署至少1吉瓦规模的下一代NVIDIA Vera Rubin系统，并共同进行面向Rubin架构的训练/推理系统协同设计。英伟达同时对Thinking Machines Lab进行投资以支持其长期研发。合作计划在明年年初启动部署，并称将扩大企业、科研与科学界对前沿与开源模型的可用性。

阅读原文

Meta收购AI代理社交平台Moltbook，创始团队并入MSL

并购AI代理安全事件

Meta确认收购AI代理社交平台Moltbook（类Reddit的“代理社区”），其曾因大量“AI自发讨论阴谋”等帖子走红，后被曝数据库Supabase凭证长期暴露，外部人员可冒充代理发帖并读取敏感数据。两位联合创始人Matt Schlicht与Ben Parr将加入Meta Superintelligence Labs，交易金额未披露，媒体称收购预计在3月中旬完成。Meta称将探索代理互联的新产品形态。

阅读原文

Anthropic上线Claude Code Review，多智能体PR审查$15–25/次

开发者工具AI代理代码审查

Anthropic为Claude Code推出Claude Code Review：通过多智能体在GitHub拉取请求中自动检查逻辑缺陷与潜在漏洞，并按严重性给出可执行修改建议。其内部测试显示“实质性评论”占比由16%提升至54%。该能力目前向Team与Enterprise用户开放，单次审查成本约15–25美元，定位为把代码审查从人工逐行检查转为AI先筛查、人类复核的工作流。

vLLM发布Semantic Router v0.2 Athena，MI300X最高快3.3倍

开源推理基础设施多智能体

vLLM发布Semantic Router v0.2 Athena，将语义路由从“请求分发”升级为多模型/多智能体系统的大脑：更新嵌入模型栈（mmBERT-Embed-32K、统一多模态嵌入），并把模型选择纳入核心能力，提供KNN、SVM、Elo、Thompson Sampling等策略；新增实验性ClawOS可用自然语言编排OpenClaw代理团队；强化混合检索、内存与RAG，并提供长上下文提示压缩。ROCm成为一等部署路径，称MI300X最高加速3.3倍。

阅读原文

YouTube扩展AI深伪检测试点，覆盖政客官员与记者

内容安全监管深伪

YouTube扩大AI生成“深伪”检测试点，新增覆盖政府官员、政治候选人和记者。参与者需提交自拍视频与政府签发证件完成身份验证后，可查看平台匹配到的疑似AI冒用内容并申请按政策下架；讽刺和批评等内容仍受保护。该检测最初面向约400万合作伙伴创作者推出。YouTube同时支持《NO FAKES法案》，并表示未来可能扩展到声音识别等更广的身份与IP保护。

阅读原文

谷歌Gemini代理获准用于美军非密任务，覆盖300万政府用户

政府采购AI代理政策

据报道，谷歌扩大与美国国防部的合作，Gemini代理工具获准用于非密级工作，并上线“Agent Designer”供政府员工以自然语言低代码/无代码创建自定义代理，用于文档生成、审查与流程自动化等场景。该能力面向超过300万政府用户推出，已有逾100万人通过GenAI.mil使用相关生成式AI服务。国防部称目前限非密信息，同时正与谷歌讨论未来在机密与绝密网络部署的可能性。

阅读原文

GitHub发布Copilot SDK，将Agent执行引擎嵌入应用服务

开发者工具AI代理协议

GitHub发文介绍Copilot SDK，强调AI正从对话界面转向可编程的“执行层”：开发者可在应用或后台服务中嵌入与Copilot CLI同源的规划与执行引擎，让系统接收高层意图并调用工具完成任务，而非手写固定脚本。文章主张用MCP等结构化上下文替代把系统逻辑塞进长提示词，以提升可追溯性与鲁棒性，并降低自建编排栈的成本。

阅读原文

不要错过明天的 AI 简报

数千位专业人士的首选，用 AI Daily Brief 开启每天的工作与生活。