OpenAI收购Promptfoo,补齐Agent安全评测工具链
OpenAI宣布收购开源LLM评测与红队平台Promptfoo,计划把其自动化回归评测、攻击用例生成、越狱/提示注入测试与CI/CD集成能力纳入自身模型与基础设施,用于在发布与更新前更早发现权限越界、工具链误用等Agent操作风险,并强化企业平台的安全合规交付。Promptfoo将继续保持开源并服务现有用户与客户,交易条款未披露。
阅读原文OpenAI宣布收购开源LLM评测与红队平台Promptfoo,计划把其自动化回归评测、攻击用例生成、越狱/提示注入测试与CI/CD集成能力纳入自身模型与基础设施,用于在发布与更新前更早发现权限越界、工具链误用等Agent操作风险,并强化企业平台的安全合规交付。Promptfoo将继续保持开源并服务现有用户与客户,交易条款未披露。
阅读原文谷歌宣布将Gemini能力扩展至Google Workspace:Docs可用“Help me create”生成带格式初稿并匹配写作风格/模板;Sheets支持自然语言生成与填充表格,并在SpreadsheetBench上取得70.48%任务成功率;Slides将支持从提示生成整套演示文稿;Drive加入“Ask Gemini”跨文件、邮件与日历问答并提供引用来源。功能以英文Beta向AI Ultra/Pro订阅者推出,Drive初期限美国。
阅读原文Google发布Gemini Embedding 2,这是其首个原生多模态向量模型,可把文本、图片、视频、音频与文档映射到统一语义空间,面向跨模态检索与RAG。模型支持交错输入(如图+文同请求),覆盖100多种语言,并引入Matryoshka Representation Learning,默认3072维向量可按需降到768等以权衡精度与成本。官方称原生多模态可将延迟最高降低70%。
阅读原文英伟达与Thinking Machines Lab宣布长期战略合作:将为其前沿模型训练与可定制化AI平台交付部署至少1吉瓦规模的下一代NVIDIA Vera Rubin系统,并共同进行面向Rubin架构的训练/推理系统协同设计。英伟达同时对Thinking Machines Lab进行投资以支持其长期研发。合作计划在明年年初启动部署,并称将扩大企业、科研与科学界对前沿与开源模型的可用性。
阅读原文Meta确认收购AI代理社交平台Moltbook(类Reddit的“代理社区”),其曾因大量“AI自发讨论阴谋”等帖子走红,后被曝数据库Supabase凭证长期暴露,外部人员可冒充代理发帖并读取敏感数据。两位联合创始人Matt Schlicht与Ben Parr将加入Meta Superintelligence Labs,交易金额未披露,媒体称收购预计在3月中旬完成。Meta称将探索代理互联的新产品形态。
阅读原文Anthropic为Claude Code推出Claude Code Review:通过多智能体在GitHub拉取请求中自动检查逻辑缺陷与潜在漏洞,并按严重性给出可执行修改建议。其内部测试显示“实质性评论”占比由16%提升至54%。该能力目前向Team与Enterprise用户开放,单次审查成本约15–25美元,定位为把代码审查从人工逐行检查转为AI先筛查、人类复核的工作流。
vLLM发布Semantic Router v0.2 Athena,将语义路由从“请求分发”升级为多模型/多智能体系统的大脑:更新嵌入模型栈(mmBERT-Embed-32K、统一多模态嵌入),并把模型选择纳入核心能力,提供KNN、SVM、Elo、Thompson Sampling等策略;新增实验性ClawOS可用自然语言编排OpenClaw代理团队;强化混合检索、内存与RAG,并提供长上下文提示压缩。ROCm成为一等部署路径,称MI300X最高加速3.3倍。
阅读原文YouTube扩大AI生成“深伪”检测试点,新增覆盖政府官员、政治候选人和记者。参与者需提交自拍视频与政府签发证件完成身份验证后,可查看平台匹配到的疑似AI冒用内容并申请按政策下架;讽刺和批评等内容仍受保护。该检测最初面向约400万合作伙伴创作者推出。YouTube同时支持《NO FAKES法案》,并表示未来可能扩展到声音识别等更广的身份与IP保护。
阅读原文据报道,谷歌扩大与美国国防部的合作,Gemini代理工具获准用于非密级工作,并上线“Agent Designer”供政府员工以自然语言低代码/无代码创建自定义代理,用于文档生成、审查与流程自动化等场景。该能力面向超过300万政府用户推出,已有逾100万人通过GenAI.mil使用相关生成式AI服务。国防部称目前限非密信息,同时正与谷歌讨论未来在机密与绝密网络部署的可能性。
阅读原文GitHub发文介绍Copilot SDK,强调AI正从对话界面转向可编程的“执行层”:开发者可在应用或后台服务中嵌入与Copilot CLI同源的规划与执行引擎,让系统接收高层意图并调用工具完成任务,而非手写固定脚本。文章主张用MCP等结构化上下文替代把系统逻辑塞进长提示词,以提升可追溯性与鲁棒性,并降低自建编排栈的成本。
阅读原文数千位专业人士的首选,用 AI Daily Brief 开启每天的工作与生活。