AI Daily Brief

2026年3月5日星期四

9 点要闻3 分钟阅读

今日要闻

英伟达称对OpenAI投300亿美元后或停追加

投融资算力产业链

路透报道，英伟达CEO黄仁勋在摩根士丹利TMT会议上表示，公司已敲定对OpenAI投资300亿美元、对Anthropic投资100亿美元，这两笔“最新投资”可能将是最后一次大额投入；原因之一是两家公司预计在2026年推进IPO。市场同时担忧，芯片供应商对主要客户进行股权投资可能带来循环利益与治理风险。此前亦有报道称英伟达与OpenAI的千亿美元级合作计划被搁置。

阅读原文

微软发布Phi-4-reasoning-vision-15B训练细节

模型发布多模态

微软研究院披露Phi-4-reasoning-vision-15B：面向多模态推理的紧凑模型，强调以数据筛选与“混合推理”训练在延迟与准确率间折中。团队称模型仅训练约200B tokens，并在感知类任务默认直接推断、在数学/科学等任务触发多步推理；视觉侧采用动态分辨率编码器，消融显示SigLIP-2 Naflex在高分辨率截图/UI理解更优。其还观察到数学数据占比提升可带来计算机使用类基准的协同增益。

阅读原文

斯坦福Merlin开源腹部CT 3D视语模型与数据集

医疗AI开源

Nature论文介绍斯坦福团队Merlin：面向腹部CT的3D视觉-语言基础模型。其采用多阶段预训练，利用超15,000次CT（600万+图像）、电子病历与放射报告训练，强调无需额外人工标注。评测覆盖6类任务、752个子任务，包含零样本发现分类、跨模态检索、慢病预测、报告生成与3D分割；内部测试5,137例、外部44,098例来自3家机构与2个公开集。团队已公开模型、代码及25,494对CT-报告数据集，供临床与研究使用。

阅读原文

荣耀开源MagicAgent 30B任务规划模型并已商用

开源AI Agent端侧AI

荣耀在MWC期间发布并宣布全球开源自研智能体基础模型MagicAgent，由荣耀与复旦大学联合研发，参数量30B，定位通用任务规划模型。报道称其在任务规划场景中表现优于部分千亿级模型，并在五类场景达到SOTA；核心方法包括χPO算法以应对动态环境稀疏奖励下的探索-利用权衡，以及轻量合成数据框架与“SFT+RL”两阶段训练以缓解多任务“跷跷板效应”。该模型已在荣耀Magic8与Magic V6上商用（如AI购物等），模型报告已上传arXiv，代码与数据将近期开放。

阅读原文

中国启动《AI生成内容合规管理指南》团体标准起草

政策与标准AIGC合规

材料称，中国首部《人工智能生成内容合规管理指南》团体标准正在起草，由中国电子商会归口管理、智合标准中心组织编制，公安部第三研究所联合起草，聚焦深度合成带来的侵权与合规风险。标准拟覆盖“使用前—生成中—发布后”全流程，提出管理、业务、技术“三位一体”合规架构，并强调“最低技术实现基线”与量化判据、全链路合规证据链以及配套工具范本，以提升企业的合规落地与举证能力。目前面向AIGC研发商、内容平台、大模型应用方、律所与高校等公开征集起草单位与专家参与。

阅读原文

EDPS解读欧盟AI Act治理与执法协作框架

监管AI治理

欧洲数据保护监督官（EDPS）发布演讲稿，讨论《人工智能法案》（AI Act）的治理与执法结构，强调为确保跨成员国、跨机构一致执行，需要建立更有效的协作与协调机制。材料提到EDPS在AI监管中的角色定位，以及与欧洲数据保护委员会（EDPB）等机构的协同；重点落在隐私保护、合规监督、执法协调与透明责任要求，避免不同监管口径导致企业合规不确定性。演讲同时回顾EDPS近期参与AI生成图像隐私保护联合声明等工作，呼吁在法案落地阶段把数据保护与AI治理“共同设计”。

阅读原文

法律AI公司Spellbook获RBCx 4000万美元债务融资谋并购

投融资法律科技

加拿大法律AI公司Spellbook（Dialog Enterprises）获RBCx提供4000万美元债务融资，用于在法律生成式AI市场整合期收购小型竞争对手。公司称其AI助手可在Microsoft Word内起草、编辑与审查合同，底层使用包括OpenAI GPT-5在内的大模型。报道披露其客户覆盖80个国家、4000+客户；2025年收入增长三倍，并预计到2026年底年经常性收入将达到1亿美元。Spellbook计划未来两年内完成最多五项战略收购，重点获取客户与人才；公司还计划到2026年底将员工规模从150人增至250人，以支撑产品与并购整合。

阅读原文

Physical Intelligence推MEM让机器人具备15分钟任务记忆

具身智能机器人研究

Physical Intelligence团队联合多所高校提出多尺度具身记忆系统MEM，通过“短期视频记忆+长期语言记忆”扩展VLA模型的可用上下文，使基于Gemma 3-4B的视觉-语言-动作模型可处理长达15分钟的复杂任务。短期记忆采用时空分离注意力以在实时推理下吸收密集视觉流；长期记忆用语言摘要记录语义事件，辅助高层策略拆解子任务。材料称，在未知场景实验中，MEM使机器人冰箱开门成功率提升62%、拾取筷子成功率提升11%；系统可在单块NVIDIA H100上运行并支持最多16帧观测输入。

阅读原文

开源工具Cerberus称可拦截AI代理数据外泄并给出实验数据

安全AI Agent开源

一篇开发者文章报告其进行765次受控实验，认为多数AI代理在“可访问私有数据+处理外部内容+执行外发操作”的架构下易被注入而泄露数据；文中称在GPT-4o-mini与Gemini 2.5 Flash上攻击成功率分别达93.3%与92.2%，Claude Sonnet为13.3%，并称单次外泄可在约12秒内完成、成本低于0.001美元。作者据此开源运行时安全平台Cerberus，提供L1-L4四层检测，在480次测试中对已知攻击实现100%检测且无误报，并支持LangChain、Vercel AI SDK等集成。

阅读原文

不要错过明天的 AI 简报

数千位专业人士的首选，用 AI Daily Brief 开启每天的工作与生活。