AI Daily Brief

2026年2月4日星期三

10 点要闻3 分钟阅读

今日要闻

马斯克确认SpaceX与xAI合并，估值1.25万亿美元

并购大模型航天AI

多家财经媒体报道称，埃隆·马斯克已确认SpaceX将与其人工智能公司xAI合并，合并实体估值约1.25万亿美元，并被描述为在SpaceX潜在IPO前完成的组织整合。报道未披露合并条款细节与监管路径，但市场将其解读为把航天工程能力与大模型研发能力更紧密绑定，后续资本结构与技术协同方式仍有待官方进一步说明。

阅读原文

OpenAI从Anthropic挖角Dylan Scandinaro负责安全岗位

AI安全组织人事

据The Verge等媒体汇总信息，OpenAI已任命曾在Anthropic任职的Dylan Scandinaro担任新的安全相关负责人（报道中亦称“准备就绪主管”），强调在模型能力快速提升背景下，需要更强的风险识别、评估与组织化治理。该人事变动反映头部实验室对安全与治理人才的竞争加剧，也意味着OpenAI内部将把安全流程更深地嵌入产品发布与能力迭代节奏中。

阅读原文

腾讯混元发布CL-bench：SOTA模型Context学习成功率17.2%

评测基准大模型研究

腾讯混元研究团队发布CL-bench基准，主张大模型需要从依赖预训练“参数记忆”的推理者，转向能从即时Context中吸收新规则与知识的“Context Learner”。其无污染设计通过虚构内容、改写与小众知识等方式降低记忆投机空间。团队报告称多款SOTA模型在任务上平均成功率仅17.2%，其中归纳型任务最难、成功率通常低于10%，暴露出忽视或误用Context的系统性短板。

阅读原文

上交大等开源ML-Master 2.0：MLE-bench夺冠，主打分层认知缓存

AI Agent开源机器学习工程

邮件简报称，上海交通大学、上海算法与创新研究院及DP技术公司联合推出自主AI代理ML-Master 2.0，基于开源DeepSeek模型，在OpenAI的MLE-bench基准上取得第一。其核心为“分层认知缓存”(HCC)，把工作痕迹整理为可复用技能，按经验/知识/智慧三层管理记忆，支持超过10小时的长周期机器学习工程任务循环，并强调失败复盘与跨任务迁移。项目称核心代码已开源并已用于具身训练与物理模拟等场景。

Vercel用内容协商给Agent供Markdown，同页负载最高降99.6%

AgentWeb基础设施

Vercel介绍了一种面向AI Agent的网页交付方式：对同一URL使用HTTP内容协商（Accept header），对人类继续返回HTML，对Agent返回结构化更强且更省token的Markdown。其示例称典型博文从约500KB的HTML降至约2KB的Markdown，对应负载体积减少99.6%，可降低抓取与推理时的上下文占用和速率限制压力。文章还给出agent友好sitemap与“.md”访问等发现机制建议，便于批量检索。

阅读原文

Vectra披露Moltbook新型攻击面：2.6%帖子含隐藏提示注入载荷

AI安全Agent提示注入

Vectra对AI智能体社区平台Moltbook进行安全分析，称约2.6%的帖子包含隐藏的反向提示注入载荷，可能诱导具备系统/工具权限的智能体泄露API密钥或执行非授权操作。文章指出，智能体在社区内默认互信、可读写内容并自动协作，使恶意载荷可随正常互动传播，呈现“蠕虫化”风险；开放技能/插件机制还可能放大为远程代码执行等更高危问题。建议以最小权限、工具白名单、行为监控与不可变日志提升可见性与可控性。

阅读原文

arXiv提出CurioSFT：熵保持SFT让数学推理提升2.5/2.9点，后续RL再增5点

后训练推理论文

arXiv论文提出CurioSFT，试图解决推理模型在传统SFT阶段过度自信导致探索能力下降的问题。方法包含自探索蒸馏：用温度缩放的自生成教师引导学生在能力边界内探索；以及熵引导的温度选择：在推理相关token上增强探索，同时稳定事实性token以减少遗忘。作者报告在数学推理任务中，CurioSFT在SFT阶段对分布内/分布外分别提升2.5和2.9个百分点，并促进后续RL阶段平均再提升5.0个百分点，强调探索性可作为后训练收益的“前置条件”。

阅读原文

论文给出本地部署LLM回本期：小模型0.3–3个月，中型3.8–34个月

成本部署研究

一篇成本效益分析论文比较本地部署开源LLM与商业API的经济性，综合硬件投入、运维开销与性能，给出按模型规模与吞吐量划分的“回本期”区间。作者称，30B参数以下模型可在0.3–3个月内实现成本回收，适合中小企业；中型模型回本期为3.8–34个月，适用于月处理量约10–50M token的组织；大型模型往往需要数年回本，更适合高吞吐或有严格数据合规/隐私要求的场景。论文还提供在线计算器辅助选型。

阅读原文

社区称Xcode 26.3原生支持Coding Agents并引入MCP标准

开发者工具Agent

Hacker News讨论帖称，Xcode 26.3开始原生支持在IDE内直接调用编码代理，开发者可接入Claude Agent SDK以实现子代理、后台任务与插件集成；同时引入Model Context Protocol（MCP）开放标准，允许对接任意兼容的代理工具，以减少工具链锁定并提升可扩展性。讨论同时集中在Xcode长期性能与稳定性问题：启动慢、调试器不稳、界面卡顿、文件关联重置等仍被视为阻碍体验的关键因素。该消息目前主要来自社区信息与讨论，仍需更多官方细节确认。

阅读原文

韩国CMC试点CMC GenNote：语音+LLM自动生成结构化病历，院内封闭部署

医疗AI落地应用

韩国天主教医疗中心（CMC）与PuzzleAI合作开发临床文档系统CMC GenNote，在首尔圣玛丽医院试点，将语音转写与LLM结合，理解多轮临床对话语境并自动生成结构化电子病历，以降低医生文书负担。报道指该系统已在门诊全面试点并向CMC旗下其他医院扩展，后续计划覆盖诊断报告、护理记录、药房协助、患者沟通与科研数据提取等。CMC强调模型部署在院内封闭系统以满足隐私与安全，临床决策权仍由医生掌握，并呼吁国家层面建立更清晰政策、认证与补偿机制以支持规模化落地。

阅读原文

不要错过明天的 AI 简报

数千位专业人士的首选，用 AI Daily Brief 开启每天的工作与生活。