返回往期
2026年2月4日星期三
10 点要闻3 分钟阅读

今日要闻

1

马斯克确认SpaceX与xAI合并,估值1.25万亿美元

并购大模型航天AI

多家财经媒体报道称,埃隆·马斯克已确认SpaceX将与其人工智能公司xAI合并,合并实体估值约1.25万亿美元,并被描述为在SpaceX潜在IPO前完成的组织整合。报道未披露合并条款细节与监管路径,但市场将其解读为把航天工程能力与大模型研发能力更紧密绑定,后续资本结构与技术协同方式仍有待官方进一步说明。

阅读原文
2

OpenAI从Anthropic挖角Dylan Scandinaro负责安全岗位

AI安全组织人事

据The Verge等媒体汇总信息,OpenAI已任命曾在Anthropic任职的Dylan Scandinaro担任新的安全相关负责人(报道中亦称“准备就绪主管”),强调在模型能力快速提升背景下,需要更强的风险识别、评估与组织化治理。该人事变动反映头部实验室对安全与治理人才的竞争加剧,也意味着OpenAI内部将把安全流程更深地嵌入产品发布与能力迭代节奏中。

阅读原文
3

腾讯混元发布CL-bench:SOTA模型Context学习成功率17.2%

评测基准大模型研究

腾讯混元研究团队发布CL-bench基准,主张大模型需要从依赖预训练“参数记忆”的推理者,转向能从即时Context中吸收新规则与知识的“Context Learner”。其无污染设计通过虚构内容、改写与小众知识等方式降低记忆投机空间。团队报告称多款SOTA模型在任务上平均成功率仅17.2%,其中归纳型任务最难、成功率通常低于10%,暴露出忽视或误用Context的系统性短板。

阅读原文
4

上交大等开源ML-Master 2.0:MLE-bench夺冠,主打分层认知缓存

AI Agent开源机器学习工程

邮件简报称,上海交通大学、上海算法与创新研究院及DP技术公司联合推出自主AI代理ML-Master 2.0,基于开源DeepSeek模型,在OpenAI的MLE-bench基准上取得第一。其核心为“分层认知缓存”(HCC),把工作痕迹整理为可复用技能,按经验/知识/智慧三层管理记忆,支持超过10小时的长周期机器学习工程任务循环,并强调失败复盘与跨任务迁移。项目称核心代码已开源并已用于具身训练与物理模拟等场景。

5

Vercel用内容协商给Agent供Markdown,同页负载最高降99.6%

AgentWeb基础设施

Vercel介绍了一种面向AI Agent的网页交付方式:对同一URL使用HTTP内容协商(Accept header),对人类继续返回HTML,对Agent返回结构化更强且更省token的Markdown。其示例称典型博文从约500KB的HTML降至约2KB的Markdown,对应负载体积减少99.6%,可降低抓取与推理时的上下文占用和速率限制压力。文章还给出agent友好sitemap与“.md”访问等发现机制建议,便于批量检索。

阅读原文
6

Vectra披露Moltbook新型攻击面:2.6%帖子含隐藏提示注入载荷

AI安全Agent提示注入

Vectra对AI智能体社区平台Moltbook进行安全分析,称约2.6%的帖子包含隐藏的反向提示注入载荷,可能诱导具备系统/工具权限的智能体泄露API密钥或执行非授权操作。文章指出,智能体在社区内默认互信、可读写内容并自动协作,使恶意载荷可随正常互动传播,呈现“蠕虫化”风险;开放技能/插件机制还可能放大为远程代码执行等更高危问题。建议以最小权限、工具白名单、行为监控与不可变日志提升可见性与可控性。

阅读原文
7

arXiv提出CurioSFT:熵保持SFT让数学推理提升2.5/2.9点,后续RL再增5点

后训练推理论文

arXiv论文提出CurioSFT,试图解决推理模型在传统SFT阶段过度自信导致探索能力下降的问题。方法包含自探索蒸馏:用温度缩放的自生成教师引导学生在能力边界内探索;以及熵引导的温度选择:在推理相关token上增强探索,同时稳定事实性token以减少遗忘。作者报告在数学推理任务中,CurioSFT在SFT阶段对分布内/分布外分别提升2.5和2.9个百分点,并促进后续RL阶段平均再提升5.0个百分点,强调探索性可作为后训练收益的“前置条件”。

阅读原文
8

论文给出本地部署LLM回本期:小模型0.3–3个月,中型3.8–34个月

成本部署研究

一篇成本效益分析论文比较本地部署开源LLM与商业API的经济性,综合硬件投入、运维开销与性能,给出按模型规模与吞吐量划分的“回本期”区间。作者称,30B参数以下模型可在0.3–3个月内实现成本回收,适合中小企业;中型模型回本期为3.8–34个月,适用于月处理量约10–50M token的组织;大型模型往往需要数年回本,更适合高吞吐或有严格数据合规/隐私要求的场景。论文还提供在线计算器辅助选型。

阅读原文
9

社区称Xcode 26.3原生支持Coding Agents并引入MCP标准

开发者工具Agent

Hacker News讨论帖称,Xcode 26.3开始原生支持在IDE内直接调用编码代理,开发者可接入Claude Agent SDK以实现子代理、后台任务与插件集成;同时引入Model Context Protocol(MCP)开放标准,允许对接任意兼容的代理工具,以减少工具链锁定并提升可扩展性。讨论同时集中在Xcode长期性能与稳定性问题:启动慢、调试器不稳、界面卡顿、文件关联重置等仍被视为阻碍体验的关键因素。该消息目前主要来自社区信息与讨论,仍需更多官方细节确认。

阅读原文
10

韩国CMC试点CMC GenNote:语音+LLM自动生成结构化病历,院内封闭部署

医疗AI落地应用

韩国天主教医疗中心(CMC)与PuzzleAI合作开发临床文档系统CMC GenNote,在首尔圣玛丽医院试点,将语音转写与LLM结合,理解多轮临床对话语境并自动生成结构化电子病历,以降低医生文书负担。报道指该系统已在门诊全面试点并向CMC旗下其他医院扩展,后续计划覆盖诊断报告、护理记录、药房协助、患者沟通与科研数据提取等。CMC强调模型部署在院内封闭系统以满足隐私与安全,临床决策权仍由医生掌握,并呼吁国家层面建立更清晰政策、认证与补偿机制以支持规模化落地。

阅读原文

不要错过明天的 AI 简报

数千位专业人士的首选,用 AI Daily Brief 开启每天的工作与生活。