返回往期
2026年1月28日星期三
9 点要闻3 分钟阅读

今日要闻

1

月之暗面开源Kimi K2.5:100子代理+视觉编码

模型发布开源Agent

月之暗面1月27日发布并开源Kimi K2.5,定位原生多模态与Agent能力一体的大模型(多源信息称为MoE、参数达1T),支持图像/视频输入与“视觉编码”生成前端界面。其Agent Cluster/Swarm可自动调度最多100个子代理并行协作、累计1500步工具调用完成长任务,并推出Kimi Code对接VSCode、Cursor等IDE。对外披露API定价为输入0.6美元/百万token、输出3美元/百万token,采用修改版MIT许可并对超大规模商用提出署名要求。

阅读原文
2

OpenAI发布Prism:GPT-5.2科研LaTeX工作区免费开放

产品发布科研工具LLM应用

OpenAI推出Prism科研协作工作区,将基于GPT-5.2的写作、修订、引用、公式处理与实时协作整合到LaTeX原生云端环境,面向所有ChatGPT账户用户免费开放,并支持无限项目与协作者。Prism强调“更严格的上下文管理”,可在项目语境内进行推理与文献检索,并利用视觉能力把白板草图转为图表等素材。OpenAI披露,约130万科研人员每周向ChatGPT提交逾800万次科学与数学相关查询;公司称未来将为商业、企业与教育用户提供更多高级功能。

阅读原文
3

DeepSeek开源DeepSeek-OCR 2:OmniDocBench达91.09%

开源视觉/OCR模型架构

DeepSeek发布并开源OCR模型DeepSeek-OCR 2,提出DeepEncoder V2,通过“因果流”式的语义驱动视觉token重排序,让模型按文档结构而非固定从左到右扫描,强化复杂版式、表格与公式理解。在OmniDocBench v1.5上取得91.09%得分,较前代提升3.73%,并将视觉token预算控制在256至1120之间以兼顾精度与推理开销。报道指出其仍采用3B参数MoE结构,部分高密度文本场景仍有短板,但可通过裁剪与样本补充优化;该思路被视为迈向统一全模态编码器的重要路线。

阅读原文
4

Google在Gemini 3 Flash推Agentic Vision:提质5–10%

模型能力多模态开发者工具

Google在Gemini 3 Flash中引入“Agentic Vision”,把图像理解从一次性观察升级为“Think-Act-Observe”的迭代调查流程:模型可通过代码执行自动完成缩放、裁剪、计数与标注等确定性操作,再基于证据回答,以减少幻觉与粗糙估计。官方称,开启代码执行后在多数视觉基准上可获得稳定的5%–10%质量提升,并支持自动判断细节是否过小、生成代码放大关键区域,同时生成可视化“scratchpad”在图片上画框与标签以校验推理。该能力面向开发者工具方向,强调把视觉 grounding 与可验证执行结合。

阅读原文
5

Anthropic推MCP Apps并集成Claude:工具调用可返回交互UI

Agent协议/标准产品更新

Anthropic发布MCP Apps开放规范并在Claude.ai原生支持,使外部应用的工具调用结果不再仅返回JSON,而可直接以交互式UI组件呈现在对话内(如草拟Slack消息、Figma/文档内容等),以降低“复制粘贴+多标签切换”的工作流摩擦。多份材料称该能力已集成Asana、Slack、Figma、Box、Canva等多款工具,并支持开发者基于MCP扩展生态;面向订阅用户(如Pro、Max、Team与Enterprise)开放。该进展体现Agent产品从“能调用工具”走向“在对话内完成可交互交付”的界面层标准化竞争。

阅读原文
6

腾讯混元开源HPC-Ops算子库:Attention最高提速2.22倍

推理加速开源AI Infra

腾讯混元开源推理算子库HPC-Ops,面向大模型推理场景对核心算子进行CUDA/CuTe深度优化,目标提升端到端推理吞吐(材料称可提升约30%)。官方披露其Attention算子相对FlashInfer最高可达2.22倍加速,GroupGEMM相对DeepGEMM最高达1.88倍,并强调针对主流推理GPU(如H20)通过指令发射序列与预取策略优化,使带宽利用率逼近硬件峰值。该库同时给出抽象层设计以降低高性能kernel维护成本,面向混元与DeepSeek等模型推理部署场景。

阅读原文
7

阶跃星辰B+轮融资超50亿元,印奇出任董事长

融资组织调整端侧/硬件

阶跃星辰披露完成B+轮融资,金额超过50亿元人民币,并引入旷视科技创始人印奇加入担任董事长,形成“1+3”核心决策层配置。报道称其将把基础模型能力与终端硬件深度结合,明确推进“AI+Device”路线,同时把AI Infra投入提升到与算法同等重要的层级,围绕训练效率、集群稳定性与资源利用率进行系统优化。公司管理层调整强调工程化与落地导向,意在把大模型能力嵌入高频入口场景(如车、手机等)形成软硬件闭环,并以长期Infra能力为后续模型迭代提供成本与效率空间。

阅读原文
8

欧盟启动DMA细则程序:要求谷歌开放Gemini与搜索数据

监管政策反垄断/DMA数据开放

欧盟委员会启动《数字市场法案》(DMA)“细则制定程序”,要求谷歌向竞争对手开放其Gemini人工智能服务以及搜索数据访问,以防止平台方滥用优势地位并保障市场公平。报道指出该程序并非正式反垄断调查,但需在六个月内完成,并将形成可强制执行的措施草案;欧盟同时关注谷歌是否公平向第三方提供可用于训练AI聊天机器人的搜索数据。谷歌方面对潜在的隐私与创新影响表达担忧。该动向意味着在AI服务与数据要素层面,欧盟正在把“互操作/开放接口”作为对大型平台的重要约束手段,并可能影响搜索与生成式AI的竞争格局。

阅读原文
9

节点式AI设计工具Flora获4200万美元A轮融资

融资生成式AI应用创意工具

AI设计工具Flora完成4200万美元A轮融资,由Redpoint Ventures领投。产品以节点式画布组织创作流程,允许设计师用文本、图像或视频输入快速生成并迭代多媒体内容,同时以可视化节点串联素材生成、编辑与协作步骤,面向创意团队降低跨工具切换成本。报道提到其客户包括部分大型企业与设计机构;公司计划将资金用于扩大企业销售与市场投入、补强传统编辑能力,并将团队规模扩大至当前的2至3倍。该融资反映“生成式设计工作台”正从单点模型调用,转向可复用的流程编排与团队协作产品形态。

阅读原文

不要错过明天的 AI 简报

数千位专业人士的首选,用 AI Daily Brief 开启每天的工作与生活。