AI Daily Brief

2026年1月28日星期三

9 点要闻3 分钟阅读

今日要闻

月之暗面开源Kimi K2.5：100子代理+视觉编码

模型发布开源Agent

月之暗面1月27日发布并开源Kimi K2.5，定位原生多模态与Agent能力一体的大模型（多源信息称为MoE、参数达1T），支持图像/视频输入与“视觉编码”生成前端界面。其Agent Cluster/Swarm可自动调度最多100个子代理并行协作、累计1500步工具调用完成长任务，并推出Kimi Code对接VSCode、Cursor等IDE。对外披露API定价为输入0.6美元/百万token、输出3美元/百万token，采用修改版MIT许可并对超大规模商用提出署名要求。

阅读原文

OpenAI发布Prism：GPT-5.2科研LaTeX工作区免费开放

产品发布科研工具LLM应用

OpenAI推出Prism科研协作工作区，将基于GPT-5.2的写作、修订、引用、公式处理与实时协作整合到LaTeX原生云端环境，面向所有ChatGPT账户用户免费开放，并支持无限项目与协作者。Prism强调“更严格的上下文管理”，可在项目语境内进行推理与文献检索，并利用视觉能力把白板草图转为图表等素材。OpenAI披露，约130万科研人员每周向ChatGPT提交逾800万次科学与数学相关查询；公司称未来将为商业、企业与教育用户提供更多高级功能。

阅读原文

DeepSeek开源DeepSeek-OCR 2：OmniDocBench达91.09%

开源视觉/OCR模型架构

DeepSeek发布并开源OCR模型DeepSeek-OCR 2，提出DeepEncoder V2，通过“因果流”式的语义驱动视觉token重排序，让模型按文档结构而非固定从左到右扫描，强化复杂版式、表格与公式理解。在OmniDocBench v1.5上取得91.09%得分，较前代提升3.73%，并将视觉token预算控制在256至1120之间以兼顾精度与推理开销。报道指出其仍采用3B参数MoE结构，部分高密度文本场景仍有短板，但可通过裁剪与样本补充优化；该思路被视为迈向统一全模态编码器的重要路线。

阅读原文

Google在Gemini 3 Flash推Agentic Vision：提质5–10%

模型能力多模态开发者工具

Google在Gemini 3 Flash中引入“Agentic Vision”，把图像理解从一次性观察升级为“Think-Act-Observe”的迭代调查流程：模型可通过代码执行自动完成缩放、裁剪、计数与标注等确定性操作，再基于证据回答，以减少幻觉与粗糙估计。官方称，开启代码执行后在多数视觉基准上可获得稳定的5%–10%质量提升，并支持自动判断细节是否过小、生成代码放大关键区域，同时生成可视化“scratchpad”在图片上画框与标签以校验推理。该能力面向开发者工具方向，强调把视觉 grounding 与可验证执行结合。

阅读原文

Anthropic推MCP Apps并集成Claude：工具调用可返回交互UI

Agent协议/标准产品更新

Anthropic发布MCP Apps开放规范并在Claude.ai原生支持，使外部应用的工具调用结果不再仅返回JSON，而可直接以交互式UI组件呈现在对话内（如草拟Slack消息、Figma/文档内容等），以降低“复制粘贴+多标签切换”的工作流摩擦。多份材料称该能力已集成Asana、Slack、Figma、Box、Canva等多款工具，并支持开发者基于MCP扩展生态；面向订阅用户（如Pro、Max、Team与Enterprise）开放。该进展体现Agent产品从“能调用工具”走向“在对话内完成可交互交付”的界面层标准化竞争。

阅读原文

腾讯混元开源HPC-Ops算子库：Attention最高提速2.22倍

推理加速开源AI Infra

腾讯混元开源推理算子库HPC-Ops，面向大模型推理场景对核心算子进行CUDA/CuTe深度优化，目标提升端到端推理吞吐（材料称可提升约30%）。官方披露其Attention算子相对FlashInfer最高可达2.22倍加速，GroupGEMM相对DeepGEMM最高达1.88倍，并强调针对主流推理GPU（如H20）通过指令发射序列与预取策略优化，使带宽利用率逼近硬件峰值。该库同时给出抽象层设计以降低高性能kernel维护成本，面向混元与DeepSeek等模型推理部署场景。

阅读原文

阶跃星辰B+轮融资超50亿元，印奇出任董事长

融资组织调整端侧/硬件

阶跃星辰披露完成B+轮融资，金额超过50亿元人民币，并引入旷视科技创始人印奇加入担任董事长，形成“1+3”核心决策层配置。报道称其将把基础模型能力与终端硬件深度结合，明确推进“AI+Device”路线，同时把AI Infra投入提升到与算法同等重要的层级，围绕训练效率、集群稳定性与资源利用率进行系统优化。公司管理层调整强调工程化与落地导向，意在把大模型能力嵌入高频入口场景（如车、手机等）形成软硬件闭环，并以长期Infra能力为后续模型迭代提供成本与效率空间。

阅读原文

欧盟启动DMA细则程序：要求谷歌开放Gemini与搜索数据

监管政策反垄断/DMA数据开放

欧盟委员会启动《数字市场法案》（DMA）“细则制定程序”，要求谷歌向竞争对手开放其Gemini人工智能服务以及搜索数据访问，以防止平台方滥用优势地位并保障市场公平。报道指出该程序并非正式反垄断调查，但需在六个月内完成，并将形成可强制执行的措施草案；欧盟同时关注谷歌是否公平向第三方提供可用于训练AI聊天机器人的搜索数据。谷歌方面对潜在的隐私与创新影响表达担忧。该动向意味着在AI服务与数据要素层面，欧盟正在把“互操作/开放接口”作为对大型平台的重要约束手段，并可能影响搜索与生成式AI的竞争格局。

阅读原文

节点式AI设计工具Flora获4200万美元A轮融资

融资生成式AI应用创意工具

AI设计工具Flora完成4200万美元A轮融资，由Redpoint Ventures领投。产品以节点式画布组织创作流程，允许设计师用文本、图像或视频输入快速生成并迭代多媒体内容，同时以可视化节点串联素材生成、编辑与协作步骤，面向创意团队降低跨工具切换成本。报道提到其客户包括部分大型企业与设计机构；公司计划将资金用于扩大企业销售与市场投入、补强传统编辑能力，并将团队规模扩大至当前的2至3倍。该融资反映“生成式设计工作台”正从单点模型调用，转向可复用的流程编排与团队协作产品形态。

阅读原文

不要错过明天的 AI 简报

数千位专业人士的首选，用 AI Daily Brief 开启每天的工作与生活。