AI Daily Brief

2026年1月6日星期二

10 点要闻3 分钟阅读

今日要闻

英伟达开源Alpamayo自动驾驶VLA，含10B模型与1700+小时数据

自动驾驶开源模型

英伟达在CES发布Alpamayo开源模型家族，核心Alpamayo 1为100亿参数链式思维视觉-语言-动作（VLA）模型，可分步推理并输出推理轨迹，提升罕见长尾场景决策的可解释性。同步开源1700+小时驾驶数据集及仿真验证框架AlpaSim；代码已在Hugging Face提供，支持开发者微调并集成到自动驾驶软件栈，面向更高等级自动驾驶验证与落地。

阅读原文

英伟达发布Cosmos/GR00T与Jetson T4000，机器人栈补齐开源工具链

机器人边缘AI硬件

英伟达公布面向机器人“物理AI”的开放模型与工具：Cosmos Transfer/Predict 2.5用于仿真数据生成，Cosmos Reason 2与人形机器人VLA模型Isaac GR00T N1.6强化推理与控制；并开源Isaac Lab-Arena用于策略评估与基准测试，推出云原生编排框架OSMO统一开发流程。硬件端发布Jetson T4000模块，算力1,200 FP4 TFLOPS、64GB内存，1,000件起订单价1,999美元，宣称性能较上一代提升4倍。

阅读原文

英伟达公布Rubin AI平台路线，称推理成本最高可降10倍

AI芯片数据中心

英伟达在CES展示Rubin AI平台路线：由6颗芯片组成的AI超级计算机，强调计算与内存带宽协同以应对“内存成瓶颈”。报道披露其可将推理成本最高降低10倍，并在部分训练场景（如MoE）把所需GPU数量最高减少4倍；同时推出面向智能体的“推理上下文内存存储平台”，用于管理与加速长上下文数据。Rubin预计于2026年下半年通过AWS、Google、微软、OpenAI等合作伙伴供货。

阅读原文

Google TV引入Gemini：电视端支持图像/视频生成与语音调系统设置

产品更新多模态

谷歌为Google TV推出Gemini大版本更新：在电视端加入Nano Banana图像生成与Veo视频生成，支持语音生成/编辑图像与视频，并可将Google Photos照片自动混剪成视频；同时提供面向电视的聊天界面与“深入了解”信息卡，还能根据语音反馈自动调整系统设置（如对话声音太小则调节相关选项）。功能将先在TCL的Google TV机型上线，其他设备需等待数月，并要求设备运行Android 14及以上。

阅读原文

vLLM发布Semantic Router v0.1 Iris，路由从14类扩展到插件化无限策略

AI Infra路由安全

vLLM团队发布语义路由器Semantic Router v0.1 Iris，面向“模型混合”(MoM)在用户与模型之间做系统级路由决策。新版本采用“信号-决策”插件链架构，可接入多类信号并组合决策，路由从固定14类扩展为可配置的无限策略；性能侧引入模块化LoRA以降低延迟。安全侧加入HaluGate三阶段幻觉检测，并提供一键安装、Kubernetes部署与可视化仪表板，同时支持OpenAI Responses API与智能工具管理。

阅读原文

TII发布Falcon H1R 7B推理模型，AIME 2025报83.1并开源

开源模型推理

阿布扎比TII在Hugging Face发布Falcon H1R 7B推理模型，参数规模7B但主打推理与吞吐效率。官方介绍其经两阶段后训练（SFT+GRPO）并结合DeepConf测试时扩展，可在减少生成token的同时提升准确率；材料称其在AIME 2025取得83.1，在编码基准LCB v6为68.6，并通过基于置信度的动态剪枝减少38% token使用。模型按Falcon LLM许可证开放，允许商业使用但需署名并遵守可接受使用政策。

阅读原文

蚂蚁开源医疗大模型AntAngelMed：100B MoE、激活6.1B并称登顶多榜单

医疗AI开源模型

蚂蚁集团被报道开源医疗大模型“安诊儿”AntAngelMed，总参数100B、MoE架构激活参数约6.1B。材料称其在HealthBench、MedAIBench、MedBench等评测中位列开源模型第一，并通过持续预训练、监督微调（SFT）与GRPO强化学习三阶段训练，兼顾医学推理能力与医疗安全/伦理要求。推理效率方面，材料称其在H20上速度可达200+ tokens/s，面向医疗问答、健康管理与临床辅助等应用落地。

阅读原文

Intel提出DeepMath：让LLM生成并执行Python片段以减少数学错误

LLMAgent工具调用安全

Intel提出DeepMath架构以提升LLM数学能力：模型不再输出冗长推理文本，而是生成小型Python片段在受限沙箱中执行，将确定性计算交由代码完成，从而减少算术与数值错误并缩短推理轨迹。该方案基于Qwen3-4B Thinking并通过GRPO微调，训练奖励“正确答案+简洁代码”。为满足生产安全要求，Python执行环境采用模块白名单、执行超时限制，且禁用文件与网络访问，以降低工具调用带来的安全风险。

阅读原文

MiniMax香港IPO拟上限定价，募资约5.38亿美元、估值约65亿美元

融资IPO大模型

MiniMax据报在香港IPO中倾向按区间上限定价（每股151–165港元），预计募资约5.38亿美元，对应市值约65亿美元。材料称公司于2025年12月31日启动建簿，订单簿多次超额认购；计划在1月6日确定最终定价，并于1月9日开始交易。MiniMax主营多模态大模型与应用，背后投资方包括腾讯与阿里等。若顺利上市，将为大模型公司走向公开市场提供新的定价参照与融资样本。

阅读原文

NVIDIA发布Nemotron Speech ASR：cache-aware流式架构称并发提升3倍

语音推理优化AI Infra

NVIDIA在Nemotron Speech ASR中引入“cache-aware”流式架构，替代传统重叠窗口的缓冲推理：每段音频仅处理一次并复用历史计算，减少冗余计算并稳定高并发场景下的延迟漂移。官方称该方案可带来最高3倍并发能力、接近线性扩展的显存占用，并在合作验证中实现24ms中位time-to-final转写。该模型面向实时语音Agent部署，并支持运行时在延迟与WER之间进行动态权衡与调参。

阅读原文

不要错过明天的 AI 简报

数千位专业人士的首选，用 AI Daily Brief 开启每天的工作与生活。