返回往期
2026年1月6日星期二
10 点要闻3 分钟阅读

今日要闻

1

英伟达开源Alpamayo自动驾驶VLA,含10B模型与1700+小时数据

自动驾驶开源模型

英伟达在CES发布Alpamayo开源模型家族,核心Alpamayo 1为100亿参数链式思维视觉-语言-动作(VLA)模型,可分步推理并输出推理轨迹,提升罕见长尾场景决策的可解释性。同步开源1700+小时驾驶数据集及仿真验证框架AlpaSim;代码已在Hugging Face提供,支持开发者微调并集成到自动驾驶软件栈,面向更高等级自动驾驶验证与落地。

阅读原文
2

英伟达发布Cosmos/GR00T与Jetson T4000,机器人栈补齐开源工具链

机器人边缘AI硬件

英伟达公布面向机器人“物理AI”的开放模型与工具:Cosmos Transfer/Predict 2.5用于仿真数据生成,Cosmos Reason 2与人形机器人VLA模型Isaac GR00T N1.6强化推理与控制;并开源Isaac Lab-Arena用于策略评估与基准测试,推出云原生编排框架OSMO统一开发流程。硬件端发布Jetson T4000模块,算力1,200 FP4 TFLOPS、64GB内存,1,000件起订单价1,999美元,宣称性能较上一代提升4倍。

阅读原文
3

英伟达公布Rubin AI平台路线,称推理成本最高可降10倍

AI芯片数据中心

英伟达在CES展示Rubin AI平台路线:由6颗芯片组成的AI超级计算机,强调计算与内存带宽协同以应对“内存成瓶颈”。报道披露其可将推理成本最高降低10倍,并在部分训练场景(如MoE)把所需GPU数量最高减少4倍;同时推出面向智能体的“推理上下文内存存储平台”,用于管理与加速长上下文数据。Rubin预计于2026年下半年通过AWS、Google、微软、OpenAI等合作伙伴供货。

阅读原文
4

Google TV引入Gemini:电视端支持图像/视频生成与语音调系统设置

产品更新多模态

谷歌为Google TV推出Gemini大版本更新:在电视端加入Nano Banana图像生成与Veo视频生成,支持语音生成/编辑图像与视频,并可将Google Photos照片自动混剪成视频;同时提供面向电视的聊天界面与“深入了解”信息卡,还能根据语音反馈自动调整系统设置(如对话声音太小则调节相关选项)。功能将先在TCL的Google TV机型上线,其他设备需等待数月,并要求设备运行Android 14及以上。

阅读原文
5

vLLM发布Semantic Router v0.1 Iris,路由从14类扩展到插件化无限策略

AI Infra路由安全

vLLM团队发布语义路由器Semantic Router v0.1 Iris,面向“模型混合”(MoM)在用户与模型之间做系统级路由决策。新版本采用“信号-决策”插件链架构,可接入多类信号并组合决策,路由从固定14类扩展为可配置的无限策略;性能侧引入模块化LoRA以降低延迟。安全侧加入HaluGate三阶段幻觉检测,并提供一键安装、Kubernetes部署与可视化仪表板,同时支持OpenAI Responses API与智能工具管理。

阅读原文
6

TII发布Falcon H1R 7B推理模型,AIME 2025报83.1并开源

开源模型推理

阿布扎比TII在Hugging Face发布Falcon H1R 7B推理模型,参数规模7B但主打推理与吞吐效率。官方介绍其经两阶段后训练(SFT+GRPO)并结合DeepConf测试时扩展,可在减少生成token的同时提升准确率;材料称其在AIME 2025取得83.1,在编码基准LCB v6为68.6,并通过基于置信度的动态剪枝减少38% token使用。模型按Falcon LLM许可证开放,允许商业使用但需署名并遵守可接受使用政策。

阅读原文
7

蚂蚁开源医疗大模型AntAngelMed:100B MoE、激活6.1B并称登顶多榜单

医疗AI开源模型

蚂蚁集团被报道开源医疗大模型“安诊儿”AntAngelMed,总参数100B、MoE架构激活参数约6.1B。材料称其在HealthBench、MedAIBench、MedBench等评测中位列开源模型第一,并通过持续预训练、监督微调(SFT)与GRPO强化学习三阶段训练,兼顾医学推理能力与医疗安全/伦理要求。推理效率方面,材料称其在H20上速度可达200+ tokens/s,面向医疗问答、健康管理与临床辅助等应用落地。

阅读原文
8

Intel提出DeepMath:让LLM生成并执行Python片段以减少数学错误

LLMAgent工具调用安全

Intel提出DeepMath架构以提升LLM数学能力:模型不再输出冗长推理文本,而是生成小型Python片段在受限沙箱中执行,将确定性计算交由代码完成,从而减少算术与数值错误并缩短推理轨迹。该方案基于Qwen3-4B Thinking并通过GRPO微调,训练奖励“正确答案+简洁代码”。为满足生产安全要求,Python执行环境采用模块白名单、执行超时限制,且禁用文件与网络访问,以降低工具调用带来的安全风险。

阅读原文
9

MiniMax香港IPO拟上限定价,募资约5.38亿美元、估值约65亿美元

融资IPO大模型

MiniMax据报在香港IPO中倾向按区间上限定价(每股151–165港元),预计募资约5.38亿美元,对应市值约65亿美元。材料称公司于2025年12月31日启动建簿,订单簿多次超额认购;计划在1月6日确定最终定价,并于1月9日开始交易。MiniMax主营多模态大模型与应用,背后投资方包括腾讯与阿里等。若顺利上市,将为大模型公司走向公开市场提供新的定价参照与融资样本。

阅读原文
10

NVIDIA发布Nemotron Speech ASR:cache-aware流式架构称并发提升3倍

语音推理优化AI Infra

NVIDIA在Nemotron Speech ASR中引入“cache-aware”流式架构,替代传统重叠窗口的缓冲推理:每段音频仅处理一次并复用历史计算,减少冗余计算并稳定高并发场景下的延迟漂移。官方称该方案可带来最高3倍并发能力、接近线性扩展的显存占用,并在合作验证中实现24ms中位time-to-final转写。该模型面向实时语音Agent部署,并支持运行时在延迟与WER之间进行动态权衡与调参。

阅读原文

不要错过明天的 AI 简报

数千位专业人士的首选,用 AI Daily Brief 开启每天的工作与生活。