Poetiq小团队用系统集成方法刷新ARC-AGI-2推理基准分数,超越Google Gemini
六人AI创业公司Poetiq率先实现ARC-AGI-2推理基准54%正确率,首次突破50%,超越谷歌Gemini 3 Deep Think(45%),且成本为其一半。Poetiq采用元系统调度和多模型自动微调,利用Gemini 3 Pro完成任务,无需独立重训模型。方法完全开源,结合LLM自带的自审查机制,6个月内让该基准分数从不足5%跃升至50%以上,显示AI领域创新突破可能来源于系统工程和模型调度而不只是大模型算力迭代。
阅读原文