Poetiq ARC-AGI-2 成本效益新高 準確率達 54%

Poetiq 公司正式宣布其系統在 ARC-AGI-2 半私有評估集上建立了新的性能標杆,準確率達到 54%,而成本僅為每個TASK 30.57 美元,相比前任最佳成績降低了超過 60%。這一成就標誌著在保持高準確率的同時,實現成本效益的進步,為 AI 推理系統的實際應用開啟了新的可能性。

官方驗證與成績確認
2025 年 11 月 20 日,Poetiq 首次公開宣布了其在 ARC-AGI-2 公開評估上的初步成績。隨後在 12 月 5 日,ARC Prize 官方團隊正式驗證了 Poetiq 的結果,確認其系統在半私有測試集上的優異表現。根據官方驗證報告,Poetiq 的系統使用了純粹基於 Gemini 的配置,在半私有測試集上達到了 54% 的準確率,而相應的成本為每個工序(TASK) 30.57 美元。
相比之下,先前保持紀錄的是 Gemini 3 Deep Think,其準確率為 45%,但成本高達每個工序 77.16 美元。Poetiq 的成績不僅在準確率上提高了 9 個百分點,更重要的是在成本效益上實現了大幅優化,每個問題的成本不到前任最佳方案的 40%。這一突破性結果表明,Poetiq 在設計系統架構和優化推理流程方面具有顯著優勢。
創新的學習型測試時推理方法
Poetiq 之所以能夠在成本和性能上雙重突破,核心在於其採用的「學習型測試時推理」(learned test time reasoning)方法。這一方法是首次在 ARC-AGI-2 挑戰中突破 50% 準確率的關鍵,標誌著 AI 推理能力的新里程碑。
傳統的推理系統通常依賴於模型的預訓練能力,而 Poetiq 的方法則強調在測試時動態學習和優化推理過程。這種靈活性使得系統能夠根據具體任務特性進行調整,從而在保持準確性的同時降低計算成本。特別值得注意的是,Poetiq 在 Gemini 3 發布後的短短數小時內就利用其元系統完成了這一優化,展現了其系統架構的高效性和適應性。
元系統架構的核心優勢
Poetiq 的突破性成果源於其開發的元系統(meta-system)。與大多數 AI 研究機構需要構建或微調專有大型基礎模型不同,Poetiq 的元系統被設計用於自動創建完整的解決方案系統,可以利用任何現有的前沿模型來應對特定任務。這一設計哲學帶來了兩大核心優勢。
首先,這個元系統實現了高度的模型無關性。Poetiq 不需要綁定於某一特定的基礎模型,而是能夠靈活地利用市場上任何最先進的模型。在 ARC-AGI-2 的首次公開演示中,Poetiq 專注於使用 Gemini 3,並在此基礎上實現了突破性成果。這意味著隨著新模型的持續發展,Poetiq 的系統有著無限的升級空間。
其次,元系統通過設計實現了自我學習和持續改進。系統在每次解決任務時都會學習該任務的解決方式,這種積累性的學習機制使得系統性能隨著時間推移而不斷提升。為了最大化這一優勢,多樣化的任務對於系統的發展至關重要。因此,Poetiq 目前正在利用其系統應對多個基準測試,涵蓋各種不同的推理和檢索任務,以進一步完善系統的通用能力。
成本效益突破的實際意義
Poetiq 此次在 ARC-AGI-2 上實現的成本效益突破具有重要的現實意義。ARC-AGI(Abstract Reasoning Corpus)基準測試旨在評估 AI 系統解決從未見過的抽象推理問題的能力,是評估 AI 通用推理能力的關鍵指標。在這一公認的難題上,既保持高準確率又顯著降低成本,標誌著 AI 系統向著更實用、更經濟的方向發展。
在圖表展示上,Poetiq 建立了全新的 Pareto 前沿線,超越了現有的所有結果。Pareto 前沿線反映的是在性能和成本之間的權衡邊界——理論上無法通過改進一個指標而不損害另一個指標。Poetiq 不僅在準確率上取得進展,更重要的是突破了這個邊界,實現了同時在性能和成本上的雙重超越。這對於希望在實際應用中部署 AI 推理系統的企業和組織具有極大的吸引力。
未來發展方向與實際應用
Poetiq 在官方公告中表示了對未來的展望。首先,公司計畫繼續拓展系統在更多基準測試上的應用。通過應對多個涵蓋不同推理和檢索任務的基準測試,Poetiq 的元系統將獲得更豐富的學習機會,從而進一步提升其通用推理能力。
其次,Poetiq 強調「我們與他人合作無礙」(We play well with others),表明其系統可以被集成到更大型的現有系統中,用於優化特定的 AI 組件。這一設計理念使得 Poetiq 的技術具有良好的模塊化特性,可以作為現有 AI 系統的增強引擎使用。
此外,Poetiq 提出了一個深層的研究問題:是否可以通過優化知識提取機制,在不更新模型本身的情況下,利用前沿模型中已有的豐富世界知識來解決長期任務?如果能夠讓知識提取機制更加「LLM 友好」,那麼可能在完全不進行模型調整的情況下就能取得突破性成果。這反映了 Poetiq 對推理系統本質的深刻思考。
技術團隊與商業化計畫
Poetiq 是一支精悍的技術團隊,由 6 名研究人員和工程師組成,團隊成員擁有來自 Google DeepMind 的合計 53 年工作經驗。這支團隊專注於解決 AI 推理和知識提取中的基本問題,特別是在噪聲和不確定性存在的條件下進行這些工作。
從商業化角度看,Poetiq 目前正與早期合作夥伴進行合作,共同探索元系統在解決真實世界複雜問題上的應用潛力。企業和組織若希望討論 Poetiq 如何幫助解決其 AI 挑戰,可以通過電子郵件 [email protected] 與公司聯繫。同時,公司也在招聘新成員加入其行列,希望吸引更多志同道合的技術人才。
行業意義與技術影響
Poetiq 的突破在 AI 推理領域具有多重意義。首先,從技術創新角度,其學習型測試時推理方法代表了一條不同於傳統大規模模型預訓練的新路徑。這條路徑強調系統設計的創新和優化,而非盲目追求更大的模型規模。
其次,從商用可行性角度,成本效益的顯著提升直接降低了企業部署 AI 推理系統的門檻。以往,高性能的 AI 推理能力往往意味著高昂的運營成本,這限制了其在中小企業和資源受限的應用場景中的使用。Poetiq 的方案改變了這一局面,使得更廣泛的市場參與者能夠使用高質量的推理能力。
再次,從學術研究角度,Poetiq 的成果表明在不依賴專有大型模型的情況下,通過巧妙的系統設計和元學習策略,可以實現性能的突破。這為其他研究機構和公司提供了新的思路,表明創新需要更多地集中在如何更好地利用現有資源,而不一定要開發全新的基礎模型。
Poetiq 在 ARC-AGI-2 上的成績突破表明,AI 推理系統的發展正在進入一個新階段。在這個階段中,性能不再是唯一的追求,成本效益、系統設計創新和通用性同樣重要。隨著元系統的不斷學習和演化,以及與更多任務的交互,Poetiq 有望在未來的 AI 推理領域發揮越來越重要的作用。
參考來源:https://poetiq.ai/posts/arcagi_verified/?utm_source=www.therundown.ai&utm_medium=newsletter&utm_campaign=poetiq-cracks-major-reasoning-benchmark&_bhlid=7f71eabe97ee63dc37afe980e2ab664b7369f28d

AMICIS 與插畫家合作推出高品質玻璃滑鼠墊!

來自智慧型手機 RPG 遊戲《忍術大師 千手神樂 NEW LINK》的靈宿格物館中學的「Gekko」公仔,穿著原創的兔子服飾!

請注意她喝了酒後微醺的表情♪'Azure Lane「重型櫻花編隊航空母艦」Shinano「現已推出」Filling Oborozuki'皮膚的人偶!

迷人的身體是真正的 Ikitousen!來自「Shin Ikkitousen」的「Kanu Unchou」再次成為兔子Ver!

新系列 "NEW CRASH "正式上市! PPE Kokoro Shinozaki & Kitaro 的休閒 x 帥氣 "NEW" 風格!

THE KING OF FIGHTERS '98 中的女格斗家 「不知火舞」 加入 美少女 系列! 現在在 Amiami 接受預購!

















