開源 AI 搜尋代理 Harness-1 超越 GPT-5.4 創新架構顯著提升效率

商傳媒|葉安庭/綜合外電報導
近期,研究人員成功開發出一款名為 Harness-1 的開源人工智慧(AI)搜尋代理,其在檢索相關資訊的表現上超越了 OpenAI 的 GPT-5.4 模型。這項突破性的技術,特別是其獨特的記憶管理方式,為 AI 複雜檢索任務的執行方式帶來了根本性的變革。
Harness-1 是一個擁有 200 億參數的開源搜尋代理,以 OpenAI 的 gpt-oss-20B 開源模型為基礎建構。根據《VentureBeat》報導,Harness-1 在精選資料集上的資訊召回率平均達到 73%,優於 GPT-5.4 的 70.9%,同時也比 Tongyi DeepResearch 30B 高出 11.4 個百分點。這項成果證明了由 Thinking Machines Data Science, Inc. 所開發的 Tinker 分散式網路 AI 模型訓練與微調 API 的有效性,Harness-1 的訓練和推理(模型運行)皆採用了 Tinker 平台。
研究團隊在八項高度複雜的搜尋基準測試中評估了 Harness-1 及其他競爭模型,這些測試要求 AI 篩選來自開放網路、美國證管會(SEC)的複雜財務文件、美國專利及商標局(USPTO)的技術專利資料庫,以及需要整合多個資訊來源才能回答的「多跳問答任務」。結果顯示,Harness-1 在這些測試中擊敗了 GPT-5.4、Claude Sonnet 4.6 和 Moonshot AI PTE. LTD. 的 Kimi-K2.5 模型,儘管 Opus-4.6 在整體平均表現上略勝一籌。
Harness-1 之所以能實現卓越效能,關鍵在於其將搜尋過程中的記憶管理(俗稱「帳務處理」)從模型的工作記憶中卸載,轉移到一個結構化的軟體環境中,研究團隊稱之為「狀態外部化架構」。這項架構負責主動管理文件的候選池、帶有重要性標籤的精選證據集、緊湊證據連結及驗證記錄等,讓 AI 模型能專注於語義選擇與決策,而由外部環境負責狀態管理。這種做法使 AI 得以發揮其最佳能力,提升了搜尋效率。
Harness-1 的訓練流程也顛覆了業界在代理式學習上的傳統做法。過往的搜尋代理在設計上,常讓 AI 必須在龐大且不斷增長的紀錄中進行策略運作,迫使強化學習(RL)演算法必須同時最佳化語義推理和對搜尋狀態的原始記憶。Harness-1 的創造者則採取不同策略,由於其客製化的「狀態外部化架構」負責記憶管理,訓練過程僅需教導模型如何操作這個結構化介面。這項訓練從監督式微調(SFT)階段開始,透過 GPT-5.4 教師代理生成的 899 個過濾軌跡,教會模型如何格式化工具呼叫、依重要性標記文件並驗證主張。隨後,模型進入強化學習階段,使用了名為 CISPO 的演算法,在最多 40 輪的搜尋過程中,透過特定的終端獎勵函式鼓勵模型發現並策展相關文件,並獎勵其「工具多樣性」。
相較於其他開源模型需要龐大的訓練資料集(例如 Context-1 使用超過 17,200 個項目,Search-R1 則依賴 221,300 個項目),Harness-1 僅使用了約 4,400 個獨特項目(899 個 SFT 軌跡和 3,453 個強化學習查詢),便達成了領先水準的性能。這也意味著 Harness-1 能以與 Context-1 相當的成本和延遲,實現尖端效能。此模型已根據 Apache 2.0 授權協議在 Hugging Face 上發布,允許企業自由使用、修改和商業化,且無需承擔長期 AI 任務可能帶來的高昂 Token 成本,為開源 AI 搜尋領域開啟了新篇章。該專案主要研究員 Patrick (Pengcheng) Jiang 也在社群媒體平台 X 上表示:「我一直在思考:也許搜尋代理表現不佳,部分原因在於我們讓它們在腦中處理所有『文書工作』。」這凸顯了業界正從追求大上下文視窗,轉向提升 AI 模型環境對上下文的管理效率。