斯坦福等新框架,用在線強化學習讓智能體系統“以小搏大”,領先GPT-4o——
AgentFlow,是一種能夠在線優化智能體系統的新范式,可以持續提升智能體系統對于復雜問題的推理能力
它由規劃器、執行器、驗證器、生成器四個專業智能體組成的團隊通過共享內存進行協作,利用新方法Flow-GRPO,在系統內部直接對其規劃器智能體進行實時優化。

以Qwen-2.5-7B-Instruct為基座模型的AgentFlow在10個基準測試中表現突出:
搜索任務提升14.9%、智能體任務提升14.0%、數學任務提升14.5%、科學任務提升4.1%。
多項任務表現甚至超越比其大50倍的模型,超越GPT-4o、Llama3.1-405B。

AgentFlow發布后,受到業界不少廣泛關注與看好。

網友紛紛表示方向很棒:
- 多智能體流(multi-agentflow)給人的感覺就像“相位耦合推理”(phase-coupled reasoning)。很期待看到“協同能力”取代“規模”,成為衡量智能的指標。

- Flow-GRPO采用共享內存的多智能體架構設計精妙。其中驗證智能體對幻覺化工具調用的阻斷機制尤為關鍵——它能顯著減少智能體工作流中典型的多步推理鏈誤差傳播。

所以,AgentFlow究竟長啥樣?
