智能規劃技術是科學決策的重要手段,可以完成科學實驗方案規劃與評估等任務,在醫療健康、生產調度、航空航天等諸多領域發揮關鍵的作用。然而,目前的智能規劃方法大多局限于單向推理,存在盲目性高、效率低等問題。近日,中國科學院自動化研究所“磐石·科學基礎大模型”研發團隊提出一種新型的“神經-符號”融合規劃器,為神經規劃系統和符號規劃系統的融合提供了統一和通用的框架。該智能規劃器已集成至“磐石·科學基礎大模型”。
基于Knowledge of Result(KR)的閉環系統是人類運動學習的關鍵部分,可以幫助學習者糾正錯誤,向著目標方向實現有效學習。 “神經-符號”融合新型規劃器通過借鑒這一反饋閉環理念,構建了一種閉環反饋的雙向規劃機制——KRCL(Knowledge-of-Results based Closed-Loop),正向神經規劃器生成問題的動作序列與反向KR反饋機制構成動態的錯誤檢測-糾正閉環。該機制通過有效利用信息的雙向傳遞和反饋來評估和調整動作,在規劃中研究以KR信息為中心的閉環規劃結構,實現準確的反饋以加強錯誤檢測和錯誤糾正,持續評估和調整規劃器的動作,從而促進規劃器的有效學習。此外,研發團隊構建了一種規劃器與規劃識別器的新型融合模式,實現了神經系統與符號系統之間的雙向連接,通過利用兩種范式的互補優勢,在規劃中同時實現的有效學習和推理。其中,基于神經系統的規劃器利用其強大的表示和學習能力生成規劃動作序列;而基于符號系統的規劃識別器作為反向機制,通過準確、可靠的推理來校正規劃結果,在規劃的過程中兼顧有效學習與推理能力。
為進一步提升規劃效率并減少對反饋信息的依賴,研發團隊還提出了面向規劃的自我控制機制,從規劃問題難度和模型表現兩方面展開研究,讓反向規劃識別器只在正向規劃器“需要”的時候被激活,優化正向規劃器接收反饋的頻率,減少雙向規劃器對反饋的依賴,進而提高模型的自主性和規劃效率。
研究團隊在國際IPC(International Planning Competition)競賽的8個代表性規劃任務上系統評估了KRCL的性能,結果顯示,KRCL的平均覆蓋率顯著優于其他對比規劃器,證明了提出的基于神經-符號融合的雙向規劃器可以指導規劃器尋找正確的解決方案,精準有效地解決規劃任務。此外,還在用于評估大語言模型在規劃任務中表現的基準數據集(PlanBench)上對所提出的方法與大型語言模型o1在規劃任務中的性能進行了對比。實驗結果表明,所提出的KRCL在規劃覆蓋率和規劃效率方面均顯著優于o1,進一步驗證了該方法在規劃任務中的優勢。
KRCL通過神經和符號系統優勢互補,能夠有效提升規劃性能。該新型規劃器利用其強大的閉環反饋機制、精準的推理校正能力以及高效的自主規劃特性,可為各類科學研究任務提供更可靠、更智能的規劃工具。
圖1.?人類運動學習的“反饋閉環”與對應的規劃問題
圖2 “神經-符號”融合新型規劃器架構 圖3.面向規劃問題的自我控制機制 來源:中國科學院自動化研究所