人工智能對各個領(lǐng)域科學研究正在產(chǎn)生廣泛影響,如何將強大的人工智能模型真正用于分析科學數(shù)據(jù)、構(gòu)建數(shù)學模型、發(fā)現(xiàn)科學規(guī)律,成為亟待突破的關(guān)鍵問題。
近日,自動化所研究團隊提出了一種創(chuàng)新性框架——DrSR (Dual Reasoning Symbolic Regression):通過數(shù)據(jù)分析與經(jīng)驗歸納“雙輪驅(qū)動”,賦予大模型像科學家一樣“分析數(shù)據(jù)、反思成敗、優(yōu)化模型”的能力。
在DrSR中,三位“虛擬科學家”協(xié)同工作:一個善于洞察變量關(guān)系的“數(shù)據(jù)科學家”;一個擅長總結(jié)失敗教訓與成功經(jīng)驗的“理論科學家”;一個勇于嘗試假設、不斷優(yōu)化模型的“實驗科學家”。這三種角色基于大模型構(gòu)建起高效的協(xié)作機制,共同驅(qū)動DrSR實現(xiàn)智能化、系統(tǒng)化的科學方程發(fā)現(xiàn)。
在物理、生物、化學、材料等跨學科領(lǐng)域的典型建模任務中(如非線性振蕩系統(tǒng)建模、微生物生長速率建模、化學反應動力學建模、材料應力-應變關(guān)系建模等),DrSR展現(xiàn)出強大的泛化能力,刷新當前最優(yōu)性能,成為AI助力科學研究的有力工具。
DrSR:讓大模型“有據(jù)可依、步步為營”地發(fā)現(xiàn)規(guī)律
DrSR的核心創(chuàng)新是“雙路徑推理”(Dual Reasoning)機制,即通過數(shù)據(jù)驅(qū)動的結(jié)構(gòu)分析和經(jīng)驗驅(qū)動的策略總結(jié),為大模型提供結(jié)構(gòu)化引導與反饋,模擬科學家的研究過程,高效且穩(wěn)健地進行科學建模與方程發(fā)現(xiàn)。
DrSR在每一輪嘗試中都“看數(shù)據(jù)、學經(jīng)驗、再出手”,具體流程如圖1所示:
圖1. DrSR的雙路徑推理機制
數(shù)據(jù)驅(qū)動洞察模塊(Data-aware Insight):負責分析數(shù)據(jù)中的變量關(guān)系,包括耦合程度、單調(diào)性、非線性趨勢等結(jié)構(gòu)特征。同時,DrSR 還會根據(jù)上一輪候選方程的殘差,進一步定位“沒擬合好”的數(shù)據(jù)段,為后續(xù)方程生成提供更高質(zhì)量的提示。
經(jīng)驗驅(qū)動總結(jié)模塊(Inductive Idea Learning):將生成的方程按效果分為“更好”、“變差”和“無效”,反思成功與失敗原因,總結(jié)經(jīng)驗并存入經(jīng)驗庫(Idea Library),為后續(xù)生成方程提供策略指導,避免重復錯誤,提升生成效率。
方程生成與優(yōu)化模塊(Equation Generation):綜合數(shù)據(jù)分析和經(jīng)驗庫指導,生成方程骨架(skeleton),再調(diào)用優(yōu)化器(如BFGS)擬合參數(shù),持續(xù)迭代、評估,形成從數(shù)據(jù)分析、方程生成到經(jīng)驗總結(jié)的閉環(huán)反饋機制。
總的來說,DrSR實現(xiàn)了一種閉環(huán)式智能探索,使模型從“盲目試探”走向“有的放矢”,系統(tǒng)化、高效地推動模型構(gòu)建與科學規(guī)律的自動發(fā)現(xiàn)。
DrSR不僅“更準”,還“更快、更穩(wěn)、更聰明”
研究團隊在六大符號回歸基準任務上系統(tǒng)評估了DrSR的性能,結(jié)果顯示:DrSR在精度、建模效率和泛化能力上全面領(lǐng)先主流方法,并展現(xiàn)出卓越的跨領(lǐng)域適應性。
表1. DrSR和基線方法在權(quán)威符號回歸基準上的性能對比
圖2. 訓練收斂性比較
圖3. 跨科學領(lǐng)域的泛化對比
讓大模型更像科學家,科學智能邁出關(guān)鍵一步
DrSR提出了一種融合數(shù)據(jù)感知與經(jīng)驗反思的科學問題建模新范式,它通過結(jié)構(gòu)洞察指導生成方向,通過經(jīng)驗總結(jié)提升推理質(zhì)量,讓大模型在科學建模中逐步具備“看數(shù)據(jù)、記教訓、會修正”的能力。作為一套通用性強、可解釋性好、建模效率高的新架構(gòu),DrSR為人工智能深度參與科學發(fā)現(xiàn)提供了堅實技術(shù)支撐。
DrSR已集成至一站式智能科研平臺 ScienceOne,為科研工作者提供高效、可解釋的科學建模服務。DrSR 并不依賴特定的大模型,具備良好的模型兼容性和可擴展性。未來,研究團隊將基于平臺自研的科學基礎大模型S1-Base,進一步增強 DrSR在科學建模中的推理能力與跨任務泛化能力。
研究團隊表示,讓人工智能不僅能“擬合數(shù)據(jù)”,更能“發(fā)掘自然規(guī)律”,這是AI4Science走向深層科學智能的必由之路。
來源:中國科學院自動化研究所