久久久91-久久久91精品国产一区二区-久久久91精品国产一区二区三区-久久久999国产精品-久久久999久久久精品

ABB
關(guān)注中國(guó)自動(dòng)化產(chǎn)業(yè)發(fā)展的先行者!
CAIAC 2025
2025工業(yè)安全大會(huì)
OICT公益講堂
當(dāng)前位置:首頁(yè) >> 資訊 >> 行業(yè)資訊

資訊頻道

高效推理策略AutoThink: 讓大模型自主決定何時(shí)思考
  • 點(diǎn)擊數(shù):204     發(fā)布時(shí)間:2025-05-30 23:36:29
  • 分享到:
在大模型快速發(fā)展的今天,越來(lái)越多的模型開(kāi)始具備“深度思考能力”。比如,DeepSeek-R1系列模型通過(guò)引入特別的提示詞結(jié)構(gòu):先<think>,再<answer>,使得模型在回答問(wèn)題之前先進(jìn)行“深度思考”,生成一整段包含反復(fù)自我反思、自我驗(yàn)證的推理過(guò)程,然后再給出答案。這一過(guò)程顯著提升了模型解決復(fù)雜問(wèn)題的能力,但也同時(shí)帶來(lái)了“過(guò)度思考”的問(wèn)題,即模型在解決簡(jiǎn)單任務(wù)時(shí)也會(huì)生成冗余的推理語(yǔ)句。例如提問(wèn) “2+3等于幾”,模型卻要從自然數(shù)定義講起,列出加法交換律,甚至反復(fù)試錯(cuò),最后才輸出答案是5。這種不必要的“過(guò)度思考”現(xiàn)象在推理模型中廣泛存在。

在大模型快速發(fā)展的今天,越來(lái)越多的模型開(kāi)始具備“深度思考能力”。比如,DeepSeek-R1系列模型通過(guò)引入特別的提示詞結(jié)構(gòu):先<think>,再<answer>,使得模型在回答問(wèn)題之前先進(jìn)行“深度思考”,生成一整段包含反復(fù)自我反思、自我驗(yàn)證的推理過(guò)程,然后再給出答案。這一過(guò)程顯著提升了模型解決復(fù)雜問(wèn)題的能力,但也同時(shí)帶來(lái)了“過(guò)度思考”的問(wèn)題,即模型在解決簡(jiǎn)單任務(wù)時(shí)也會(huì)生成冗余的推理語(yǔ)句。例如提問(wèn) “2+3等于幾”,模型卻要從自然數(shù)定義講起,列出加法交換律,甚至反復(fù)試錯(cuò),最后才輸出答案是5。這種不必要的“過(guò)度思考”現(xiàn)象在推理模型中廣泛存在。

針對(duì)這一問(wèn)題,中國(guó)科學(xué)院自動(dòng)化研究所聯(lián)合鵬城實(shí)驗(yàn)室提出了一種高效的推理策略AutoThink,賦予推理大模型根據(jù)題目難度自主切換思考模式的能力:通過(guò)所設(shè)計(jì)的提示詞和多階段強(qiáng)化學(xué)習(xí),引導(dǎo)大模型自主決定是否進(jìn)行深度思考。

具體而言,AutoThink提出了一個(gè)簡(jiǎn)單而有效的方案,它涉及兩個(gè)核心技術(shù)點(diǎn):

(1)最小提示干預(yù),通過(guò)一個(gè)添加省略號(hào)的Ellipsis?Prompt,激活模型隨機(jī)切換思考模式的能力;

(2)多階段強(qiáng)化學(xué)習(xí),通過(guò)三階段強(qiáng)化學(xué)習(xí),模型學(xué)會(huì)自主根據(jù)問(wèn)題難度切換思考模式。第一階段讓模型穩(wěn)定地出現(xiàn)快慢兩種思考模式,其中“快思考”用于解決簡(jiǎn)單問(wèn)題,而對(duì)于復(fù)雜問(wèn)題則使用“慢思考”;第二階段對(duì)快慢思考行為進(jìn)行優(yōu)化,提高兩種模式下正確回答的能力;第三階段對(duì)快慢思考的思維鏈輸出進(jìn)行精煉。經(jīng)過(guò)這個(gè)階段的訓(xùn)練后,模型不再隨機(jī)地決定是否深入思考,而是根據(jù)問(wèn)題難度自主選擇思考模式。

通過(guò)這兩者的結(jié)合,模型具備了類似人類的快慢思考能力:簡(jiǎn)單問(wèn)題直截了當(dāng),復(fù)雜問(wèn)題深度推理,真正做到“按需思考”。如圖所示,相比之下,傳統(tǒng)方法要么手動(dòng)控制思考模式,要么不區(qū)分題目難度,一味地采用簡(jiǎn)潔推理方法壓縮推理過(guò)程。

AutoThink與手動(dòng)控制和簡(jiǎn)潔推理方法的核心差異:根據(jù)難度自主切換思考模式

研究團(tuán)隊(duì)在多個(gè)數(shù)學(xué)Benchmark和基礎(chǔ)模型(R1-Style)上驗(yàn)證了AutoThink。實(shí)驗(yàn)結(jié)果顯示:AutoThink不僅能提升R1蒸餾基模的性能,同時(shí)可減少約40%的推理Token消耗,如下表所示。相比之下,大部分開(kāi)源模型性能增強(qiáng)的代價(jià)是推理長(zhǎng)度(思考過(guò)程)的成倍增長(zhǎng);而簡(jiǎn)潔思考的模型性能相比于基礎(chǔ)模型幾乎無(wú)提升甚至下降。特別地,即使在已經(jīng)過(guò)大量強(qiáng)化學(xué)習(xí)后訓(xùn)練的DeepScaleR上,AutoThink依然能額外節(jié)省10%的Token消耗。

不同模型和Benchmark上的準(zhǔn)確度和推理長(zhǎng)度對(duì)比

AutoThink提供了一種簡(jiǎn)單而有效的推理新范式,即通過(guò)省略號(hào)提示配合三階段強(qiáng)化學(xué)習(xí),引導(dǎo)模型不再“逢題必思”,而是根據(jù)問(wèn)題難度自主決定是否思考、思考多少。在多個(gè)數(shù)學(xué)數(shù)據(jù)集上,AutoThink實(shí)現(xiàn)了優(yōu)異的準(zhǔn)確率–效率平衡,既提升性能,又節(jié)省算力,展示出很強(qiáng)的適應(yīng)性和實(shí)用性。

AutoThink已集成于一站式智能科研平臺(tái)ScienceOne,并將用于訓(xùn)練ScienceOne的基座大模型S1-Base。研發(fā)團(tuán)隊(duì)表示,讓大模型“更聰明地思考、更簡(jiǎn)潔地表達(dá)”,是未來(lái)科學(xué)基礎(chǔ)大模型演進(jìn)的重要方向。

論文鏈接

代碼鏈接

模型鏈接


來(lái)源:中國(guó)科學(xué)院自動(dòng)化研究所


熱點(diǎn)新聞

推薦產(chǎn)品

x
  • 在線反饋
1.我有以下需求:



2.詳細(xì)的需求:
姓名:
單位:
電話:
郵件:
主站蜘蛛池模板: 最新黄色地址 | 尤物tv在线 | 永久免费在线视频 | 欧美一区二区三区在观看 | 亚洲精品高清在线 | 一级毛片在线看在线播放 | 97国产超级碰碰在线视频 | 国产美女久久久亚洲 | 鲁丝片一区二区三区免费 | 亚洲s码 | 日韩视频中文字幕 | 色黄网站在线观看 | 亚州一区 | 婷婷激情狠狠综合五月 | 大陆三级特黄在线播放 | 欧美一级视频在线观看欧美 | 免费一级片在线 | 国产高清成人吃奶成免费视频 | 免费观看日本高清a毛片 | 伊人精品在线 | 视频在线观看一区二区 | 日本一级毛片2021免费 | 精品国产一区二区三区不卡 | 亚洲理论在线观看 | 一区二区三区在线 | 日本 | 成年男女免费大片在线观看 | 日日夜夜免费精品视频 | 美国三级网站 | 午夜成年免费观看视频 | 国产精品成人久久久久 | 在线免费视频一区二区 | 国产最新视频 | 久热中文字幕在线观看 | 欧美激情视频网址 | 国产欧美亚洲精品第一页青草 | 国产高清不卡一区二区三区 | 999www成人免费视频 | 黄片毛片免费看 | 欧美日本一区二区 | 91蝌蚪在线播放 | 国产色视频网站 |