盗墓笔记,小说改编的网页游戏,殿上欢

邊側大模型基準測試：政務大模型初探

點擊數：734 發布時間：2025-03-10 17:14:04
分享到：

隨著大模型進入應用時代，針對個性化、合規、實時性需求，邊側大模型服務成為大趨勢。其中，政務大模型是最為典型的邊側大模型行業應用之一。

關鍵詞：大模型 , 政務大模型 , 基準測試

中國科學院大學陳孟卓

華為云鄭子木

摘要：隨著大模型進入應用時代，針對個性化、合規、實時性需求，邊側大模型服務成為大趨勢。其中，政務大模型是最為典型的邊側大模型行業應用之一。在各地政府，政務領域應用該模型能推進業務辦理智能化，幫助政府機構提升處理效率和服務質量。然而，現有大模型基準測試大多集中于評估模型的通用能力或者特定學科任務的性能，而對于模型在特定行業中的應用能力，例如處理政務的能力評測方面，卻缺乏相應的評測數據集。為填補這一空白，本文提出了一種新的中文政務理解基準測試（A Chinese Government Affairs Understanding Evaluation Benchmark，CGAUE）。本基準是開放、社區驅動的，不僅包含對模型的客觀能力測試集，還提供對模型主觀能力的測試集。具體來說，本基準旨在評估大模型在處理政務相關任務時的表現，包括但不限于對外部知識的利用以及對實際市民問題的響應能力，更真實地反映模型在實際政務場景中的應用效果。此外，本文還提出了一種新的測試集參考格式。該格式在大模型領域具有通用性和兼容性，可促進不同測試集的相互交換、集成和處理，以及不同模型之間的比較和評估，推動了大模型評測產業發展?？偟膩碚f，本工作通過構建全新的中文政務理解評估基準和評測數據集參考格式，推動了大模型在實際政務領域的應用和評測。這不僅有助于提高模型在行業中的實用性，也為大模型的研究和開發提供了新的方向和挑戰。

關鍵詞：大模型；基準測試；政務大模型

在線預覽：邊側大模型基準測試：政務大模型初探.pdf

摘自《自動化博覽》2025年2月刊

1.我有以下需求：
得到貴公司產品詳細資料得到貴公司產品的價格信息貴公司產品銷售人員聯系我貴公司技術支持人員聯系我
2.詳細的需求：
*
姓名:	*
單位:
電話:	*
郵件:	*

久久久91-久久久91精品国产一区二区-久久久91精品国产一区二区三区-久久久999国产精品-久久久999久久久精品

技術頻道

行業頻道

熱門頻道

技術頻道

行業頻道

熱門頻道

資訊頻道

熱點新聞

推薦產品