為了加速美國國防部采用人工智能技術(shù)的進程,美國聯(lián)合人工智能中心(JAIC)正在創(chuàng)建一個聯(lián)合通用基礎(chǔ)(JCF)平臺。為此,JAIC/國防信息系統(tǒng)局(DISA)/國防信息技術(shù)合同組織(DITCO)于2020年4月13日發(fā)布了信息請求(RFI),要求開發(fā)AI測評軟件、創(chuàng)建AI測評流程和最佳實踐,由供應(yīng)商提供AI測評服務(wù)。
JAIC由美國國防部首席信息官(CIO)主管,該中心旨在加速整個國防部采用人工智能(AI)技術(shù)的進程。各軍兵種對AI技術(shù)的需求不斷增長,以求增強作戰(zhàn)人員執(zhí)行重復和/或危險任務(wù)的能力。AI有潛力為作戰(zhàn)人員提供及時和關(guān)鍵的支持,提高作戰(zhàn)節(jié)奏,從而在戰(zhàn)場上提供優(yōu)勢。JAIC已經(jīng)建立了幾個關(guān)鍵的任務(wù)倡議(MI)(如圖1所示),其中,AI可以增強跨軍種作戰(zhàn)。
為了促進AI技術(shù)的采用,JAIC正在創(chuàng)建一個聯(lián)合通用基礎(chǔ)(JCF)平臺。如圖2所示,JCF將發(fā)現(xiàn)、開發(fā)和測試AI問題的解決方案,并作為任務(wù)倡議開發(fā)的AI技術(shù)的主要平臺。
為了確保每個任務(wù)倡議都能生產(chǎn)出安全有效的產(chǎn)品,JAIC設(shè)有一個測評(T&E)辦公室,專門負責在JCF上提供測試服務(wù)。利用算法測試、系統(tǒng)測試和操作測試,該辦公室負責評估所有JAIC產(chǎn)品,并獨立提供AI性能的分析。
JAIC是國防部的AI卓越中心。JAIC測評團隊負責開發(fā)國防部范圍內(nèi)的AI測評流程、工具和標準。為了實現(xiàn)這一目標,該團隊將在JCF上開發(fā)和托管AI測試設(shè)備,以供更廣泛的國防部機構(gòu)使用。此外,該團隊還需要成為AI測評主題專家的集中聯(lián)絡(luò)點。
2020年4月13日,JAIC測評辦公室發(fā)布信息請求,包括開發(fā)AI測評軟件、創(chuàng)建AI測評流程和最佳實踐,由供應(yīng)商提供AI測評服務(wù)。該團隊的主要需求如下:
測試技術(shù)及工具
JAIC 測評辦公室尋求為各種AI應(yīng)用獲取測試技術(shù)和工具。按照預期,AI測評聚焦于開發(fā)測評能力支持國防部的全頻譜新興AI技術(shù),包括機器學習、深度學習、神經(jīng)網(wǎng)絡(luò)。其重點包括:
(1)使用語音自動轉(zhuǎn)化為文本的對話界面應(yīng)用程序。
(2)為國防部應(yīng)用和系統(tǒng)提供語音產(chǎn)品和服務(wù)。
(3)圖像分析,測試基于深度學習的視覺搜索和圖像分類器。
(4)支持自然語言處理(NLP)的產(chǎn)品和服務(wù)。
(5)通過機器增強人類的能力,包括人機界面和衡量作戰(zhàn)人員認知和身體負荷的改進方法,具體包括增強現(xiàn)實(AR)和虛擬現(xiàn)實(VR)測試服務(wù)。
(6)自主系統(tǒng)。
測評服務(wù)
JAIC測評團隊正在尋求政府、學術(shù)界和工業(yè)界組織的服務(wù),以協(xié)助任務(wù)倡議或其他國防部工作人員進行技術(shù)測評,具體需求如下:
(1)數(shù)據(jù)集開發(fā)/管理:每個任務(wù)倡議或國防部AI項目都有獨特的數(shù)據(jù),針對這些數(shù)據(jù),必須以一定的方式進行獲取和管理,以便能夠被現(xiàn)代AI軟件系統(tǒng)使用。這些工作包括但不限于數(shù)據(jù)質(zhì)量評估、圖像注釋和數(shù)據(jù)覆蓋分析。
(2)測試工具開發(fā):創(chuàng)建自動的、封裝的、支持云的測試工具,以幫助將數(shù)據(jù)自動導入到封裝的AI模型中,并匯總結(jié)果。
(3)模型輸出分析:需要專業(yè)分析知識/軟件來評估由任務(wù)倡議開發(fā)的AI模型結(jié)果質(zhì)量。這方面的工作包括開發(fā)封裝的、基于云的分析軟件,以及創(chuàng)建特定場景、與操作相關(guān)的性能指標。
(4)測試計劃、文檔和報告:測試專家為AI算法創(chuàng)建測試生命周期(算法測試、系統(tǒng)測試和操作測試)所需的文檔。包括但不限于,創(chuàng)建測評主計劃(TEMPS)、測試計劃,創(chuàng)建測試報告,記錄結(jié)果,以及管理測試計劃。
(5)測試服務(wù):對AI產(chǎn)品進行測評的服務(wù)和專業(yè)知識,包括但不限于,在算法測試、系統(tǒng)測試、開發(fā)測試和操作測試等所有測評領(lǐng)域?qū)I算法和/或AI使能系統(tǒng)進行測試。