近日,百度公司宣布旗下“飛槳”深度學(xué)習(xí)開源開放平臺(tái)又一次迎來(lái)20多項(xiàng)功能發(fā)布和技術(shù)升級(jí)。這些發(fā)布和升級(jí)包括提升核心框架性能和易用性、新增產(chǎn)業(yè)級(jí)模型庫(kù)、發(fā)布端側(cè)推理引擎PaddleLite、發(fā)布面向產(chǎn)業(yè)應(yīng)用場(chǎng)景的端到端開發(fā)套件(自然語(yǔ)言處理領(lǐng)域的ERNIE語(yǔ)義理解、計(jì)算機(jī)視覺(jué)方向的PaddleDetection目標(biāo)檢測(cè)和PaddleSeg圖像分割、智能推薦方向的ElasticCTR點(diǎn)擊率預(yù)估)等。
百度首席技術(shù)官、深度學(xué)習(xí)技術(shù)及應(yīng)用國(guó)家工程實(shí)驗(yàn)室主任王海峰向《中國(guó)科學(xué)報(bào)》表示,功能發(fā)布和技術(shù)升級(jí)后,飛槳平臺(tái)的深度學(xué)習(xí)模型開發(fā)能力、訓(xùn)練能力、預(yù)測(cè)和部署能力進(jìn)一步提升,可比肩TensorFlow、PyTorch等國(guó)際主流框架,在多項(xiàng)技術(shù)上有優(yōu)于后者的表現(xiàn)。
智能時(shí)代的操作系統(tǒng)
“深度學(xué)習(xí)框架上承各種應(yīng)用、下接芯片等硬件,起到了承上啟下的作用,是‘智能時(shí)代的操作系統(tǒng)’。”王海峰說(shuō),然而,在2016年之前,國(guó)內(nèi)外開發(fā)者主要基于谷歌TensorFlow、臉書PyTorch、亞馬遜MxNet等國(guó)外深度學(xué)習(xí)框架進(jìn)行人工智能算法、模型的開發(fā)、訓(xùn)練與部署。
百度飛槳的開源開放及不斷升級(jí)打破了這一局限。尤其是經(jīng)過(guò)多輪升級(jí)和打磨之后,如今飛槳平臺(tái)在深度學(xué)習(xí)框架的開發(fā)、訓(xùn)練、預(yù)測(cè)及部署等核心能力上均有著比肩甚至超越國(guó)外主流框架的表現(xiàn)。這使得我國(guó)人工智能(AI)技術(shù)開發(fā)者和使用者不必依賴于國(guó)外平臺(tái),同時(shí)還可進(jìn)一步培育自主可控的AI開發(fā)應(yīng)用生態(tài)。
飛槳是我國(guó)目前唯一具有完全自主知識(shí)產(chǎn)權(quán)的全功能性產(chǎn)業(yè)級(jí)深度學(xué)習(xí)平臺(tái),包括核心框架、模型庫(kù)、開發(fā)套件、工具組件和服務(wù)平臺(tái)五大部分。百度技術(shù)團(tuán)隊(duì)自2018年以來(lái)對(duì)飛槳進(jìn)行了全面升級(jí),并進(jìn)行大規(guī)模推廣。
優(yōu)于國(guó)外框架的使用體驗(yàn)
近兩年來(lái),飛槳圍繞深度學(xué)習(xí)框架的基本功能、性能、芯片支持的完備性等技術(shù)指標(biāo)進(jìn)行了一系列的易用性開發(fā)和性能迭代,為開發(fā)者提供了優(yōu)于國(guó)外框架的使用體驗(yàn)。
在開發(fā)能力方面,飛槳除了支持對(duì)常用API的調(diào)用之外,還在編程范式上同時(shí)支持聲明式編程和命令式編程,兼具很好的靈活性和穩(wěn)定性,可滿足不同開發(fā)者的開發(fā)習(xí)慣,更易上手。另外,飛槳提供了“自動(dòng)化網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)”這一工具,在多個(gè)任務(wù)上實(shí)測(cè)顯示自動(dòng)化設(shè)計(jì)水平已超過(guò)人類專家。
百度深度學(xué)習(xí)技術(shù)平臺(tái)部總監(jiān)馬艷軍告訴《中國(guó)科學(xué)報(bào)》,該領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議之一AAAI第一篇有關(guān)圖像風(fēng)格遷移網(wǎng)絡(luò)的自動(dòng)化網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的論文即來(lái)自百度飛槳技術(shù)團(tuán)隊(duì)。
在訓(xùn)練方面,飛槳平臺(tái)突破了超大規(guī)模深度學(xué)習(xí)模型訓(xùn)練技術(shù),研制了千億特征、萬(wàn)億參數(shù)、數(shù)百節(jié)點(diǎn)的開源大規(guī)模訓(xùn)練平臺(tái),實(shí)現(xiàn)了萬(wàn)億規(guī)模參數(shù)深度學(xué)習(xí)模型的實(shí)時(shí)更新。
“當(dāng)前國(guó)際主流的開源框架還停留在僅支持千億參數(shù)或更低規(guī)模的模型訓(xùn)練的水平,飛槳這一突破解決了大規(guī)模產(chǎn)業(yè)應(yīng)用的難題。”王海峰說(shuō),有的大型科技公司每天會(huì)有百億級(jí)數(shù)據(jù)量,所需模型規(guī)模參數(shù)量達(dá)萬(wàn)億級(jí)別,這要求深度學(xué)習(xí)平臺(tái)的訓(xùn)練能力與之匹配。例如,OPPO在應(yīng)用商店的應(yīng)用推薦場(chǎng)景,使用基于飛槳的分布式訓(xùn)練技術(shù),訓(xùn)練速度(16個(gè)訓(xùn)練節(jié)點(diǎn))相比單機(jī)TensorFlow提升8倍。
在預(yù)測(cè)、部署環(huán)節(jié),飛槳技術(shù)團(tuán)隊(duì)在各類硬件適配上做了大量工作,當(dāng)前可以輕松地部署到X86 CPU、英偉達(dá)GPU、Mali GPU、華為NPU等8種不同架構(gòu)的平臺(tái)設(shè)備上,并在對(duì)華為、寒武紀(jì)等國(guó)產(chǎn)AI芯片的適配方面取得了顯著效果。比如在華為麒麟芯片上,無(wú)論推理速度還是能效都有大幅提升。
同時(shí),飛槳平臺(tái)和其他開源框架訓(xùn)練的模型也能無(wú)縫銜接,可進(jìn)一步突破模型推理速度。
“產(chǎn)業(yè)級(jí)應(yīng)用要求很苛刻,推理速度快的優(yōu)勢(shì)盡顯。比如質(zhì)檢線上一個(gè)零件的停留時(shí)間只有數(shù)十毫秒,如果推理速度不夠,可能導(dǎo)致機(jī)器無(wú)法及時(shí)完成缺陷識(shí)別。”馬艷軍舉例說(shuō),飛槳下大力氣結(jié)合許多苛刻場(chǎng)景做了性能優(yōu)化,目的就是推動(dòng)飛槳在工業(yè)場(chǎng)景的應(yīng)用。在已上線飛槳計(jì)算機(jī)視覺(jué)相關(guān)模型的上海和輝光電OLED及重慶京東方LCD不良檢測(cè)項(xiàng)目中,產(chǎn)品漏檢率、過(guò)檢率相較應(yīng)用前均有數(shù)倍提升。
評(píng)測(cè)數(shù)據(jù)顯示,通過(guò)采用CPU全異步并行,飛槳平臺(tái)在點(diǎn)擊率預(yù)估模型、詞向量模型上比TensorFlow快8~10倍;在GPU多機(jī)多卡同步訓(xùn)練下,飛槳在多個(gè)模型下評(píng)測(cè)訓(xùn)練速度比TensorFlow快30%~70%。
在上述能力強(qiáng)化的基礎(chǔ)上,飛槳官方支持100多個(gè)經(jīng)過(guò)長(zhǎng)期產(chǎn)業(yè)實(shí)踐打磨的主流模型,其中包括在國(guó)際競(jìng)賽中奪得冠軍的模型,同時(shí)開源開放200多個(gè)預(yù)訓(xùn)練模型,以助力快速產(chǎn)業(yè)應(yīng)用。
培育自主可控的AI生態(tài)
統(tǒng)計(jì)數(shù)字顯示,飛槳當(dāng)前擁有超過(guò)6.5萬(wàn)企業(yè)用戶,在定制化訓(xùn)練平臺(tái)上發(fā)布了16.9萬(wàn)個(gè)模型,且模型數(shù)量呈現(xiàn)顯著增長(zhǎng)趨勢(shì),在工業(yè)、農(nóng)業(yè)、服務(wù)業(yè)等各行各業(yè)中廣泛應(yīng)用。同時(shí),飛槳已經(jīng)累計(jì)服務(wù)150萬(wàn)開發(fā)者,這一數(shù)字約占中國(guó)軟件從業(yè)平均人數(shù)的1/4。
不過(guò),與TensorFlow等相比,飛槳在生態(tài)構(gòu)建上仍然有較大發(fā)展空間。“生態(tài)體系不是一朝一夕培育起來(lái)的,國(guó)外框架幾年前就開始在中國(guó)大規(guī)模推廣了,目前滲透很深。”王海峰說(shuō),“我們希望有關(guān)多方圍繞深度學(xué)習(xí)框架和平臺(tái)這個(gè)核心形成合力,下大力氣培育自主的生態(tài)體系。”
中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究員陳云霽今年發(fā)表在《中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊》上的《智能計(jì)算系統(tǒng)——一門人工智能專業(yè)的系統(tǒng)課程》一文中提到,越是人工智能上層(算法層、應(yīng)用層)的研究,我國(guó)研究者對(duì)世界作出的貢獻(xiàn)越多;越是底層(系統(tǒng)層、芯片層),我國(guó)研究者的貢獻(xiàn)越少。
“在各種ImageNet比賽中,我國(guó)很多機(jī)構(gòu)的算法模型已經(jīng)呈現(xiàn)霸榜的趨勢(shì),可以說(shuō)代表了世界前沿水平。但這些算法模型絕大部分都是在CUDA編程語(yǔ)言、TensorFlow編程框架以及GPU之上開發(fā)的。在這些底層的‘硬科技’中,我國(guó)研究者對(duì)世界的貢獻(xiàn)就相對(duì)少了很多。”對(duì)這一現(xiàn)象,陳云霽表示擔(dān)憂,“底層研究能力的缺失不僅給我國(guó)人工智能基礎(chǔ)研究拖后腿,更重要的是,將使得我國(guó)智能產(chǎn)業(yè)成為‘空中樓閣’,走上信息產(chǎn)業(yè)受核心芯片和操作系統(tǒng)制約的老路。”
對(duì)此,王海峰表示,國(guó)產(chǎn)智能芯片和深度學(xué)習(xí)框架都是構(gòu)建我國(guó)自主AI生態(tài)的關(guān)鍵,智能時(shí)代深度學(xué)習(xí)平臺(tái)一定要和AI芯片對(duì)接,不僅要做軟件的優(yōu)化,還要軟硬一體,跟芯片一起聯(lián)合優(yōu)化。
“如果不發(fā)展自主芯片、操作系統(tǒng),國(guó)內(nèi)也就培養(yǎng)不出相應(yīng)的人才——維護(hù)好自己的社區(qū),跟在別人構(gòu)建的社區(qū)中修修補(bǔ)補(bǔ)是完全不一樣的。我國(guó)在智能時(shí)代不能再讓受制于人的歷史重演,這也是百度大力做飛槳平臺(tái)的意義所在。”王海峰表示,無(wú)論是推動(dòng)AI技術(shù)從實(shí)驗(yàn)室走向產(chǎn)業(yè),還是自主AI生態(tài)構(gòu)建,飛槳深度學(xué)習(xí)框架未來(lái)將繼續(xù)發(fā)揮重要作用。
摘自《中國(guó)科學(xué)報(bào)》