近日,由共青團北京市委員會、首都文明辦、市委網(wǎng)信辦等相關(guān)單位開展的“北京青年榜樣·時代楷?!痹u選結(jié)果揭曉,30位來自各行各業(yè)的青年榜樣獲此殊榮。在人工智能(AI)技術(shù)領(lǐng)域也有一位獲獎?wù)摺@得“科創(chuàng)達人”稱號的百度深度學(xué)習(xí)技術(shù)平臺部總監(jiān)馬艷軍。他所負責(zé)的PaddlePaddle是我國首個也是唯一一個功能完備的自研深度學(xué)習(xí)開源框架。
在國外已有成熟開源學(xué)習(xí)框架(如TensorFlow、Caffe等)的情況下,再做國產(chǎn)深度學(xué)習(xí)框架并開源開放給開發(fā)者,是一件吃力但不一定討好的事情。為什么還要專門做國產(chǎn)的深度學(xué)習(xí)框架?如何讓開發(fā)者喜歡上它?《中國科學(xué)報》日前對馬艷軍進行了獨家專訪,后者對于記者提出的上述問題進行了詳細解讀。
PaddlePaddle緣起:原是一套內(nèi)部系統(tǒng)和工具
“其實百度做這個深度學(xué)習(xí)框架比較自然,原因就在于,百度很早就在研發(fā)和使用了深度學(xué)習(xí)技術(shù)?!瘪R艷軍舉例說,百度早在2012年就開始在語音、OCR場景使用深度學(xué)習(xí)相關(guān)技術(shù),2013年又在搜索、推薦等產(chǎn)品上進行了應(yīng)用。
經(jīng)過幾年的積累,這套系統(tǒng)和工具,逐漸形成了深度學(xué)習(xí)框架的雛形?!拔覀冞@兒做一下,那兒完善一點,最終就把它抽象成為一套深度學(xué)習(xí)框架的系統(tǒng)了?!瘪R艷軍說,這套系統(tǒng)在2013年前后基本成型,并最終在2016年9月正式宣布開源開放給開發(fā)者。
選擇開源開放,馬艷軍對《中國科學(xué)報》說,緣于百度看到了深度學(xué)習(xí)技術(shù)給百度產(chǎn)品帶來的價值,看到了這項技術(shù)給各行各業(yè)帶來的巨大潛力。
在這一波人工智能浪潮中,深度學(xué)習(xí)和深度學(xué)習(xí)框架是基礎(chǔ)性的核心技術(shù)。其中,深度學(xué)習(xí)框架作為介于底層硬件和上層應(yīng)用之間的基礎(chǔ)軟件能力(其意義相當(dāng)于操作系統(tǒng)和編譯系統(tǒng),編者注),不僅關(guān)乎相關(guān)產(chǎn)品和服務(wù)的開發(fā),還直接影響到AI芯片指令集的設(shè)計。
也正基于此,百度開放了這一核心的基礎(chǔ)能力。馬艷軍對記者說,這也源于百度在AI大勢下開放共贏的理念:開放PaddlePaddle 深度學(xué)習(xí)框架,“Everyone Can AI”。
事實也正是如此。PaddlePaddle深度學(xué)習(xí)框架開放后,涌入大批開發(fā)者打開AI所帶來的各類想象。北京工業(yè)大學(xué)4位自動化專業(yè)的大學(xué)生基于該框架,開發(fā)了供桃農(nóng)分揀桃子的“桃子選美機”,機器分桃準(zhǔn)確率目前已超過90%,每年可幫助桃農(nóng)節(jié)省一大筆雇工費;北京林業(yè)大學(xué)基于PaddlePaddle研發(fā)了面向信息素誘捕器的智能蟲情監(jiān)測系統(tǒng),該系統(tǒng)大幅降低了蟲情監(jiān)測的人力成本,原本須一周的觀察時間一下子縮至30分鐘……馬艷軍說,諸如此類的例子不勝枚舉。
開放的底氣:PaddlePaddle的“幾招鮮”
馬艷軍告訴《中國科學(xué)報》,開源開放PaddlePaddle平臺的原因還在于,百度對在人工智能技術(shù)領(lǐng)域的積累“還是有底氣的”?!霸诎俣葍?nèi)部,2013年左右就把深度學(xué)習(xí)技術(shù)用在許多核心產(chǎn)品上了,2015年百度翻譯進行升級,就上線了行業(yè)首個基于神經(jīng)網(wǎng)絡(luò)的在線翻譯引擎?!?/p>
此外,馬艷軍舉例說,百度在大規(guī)模稀疏場景的推薦引擎、自然語言處理、計算機視覺、自動駕駛等方面的技術(shù)長期積累在業(yè)界有目共睹,這些技術(shù)能力也都沉淀到了PaddlePaddle,形成了在大規(guī)模深度學(xué)習(xí)并行技術(shù)、領(lǐng)先的算法模型庫、高速推理引擎幾個方面的技術(shù)優(yōu)勢。
“有這幾招鮮,開發(fā)者就奔著來了。”馬艷軍說,比如百度在自然語言理解方面會發(fā)布一些預(yù)訓(xùn)練模型,開發(fā)者或企業(yè)能夠在很高的起點繼續(xù)開發(fā),從而取得更好的效果。迄今為止,百度已經(jīng)先后開放多個領(lǐng)先的預(yù)訓(xùn)練中文模型,并將多個在國際大賽中取得冠軍的算法模型公之于眾,這吸引了許多包括一些國外開發(fā)團隊在內(nèi)的開發(fā)者使用PaddlePaddle框架。
馬艷軍告訴記者,如今國外開發(fā)團隊處理中文任務(wù)、研究中國市場的越來越多,加之百度在深度學(xué)習(xí)技術(shù)領(lǐng)域的“幾把刷子”被認可,因此一些國外企業(yè)或開發(fā)者團隊使用PaddlePaddle框架并不稀奇。他還看到過美國一家超市使用百度推出的Easy DL(Easy DL是基于PaddlePaddle 的零算法基礎(chǔ)定制化訓(xùn)練和服務(wù)平臺,編者注)開發(fā)一款應(yīng)用,來檢測購物車是否有夾帶未付款商品。
“我們的產(chǎn)品降低門檻以后,其實也不那么分國界。這個門檻降下去了,用的人自然就多了?!瘪R艷軍說。
應(yīng)對深度學(xué)習(xí)人才荒:覆蓋10萬初學(xué)者
其實對于馬艷軍及其團隊而言,開源開放PaddlePaddle意味著很大的挑戰(zhàn),開源開放把PaddlePaddle從內(nèi)部工具變成了服務(wù)整個行業(yè)的開發(fā)套件。當(dāng)它面對開發(fā)者時,開發(fā)者是否愿意用、喜歡用,還要不斷“大練內(nèi)功”。
“我們的目標(biāo)是真正把它做得讓開發(fā)者容易用,并且具備我們的技術(shù)特色,讓開發(fā)者喜歡用。”馬艷軍說,在PaddlePaddle剛開源的時候,的確在使用便利性上(如社區(qū)不夠完善、資料積累不夠豐富等)存在一些問題,但隨著PaddlePaddle官網(wǎng)的上線、文檔和社區(qū)資料的豐富和開發(fā)套件版本的不斷迭代(目前已升級為PaddlePaddle3.0),問題已經(jīng)得到了“比較徹底的解決”。
不過,在馬艷軍看來,深度學(xué)習(xí)人才荒的問題才是真正的挑戰(zhàn)。據(jù)領(lǐng)英大數(shù)據(jù)顯示,全球AI人才整體供給在340萬人左右,其中深度學(xué)習(xí)人才僅9.5萬人,且流動性較大,進一步加大了缺口。
“真正懂深度學(xué)習(xí)、能夠把深度學(xué)習(xí)的基礎(chǔ)理論掌握得比較深入的人才、能夠看得懂深度學(xué)習(xí)框架底層設(shè)計進而做一些底層設(shè)計和開發(fā)的人才在國內(nèi)還非常稀缺。所以培養(yǎng)和吸引人才來作深度學(xué)習(xí)開發(fā)、使用深度學(xué)習(xí)框架,一直是我們一個重點任務(wù)?!瘪R艷軍說。
基于PaddlePaddle平臺,百度也在做一些努力。馬艷軍說,目前,百度已經(jīng)與國內(nèi)逾百所高校合作,為其相應(yīng)的課程提供基于PaddlePaddle的編程環(huán)境?!斑@些學(xué)校不必擔(dān)心沒有機器、沒有GPU,我們會提供一套AI Studio集成環(huán)境,讓學(xué)生直接在這個環(huán)境中學(xué)習(xí)深度學(xué)習(xí)的整套內(nèi)容。”馬艷軍透露:“通過這種方式我們可以覆蓋至少10萬名學(xué)生?!?/p>
同時,馬艷軍告訴《中國科學(xué)報》,百度正在通過類似“黃埔計劃”(百度推出的“深度學(xué)習(xí)架構(gòu)師培養(yǎng)計劃”)的方式,面對面讓大家去了解深度學(xué)習(xí)框架如何在企業(yè)中發(fā)揮作用?!霸摶顒訄竺彩欠浅;鸨?,不少企業(yè)對這個培訓(xùn)很感興趣,愿意來學(xué)習(xí)和應(yīng)用。”馬艷軍說。
摘自《中國科學(xué)報》