美國谷歌旗下人工智能公司DeepMind開發(fā)了一種新的矩陣算法,這是50多年來的首次進(jìn)步。一系列軟件都依賴于大規(guī)模執(zhí)行乘法任務(wù),而這一發(fā)現(xiàn)有望將某些計(jì)算速度提高20%。相關(guān)論文10月5日發(fā)表于《自然》。
矩陣乘法,即兩個(gè)矩陣之中的數(shù)字相乘,在某種程度上幾乎是所有軟件的基本計(jì)算任務(wù),尤其是在圖形、人工智能和科學(xué)模擬中。即使這些算法的效率僅提高一點(diǎn),也可以帶來顯著的性能提升或節(jié)約能源。
過去幾個(gè)世紀(jì),數(shù)學(xué)家普遍認(rèn)為,矩陣中相乘元素的個(gè)數(shù)與矩陣乘法的運(yùn)算效率成正比。這意味著,當(dāng)矩陣擴(kuò)大,乘法的計(jì)算量也會(huì)擴(kuò)大。
直到1969年,德國數(shù)學(xué)家Volker Strassen證明,一個(gè)由兩個(gè)數(shù)字組成的兩行矩陣與另一個(gè)同樣大小的矩陣相乘,并不需要8次乘法計(jì)算,而可以通過技巧簡(jiǎn)化為7次。該過程需要一些額外的加法,但這是可以接受的,因?yàn)橛?jì)算機(jī)計(jì)算加法比乘法快得多。
這一方法名為Strassen算法,能使運(yùn)算效率進(jìn)一步提升。對(duì)大多數(shù)矩陣而言,該方法是50多年來最有效的。現(xiàn)在,DeepMind公司利用人工智能AlphaTensor發(fā)現(xiàn)了一種新型矩陣乘法,可以在當(dāng)前的硬件系統(tǒng)上完美運(yùn)行,將計(jì)算速度提高20%。
例如,一個(gè)4×5矩陣乘以一個(gè)5×5矩陣,傳統(tǒng)算法需要進(jìn)行100次乘法運(yùn)算。而用此前的最佳算法,這個(gè)數(shù)字可以減少到80次。現(xiàn)在,AlphaTensor發(fā)現(xiàn)的算法只需76次乘法就能完成這一計(jì)算。在超過70種大小各異的矩陣上,AlphaTensor都擊敗了現(xiàn)有的最佳算法。它還發(fā)現(xiàn)了針對(duì)每種矩陣大小的數(shù)千種函數(shù)算法,其中僅4×4矩陣就有1.4萬種,但只有一小部分比現(xiàn)有技術(shù)更好。
這項(xiàng)研究建立在DeepMind公司的游戲模型AlphaZero基礎(chǔ)之上,歷時(shí)兩年。
DeepMind公司的Hussein Fawzi表示,這些結(jié)果在數(shù)學(xué)上是合理的,但對(duì)人類來說卻遠(yuǎn)遠(yuǎn)不夠直觀。“目前,我們還不清楚為什么這是矩陣乘法的最佳方式。關(guān)于深度學(xué)習(xí)是如何做到這些的,還有一些理論工作要做。”
除了上述例子,AlphaTensor 還在有限域內(nèi)改進(jìn)了Strassen的二階算法,這是Strassen算法自 50 多年前被提出以來迎來的首次改進(jìn)。
英國薩塞克斯大學(xué)的James Knight表示,在超級(jí)計(jì)算機(jī)和強(qiáng)大硬件上運(yùn)行的一系列軟件,如人工智能研究和天氣模擬,實(shí)際上都在使用大規(guī)模矩陣乘法。“如果這種方法真的能實(shí)施,那可能會(huì)帶來普遍性的加速。”
倫敦大學(xué)的Oded Lachish表示,新算法可以提高各種軟件的效率,因?yàn)榫仃嚦朔ㄊ且粋€(gè)非常常見的問題。
“我相信,我們將看到人工智能為類似的問題帶來解決方案。這類技術(shù)有著重要的應(yīng)用前景,因?yàn)樗惴ㄖ械母俨僮鞑粌H意味著更快的結(jié)果,還意味著更少的能量消耗。”Lachish說。
來源:《中國科學(xué)報(bào)》