久久久91-久久久91精品国产一区二区-久久久91精品国产一区二区三区-久久久999国产精品-久久久999久久久精品

ABB
關(guān)注中國自動化產(chǎn)業(yè)發(fā)展的先行者!
CAIAC 2025
2025工業(yè)安全大會
OICT公益講堂
當(dāng)前位置:首頁 >> 案例 >> 案例首頁

案例頻道

“靈暢算力服務(wù)”賦能區(qū)域智算中心從可用走向好用

★軟通智慧科技有限公司李巍峰

1 背景

在今年兩會期間,政府確立了“適度超前建設(shè)數(shù)字基礎(chǔ)設(shè)施,加快形成全國一體化算力體系”的2024年工作任務(wù)。黑龍江省深入貫徹習(xí)近平總書記的重要指示,圍繞發(fā)展新質(zhì)生產(chǎn)力,結(jié)合自身產(chǎn)業(yè)發(fā)展優(yōu)勢,通過開展人工智能+行動強化數(shù)字產(chǎn)品制造、智能機器人等重點產(chǎn)業(yè)鏈。

在此背景下,為服務(wù)國家戰(zhàn)略,支撐地方產(chǎn)業(yè)數(shù)字化發(fā)展,加快人工智能與經(jīng)濟社會各領(lǐng)域深度融合,哈爾濱數(shù)字龍江智算中心項目落地哈爾濱道外區(qū),一方面助力黑龍江省落實國家“星網(wǎng)工程”、“星地融算”等國家級戰(zhàn)略樞紐節(jié)點布局,另一方面,面向區(qū)域產(chǎn)業(yè),通過項目、基地、人才、資金的一體化配置,實現(xiàn)科技創(chuàng)新引領(lǐng)產(chǎn)業(yè)創(chuàng)新,促成地方產(chǎn)業(yè)與算力發(fā)展相互促進、共同前進的良好態(tài)勢。

數(shù)字龍江智算中心定位區(qū)域“人工智能+行動”核心載體,國家一體化算力網(wǎng)絡(luò)樞紐節(jié)點大科學(xué)裝置,通過二期建設(shè)完成,并于2024年7月全面上線運營。數(shù)字龍江智算中心上線后,采用“算力+產(chǎn)業(yè)”雙輪驅(qū)動模式,基于一體化公共算力服務(wù)平臺,服務(wù)AI、大模型及國產(chǎn)GPU芯片等智算中心上下游企業(yè)。這些企業(yè)與AI、新金融、芯片設(shè)計、裝備制造、新能源、工業(yè)材料、城市治理、科研教育等行業(yè)和場景深度融合,推動傳統(tǒng)產(chǎn)業(yè)的數(shù)字化轉(zhuǎn)型,加速AI大模型產(chǎn)業(yè)向本地集聚。

2 案例實施與應(yīng)用

數(shù)字龍江智算中心作為新型數(shù)字基礎(chǔ)設(shè)施,覆蓋了云計算、人工智能、大數(shù)據(jù)等諸多技術(shù)領(lǐng)域,具備數(shù)字化、智能化的特點,是數(shù)字經(jīng)濟時代支撐社會生產(chǎn)力數(shù)字化的基礎(chǔ)設(shè)施,也是數(shù)據(jù)要素的重要載體。

數(shù)字龍江智算中心采用“集中部署、分級應(yīng)用”的總體思路,采用基于高并發(fā)和數(shù)據(jù)資源處理的計算架構(gòu)設(shè)計,參考五橫三縱的總體框架體系,采用多層架構(gòu)設(shè)計,由展現(xiàn)層、應(yīng)用層、應(yīng)用支撐層、數(shù)據(jù)層、基礎(chǔ)軟硬件平臺、能源基礎(chǔ)設(shè)施,以及安全保障體系、運維管理系統(tǒng)構(gòu)成。

其總體架構(gòu)圖如圖1所示。

image.png

圖1 總體架構(gòu)圖

其中,展現(xiàn)層通過集成各應(yīng)用系統(tǒng)接口,整合匯總各種數(shù)據(jù),以門戶網(wǎng)站、客戶端或手機APP形式對外提供政務(wù)辦公、行業(yè)智能應(yīng)用、信息咨詢等各類服務(wù)內(nèi)容。

應(yīng)用層采用云原生技術(shù),部署了大模型應(yīng)用平臺、AI開發(fā)平臺、數(shù)據(jù)治理平臺云服務(wù)平臺等平臺系統(tǒng)。各平臺基于底層豐富的計算、存儲及網(wǎng)絡(luò)資源,支撐政府、企業(yè)及個人應(yīng)用上云,同時,為云內(nèi)用戶提供用戶管理、接入管理、資源管理、授權(quán)管理、流程管理和安全審計等統(tǒng)一管理界面。

數(shù)據(jù)層針對結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)等多種數(shù)據(jù)類型,提供關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫、向量數(shù)據(jù)庫等多種數(shù)據(jù)處理、分析、存儲能力供應(yīng)用層各類應(yīng)用系統(tǒng)使用。

基礎(chǔ)軟硬件平臺利用云計算、軟件定義存儲、軟件定義網(wǎng)絡(luò)等技術(shù)將底層網(wǎng)絡(luò)設(shè)備、服務(wù)器、存儲備份設(shè)備、安全設(shè)備等基礎(chǔ)硬件產(chǎn)品資源化,為上層業(yè)務(wù)提供精細化計算、存儲、網(wǎng)絡(luò)資源。

運維管理系統(tǒng)結(jié)合智算中心底層軟硬件設(shè)備進行設(shè)計,支持軟硬件設(shè)備及基礎(chǔ)軟件平臺系統(tǒng)的運行監(jiān)控、異常報警、事件自動處理、態(tài)勢分析等功能。

安全保障系統(tǒng)依據(jù)信息系統(tǒng)等級保護要求進行建設(shè),實現(xiàn)了融合安全統(tǒng)一可視化管理,管理員可在統(tǒng)一界面下進行日常安全巡檢、集中策略下發(fā)、配置調(diào)整和設(shè)備監(jiān)控等全域安全操作,同時,可實現(xiàn)針對入侵等安全事件及時調(diào)整安全策略,實時修正防御規(guī)則,以構(gòu)建數(shù)據(jù)中心零信任安全防護體系。

目前,數(shù)字龍江智算中心已入駐8大科研聯(lián)合實驗室,支撐實驗室十余個課題小組開展大模型算法研發(fā)、行業(yè)數(shù)據(jù)分析等科研活動所需的算力及數(shù)據(jù)需求。同時,基于智算中心各類應(yīng)用平臺,數(shù)字龍江智算中心為行業(yè)頭部大模型企業(yè)面向區(qū)域提供包括人工智能遷移部署在內(nèi)的25項管家式服務(wù)及5類19項大模型MaaS服務(wù)。

3 應(yīng)用創(chuàng)新

智算中心是數(shù)字基建發(fā)展的重要組成部分,其設(shè)計、建設(shè)、運營涉及數(shù)據(jù)中心機電配套、硬件設(shè)備實施、軟件系統(tǒng)設(shè)計、安全合規(guī)保障、服務(wù)內(nèi)容設(shè)計等多方面內(nèi)容,是一項規(guī)模體量特別龐大、涉及技術(shù)特別復(fù)雜、服務(wù)要求特別高、客戶需要變化特別快的創(chuàng)新性系統(tǒng)性工程。

智算中心的建設(shè)和運營往往眾多重點及難點,包括:算力硬件技術(shù)路線多樣,難以實現(xiàn)統(tǒng)一管理、統(tǒng)籌調(diào)度;算力需求迅猛發(fā)展,算力設(shè)備供應(yīng)緊張,建設(shè)周期壓力大;算力服務(wù)重點從高性價比向高性能轉(zhuǎn)移;算法應(yīng)用賦能業(yè)務(wù)場景周期長,新型應(yīng)用落地不夠敏捷;算法應(yīng)用賦能業(yè)務(wù)場景周期長,新型應(yīng)用落地不夠敏捷。

軟通智慧基于在智算中心建設(shè)運營方面的豐富經(jīng)驗,積累沉淀了諸多技術(shù)和人才儲備,圍繞智算中心規(guī)劃、建設(shè)、運營全流程打造了靈暢算力服務(wù)體系,基于該體系,軟通智慧在數(shù)字龍江智算中心建設(shè)過程中通過架構(gòu)創(chuàng)新、聯(lián)合優(yōu)化、AI工程化服務(wù)、體系保障幾個方面充分保障了數(shù)字龍江智算中心建設(shè)運營工作順利開展。

3.1 架構(gòu)創(chuàng)新

數(shù)字龍江智算中心整體建設(shè)遵循“分區(qū)+分層+分平面+安全”的全新設(shè)計理念。將智算中心進行模塊化、標準化,便于日常運維管理和日后擴展,如圖2所示。

image.png

圖2

分區(qū)是指按照業(yè)務(wù)特點和安全要求劃分不同的業(yè)務(wù)區(qū)域,各區(qū)塊間通過核心交換機連接在一起,不同類型的流量,通過VRF進行隔離。其中:

(1)AI訓(xùn)練算力存儲區(qū)+調(diào)度區(qū)主要部署人工智能融合賦能的計算和存儲節(jié)點包含調(diào)度功能模塊,向人工智能融合賦能平臺提供塊存儲、對象存儲、文件存儲,還有提供人工智能融合賦能平臺中AI計算能力,主要由人工智能服務(wù)器+存儲構(gòu)成。

(2)云資源區(qū)主要為提高超算中心資源利用率,提供基礎(chǔ)軟硬件層包括創(chuàng)建業(yè)務(wù)虛擬機。業(yè)務(wù)虛擬機提供CPU、內(nèi)存資源,并通過增加分布式存儲共享的方式提供共享存儲資源,是人工智能融合賦能平臺的核心系統(tǒng)之一;云資源區(qū)網(wǎng)絡(luò)采用扁平化二層數(shù)據(jù)中心Spine-Leaf組網(wǎng)架構(gòu)組網(wǎng),通過部署雙機高性能數(shù)據(jù)中心盒式交換機作為機柜TOR接入交換機對服務(wù)器或存儲設(shè)備進行網(wǎng)絡(luò)接入,采用堆疊部署,形成統(tǒng)一管理控制界面后與雙機集群核心交換機之間通過雙鏈路上行,設(shè)計速率為2*100GE保障高速率轉(zhuǎn)發(fā),10GE下行連接服務(wù)器或存儲設(shè)備。

(3)外部接入?yún)^(qū)承擔(dān)人工智能融合賦能平臺互聯(lián)網(wǎng)區(qū)的網(wǎng)絡(luò)交換職責(zé),主要為平臺提供流量統(tǒng)計、防火墻、EIP、VPN等功能。內(nèi)部網(wǎng)絡(luò)相互訪問,以及內(nèi)部與外部相互訪問都通過該區(qū)域完成。提供網(wǎng)絡(luò)安全能力,檢測掃描外部訪問內(nèi)部的網(wǎng)絡(luò)流量,保障平臺安全能力。使用出口路由器與MPLSVPN承載網(wǎng)絡(luò)、Internet網(wǎng)絡(luò)、DCN網(wǎng)絡(luò)等進行互聯(lián)。

(4)運維管理區(qū):該區(qū)域主要用于運維、運營和管理接入,運維管理區(qū)部署所有安全審計以及安全管理設(shè)備,包括網(wǎng)管平臺、漏洞掃描、運維審計、數(shù)據(jù)庫審計、日志審計、殺毒軟件、WAF、態(tài)勢感知等,做到融合安全統(tǒng)一可視化管理,方便管理員日常安全巡檢、集中策略下發(fā)、配置調(diào)整和設(shè)備監(jiān)控,可以限制數(shù)據(jù)中心業(yè)務(wù)的非授權(quán)IP訪問權(quán)限,同時關(guān)閉不必要的通訊端口,收集前端防火墻、邊界墻實現(xiàn)對來自外部網(wǎng)絡(luò)的攻擊行為記錄、溯源、記錄攻擊目標、攻擊類型和攻擊時間。所有安全設(shè)備為態(tài)勢感知提供海量數(shù)據(jù),態(tài)勢感知通過AI大數(shù)據(jù)分析的能力對入侵等安全事件可以及時地調(diào)整安全策略配置,及時修正防御規(guī)則,靈活地對匹配IT資源、攻擊類型、協(xié)議等的攻擊報文采取相應(yīng)的動作,構(gòu)建數(shù)據(jù)中心零信任安全防護體系。

分層是指采用核心層和接入層兩層扁平結(jié)構(gòu)。

分平面是指采用AI高性能計算平面、業(yè)務(wù)平面、管理平面等分離的設(shè)計方法,各自獨立組網(wǎng),保證平臺可靠性。同時避免了各類網(wǎng)絡(luò)之間的競爭和由此產(chǎn)生的擁塞,從而提高提高系統(tǒng)的可擴展性、安全性和可維護性。

安全是指在不同業(yè)務(wù)區(qū)域之間、在數(shù)據(jù)中心出口等位置部署安全設(shè)備,實現(xiàn)業(yè)務(wù)安全訪問和數(shù)據(jù)安全保障。

3.2 計算優(yōu)化

人工智能芯片作為支撐智算中心算力的核心部件,在單臺智算服務(wù)器中,其成本能占到整臺服務(wù)器成本的80%以上。然而,數(shù)據(jù)表明,大部分用戶的智能算力芯片利用率只有10%到30%。大量算力的閑置無疑是對智算中心成本的巨大浪費。因此,對智算中心智算集群進行調(diào)優(yōu),以提高整體算力使用率無疑是智算中心建設(shè)運營的重點。

站在整個智算中心的角度來看,計算的優(yōu)化分為三個方面:

(1)單訓(xùn)練任務(wù)的優(yōu)化

目前人工智能算法開發(fā)都依賴于TensorFlow、Pytorch、Mindspore等深度學(xué)習(xí)框架,這些基礎(chǔ)軟件的設(shè)計目標之一是提升單個訓(xùn)練任務(wù)的計算性能,而在訓(xùn)練過程中,數(shù)據(jù)的讀取、芯片之間的通信吞吐都是影響訓(xùn)練效率的關(guān)鍵因素。因此,網(wǎng)絡(luò)系統(tǒng)、存儲系統(tǒng)及計算系統(tǒng)的聯(lián)合調(diào)優(yōu)尤為重要,資源分配平臺需要充分了解服務(wù)器硬件的內(nèi)部拓撲及整體網(wǎng)絡(luò)架構(gòu),才能有效發(fā)現(xiàn)數(shù)據(jù)傳輸?shù)淖疃搪窂健⒈苊饩W(wǎng)絡(luò)可能產(chǎn)生的擁塞。龍江智算中心云平臺通過自動化NUMA設(shè)置、內(nèi)核參數(shù)配置、網(wǎng)路擁塞策略調(diào)整等多種手段保證了單任務(wù)計算達到理論性能上限。

(2)多任務(wù)調(diào)度優(yōu)化

智算中心作為面向公共的算力服務(wù)平臺,訓(xùn)練任務(wù)是非常多樣化的,單機單卡、單機多卡、多機多卡任務(wù)對于資源規(guī)模的要求均不同。不合理的算力芯片調(diào)度策略會導(dǎo)致智算中心內(nèi)資源碎片化嚴重,同時任務(wù)資源等待時長增加,如圖3所示。

image.png

圖3

龍江智算中心算力調(diào)度平臺一方面通過資源分配算法優(yōu)化,通過底層拓撲信息分析實現(xiàn)GPU資源的精細化資源調(diào)度,另一方面,通過資源調(diào)度算法支持細粒度的GPU資源共享與回收,通過支持不同算力芯片的上報和管理,幫助AI訓(xùn)練任務(wù)根據(jù)實際需求選擇合適的GPU類型,提升計算效率。

3.3 AI工程化服務(wù)

針對AI應(yīng)用開發(fā)定制化程度高、訓(xùn)練數(shù)據(jù)集生成難的問題,龍江智算中心通過搭建人工智能開發(fā)平臺,提供一站式人工智能解決方案。平臺面向人工智能研究中的數(shù)據(jù)處理、算法開發(fā)、模型訓(xùn)練、算力管理和推理應(yīng)用等各個流程的技術(shù)難點,提供了模型開發(fā)平臺、集成高性能分布式深度學(xué)習(xí)框架、先進算法模型庫、視覺模型煉知平臺、數(shù)據(jù)可視化分析平臺等一系列平臺工具,幫助平臺用戶高效開展分布式人工智能算法訓(xùn)練、數(shù)據(jù)處理和可視分析、模型煉知和輕量化等人工智能算法開發(fā)工作。平臺整體功能架構(gòu)如圖4所示。

 image.png

圖4 平臺整體功能架構(gòu)

同時,軟通智慧基于平臺能力,圍繞數(shù)據(jù)工程及算法工程兩方面為智算中心企業(yè)提供定制化服務(wù)。數(shù)據(jù)工程方面,圍繞業(yè)務(wù)數(shù)據(jù)清洗、訓(xùn)練數(shù)據(jù)標注及數(shù)據(jù)價值發(fā)掘,協(xié)助客戶為智算中心用戶提供定制化軟件開發(fā)及數(shù)據(jù)治理服務(wù)。算法工程方面,面向用戶場景及行業(yè)痛點,協(xié)助客戶為智算中心用戶提供算力芯片適配服務(wù)、應(yīng)用云化服務(wù)及場景解決方案打造服務(wù)。

4 效益分析

借助軟通智慧靈暢算力服務(wù)體系的全方位服務(wù)保障,數(shù)字龍江智算中心建設(shè)運營至今已完成130P算力需求的簽約,為現(xiàn)有算力規(guī)模的130%,達到上限即可滿載運營。同時項目發(fā)揮智算中心平臺優(yōu)勢,積極整合央國企資源,截至目前已與星網(wǎng)集團達成合作,并將科技部學(xué)術(shù)認偽大模型、組織部人才畫像大模型、中國科學(xué)院紫東太初大模型等12個科研、行業(yè)大模型引入黑龍江,在全國范圍首個實現(xiàn)大模型訓(xùn)練場的智算中心。

今年,三期項目計劃通過產(chǎn)業(yè)聯(lián)盟投資18億元,提升域內(nèi)算力達500P,建成數(shù)字龍江智算中心國家一體化算力網(wǎng)絡(luò)鏈接衛(wèi)星互聯(lián)網(wǎng)服務(wù)網(wǎng)絡(luò)的地基門戶,形成東數(shù)西算骨干節(jié)點、天數(shù)地算的首發(fā)節(jié)點、星地融算的樞紐節(jié)點戰(zhàn)略格局。目前,運營公司已成功完成180P算力服務(wù)協(xié)議的簽約。

5 案例意義

數(shù)字龍江智算中心建設(shè)運營的成功是軟通智慧靈暢算力服務(wù)體系加速人工智能大模型賦能千行百業(yè)、助力區(qū)域數(shù)字基建發(fā)展的一次成功實踐。靈暢算力服務(wù)體系圍繞智算中心規(guī)劃、建設(shè)、運營全流程打造,覆蓋了智算中心從規(guī)劃設(shè)計、建設(shè)集成到運營運維各階段客戶所需的各類技術(shù)及人員服務(wù)需求。實踐表明,靈暢算力服務(wù)體系為區(qū)域智算中心建設(shè)、運營提供了一套成熟、先進的技術(shù)服務(wù)標準,通過靈暢算力服務(wù)體系,可幫助智算中心實現(xiàn)交付標準、易于管理、性能高效、整體安全可控的建設(shè)目標,同時智算中心作為數(shù)字基建核心出現(xiàn)建而不用、用而不好的問題,切實幫助區(qū)域通過發(fā)展數(shù)字基建帶動地方產(chǎn)業(yè)轉(zhuǎn)型升級,進而實現(xiàn)地方數(shù)字經(jīng)濟快速發(fā)展。

作者簡介:

李巍峰(1985-),浙江東陽人,現(xiàn)任軟通智慧新算力系統(tǒng)部總裁,主要研究方向為人工智能、數(shù)據(jù)中心建設(shè),帶領(lǐng)團隊在人工智能領(lǐng)域取得顯著突破性進展,在多地實現(xiàn)區(qū)域級智算中心落地。

摘自《自動化博覽》2024年10月刊

熱點新聞

推薦產(chǎn)品

x
  • 在線反饋
1.我有以下需求:



2.詳細的需求:
姓名:
單位:
電話:
郵件:
主站蜘蛛池模板: 国产99精品 | 国产精品美女免费视频观看 | 久草视频福利资源站 | 国内精品在线播放 | 国产xvideos在线观看 | 国产女女视屏免费 | 精品国产福利在线 | 黄片毛片免费观看 | 亚洲精品久久99久久一 | yy4080一级毛片免费观看 | 成年男女免费视频网站 | 毛片高清 | 久草在线观看福利视频 | ccmm123在线播放 | 亚洲国产精品久久久久秋霞小 | 久久久久国产精品免费免费 | 欧美一区二区三区久久久人妖 | 国产三级网站在线观看 | 国产在线视频www色 国产在线视频一区 | 美国毛片亚洲社区在线观看 | 日韩视频中文字幕 | 无遮挡男女啪啪成人免费 | 一级特黄录像免费播放冫 | 国模一区二区三区私啪啪 | 亚洲成a人片在线网站 | 亚洲精品96欧美一区二区 | 在线不卡视频 | 中国国产aa一级毛片 | 麻豆国产成人精品午夜视频 | 222www免费观看| 男女强吻摸下面揉免费 | 日本不卡在线一区二区三区视频 | 中国免费一级毛片 | 欧美成人黑人性视频 | 激情婷婷丁香 | 99久久精品免费看国产 | 日本韩国欧美在线观看 | 国产大片线上免费看 | 老年人一级毛片 | 欧美日韩在线视频专区免费 | 欧乱色国产精品兔费视频 |