★綴初網(wǎng)絡(luò)技術(shù)(上海)有限公司
1 目標(biāo)和概述
隨著5G時代的到來,車聯(lián)網(wǎng)、智慧城市、基于AR/ VR等新型應(yīng)用和工作場景層出不窮,終端設(shè)備的種類和數(shù)量也大規(guī)模增長。這些交互界面和終端設(shè)備產(chǎn)生了大規(guī)模的實時數(shù)據(jù)。除此之外,未來的交互,不僅是目前所熟悉的人與人、人與機器的交互,還會產(chǎn)生大量機器與機器之間,甚至集群級別的交互。同時,伴隨機器的單機或群體智能水平提升,數(shù)據(jù)將會呈現(xiàn)指數(shù)級增長。面對新型應(yīng)用和巨量的實時數(shù)據(jù),邊緣云的應(yīng)用場景和行業(yè)愈加廣泛,從技術(shù)商業(yè)化的歷史發(fā)展規(guī)律來看,PPIO基于邊緣云計算的高質(zhì)量音視頻邊緣服務(wù)與優(yōu)化解決方案將主要面向于以下應(yīng)用場景:
(1)短期:對低延時傳輸和控制成本有需求,比如短視頻和直播平臺、手機廠商等;
(2)中長期:云游戲、超低延時直播平臺等對超低延時有改善需求的場景;
(3)長期:邊緣云和邊緣計算最大的應(yīng)用場景是有大量機器交互,對超低延時有剛性要求的新應(yīng)用場景,而不僅僅是改善現(xiàn)有應(yīng)用的效果,比如車聯(lián)網(wǎng)、智慧城市、空間數(shù)字化、基于AR/VR的生活和工作場景等。這些場景對超低延時級別的數(shù)據(jù)傳輸和計算要求更加嚴格,達到了紅線標(biāo)準(zhǔn)的級別。
PPIO高質(zhì)量音視頻邊緣服務(wù)與優(yōu)化解決方案,主 要目標(biāo)在于為各類內(nèi)容提供商和終端用戶提供低時延、 高帶寬、高質(zhì)量的音視頻服務(wù),利用邊緣計算架構(gòu)、云原生框架、軟件定義網(wǎng)SDN、AI預(yù)測+調(diào)度算法等系統(tǒng) 和技術(shù)優(yōu)化邊緣云服務(wù)的服務(wù)質(zhì)量,實現(xiàn)邊緣云服務(wù)的 靈活、高效、智能部署。除此之外,PPIO在原有中心 云的架構(gòu)上進行彈性伸縮,從技術(shù)角度為用戶降低部署 成本。此系統(tǒng)以云原生為核心,可實現(xiàn)中心云與邊緣云 的多元融合。整套系統(tǒng)的底層結(jié)構(gòu)不變,意味著原本使 用中心云的客戶不用修改底層架構(gòu),其算力可以直接接 入彈性伸縮的邊緣側(cè),從而大大降低客戶的部署成本。 彈性伸縮也是本方案的關(guān)鍵降本措施之一,以靈活的部 署和計費方案,實現(xiàn)資源的按需分配及回收。具有技術(shù) 創(chuàng)新性、廣泛的行業(yè)價值和社會價值。
2 方案介紹
2.1 架構(gòu)設(shè)計與基本能力
圖1 項目核心架構(gòu)
如圖1所示,本方案面向匯聚邊緣計算能力,設(shè)計 了無縫連接的K8s@Edge、SDN@Edge、AIDevOps@ Edge三大主要框架,以整合服務(wù)節(jié)點并面向B端用戶輸 出的邊緣計算服務(wù)。通過大數(shù)據(jù)分析和智能調(diào)度技術(shù), 實現(xiàn)按需求靈活調(diào)度,將分發(fā)內(nèi)容調(diào)度至加速節(jié)點,優(yōu) 化終端用戶體驗。該技術(shù)適用于下載、點播、直播等多 種傳輸場景,實現(xiàn)了按需求調(diào)度,提升用戶體驗和服務(wù) 可靠性,同時降低帶寬成本。目前整體框架和核心技術(shù) 成熟,并在不斷迭代優(yōu)化。
(1)K8s@Edge,標(biāo)準(zhǔn)開放的云原生技術(shù)和能力K8s@Edge敏捷部署系統(tǒng)架構(gòu)如圖2所示。
圖2 K8s@Edge敏捷部署系統(tǒng)架構(gòu)圖
首先,PPIO實現(xiàn)了K8s@Edge面向邊緣異構(gòu)資 源的全局調(diào)度編排,將閑置資源用起來。云原生技 術(shù)是實現(xiàn)這種分布式系統(tǒng)最佳的選擇,但是傳統(tǒng)的 Kubernetes架構(gòu)一般都是跑在一個機房內(nèi)的多臺服 務(wù)器上的,需要將Kubernetes分布在全國數(shù)千個機 房的不同配置的服務(wù)器上,所以在保持接口兼容性 的情況下,PPIO高質(zhì)量音視頻邊緣服務(wù)編排系統(tǒng)對 Kubernetes做了定制化改造,增強了在網(wǎng)絡(luò)和存儲隔 離方面的能力,保證了安全可靠,同時可以和客戶指定 的中心云廠商實現(xiàn)跨云無縫對接,以實現(xiàn)算力在云邊兩 側(cè)的彈性伸縮和協(xié)同。
基于目前主流的容器引擎K8s,在邊緣云領(lǐng)域進行 了創(chuàng)新,提升了對資源的彈性納管能力,實現(xiàn)了云機效 率的極致。K8s在邊緣云的應(yīng)用沒有先例,憑借技術(shù)團 隊的堅持和能力積累,成功實現(xiàn)了這款主流容器引擎在 邊緣云上的應(yīng)用,是技術(shù)領(lǐng)域的重大突破。通過多次迭 代優(yōu)化,避免了“重復(fù)造車”的效率低下問題。更重要 的是,K8s是現(xiàn)在云原生架構(gòu)中使用的主流容器,基于 K8s進行迭代開發(fā),可以保障產(chǎn)品和解決方案與業(yè)界通 用標(biāo)準(zhǔn)的高度兼容,能大幅提升解決方案和產(chǎn)品的開放 性。
(2)SDN@Edge,服務(wù)邊緣云分布式節(jié)點場景的創(chuàng)新Overlay網(wǎng)絡(luò)服務(wù)框架
圖3 SDN@Edge與傳統(tǒng)SDN的架構(gòu)對比
PPIO高質(zhì)量音視頻邊緣服務(wù)編排系統(tǒng)拋棄傳 統(tǒng)網(wǎng)絡(luò)中使用的樹狀結(jié)構(gòu),參考服務(wù)網(wǎng)格(Service Mesh)思路,提供面向服務(wù)的點到點發(fā)現(xiàn)、路由和穩(wěn) 定通信能力,并發(fā)式地實施監(jiān)控預(yù)警、流量預(yù)測。任務(wù) 運行過程中,一旦發(fā)現(xiàn)某個節(jié)點有問題,就會通過路徑 尋優(yōu)的方式,找到最適合的路徑來支持或疏解,從而保 證了云協(xié)同的流暢度,以及高質(zhì)量、穩(wěn)定的網(wǎng)絡(luò)服務(wù)。
SDN@Edge與傳統(tǒng)SDN的架構(gòu)對比如圖3所示。
(3)AI DevOps@Edge,云邊智能協(xié)同方案對傳統(tǒng)自動化運維進行升級,更好適配邊緣計算環(huán)境
圖4 AI DevOps@Edge基礎(chǔ)架構(gòu)
對傳統(tǒng)的DevOps方案進行智能化改造,利用 改進的Boosting模型,對業(yè)務(wù)需求波動進行時空預(yù) 測,根據(jù)需求預(yù)測結(jié)果和不同客戶的SLA等級,利用 EdgeMatrix框架進行業(yè)務(wù)調(diào)度優(yōu)化,并結(jié)合K8s@ Edge進行運維部署,極大提高邊緣計算場景下的產(chǎn)品 交付質(zhì)量和運維效率,以及邊緣節(jié)點的資源利用率,并 有效解決了資源異構(gòu)、資源競爭和供需兩端動態(tài)波動的 三個問題。
(4)KaiS,其為邊云集群系統(tǒng)設(shè)計的基于學(xué)習(xí)的 調(diào)度框架
圖5 面向Kubernetes邊緣云系統(tǒng)的雙尺度調(diào)度
KaiS采用了一種雙時間尺度調(diào)度機制來協(xié)調(diào)請求指 派和服務(wù)編排,并給出了部署上述算法與原生K8s組件 兼容的設(shè)計實現(xiàn),首先基于圖神經(jīng)網(wǎng)絡(luò)進行集中式服務(wù) 編排,從而將不同類型的服務(wù)部署到各個計算節(jié)點,然 后基于多智能體算法進行分布式請求指派,從而將不同 類型的請求卸載到各個計算節(jié)點,實現(xiàn)高效系統(tǒng)調(diào)度。
(5)EdgeMatrix,引入了網(wǎng)絡(luò)化多智能體演員-評 判家算法,將物理資源重新定義為邏輯隔離的資源組合 EdgeMatrix引入了網(wǎng)絡(luò)化多智能體演員-評判家算法 (Networked Multi-agent Actor-Critic, NMAC)進行 資源定制,以及基于次模函數(shù)優(yōu)化的啟發(fā)式算法JSORD 用于解決請求指派和服務(wù)編排問題。
圖6 EdgeMatrix框架
2.2 應(yīng)用與部署案例
截至目前,PPIO高質(zhì)量音視頻邊緣服務(wù)與優(yōu)化解決 方案已為多家互聯(lián)網(wǎng)巨頭、一線云計算服務(wù)商、獨角獸級 創(chuàng)業(yè)公司,提供符合低時延、高帶寬、海量數(shù)據(jù)分布處理 需求的邊緣云計算服務(wù),所有解決方案和服務(wù)均承諾可用 性不低于99.9%,多環(huán)節(jié)冗余災(zāi)備實現(xiàn)高可用保證。
(1)直播
業(yè)務(wù)痛點:隨著電子競技行業(yè)的蓬勃發(fā)展,越來越 多的正規(guī)電競賽事開始被宣傳和關(guān)注。作為業(yè)內(nèi)領(lǐng)先的 電競賽事直播平臺,客戶希望能夠在賽事直播高峰期間 減少CDN源站壓力,同時提供時延更低、彈性擴容、 性價比更高的網(wǎng)絡(luò)來保證終端用戶的觀賽體驗。
解決方案:為了滿足客戶的需求,在原有方案的 基礎(chǔ)上進行了SDK定制化開發(fā),簡化客戶開發(fā)工作的同 時增強了系統(tǒng)容錯性;通過自研的智能調(diào)度算法和支持 彈性擴容的海量資源池,不斷優(yōu)化直播場景相關(guān)質(zhì)量指 標(biāo),其中“放大比”等關(guān)鍵指標(biāo)多次受到客戶的肯定。
服務(wù)效果:不僅在重要賽事直播期間幫助客戶源站減 輕了大量的請求和分發(fā)壓力,而且在各項質(zhì)量指標(biāo)正常的 情況下承接住了較大量級的用戶需求,為多項國際電競賽 事的直播提供了良好的保障,也為客戶節(jié)省了帶寬成本。
(2)短視頻
業(yè)務(wù)痛點:在短視頻業(yè)務(wù)全面爆發(fā)的大環(huán)境下,客 戶平臺的用戶數(shù)量呈現(xiàn)高速增長的趨勢,且用戶群體向 下沉市場發(fā)展。如何能夠保證終端用戶的體驗,并實現(xiàn) 降本增效,成為客戶的首要問題。
解決方案:針對客戶的痛點及需求,通過業(yè)務(wù)類型 分析聚類技術(shù),為客戶匹配最佳機器配置,在短時間內(nèi) 提供滿足需求區(qū)域的資源節(jié)點,并快速部署任務(wù),根據(jù) 業(yè)務(wù)的實際使用情況不斷進行優(yōu)化,為客戶提供了穩(wěn)定 的、可伸縮的、性價比高的邊緣容器云環(huán)境,大幅提升 了應(yīng)用部署效率。
服務(wù)效果:致力于為客戶提供更加靠近終端用戶 的緣加速節(jié)點,解決“最后一公里”問題的用戶體驗問 題,尤其是在春節(jié)及其他重大節(jié)日流量陡增時,PPIO高 質(zhì)量音視頻邊緣服務(wù)編排系統(tǒng)的網(wǎng)絡(luò)彈性經(jīng)受住了一次 又一次的考驗,為客戶降本增效,獲得了客戶的好評。
3 代表性及推廣價值
3.1 技術(shù)創(chuàng)新性
PPIO之所以能夠深挖服務(wù)和應(yīng)用場景,一部分能 力來自于之前在PPTV的技術(shù)積累,PPTV實現(xiàn)了將數(shù) 億臺PC機進行鏈接,利用每個人閑置的帶寬和硬盤資 源來分布式存儲和傳輸視頻服務(wù),從而大幅度降低了對 于服務(wù)器資源的使用。而PPIO針對的資源是碎片化、 非標(biāo)異構(gòu)的服務(wù)器資源,對于可靠性、安全性要求更 高,因此技術(shù)路線也有所不同。最后,由于節(jié)點的碎片 化和下沉,相互之間的網(wǎng)絡(luò)連接并沒有傳統(tǒng)數(shù)據(jù)中心的 骨干網(wǎng)或?qū)>€那么可靠,在流量高峰期的時候可能會出 現(xiàn)擁塞和丟包情況,PPIO又研發(fā)了一套動態(tài)SDN的技 術(shù),這個技術(shù)和之前開發(fā)PPTV時采用的P2P流媒體技 術(shù)有相似的地方,相當(dāng)于在各個節(jié)點之間建立了一套可 自定義服務(wù)質(zhì)量的Overlay傳輸網(wǎng)絡(luò),通過這套網(wǎng)絡(luò)保 證了節(jié)點間網(wǎng)絡(luò)傳輸?shù)馁|(zhì)量和穩(wěn)定性。
3.2 效益價值
(1)毫秒級低延遲,時延<30ms 將優(yōu)質(zhì)節(jié)點部署在用戶終端周邊,覆蓋全國各縣市 和主流運營商,將服務(wù)內(nèi)容分發(fā)至全網(wǎng)加速節(jié)點,解決 網(wǎng)絡(luò)擁堵問題,有效提升訪問成功率和響應(yīng)速度,降低 50%傳輸成本,提供低至毫秒級的處理時延。
(2)極致效率,調(diào)度率提升35% 用標(biāo)準(zhǔn)開放的云原生技術(shù)和能力來實現(xiàn)邊緣容器 編排,將資源調(diào)度效率提升了35%,實現(xiàn)了極致的云 機效率。
(3)高質(zhì)服務(wù),流暢度提高300% 拋棄傳統(tǒng)網(wǎng)絡(luò)樹狀結(jié)構(gòu)的路徑,自主研發(fā)SDN@ Edge,即服務(wù)分布式邊緣節(jié)點的新型Overlay網(wǎng)絡(luò)服務(wù) 框架,將播放超高清視頻流暢度提高300%。
(4)智能運營,利用率提升15% 對傳統(tǒng)的DevOps方案進行智能化改造,利用改進的 Boosting模型,通過云邊智能協(xié)同,能夠自動處理90%以上 的運維問題極大地提高邊緣計算場景下的產(chǎn)品交付質(zhì)量和 運維效率,以及將邊緣節(jié)點的資源利用率提升15%。
摘自《自動化博覽》2023年第2期暨《邊緣計算2023專輯》