久久久91-久久久91精品国产一区二区-久久久91精品国产一区二区三区-久久久999国产精品-久久久999久久久精品

ABB
關(guān)注中國自動化產(chǎn)業(yè)發(fā)展的先行者!
CAIAC 2025
2025工業(yè)安全大會
OICT公益講堂
當(dāng)前位置:首頁 >> 資訊 >> 行業(yè)資訊

資訊頻道

IEEE國際計算機(jī)視覺與模式識別會議(CVPR)自動化所入選成果速覽
  • 點擊數(shù):1276     發(fā)布時間:2025-04-04 09:51:57
  • 分享到:
IEEE國際計算機(jī)視覺與模式識別會議(CVPR),是計算機(jī)視覺領(lǐng)域三大頂級會議之一。CVPR 2025將于6月11日至15日在美國田納西州納什維爾舉辦。本文對自動化所的錄用研究成果進(jìn)行簡要介紹(排序不分先后)。

IEEE國際計算機(jī)視覺與模式識別會議(CVPR),是計算機(jī)視覺領(lǐng)域三大頂級會議之一。CVPR 2025將于6月11日至15日在美國田納西州納什維爾舉辦。本文對自動化所的錄用研究成果進(jìn)行簡要介紹(排序不分先后)。


1.視頻配樂的自定義條件可控生成

Customized Condition Controllable Generation for Video Soundtrack

論文作者:亓帆,馬錕生,徐常勝??

近年來,潛在擴(kuò)散模型(LDMs)的發(fā)展推動了音樂生成領(lǐng)域的創(chuàng)新,使視頻配樂在靈活性和多模態(tài)融合方面取得了顯著突破。然而,現(xiàn)有方法大多采用兩階段流程,難以全面捕捉視頻的聲音特征,尤其在復(fù)雜視頻場景下,難以同時呈現(xiàn)準(zhǔn)確的音效細(xì)節(jié)和豐富的音樂情感氛圍。為解決上述挑戰(zhàn),我們提出了一種創(chuàng)新性的視頻配樂生成框架(C3GVS),能夠同步生成與參考視頻相匹配的音樂和音效。為此,我們設(shè)計了一種基于擴(kuò)散模型的頻譜分歧掩蔽注意力(Spectrum Divergence Masked Attention),該模塊利用音樂和音效在時頻域中的不同特性,高效融合音樂和音效條件特征,從而實現(xiàn)動態(tài)的音畫對齊。在此基礎(chǔ)上,我們引入了基于評分的引導(dǎo)機(jī)制,以增強(qiáng)生成音頻的創(chuàng)造性。該方法使音樂創(chuàng)作者能夠自定義藝術(shù)輸入,生成更加個性化的音景,同時確保音頻與視頻語境保持高度一致。在FilmScoreDB和SymMV&HIMV數(shù)據(jù)集上的廣泛評估表明,我們的方法在主觀和客觀評測中均顯著優(yōu)于當(dāng)前最先進(jìn)的基線方法,展現(xiàn)出其作為視頻配樂生成強(qiáng)大工具的潛力。

C3GVS框架整體示意圖


2.基于語言引導(dǎo)的概念瓶頸模型的可解釋持續(xù)學(xué)習(xí)

Language Guided Concept Bottleneck Models for Interpretable Continual Learning

論文作者:余璐,韓昊宇,陶哲,姚涵濤,徐常勝

持續(xù)學(xué)習(xí)(Continual Learning)的目標(biāo)是使學(xué)習(xí)系統(tǒng)能夠不斷獲取新知識,同時不遺忘先前學(xué)習(xí)的信息。持續(xù)面臨的挑戰(zhàn)在于緩解災(zāi)難性遺忘(catastrophic forgetting)的同時保持跨任務(wù)的可解釋性。現(xiàn)有的大多數(shù)持續(xù)方法主要側(cè)重于保留已學(xué)知識以提高模型性能。然而,隨著新信息的引入,學(xué)習(xí)過程的可解釋性對于理解不斷演化的決策機(jī)制至關(guān)重要,但這一方向卻鮮少被探索。本研究提出了一種新穎框架,通過整合語言引導(dǎo)的概念瓶頸模型(Concept Bottleneck Models, CBMs)來同時應(yīng)對這兩大挑戰(zhàn)。我們的方法利用概念瓶頸層(Concept Bottleneck Layer),與CLIP模型對齊語義一致性,從而學(xué)習(xí)人類可理解、且能跨任務(wù)泛化的概念。通過聚焦于可解釋的概念,該方法不僅增強(qiáng)了模型隨時間推移保留知識的能力,還提供了透明的決策依據(jù)。我們在多個數(shù)據(jù)集上驗證了方法的有效性,其中在ImageNet子集上的最終平均準(zhǔn)確率超越現(xiàn)有最優(yōu)方法達(dá)3.06%。此外,我們通過概念可視化展示模型預(yù)測依據(jù),進(jìn)一步推動了可解釋持續(xù)學(xué)習(xí)的理解。

第t個任務(wù)時方法框架圖


3.MV-MATH:多視覺場景下的多模態(tài)數(shù)學(xué)推理能力評估

MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual Contexts

論文作者:王培杰,李忠志,殷飛,冉德康,劉成林

多模態(tài)大語言模型(MLLM)已在各種數(shù)學(xué)任務(wù)中表現(xiàn)出良好的推理能力。然而,大多數(shù)現(xiàn)有的多模態(tài)數(shù)學(xué)基準(zhǔn)僅限于單視覺環(huán)境,這與現(xiàn)實世界數(shù)學(xué)應(yīng)用中常見的多視覺場景不同。為了解決這一差距,研究團(tuán)隊推出了 MV-MATH:一個精心策劃的數(shù)據(jù)集,包含 2009 個高質(zhì)量數(shù)學(xué)問題。每個問題都集成了多幅與文本交錯的圖像,這些問題源自真實的 K-12 教育場景并附有詳細(xì)的注釋。MV-MATH 包括多項選擇題、自由形式題和多步驟題,涵蓋 3 個難度級別的 11 個主題領(lǐng)域,是評估 MLLM 在多視覺環(huán)境下數(shù)學(xué)推理的全面而嚴(yán)格的基準(zhǔn)。通過大量實驗,我們觀察到 MLLM 在多視覺數(shù)學(xué)任務(wù)中遇到了巨大的挑戰(zhàn),與人類在 MV-MATH 上的能力相比,其性能存在相當(dāng)大的差距。此外,我們還分析了不同模型的表現(xiàn)和錯誤模式,為多視覺場景下大語言模型的數(shù)學(xué)推理能力提供了深入見解。

圖1.在 MV-MATH 數(shù)據(jù)集上,六個多模態(tài)大模型的性能比較,涵蓋 11 個主題(左)和 3 個問題類型(右)。SAR:步驟準(zhǔn)確率,QCR:問題完整率。

圖2.MV-MATH的樣本示例(上)與數(shù)據(jù)集特性統(tǒng)計(下),每個樣本都包含了多個視覺輸入


4.DocSAM:基于查詢解耦和異質(zhì)混合學(xué)習(xí)的通用文檔圖像分割方法

DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning

論文作者:李曉輝,殷飛,劉成林

文檔圖像分割在文檔分析和識別中至關(guān)重要,但由于文檔格式的異質(zhì)性和分割任務(wù)的多樣性,這一過程仍然充滿挑戰(zhàn)。現(xiàn)有方法通常單獨(dú)處理這些任務(wù),導(dǎo)致泛化能力有限且資源浪費(fèi)。本文提出一種基于Transformer的統(tǒng)一框架DocSAM,將文檔分割建模成實例分割和語義分割的組合,用于多種文檔圖像分割任務(wù),包括文檔布局分析、多粒度文本分割和表格結(jié)構(gòu)識別等。具體而言,DocSAM使用文本編碼器將每個數(shù)據(jù)集中的類別名稱描述映射到與實例查詢相同維度的語義查詢,這些語義查詢不僅作為分割提示,指導(dǎo)模型識別需要分割的具體區(qū)域類型,還充當(dāng)類別原型輔助實例查詢進(jìn)行開放集分類。這兩組查詢通過注意力機(jī)制相互作用,并與多尺度圖像特征進(jìn)行交叉注意解碼并預(yù)測實例和語義分割掩碼。基于上述設(shè)計,DocSAM可以在異構(gòu)數(shù)據(jù)集上聯(lián)合訓(xùn)練,增強(qiáng)了魯棒性和泛化能力,同時減少了計算和存儲資源的需求。綜合評估表明,DocSAM在準(zhǔn)確性、效率和適應(yīng)性方面均優(yōu)于現(xiàn)有方法,突顯了其在推進(jìn)文檔圖像分割在各種應(yīng)用中的潛力。

DocSAM模型框架圖。DocSAM主要由視覺主干網(wǎng)絡(luò)、可變形注意力模塊、Sentence-BERT和混合查詢解碼器組成。對于帶有自然文本格式類名的文檔圖像,首先通過視覺主干提取多尺度圖像特征并利用可變形注意力模塊進(jìn)行增強(qiáng),之后將類別名稱輸入Sentence-BERT轉(zhuǎn)換為語義查詢,并與隨機(jī)初始化的實例查詢一同進(jìn)入混合查詢解碼器對圖像特征進(jìn)行解碼,二者協(xié)作完成語義和實例分割任務(wù)。


5.視覺引導(dǎo)的一體化圖像修復(fù)擴(kuò)散模型

Visual-Instructed Degradation Diffusion for All-in-One Image Restoration

論文作者:羅文陽,覃海納,王立彬,陳澤文,劉雨帆,李宇明,鄭丹丹,李兵,胡衛(wèi)明

去模糊、去噪和去光暈等圖像復(fù)原任務(wù)通常需要為每種退化類型分別建立模型,這限制了它們在現(xiàn)實世界中可能出現(xiàn)混合退化或未知退化的場景中的通用性。在這項工作中,我們提出了一種利用視覺指令引導(dǎo)退化擴(kuò)散的新型一體化圖像修復(fù)框架 Defusion。與依賴于特定任務(wù)模型或含糊的基于文本的先驗的現(xiàn)有方法不同,Defusion 構(gòu)建了與視覺退化模式相一致的明確的視覺指令。這些指令的基礎(chǔ)是對標(biāo)準(zhǔn)化的視覺元素進(jìn)行降級,從而捕捉內(nèi)在的降級特征,同時與圖像語義無關(guān)。然后,Defusion 使用這些視覺指令來指導(dǎo)基于擴(kuò)散的模型,該模型直接在降解空間中運(yùn)行,通過對降解效果去噪來重建高質(zhì)量的圖像,同時增強(qiáng)穩(wěn)定性和通用性。綜合實驗證明,Defusion 在各種圖像復(fù)原任務(wù)(包括復(fù)雜的真實世界退化)中的表現(xiàn)優(yōu)于最先進(jìn)的方法。

所提出方法的框架。1)從視覺理由中構(gòu)建視覺指令,以展示圖像退化的視覺效果;2)對視覺指令進(jìn)行標(biāo)記化,并與?"干凈"?視覺元素進(jìn)行對比;3)最后,視覺指令標(biāo)記引導(dǎo)去噪擴(kuò)散模型,該模型根據(jù)視覺指令的提示估計退化程度。視覺指令標(biāo)記符是由損失訓(xùn)練的量化自動編碼器,而只有編碼器用于推理。


6.可逆歸一化流圖像復(fù)原

Reversing Flow for Image Restoration

論文作者:覃海納,羅文陽,王立彬,鄭丹丹,陳景東,楊銘,李兵,胡衛(wèi)明

圖像復(fù)原的目的是通過逆轉(zhuǎn)退化的影響,從低質(zhì)量(LQ)的退化圖像中恢復(fù)出高質(zhì)量(HQ)的圖像。現(xiàn)有的圖像復(fù)原生成模型,包括擴(kuò)散模型和基于分?jǐn)?shù)的模型,通常將退化過程視為隨機(jī)變換,從而帶來了低效率和復(fù)雜性。在這項工作中,我們提出了一種新穎的圖像修復(fù)框架 ResFlow,它將降解過程建模為使用連續(xù)歸一化流的確定性路徑。ResFlow 通過輔助過程來增強(qiáng)降解過程,從而消除 HQ 預(yù)測中的不確定性,實現(xiàn)降解過程的可逆建模。ResFlow 采用熵保存流路徑,并通過匹配速度場來學(xué)習(xí)增強(qiáng)降解流。ResFlow 顯著提高了圖像復(fù)原的性能和速度,只需不到四個采樣步驟即可完成任務(wù)。廣泛的實驗證明,ResFlow 在各種圖像復(fù)原基準(zhǔn)測試中都取得了最先進(jìn)的結(jié)果,為實際應(yīng)用提供了實用高效的解決方案。我們的代碼將公開發(fā)布。


7.基于最優(yōu)傳輸?shù)拈_放詞匯多標(biāo)簽識別

Recover and Match: Open-Vocabulary Multi-Label Recognition through Knowledge-Constrained Optimal Transport

論文作者:譚淏,譚資昌,李俊,劉阿建,萬軍,雷震

受到DETR啟發(fā),我們發(fā)現(xiàn)簡單的區(qū)域-文本匹配能顯著提升開放詞匯多標(biāo)簽識別性能,并將該過程建模為最優(yōu)傳輸問題以抑制負(fù)類匹配。然而直接進(jìn)行最優(yōu)傳輸是失效的:(1)預(yù)訓(xùn)練局部語義缺失;(2)匹配結(jié)果難以泛化到開放詞匯場景。為此我們提出局部語義恢復(fù)模塊捕捉精確的區(qū)域性語義,并引入教師傳輸模型增強(qiáng)開放詞匯下的泛化性。方法在自然圖像、遙感圖像、行人屬性等多領(lǐng)域取得大幅性能提升。更重要的是,該方法能作為一種框架提升現(xiàn)有方法的表現(xiàn),擴(kuò)展?jié)摿α己谩?/p>

RAM框架示意圖


8.基于一致性學(xué)習(xí)潛能的多模態(tài)媒體篡改檢測與定位

Unleashing the Potential of Consistency Learning for Detecting and Grounding Multi-Modal Media Manipulation

論文作者:李毅恒,楊陽,譚資昌,劉歡,陳威華,周旭,雷震

為了應(yīng)對虛假新聞的威脅,研究人員對多模態(tài)媒體篡改檢測與定位的研究日益增加。然而,現(xiàn)有方法難以深入建模局部內(nèi)容,導(dǎo)致其對細(xì)粒度偽造的感知能力不足、判定結(jié)果不夠可靠。針對這一現(xiàn)象,本文提出了一種 “上下文-語義一致性”的新學(xué)習(xí)范式,提升偽造內(nèi)容細(xì)粒度感知能力。該方法構(gòu)建了圖像模態(tài)和文本模態(tài)兩個分支,它們均包含了兩個級聯(lián)的解碼器:上下文一致性解碼器和語義一致性解碼器,并且遵循相同的標(biāo)準(zhǔn)分別應(yīng)用于模態(tài)內(nèi)和跨模態(tài)場景,以捕捉細(xì)粒度的偽造細(xì)節(jié)。一方面,每個模塊引入額外的監(jiān)督信息學(xué)習(xí)一致性特征;另一方面,利用偽造感知推理或聚合,深入挖掘偽造線索并進(jìn)行定位。在公開數(shù)據(jù)集DGM4上的廣泛實驗證明了:所提出的方法領(lǐng)先現(xiàn)有的技術(shù),尤其在篡改內(nèi)容的定位方面性能提升顯著。

提出的框架包含上下文一致性解碼器和語義一致性解碼器。它們構(gòu)建了細(xì)粒度一致性矩陣,并且使用一致性損失進(jìn)行監(jiān)督。在每個解碼器中,采用防偽功能推理或聚合模塊以減少混淆內(nèi)容的干擾,深入挖掘偽造線索。


9.MVBoost:利用多視圖修正策略增強(qiáng)3D重建

MVBoost: Boost 3D Reconstruction with Multi-View Refinement

論文作者:劉祥宇,張小梅,馬致遠(yuǎn),朱翔昱,雷震

最近在3D生成方面的進(jìn)展令人矚目,但目前大多數(shù)3D重建模型在很大程度上依賴于現(xiàn)有的3D數(shù)據(jù)集。多樣化3D數(shù)據(jù)集的稀缺導(dǎo)致3D重建模型的泛化能力有限。本文提出了一種通過生成偽GT數(shù)據(jù)來增強(qiáng)3D重建的創(chuàng)新框架——MVBoost。MVBoost的關(guān)鍵在于結(jié)合多視圖生成模型的高精度和3D重建模型的一致性,以創(chuàng)建可靠的數(shù)據(jù)源。具體而言,給定單視圖輸入圖像,我們采用多視圖擴(kuò)散模型生成多個視圖,然后使用大型3D重建模型生成一致的3D數(shù)據(jù)。MVBoost隨后自適應(yīng)地精煉這些從一致的3D數(shù)據(jù)渲染的多視圖圖像,以構(gòu)建一個用于訓(xùn)練前饋3D重建模型的大規(guī)模多視圖數(shù)據(jù)集。此外,輸入視圖優(yōu)化模塊旨在根據(jù)用戶的輸入圖像優(yōu)化相應(yīng)的視點,確保最重要的視點能夠準(zhǔn)確滿足用戶的需求。大量實驗評估表明,我們的方法在重建結(jié)果和魯棒泛化方面優(yōu)于先前的工作。

MVBoost框架概述。給定一個單視圖圖像數(shù)據(jù)集,我們首先采用多視圖擴(kuò)散模型生成原始多視圖數(shù)據(jù)集。然后將原始多視圖輸入到大型3D重建模型中,以生成3D高斯。從這個3D高斯點云中渲染出多個視圖,并通過擴(kuò)散模型進(jìn)行精細(xì)化的多視圖數(shù)據(jù)集生成。在訓(xùn)練過程中,精細(xì)化的多視圖數(shù)據(jù)集用于通過LoRA監(jiān)督3D重建模型。最后,生成的3D高斯以優(yōu)化的方式與特定輸入視點對齊,從而獲得高保真重建結(jié)果。


10.基于貝葉斯理論的視覺語言模型的測試時間自適應(yīng)

Bayesian Test-Time Adaptation for Vision-Language Models

論文作者:周李華,葉茂,李帥鋒,李念欣,朱霞天,鄧?yán)冢瑒⒑瓯螅渍?/p>

預(yù)訓(xùn)練視覺-語言模型通過在大規(guī)模圖文對數(shù)據(jù)上的訓(xùn)練,展現(xiàn)出了強(qiáng)大的多模態(tài)表征能力,在圖像分類等任務(wù)中表現(xiàn)出很好的性能。然而在應(yīng)用中,測試數(shù)據(jù)往往和預(yù)訓(xùn)練數(shù)據(jù)的分布存在較大差異,會導(dǎo)致模型性能下降。研究團(tuán)隊提出一種新的TTA方法,稱為Bayesian Class Adaptation (BCA),能夠在動態(tài)環(huán)境中提升CLIP的分類精度和推理效率。BCA 基于貝葉斯框架,將預(yù)測過程分解為兩個部分:可能性和先驗,并通過動態(tài)更新使模型適應(yīng)測試數(shù)據(jù),該方法核心創(chuàng)新點包括:

(1)先驗的動態(tài)適應(yīng)。傳統(tǒng)方法通常忽略先驗的存在,缺少靈活性,BCA能根據(jù)測試數(shù)據(jù)動態(tài)調(diào)整先驗以適應(yīng)當(dāng)前數(shù)據(jù)分布。

(2)高效的設(shè)計。BCA 不依賴反向傳播,而是通過輕量級的統(tǒng)計更新實時適應(yīng)。在 ImageNet 數(shù)據(jù)集(ResNet-50模型)上的測試表明,BCA 的推理時間僅為 2.42 分鐘,內(nèi)存占用只比 CLIP 增加了約 4MB。

實驗結(jié)果表明,該方法在精度、魯棒性和效率上超越現(xiàn)有方法,適用于動態(tài)現(xiàn)實場景,為視覺-語言模型的測試時適應(yīng)提供了新思路。

BCA流程:第 i 個測試圖像到達(dá)時,首先通過視覺編碼器生成visual embedding,然后模型基于這個visual embedding進(jìn)行可能性更新,即更新模型中存儲的class embedding,然后再對模型執(zhí)行先驗更新,即調(diào)整模型中的類別先驗,最終輸出后驗概率(預(yù)測)


11.大規(guī)模三維建圖的超輕量神經(jīng)表達(dá)

3D-SLNR: A Super Lightweight Neural Representation for Large-scale 3D Mapping

論文作者:師晨輝,唐付林,安寧,吳毅紅

本文為大場景3D建圖提出了一個新的超級輕量的神經(jīng)表達(dá),具有出色的表現(xiàn)力。該表達(dá)基于一組錨定在支持點上的帶限局部距離函數(shù)(SDF)定義了近表面空間的全局SDF。支持點從點云中采樣得到。這些局部 SDF 僅由一個小型的多層感知機(jī)(MLP) 參數(shù)化,不依賴高維的特征向量。每個 SDF 的狀態(tài)由位置、旋轉(zhuǎn)和縮放三個可學(xué)習(xí)的幾何屬性控制,這使得該表示法能夠適應(yīng)復(fù)雜的幾何形狀。然后,本文開為這種無序表示開發(fā)了一種新型并行算法,以高效檢測包含每個采樣點的局部 SDF,從而能夠在訓(xùn)練過程中實時更新局部 SDF 狀態(tài)。此外,本文還引入了一種剪枝-擴(kuò)展策略,以進(jìn)一步增強(qiáng)適應(yīng)性。本文的低參數(shù)模型及其自適應(yīng)能力的協(xié)同作用,使表達(dá)極其緊湊,同時具有出色表達(dá)能力的。實驗結(jié)果證明,本文的方法可以以1/5的內(nèi)存占用達(dá)到最好的重建質(zhì)量。

提出方法的框架


12.基于置換等變性的相對相機(jī)位姿估計

EquiPose: Exploiting Permutation Equivariance for Relative Camera Pose Estimation

論文作者:劉雨臻,董秋雷

相對相機(jī)位姿估計是三維計算機(jī)視覺領(lǐng)域中一個重要的研究主題。近年來,研究者提出了許多相對位姿估計網(wǎng)絡(luò),來學(xué)習(xí)從兩幅輸入圖像到它們對應(yīng)的相對位姿之間的映射關(guān)系。然而,這些網(wǎng)絡(luò)并不具備相對位姿固有的姿態(tài)置換等變性(Pose Permutation Equivariance, PPE):從圖像A到圖像B的相機(jī)位姿矩陣,等于從圖像B到圖像A的相對位姿矩陣的逆。這意味著,當(dāng)交換兩幅圖像的輸入順序時,這些網(wǎng)絡(luò)將無法獲得一致的相對位姿結(jié)果。針對這一問題,我們首次引入“PPE映射”的概念,即滿足上述PPE特性的映射。進(jìn)一步地,我們提出了一個通用的相對位姿估計框架EquiPose,該框架可以使用不同的相對位姿估計網(wǎng)絡(luò)作為基線模型,并約束基線模型具有PPE屬性。我們還從理論上證明:EquiPose框架學(xué)習(xí)到的映射一定是一個PPE映射。在四個公開數(shù)據(jù)集上的實驗結(jié)果表明,對于若干預(yù)訓(xùn)練的基線模型,EquiPose框架無需微調(diào)即可直接提升其性能,而在進(jìn)行微調(diào)后可以進(jìn)一步提升其性能。

EquiPose框架結(jié)構(gòu)圖


13.基于遮擋感知神經(jīng)域自適應(yīng)的自監(jiān)督物體位姿估計

ONDA-Pose: Occlusion-Aware Neural Domain Adaptation for Self-Supervised 6D Object Pose Estimation

論文作者:譚濤,董秋雷

物體位姿估計是計算機(jī)視覺領(lǐng)域中的一個重要主題,傳統(tǒng)方法依賴于高質(zhì)量的物體位姿標(biāo)簽進(jìn)行全監(jiān)督訓(xùn)練,而自監(jiān)督方法則通過利用未標(biāo)注的真實圖像和合成數(shù)據(jù)進(jìn)行訓(xùn)練,避免了對手動標(biāo)注的依賴。針對現(xiàn)有自監(jiān)督方法在合成圖像與真實圖像之間的域差距以及遮擋問題,本研究提出了一種基于遮擋感知神經(jīng)域自適應(yīng)的自監(jiān)督物體位姿估計方法——ONDA-Pose。該方法采用三階段訓(xùn)練策略:首先,利用未標(biāo)注的真實圖像和CAD模型,通過神經(jīng)輻射場技術(shù),生成與真實圖像具有相同物體位姿且紋理與CAD模型渲染圖像相似的合成圖像;其次,使用在CAD模型渲染的合成數(shù)據(jù)上預(yù)訓(xùn)練的位姿估計器對合成圖像進(jìn)行初始位姿估計,并通過全局物體位姿優(yōu)化器生成偽標(biāo)簽;最后,利用帶有偽標(biāo)簽的真實圖像和合成圖像對位姿估計器進(jìn)行自監(jiān)督訓(xùn)練,進(jìn)一步提升其性能。實驗結(jié)果表明,相較于現(xiàn)有主流方法,我們的方法在大多數(shù)情況下取得了領(lǐng)先的性能。

ONDA-Pose框架圖


14.RoboBrain:實現(xiàn)從抽象指令理解到具象動作表達(dá)的具身多模態(tài)模型

RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete

論文作者:冀昱衡,譚樺杰,史佳禹,郝孝帥,張袁,張恒源,王鵬偉,趙夢迪,穆堯,安鵬舉,薛昕達(dá),蘇慶杭,呂懷海,鄭曉龍,劉家銘,王仲遠(yuǎn),仉尚航

近年來,多模態(tài)大語言模型(MLLMs)的快速發(fā)展顯著推動了通用人工智能的研究進(jìn)程。然而,盡管 MLLMs 在通用任務(wù)中表現(xiàn)出色,其在具身場景中的應(yīng)用仍面臨巨大挑戰(zhàn),尤其是在長程操作任務(wù)中。這些任務(wù)不僅要求機(jī)器人能夠理解抽象指令,還需具備將指令轉(zhuǎn)化為具體動作的能力。具體而言,長程操作任務(wù)的成功執(zhí)行依賴于以下三種核心能力:任務(wù)規(guī)劃能力、可操作區(qū)域感知能力和軌跡預(yù)測能力。然而,現(xiàn)有 MLLMs 在這些方面存在顯著不足,這主要源于當(dāng)前缺乏專門為MLLMs和機(jī)器人長程操作任務(wù)設(shè)計的大規(guī)模、細(xì)粒度數(shù)據(jù)集。為了填補(bǔ)這一空白,我們提出了ShareRobot,一個專門為機(jī)器人操作任務(wù)設(shè)計的高質(zhì)量異構(gòu)數(shù)據(jù)集。基于ShareRobot,我們開發(fā)了 RoboBrain,這是一個能夠?qū)崿F(xiàn)從抽象指令理解到具象動作表達(dá)的統(tǒng)一具身多模態(tài)大腦模型,旨在增強(qiáng)機(jī)器人在長程操作任務(wù)中的能力。通過精心設(shè)計的數(shù)據(jù)比例、多階段訓(xùn)練策略以及長視頻和高分辨率圖像輸入,RoboBrain 實現(xiàn)了從抽象指令理解到具象動作表達(dá)的認(rèn)知跨越,展現(xiàn)了其在機(jī)器人實際應(yīng)用中的潛力。

RoboBrain具備完成長程操作任務(wù)的三項核心能力:任務(wù)規(guī)劃能力(Planning)、可操作區(qū)域感知能力(Affordance Perception)和軌跡預(yù)測能力(Trajectory Prediction)。基于我們構(gòu)建的ShareRobot數(shù)據(jù)和通用多模態(tài)數(shù)據(jù),RoboBrain經(jīng)過精心設(shè)計的多階段訓(xùn)練,在多個具身場景基準(zhǔn)中取得了最先進(jìn)的性能,實現(xiàn)了從抽象指令理解到具象動作表達(dá)的認(rèn)知跨越。


15.生成模型在專業(yè)圖像設(shè)計中的差距與挑戰(zhàn)

IDEA-Bench: How Far are Generative Models from Professional Designing?

論文作者:梁晨,黃梁華,方景武,竇洹彰,王威,吳志凡,石宇鵬,張俊格,趙鑫,劉宇

當(dāng)前生成模型在文本到圖像(T2I)任務(wù)上取得顯著進(jìn)展,但在專業(yè)設(shè)計領(lǐng)域仍存在能力缺陷,難以處理復(fù)雜指令、多輸入/輸出任務(wù)或?qū)崿F(xiàn)專業(yè)級細(xì)節(jié)控制。為了量化這一差距,我們提出 IDEA-Bench,一個涵蓋 100 個專業(yè)設(shè)計任務(wù)的基準(zhǔn)測試,全面評估當(dāng)前生成模型在專業(yè)設(shè)計場景下的表現(xiàn),并提供改進(jìn)方向。

IDEA-Bench 包含 100 個任務(wù)、275 個測試案例,覆蓋文本到圖像、圖像編輯、多圖生成等五大類別,并提供 IDEA-Bench-mini(18 個代表性任務(wù)) 進(jìn)行自動評測。評估采用 1,650 個二元評分項,并結(jié)合多模態(tài)大模型(MLLM)輔助,以確保專業(yè)級任務(wù)的精準(zhǔn)評估。

實驗評測了 FLUX-1、GPT-4o + Stable Diffusion 3、DALL-E 3 等模型,最高得分僅 22.48/100,遠(yuǎn)未達(dá)到專業(yè)級設(shè)計要求。結(jié)果表明,現(xiàn)有模型在多模態(tài)理解、風(fēng)格一致性和任務(wù)泛化方面仍存在顯著挑戰(zhàn),需進(jìn)一步優(yōu)化以縮小與專業(yè)設(shè)計師的能力差距。

圖1.?IDEA-Bench概覽。IDEA-Bench 包含5個類別,共計100個專業(yè)級子任務(wù)、275個測試用例、1,650個層次化評估問題。圖中提供每個類別子任務(wù)示例和定量統(tǒng)計數(shù)據(jù),以及主流模型的排行榜。

圖2.?IDEA-Bench從專業(yè)設(shè)計網(wǎng)站和設(shè)計師的任務(wù)數(shù)據(jù)中進(jìn)行分類和構(gòu)建,并根據(jù)生成模型的能力分配相應(yīng)的能力關(guān)鍵詞。針對每個具體任務(wù),設(shè)計圖像生成提示詞和層次化評測問題。評測人員隨后在一個具有代表性的數(shù)據(jù)子集中優(yōu)化這些評測問題,以確保評測標(biāo)準(zhǔn)的合理性和一致性。


16.DriveDreamer4D:以世界模型為數(shù)據(jù)引擎的4D駕駛場景表征方法

DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation

論文作者:趙國盛,倪超駿,王嘯峰,朱政,張學(xué)陽,王一達(dá),黃冠, 陳新澤,王泊遠(yuǎn),張友誼,梅文俊,王欣剛

閉環(huán)仿真對于推進(jìn)端到端自動駕駛系統(tǒng)至關(guān)重要。當(dāng)前的傳感器仿真方法,例如NeRF和3DGS,主要依賴與訓(xùn)練數(shù)據(jù)分布高度一致的條件,這些條件大多局限于前向駕駛場景。因此,這些方法在渲染復(fù)雜駕駛操作(如變道、加速、減速)時存在局限性。近期,自動駕駛世界模型的進(jìn)展展示了生成多樣化駕駛視頻的潛力。然而,這些方法仍局限于2D視頻生成,本質(zhì)上缺乏捕捉動態(tài)駕駛環(huán)境復(fù)雜細(xì)節(jié)所需的時空一致性。在本文中,我們提出了DriveDreamer4D,該方法利用世界模型先驗知識增強(qiáng)了4D駕駛場景表征能力。具體而言,我們利用世界模型作為數(shù)據(jù)引擎,合成新軌跡視頻,并顯式利用結(jié)構(gòu)化條件來控制交通元素的時空一致性。此外,我們提出了“堂兄?jǐn)?shù)據(jù)”訓(xùn)練策略,以促進(jìn)真實數(shù)據(jù)與合成數(shù)據(jù)的融合,從而優(yōu)化4DGS。據(jù)我們所知,DriveDreamer4D是首個利用視頻生成模型改進(jìn)駕駛場景中4D重建的方法。實驗結(jié)果表明,DriveDreamer4D在新軌跡視圖下的生成質(zhì)量顯著提升,在FID指標(biāo)上分別比PVG、S3Gaussian和Deformable-GS提高了32.1%、46.4%和16.3%。此外,DriveDreamer4D顯著提升了駕駛代理的時空一致性,這一結(jié)論通過全面的用戶研究以及NTA-IoU指標(biāo)分別提升22.6%、43.5%和15.6%得到了驗證。

圖1. 以往的4D高斯點云方法(如PVG、S3Gaussian、Deformable-GS)在渲染新軌跡(如變道)時面臨挑戰(zhàn)。DriveDreamer4D通過整合世界模型的先驗知識,增強(qiáng)了4D駕駛場景的表征能力,從而顯著提升了復(fù)雜場景和新軌跡視角下的渲染質(zhì)量。

圖2. DriveDreamer4D的整體框架。首先,通過改變原始軌跡的動作(例如,轉(zhuǎn)向角度、速度),可以獲得新的軌跡。在第一幀和新軌跡的結(jié)構(gòu)化信息(如3D邊界框、高清地圖)的條件下,生成對應(yīng)的新軌跡視頻。隨后,將時間對齊的cousin pair(原始軌跡視頻與新軌跡視頻)進(jìn)行融合,以優(yōu)化4D高斯點云模型,并通過計算正則化損失來確保感知一致性。


17.視覺生成式模型的高效人類偏好評估

K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences

論文作者:李志凱,劉學(xué)文,Dongrong Joe Fu (UC Berkeley),李建權(quán),顧慶毅,Kurt Keutzer (UC Berkeley),Zhen Dong (UC Berkeley)

視覺生成式模型的快速發(fā)展需要高效且可靠的評估方法。Arena 平臺收集用戶對模型比較的投票,可以根據(jù)人類偏好對模型進(jìn)行排名。然而,傳統(tǒng)Arena的成對對比方式、模型匹配策略以及模型能力建模方法使其在效率和可靠性上面臨挑戰(zhàn),這會影響對新模型能力的快速評估和排行榜的及時更新。為此,本文提出K-Sort Arena,采用 K-wise 比較,允許 K 個模型參與自由混戰(zhàn),提供比成對比較更豐富的信息,并設(shè)計基于探索-利用的匹配算法和概率建模,從而實現(xiàn)更高效和更可靠的模型排名。目前,K-Sort Arena 已收集幾千次高質(zhì)量投票并構(gòu)建了全面的模型排行榜,已用于評估幾十種最先進(jìn)的視覺生成模型,包括文生圖和文生視頻模型。K-Sort Arena已經(jīng)歷數(shù)月的項目內(nèi)測,期間收到來自加州大學(xué)伯克利分校, 新加坡國立大學(xué), 卡內(nèi)基梅隆大學(xué), 斯坦福大學(xué), 普林斯頓大學(xué), 北京大學(xué)等數(shù)十家機(jī)構(gòu)的專業(yè)人員的技術(shù)反饋,現(xiàn)已公開線上發(fā)布。

K-Sort Arena總體流程


18.CacheQuant:全面加速擴(kuò)散模型

CacheQuant: Comprehensively Accelerated Diffusion Models

論文作者:劉學(xué)文,李志凱,顧慶毅

擴(kuò)散模型在圖像生成領(lǐng)域展現(xiàn)出卓越的能力。然而,由于時序和結(jié)構(gòu)層面的冗余,其推理速度較慢且網(wǎng)絡(luò)復(fù)雜,限制了在低延遲應(yīng)用中的實際部署。現(xiàn)有的加速方法通常分別針對時序和結(jié)構(gòu)兩個層面進(jìn)行優(yōu)化,但單獨(dú)優(yōu)化各層面往往導(dǎo)致顯著的性能下降,而聯(lián)合優(yōu)化雖然能增強(qiáng)加速效果,卻并非完全正交,簡單整合兩層面的優(yōu)化方法往往難以取得理想的性能表現(xiàn)。

為此,我們提出了一種全新的CacheQuant范式,該方法無需額外訓(xùn)練,通過聯(lián)合優(yōu)化模型緩存與量化技術(shù),實現(xiàn)對擴(kuò)散模型時序和結(jié)構(gòu)層面的全面加速。具體而言,我們采用動態(tài)規(guī)劃方法優(yōu)化模型緩存調(diào)度,在充分考慮緩存與量化特性的基礎(chǔ)上,減少加速引入的誤差。此外,我們提出解耦誤差校正機(jī)制,進(jìn)一步緩解累積誤差的影響。實驗結(jié)果表明,CacheQuant 在Stable Diffusion 任務(wù)中實現(xiàn)了 5.18× 加速和 4× 模型壓縮,而CLIP 分?jǐn)?shù)僅下降 0.02。

本研究提出方法的總覽圖。我們采用動態(tài)規(guī)劃方法(DPS)獲得引入加速誤差最小的模型緩存序列表,進(jìn)一步通過解耦誤差校正機(jī)制(DEC)緩解累積的誤差。


19.HumanDreamer:通過解耦生成生成可控的人體運(yùn)動視頻

HumanDreamer: Generating Controllable Human-Motion Videos via Decoupled Generation

論文作者:王泊遠(yuǎn),王嘯峰,倪超駿,趙國盛,楊智欽,朱政,張沐陽,周鈺坤,陳新澤,黃冠,劉麗紅,王欣剛

人體運(yùn)動視頻生成一直是一項具有挑戰(zhàn)性的任務(wù),主要是由于學(xué)習(xí)人體運(yùn)動固有的困難。雖然一些方法已經(jīng)嘗試通過姿態(tài)控制來明確地驅(qū)動以人為中心的視頻生成,但是這些方法通常依賴于從現(xiàn)有視頻導(dǎo)出的姿態(tài),從而缺乏靈活性。為了解決這個問題,我們提出了HumanDreamer,一個解耦的人類視頻生成框架,首先從文本提示生成不同的姿勢,然后利用這些姿勢來生成人類運(yùn)動視頻。具體來說,我們提出了MotionVid,這是用于人體運(yùn)動姿態(tài)生成的最大數(shù)據(jù)集。基于數(shù)據(jù)集,我們提出了MotionDiT,它被訓(xùn)練成從文本提示中生成結(jié)構(gòu)化的人體運(yùn)動姿勢。此外,引入了一種新的LAMA損耗,這兩種損耗共同導(dǎo)致FID顯著提高62.4%,沿著,top1、top2和top3的R精度分別提高41.8%、26.3%和18.3%,從而提高了文本到姿態(tài)控制精度和FID指標(biāo)。我們在各種姿勢到視頻基線的實驗表明,我們的方法生成的姿勢可以產(chǎn)生多樣化和高質(zhì)量的人體運(yùn)動視頻。此外,我們的模型可以促進(jìn)其他下游任務(wù),如姿勢序列預(yù)測和2D-3D姿態(tài)升維。

所提出的文本到姿態(tài)生成的訓(xùn)練流程。姿態(tài)數(shù)據(jù)通過姿態(tài)變分自編碼器(Pose VAE)在潛在空間中編碼,隨后這些數(shù)據(jù)被提出的MotionDiT處理,在此過程中利用局部特征聚合和全局注意力來捕捉整個姿態(tài)序列的信息。最后,通過提出的CLoP計算LAMA損失,這增強(qiáng)了MotionDiT的訓(xùn)練。


20.基于貝葉斯提示流學(xué)習(xí)的零樣本異常檢測

Bayesian Prompt Flow Learning for Zero-Shot Anomaly Detection

論文作者:屈震,陶顯,宮新一,曲世辰,陳麒宇,張正濤,王欣剛,丁貴廣

近年來,視覺-語言模型在零樣本異常檢測中表現(xiàn)卓越,可利用輔助數(shù)據(jù)訓(xùn)練后直接執(zhí)行跨類別異常檢測,如工業(yè)缺陷識別或醫(yī)療病灶檢測。現(xiàn)有方法通常通過手工設(shè)計文本提示或優(yōu)化可學(xué)習(xí)的提示向量來構(gòu)建文本輸入。然而,這些方法面臨以下挑戰(zhàn):1) 手工設(shè)計的提示需要大量專家知識和反復(fù)試驗;2) 單一形式的可學(xué)習(xí)提示難以捕捉復(fù)雜的異常語義;3) 無約束的提示空間限制了模型對未見類別的泛化能力。為了解決這些問題,我們提出貝葉斯提示流學(xué)習(xí)(Bayes-PFL),從貝葉斯視角將提示空間建模為可學(xué)習(xí)的概率分布。具體而言,我們設(shè)計了一種提示流模塊,用于學(xué)習(xí)圖像特定和圖像無關(guān)的分布,并將二者結(jié)合以對文本提示空間進(jìn)行正則化,從而提升模型在未見類別上的泛化能力。這些學(xué)習(xí)到的分布隨后用于采樣生成多樣化的文本提示,從而有效覆蓋提示空間。此外,我們引入了一種殘差跨模態(tài)注意力 (RCA) 模塊,以更好地對齊動態(tài)文本嵌入與細(xì)粒度圖像特征。


21.?BWFormer: 基于Transformer的機(jī)載雷達(dá)點云建筑物線框重建方法

BWFormer: Building Wireframe Reconstruction from Airborne LiDAR Point Cloud with Transformer

論文作者:劉昱州,朱靈杰,葉翰樵,黃尚鋒,高翔,鄭先偉,申抒含

本文提出了一種基于Transformer結(jié)構(gòu)從機(jī)載激光雷達(dá)點云重建建筑物線框結(jié)構(gòu)的新模型:BWFormer。本方法采用自下而上的方式進(jìn)行求解,首先在2D平面上檢測建筑角點,然后將其提升到3D空間并進(jìn)行連接關(guān)系的檢測,同時通過引入額外的數(shù)據(jù)增強(qiáng)來增強(qiáng)模型的泛化性。由于機(jī)載雷達(dá)點云的2.5D特性,本方法通過將點云投影到地面平面來生成2D高度圖從而簡化問題。在高度圖的基礎(chǔ)上,本方法首先預(yù)測一個像素級角點概率圖,以確定可能的2D角點。接著,基于 Transformer網(wǎng)絡(luò),將2D角點與額外的高度嵌入結(jié)合進(jìn)行初始化,從而預(yù)測3D角點。這種2D-3D相結(jié)合的角點檢測策略顯著減少了角點檢測的搜索空間。為了恢復(fù)角點之間的拓?fù)溥B接,本方法提出了新的邊注意力機(jī)制,從而利用高度圖中的幾何和視覺特征進(jìn)行邊預(yù)測。該機(jī)制能夠同時提取全局特征并保留局部細(xì)節(jié)。此外,考慮到該領(lǐng)域可用數(shù)據(jù)集有限且點云分布不規(guī)則的數(shù)據(jù)特性,本方法采用了條件隱變量擴(kuò)散模型進(jìn)行激光雷達(dá)掃描模擬從而實現(xiàn)數(shù)據(jù)增強(qiáng)。實驗結(jié)果表明,BWFormer在建筑物線框重建指標(biāo)尤其是完整性方面明顯優(yōu)于其他最新的主流方法。

激光雷達(dá)點云線框重建面臨的挑戰(zhàn)與BWFormer流程圖


22.揭示關(guān)鍵細(xì)節(jié)以辨差異:基于骨架動作識別的全新原型視角

Revealing Key Details to See Differences: A Novel Prototypical Perspective for Skeleton-based Action Recognition

論文作者:劉宏達(dá),劉云帆,任民,王昊,王云龍,孫哲南

在基于骨架的動作識別中,由于骨架表示缺乏圖像級的細(xì)節(jié)信息,區(qū)分具有相似關(guān)節(jié)軌跡的動作成為一個關(guān)鍵挑戰(zhàn)。我們發(fā)現(xiàn),相似動作的區(qū)分依賴于特定身體部位的微妙運(yùn)動細(xì)節(jié),因此本文方法聚焦于局部骨架結(jié)構(gòu)的細(xì)粒度運(yùn)動特征。為此,我們提出ProtoGCN,一種基于圖卷積網(wǎng)絡(luò)(GCN)的模型。該模型將整個骨架序列的動態(tài)分解為一系列可學(xué)習(xí)原型的組合,這些原型代表了不同的核心運(yùn)動模式。通過對比原型重建結(jié)果,ProtoGCN能夠有效識別并增強(qiáng)相似動作的判別性表示。在不依賴復(fù)雜技巧的情況下,ProtoGCN在多個基準(zhǔn)數(shù)據(jù)集(包括NTU RGB+D、NTU RGB+D 120、Kinetics-Skeleton和FineGYM)上均達(dá)到了最先進(jìn)的性能,充分驗證了所提方法的有效性。

骨架及學(xué)習(xí)拓?fù)浣Y(jié)構(gòu)的示意圖。如圖中(a)和(c)所示,對于相似動作“書寫”和“鍵盤打字”,基線模型雖然能夠關(guān)注手部相關(guān)關(guān)節(jié),但在揭示其獨(dú)特運(yùn)動特征方面存在不足。相比之下,本文提出的圖原型重建機(jī)制能夠準(zhǔn)確區(qū)分這兩個動作,這點從(b)和(d)所體現(xiàn)的顯著運(yùn)動模式差異上得到了驗證。


23.在持續(xù)測試域自適應(yīng)中維持類間拓?fù)湟恢滦?/strong>

Maintaining Consistent Inter-Class Topology in Continual Test-Time Adaptation

論文作者:倪成功,呂凡,檀佳垚,胡伏原,姚睿,周濤

本文介紹了一種名為Topological Consistency Adaptation (TCA)的新型持續(xù)測試時自適應(yīng)(CTTA)方法,旨在解決測試場景中領(lǐng)域偏移和錯誤累積的挑戰(zhàn)。TCA通過引入類拓?fù)湟恢滦约s束,確保在連續(xù)自適應(yīng)過程中類間關(guān)系的穩(wěn)定性,最小化類中心的失真并保持拓?fù)浣Y(jié)構(gòu)。此外,TCA還提出了一種類內(nèi)緊湊性損失,以保持類內(nèi)特征的緊湊性,間接支持類間穩(wěn)定性。同時,引入了一種批不平衡拓?fù)浼訖?quán)機(jī)制,以考慮每個批次內(nèi)類分布的不平衡,優(yōu)化中心距離并穩(wěn)定類間拓?fù)浣Y(jié)構(gòu)。實驗結(jié)果表明,TCA方法在處理連續(xù)領(lǐng)域偏移方面表現(xiàn)出色,能夠確保特征分布的穩(wěn)定性,并顯著提高預(yù)測性能。在CIFAR-10-C、CIFAR-100-C和ImageNet-C三個基準(zhǔn)任務(wù)上的廣泛實驗表明,TCA在平均錯誤率方面優(yōu)于其他方法,分別將平均錯誤率降低到14.7%、29.7%和59.3%。這表明,保持平衡和穩(wěn)定的類間拓?fù)湟约邦悆?nèi)特征的均勻性,可以有效緩解CTTA中的錯誤累積問題。

框架概述。TCA首先關(guān)注類間特征分布的均勻性,利用增強(qiáng)的偽標(biāo)記預(yù)測來計算偽質(zhì)心代理,從而使類間特征均勻化。隨后,TCA保持了類內(nèi)特征的緊湊分布,從而減輕了類特征分布內(nèi)的不平衡。最后,TCA根據(jù)詳細(xì)的歷史預(yù)測分布連續(xù)地維護(hù)類間質(zhì)心的動態(tài)權(quán)重,從而保持類間潛在的拓?fù)潢P(guān)系。


24.超越背景偏移:重新思考持續(xù)語義分割中的實例重放

Beyond Background Shift: Rethinking Instance Replay in Continual Semantic Segmentation

論文作者:尹紅梅,馮廷亮,呂凡,尚凡華,劉紅英,馮偉,萬亮

在這項工作中,我們聚焦于持續(xù)語義分割(CSS)任務(wù),其中分割網(wǎng)絡(luò)需要不斷學(xué)習(xí)新類別,同時避免遺忘已學(xué)類別的知識。盡管在分類任務(wù)中,存儲舊類別的圖像并將其直接納入新模型的訓(xùn)練已被證明可以有效緩解災(zāi)難性遺忘,但這一策略在 CSS 任務(wù)中存在顯著局限性。具體而言,存儲的圖像和新圖像通常只包含部分類別的標(biāo)注,這可能導(dǎo)致未標(biāo)注類別與背景混淆,從而增加模型擬合的難度。為了解決這一問題,本文提出了一種 EIR 方法,該方法不僅通過存儲舊類別的實例來保留舊知識,并同時消除背景混淆,還通過將存儲的實例與新圖像融合來緩解新數(shù)據(jù)中的背景偏移問題。通過有效解決存儲圖像和新圖像中的背景偏移,EIR 能夠顯著緩解 CSS 任務(wù)中的災(zāi)難性遺忘,從而提升模型在 CSS 任務(wù)中的表現(xiàn)能力。實驗結(jié)果驗證了我們方法的有效性,EIR 方案在 CSS 任務(wù)上顯著優(yōu)于當(dāng)前最先進(jìn)的方法。

圖1.傳統(tǒng)圖像重放方法與我們提出的重放方法的示意圖。(a) 該圖展示了存儲圖像中僅標(biāo)注了舊類別 “horse”,而其他類別(新類別 “person” 和舊類別 “car”)被標(biāo)注為背景。此外,新圖像中的舊類別(“horse”)以及未來類別也被標(biāo)注為背景。(b) 我們的方法通過保留實例來避免存儲圖像中的混淆信息,并通過將這些實例融合到新圖像中來緩解背景偏移問題。

圖2.方法的詳細(xì)架構(gòu)圖。首先,根據(jù)類別從舊數(shù)據(jù)中采樣實例。隨后,在類別組合階段,通過舊模型識別潛在的舊類別。在實例選擇階段,從實例池中選擇潛在類別的實例。之后,計算實例在新圖像中的放置位置,并將其與新圖像融合生成融合圖像。最后,對融合圖像進(jìn)行增強(qiáng)訓(xùn)練。


25.基于雙重語義引導(dǎo)的開放詞匯語義分割

Dual Semantic Guidance for Open Vocabulary Semantic Segmentation

論文作者:王正揚(yáng),馮廷亮,呂凡,尚凡華,馮偉,萬亮

開放詞匯語義分割旨在使模型能夠分割任意類別。目前,盡管像 CLIP 這樣的預(yù)訓(xùn)練視覺語言模型(VLM)通過從大規(guī)模數(shù)據(jù)中學(xué)習(xí)匹配文本和圖像表示為該任務(wù)奠定了堅實的基礎(chǔ),但它們?nèi)狈ο袼丶壸R別能力。大多數(shù)現(xiàn)有方法利用文本作為引導(dǎo)來實現(xiàn)像素級語義分割。然而,文本語義的固有偏差以及缺乏像素級監(jiān)督信息難以有效微調(diào)基于 CLIP 的模型頗具挑戰(zhàn)性。本文考慮同時捕獲圖像和文本中包含的語義信息,構(gòu)建雙重語義引導(dǎo)及相應(yīng)的像素級偽標(biāo)注。本文提出增強(qiáng)區(qū)域感知來正確捕捉視覺語義引導(dǎo),并從文本中抓取名詞作為文本于一引導(dǎo),聯(lián)合微調(diào)基于 CLIP 的分割模型,從而實現(xiàn)良好的細(xì)粒度識別能力。綜合評估表明,在八種常用數(shù)據(jù)集上,我們的方法大幅超越了最先進(jìn)的成果。

圖1. 目前開放詞匯分割方法的不足以及我們雙重語義引導(dǎo)的示意圖。(a)該圖展示了僅依賴名詞會導(dǎo)致圖像表示在大類上收斂,存在語義偏差。(b) 該圖展示了先前方法使用圖像-文本匹配來監(jiān)督分割的局限性,這類方法的會導(dǎo)致粗糙的分割,甚至是未分割的狗都被判定為分割完整。(c) 我們的方法從圖像-文本對中捕獲雙重語義引導(dǎo),協(xié)同指導(dǎo)模型訓(xùn)練。

圖2. 雙重語義引導(dǎo)生成階段的示意圖。(1)該圖的左部分展示了數(shù)據(jù)處理的流程,具體來說,我們通過SAM獲得實例集,并通過區(qū)域感知加強(qiáng)模塊提取實例特征,再經(jīng)過聚類篩選獲得視覺語義引導(dǎo)與對應(yīng)分割標(biāo)簽。其次,我們提取文本中名詞,獲得文本語義引導(dǎo)。(2)該圖右部分展示了區(qū)域感知加強(qiáng)模塊。通過依據(jù)實例的掩碼改變注意力圖,加強(qiáng)對前景區(qū)域的感知。


26.打破線性注意力的低秩困境

Breaking the Low-rank Dilemma of Linear Attention

論文作者:樊齊航,黃懷波,赫然

Transformer 模型中的 Softmax 注意力機(jī)制因其 二次復(fù)雜度 而計算代價高昂,在視覺應(yīng)用中面臨巨大挑戰(zhàn)。相比之下,線性注意力(Linear Attention) 通過將計算復(fù)雜度降低到線性水平,提供了一種更加高效的解決方案。然而,線性注意力通常比 Softmax 注意力表現(xiàn)更差。我們的實驗表明,這種性能下降主要源于 線性注意力輸出特征映射的低秩特性,導(dǎo)致其難以充分建模復(fù)雜的空間信息。

為了解決這一 低秩問題,我們從 KV 緩沖區(qū) 和 輸出特征 兩個角度對其秩進(jìn)行了深入分析。基于此,我們提出了 Rank-Augmented Linear Attention(RALA),它在保持 線性復(fù)雜度和高效性 的同時,性能可與 Softmax 注意力相媲美。在 RALA 的基礎(chǔ)上,我們構(gòu)建了 Rank-Augmented Vision Linear Transformer(RAVLT)。大量實驗表明,RAVLT 在多種視覺任務(wù)上均能取得出色的性能。

對比 Softmax 注意力 和不同 線性注意力 所輸出的特征圖。所有實驗均基于 DeiT-T 架構(gòu) 進(jìn)行,設(shè) N = 196,d = 64,圖中矩陣的滿秩為 64。與 Softmax 注意力相比,各種線性注意力的輸出特征表現(xiàn)出明顯的 低秩特性,這表明線性注意力所學(xué)習(xí)到的特征多樣性 遠(yuǎn)不及 Softmax 注意力。RALA解決了這一問題,有效提升了模型學(xué)習(xí)到特征的秩


27.邁向駕駛場景的自由視角仿真

FreeSim:Toward Free-viewpoint Camera Simulation in Driving Scenes

論文作者:范略*,張淏*,王啟泰,李鴻升,張兆翔

我們提出了FreeSim,一種面向自動駕駛的相機(jī)模擬方法。FreeSim強(qiáng)調(diào)在記錄的自車軌跡之外的視角上實現(xiàn)高質(zhì)量渲染。在此類視角下,由于缺乏訓(xùn)練數(shù)據(jù),以往方法存在不可接受的性能下降。為解決數(shù)據(jù)稀缺問題,我們首先提出了一種生成增強(qiáng)模型,并搭配匹配的數(shù)據(jù)構(gòu)建策略。該模型能夠在略微偏離記錄軌跡的視角上生成高質(zhì)量圖像,條件是該視角的降質(zhì)渲染。隨后,我們提出了一種漸進(jìn)式重建策略,從略微偏離軌跡的視角開始,逐步將未記錄視角的生成圖像加入重建過程,并逐步擴(kuò)大偏離距離。通過這種漸進(jìn)生成-重建流程,F(xiàn)reeSim支持在超過3米的大幅偏離下實現(xiàn)高質(zhì)量的軌跡外視角合成。

FreeSim 方法使得大范圍相機(jī)偏移下仍然有著較高的保真度,支持自由視角的駕駛場景仿真。


28.靈活軌跡上的駕駛場景重建和渲染

FlexDrive: Toward Trajectory Flexibility in Driving Scene Reconstruction and Rendering

論文作者:周靜秋*,范略*,黃林江,石曉宇,劉偲,張兆翔,李鴻升

利用3D高斯?jié)姙R技術(shù),駕駛場景重建和渲染取得了顯著進(jìn)展。然而,先前的研究大多集中在預(yù)記錄車輛路徑上的渲染質(zhì)量,難以推廣到路徑外的視角,這是由于缺乏這些視角的高質(zhì)量監(jiān)督。為解決這一問題,我們引入了逆視圖扭曲技術(shù),生成緊湊且高質(zhì)量的圖像作為路徑外視角重建的監(jiān)督,從而實現(xiàn)這些視角的高質(zhì)量渲染。為了準(zhǔn)確且穩(wěn)健地進(jìn)行逆視圖扭曲,提出了一種深度引導(dǎo)策略,在優(yōu)化過程中實時獲取密集深度圖,克服了LiDAR深度數(shù)據(jù)的稀疏性和不完整性。我們的方法在廣泛使用的Waymo Open數(shù)據(jù)集上實現(xiàn)了優(yōu)異的路徑內(nèi)和路徑外重建與渲染性能。此外,提出了一個基于模擬器的基準(zhǔn)測試,以獲取路徑外的真實數(shù)據(jù)并定量評估路徑外渲染性能,我們的方法在此方面顯著優(yōu)于以往方法。

FlexDrive方法可以在高速環(huán)境下模擬cut-in等行為,并保證視覺保真度。


29.R-TPT:通過測試時提示調(diào)整提高視覺語言模型的對抗魯棒性

R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning

論文作者:生力軍,梁堅,王子磊,赫然

隨著CLIP等視覺語言模型作為基礎(chǔ)模型的廣泛應(yīng)用,針對下游任務(wù)的微調(diào)方法層出不窮。然而,由于這些模型固有的脆弱性以及有限的開源選擇,視覺語言模型比傳統(tǒng)視覺模型面臨更高的對抗攻擊風(fēng)險。現(xiàn)有的防御技術(shù)通常依賴于訓(xùn)練期間的對抗性微調(diào),這需要標(biāo)注數(shù)據(jù)且難以跨任務(wù)泛化。為了解決這些局限性,我們提出了R-TPT方法,通過在推理階段減輕對抗攻擊的影響來增強(qiáng)模型的魯棒性。我們首先通過消除經(jīng)典的邊際熵目標(biāo)中對于對抗樣本沖突的損失項,僅保留點熵最小化。此外,我們引入了一種即插即用的基于可靠性的加權(quán)集成策略,該策略從可靠的增強(qiáng)視圖中聚合有用信息以加強(qiáng)防御。R-TPT方法在不需標(biāo)注訓(xùn)練數(shù)據(jù)的情況下增強(qiáng)了對對抗攻擊的防御能力,同時為推理任務(wù)提供了高度的靈活性。

R-TPT的方法流程示意圖


30.通過大語言模型對步態(tài)識別特征進(jìn)行序列建模

Bridging Gait Recognition And Large Language Models Sequence Modeling

論文作者:楊少鵬*,王繼隆*,侯賽輝,劉旭,曹春水,王亮,黃永禎

步態(tài)序列展現(xiàn)出與自然語言相似的序列結(jié)構(gòu)和上下文關(guān)系,其中每個元素——無論是單詞還是步態(tài)步驟——都與其前后元素相關(guān)聯(lián)。這種相似性使得步態(tài)序列可以轉(zhuǎn)化為包含身份信息的“文本”。大型語言模型(LLMs)旨在理解和生成序列數(shù)據(jù),因此可以用于步態(tài)序列建模,以提升步態(tài)識別的性能。基于這些見解,我們首次嘗試將LLMs應(yīng)用于步態(tài)識別,并將其稱為GaitLLM。我們提出了步態(tài)到語言模塊,將步態(tài)序列轉(zhuǎn)化為適合LLMs的文本格式,以及語言到步態(tài)模塊,將LLMs的輸出映射回步態(tài)特征空間,從而彌合LLM輸出與步態(tài)識別之間的差距。值得注意的是,GaitLLM利用LLMs強(qiáng)大的建模能力,而無需依賴復(fù)雜的架構(gòu)設(shè)計,僅通過少量可訓(xùn)練參數(shù)即可提升步態(tài)識別性能。我們的方法在四個流行的步態(tài)數(shù)據(jù)集上取得了最先進(jìn)的結(jié)果,證明了LLMs在這一領(lǐng)域應(yīng)用的有效性。

GaitLLM的概念示意圖


31.在多模態(tài)大型語言模型的安全對齊中我們是否真的需要精心挑選的惡意數(shù)據(jù)?

Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models?

論文作者:王彥博,關(guān)霽洋,梁堅,赫然

多模態(tài)大型語言模型 (MLLM) 取得了重大進(jìn)展,但其安全性對齊仍然有限。通常,當(dāng)前的樊齊航開源 MLLM 依靠從其語言模塊繼承的對齊來避免有害內(nèi)容的生成。然而,缺乏專門為多模態(tài)輸入設(shè)計的安全措施會造成模態(tài)間的對齊差距,使 MLLM 容易受到視覺域攻擊,例如排版操縱攻擊。當(dāng)前的安全對齊方法利用精心設(shè)計的安全數(shù)據(jù)集來增強(qiáng)模型防御能力,但仍不清楚模型從高質(zhì)量數(shù)據(jù)集學(xué)到了什么具體的特定知識或模式。通過比較實驗,我們發(fā)現(xiàn)對齊差距主要源于數(shù)據(jù)分布偏差,而圖像內(nèi)容、響應(yīng)質(zhì)量或數(shù)據(jù)集的對比行為對提高多模態(tài)安全性貢獻(xiàn)有限。為了進(jìn)一步研究這一點并確定提高 MLLM 安全性的關(guān)鍵因素,我們建議在一小組良性的指令遵循數(shù)據(jù)上對 MLLM 進(jìn)行微調(diào),將響應(yīng)替換為簡單、清晰的拒絕回答格式。實驗表明,無需耗費(fèi)大量人力收集高質(zhì)量惡意數(shù)據(jù),只要微調(diào)集中存在特定比例的拒絕數(shù)據(jù),模型安全性仍可得到顯著提升,這表明在多模態(tài)預(yù)訓(xùn)練或指令微調(diào)期間,安全性對齊不會丟失,而僅僅會被掩蓋。只需糾正底層數(shù)據(jù)偏差,即可縮小視覺領(lǐng)域的安全差距。

研究流程示意圖


32.PhysVLM: 讓視覺語言模型理解機(jī)器人的物理可達(dá)性

PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability

論文作者:周偉杰,陶滿禮,趙朝陽,郭海云,董宏輝,唐明,王金橋

大模型作為具身智能體決策的“大腦”,是實現(xiàn)現(xiàn)實世界中泛化操作的關(guān)鍵要素之一,但環(huán)境的視覺感知與物理空間約束的協(xié)同理解仍是實現(xiàn)可靠操作的主要挑戰(zhàn)。本研究提出首個機(jī)器人物理空間具身大模型——PhysVLM,有效整合了對環(huán)境的視覺理解和對具身智能體的物理空間約束感知,從而生成更加可行和可靠的動作決策。研究亮點體現(xiàn)為:

(1)具身空間-物理約束建模(S-P Map encoding)。將機(jī)器人物理空間約束轉(zhuǎn)化為可學(xué)習(xí)的視覺語義表征,使模型無需學(xué)習(xí)具體機(jī)械參數(shù),即可實現(xiàn)跨機(jī)器人平臺的泛化能力。

(2)視覺-物理空間協(xié)同推理架構(gòu)。PhysVLM創(chuàng)新性地采用雙分支特征編碼器設(shè)計,實現(xiàn)環(huán)境視覺語義與本體物理空間約束的特征交互,在保持通用視覺推理性能的同時,顯著增強(qiáng)對操作可行性的推理能力。

(3)具身物理空間多模態(tài)數(shù)據(jù)集Phys100K。包括6類工業(yè)機(jī)械臂、10萬組操作場景,涵蓋RGB圖像—可達(dá)物理空間圖(S-P Map)—具身物理問答三元組數(shù)據(jù)。配套開發(fā)的EQA-phys評估基準(zhǔn)包含帶有4類工業(yè)機(jī)械臂的仿真環(huán)境和問答數(shù)據(jù)。

實驗結(jié)果表明,PhysVLM相較于GPT-4o實現(xiàn)了14%的性能提升;在通用具身推理任務(wù)中,超越RoboMamba等具身多模態(tài)大模型(+8.6%)。所提方法展現(xiàn)出優(yōu)秀兼容性,與GPT-4o集成后,操作可行性判斷準(zhǔn)確率提升7.1%。模型可準(zhǔn)確識別機(jī)器人對物體的空間不可達(dá)性,并提出如“先利用地盤移動靠近目標(biāo)再進(jìn)行機(jī)械臂操作”等合理建議。

圖1.PhysVLM框架圖

圖2.機(jī)器人物理可達(dá)性理解任務(wù)展示


33.UniVAD: 面向小樣本視覺異常檢測的跨領(lǐng)域統(tǒng)一模型

UniVAD: A Training-free Unified Model for Few-shot Visual Anomaly Detection

論文作者:古兆鵬,朱炳科,朱貴波,陳盈盈,唐明,王金橋

視覺異常檢測旨在識別圖像中偏離正常模式的異常樣本,涵蓋工業(yè)、邏輯、醫(yī)療等多個領(lǐng)域。由于這些領(lǐng)域之間存在數(shù)據(jù)分布差異,現(xiàn)有的異常檢測方法通常需要針對每個特定領(lǐng)域量身定制,采用專門設(shè)計的檢測技術(shù)和模型架構(gòu),難以在不同領(lǐng)域之間泛化應(yīng)用,這阻礙了異常檢測的跨領(lǐng)域統(tǒng)一。

為解決這一問題,我們提出了一種無需訓(xùn)練的跨領(lǐng)域統(tǒng)一的小樣本異常檢測方法——UniVAD。UniVAD無需在特定領(lǐng)域數(shù)據(jù)上進(jìn)行訓(xùn)練,僅在測試階段提供少量正常樣本作為參考,即可檢測先前從未見過的物品類別中的異常。具體而言,UniVAD采用基于視覺基礎(chǔ)模型和聚類方法的上下文組件聚類(C3)模塊精確分割圖像中的組件,并利用組件感知補(bǔ)丁匹配(CAPM)和圖增強(qiáng)組件建模(GECM)模塊分別檢測圖像中不同語義層次的異常,從而實現(xiàn)跨領(lǐng)域統(tǒng)一異常檢測。

在涵蓋工業(yè)、邏輯、醫(yī)療領(lǐng)域的九個數(shù)據(jù)集上的實驗結(jié)果表明,UniVAD在多個領(lǐng)域的小樣本異常檢測任務(wù)中均實現(xiàn)了最先進(jìn)的性能,優(yōu)于特定領(lǐng)域的異常檢測模型。相關(guān)代碼已開源。

圖1. UniVAD 與現(xiàn)有異常檢測方法在 1-shot 場景下的性能對比

圖2.?UniVAD 整體結(jié)構(gòu)圖


34.基于對話優(yōu)化的跨模態(tài)對齊的對話式行人檢索

Chat-based Person Retrieval via Dialogue-Refined Cross-Modal Alignment

論文作者:白楊,季榆程,曹敏,王金橋,葉茫

傳統(tǒng)基于文本的行人檢索依賴單次輸入的文本描述作為查詢。然而,在實際場景中,難以確保該查詢能夠完全反映用戶的檢索意圖。為解決這一問題,我們提出了一種新的檢索范式——對話式行人檢索,通過交互式對話作為查詢,并結(jié)合對話上下文逐步優(yōu)化查詢內(nèi)容,從而實現(xiàn)更精準(zhǔn)的行人檢索。然而,該任務(wù)面臨的首要挑戰(zhàn)是缺乏可用的對話-圖像配對數(shù)據(jù)。為此,我們構(gòu)建了首個面向?qū)υ捠叫腥藱z索的數(shù)據(jù)集ChatPedes,該數(shù)據(jù)集利用大語言模型自動生成問題并模擬用戶響應(yīng),從而完成對話構(gòu)建。此外,為了減少對話與圖像之間的模態(tài)差異,我們提出了一種對話優(yōu)化的跨模態(tài)對齊框架,該框架通過兩個自適應(yīng)屬性挖掘模塊,分別從對話和圖像中提取行人關(guān)鍵屬性,從而實現(xiàn)細(xì)粒度的跨模態(tài)對齊。同時,我們還設(shè)計了一種針對對話的數(shù)據(jù)增強(qiáng)策略——隨機(jī)輪次保留,以增強(qiáng)模型在不同對話長度下的泛化能力。

對話式行人檢索概述:對話構(gòu)建(Dialogue Building)通過對話歷史生成后續(xù)問題,提示用戶逐步提供更多關(guān)于目標(biāo)行人的信息,最終形成關(guān)于目標(biāo)行人的對話查詢(Dialogue Query)。對話優(yōu)化的跨模態(tài)對齊框架(DiaNA)旨在減少對話與圖像之間的模態(tài)差異,并利用可學(xué)習(xí)的屬性查詢提取關(guān)鍵信息,從而實現(xiàn)細(xì)粒度的跨模態(tài)對齊。


35.合成數(shù)據(jù)是持續(xù)視覺語言模型的一份優(yōu)雅禮物

Synthetic Data is an Elegant GIFT for Continual Vision-Language Models

論文作者:吳彬,施武軒,王金橋,葉茫

預(yù)訓(xùn)練視覺語言模型(VLM)需要通過持續(xù)學(xué)習(xí)來更新知識并適應(yīng)多種下游任務(wù)。然而,在持續(xù)微調(diào)的過程中,VLM不僅容易遺忘歷史下游任務(wù),還可能遺忘預(yù)訓(xùn)練習(xí)得的通用知識,導(dǎo)致泛化能力退化。傳統(tǒng)方法依賴重放部分歷史數(shù)據(jù)來緩解遺忘,不適用于預(yù)訓(xùn)練數(shù)據(jù)通常無法獲取的VLM。本文提出合成數(shù)據(jù)輔助的持續(xù)微調(diào)(GIFT),利用擴(kuò)散模型重現(xiàn)VLM的預(yù)訓(xùn)練和下游任務(wù)數(shù)據(jù)。我們設(shè)計了對比蒸餾損失和圖文對齊約束,通過匹配合成圖像和對應(yīng)的文本提示,引導(dǎo)VLM在知識蒸餾中回顧習(xí)得的知識。此外,為了降低合成數(shù)據(jù)量有限帶來的過擬合風(fēng)險并提升蒸餾效果,我們引入了自適應(yīng)權(quán)重鞏固,基于合成圖像-文本對中的Fisher信息實現(xiàn)更好的穩(wěn)定性-可塑性平衡。實驗結(jié)果表明,當(dāng)提示詞分別由語義多樣的外部視覺概念和下游任務(wù)類別名構(gòu)建時,擴(kuò)散模型生成的圖像能夠有效近似VLM的預(yù)訓(xùn)練和下游任務(wù)數(shù)據(jù),從而有助于維持VLM在持續(xù)微調(diào)中的泛化能力并減輕災(zāi)難性遺忘。

GIFT框架圖。子圖(a)為基于合成數(shù)據(jù)的蒸餾,通過對比蒸餾損失對齊當(dāng)前模型和歷史模型在匹配合成圖像-文本對時的輸出,通過圖文對齊約束修正教師模型可能存在的錯誤。子圖(b)為自適應(yīng)權(quán)重鞏固,使用合成圖像-文本對的Fisher信息加權(quán)L2約束,懲罰導(dǎo)致遺忘的參數(shù)更新。


36.運(yùn)動感知的高效視頻多模態(tài)語言模型

Efficient Motion-Aware Video MLLM

論文作者:趙子嘉,霍宇琦,岳同天,郭龍騰,盧浩宇,王炳寧,陳煒鵬,劉靜

大多數(shù)當(dāng)前的視頻多模態(tài)語言模型(MLLM)依賴于均勻幀采樣和圖像級編碼器,這導(dǎo)致了數(shù)據(jù)處理效率低下和有限的運(yùn)動感知。為了解決這些問題,我們提出了EMA,一種高效的運(yùn)動感知視頻多模態(tài)語言模型,利用壓縮視頻結(jié)構(gòu)作為輸入。我們提出了一種運(yùn)動感知GOP(圖像組)編碼器,它在壓縮視頻流中的GOP單元內(nèi)融合空間和運(yùn)動信息,生成緊湊且富有語義的視覺標(biāo)記。通過在這種原生慢-快輸入架構(gòu)中,將較少但密集的RGB幀與更多但稀疏的運(yùn)動向量結(jié)合,我們的方法減少了冗余并增強(qiáng)了運(yùn)動表示。此外,我們還引入了MotionBench,一個評估四種運(yùn)動類型(線性、曲線、旋轉(zhuǎn)和基于接觸的)運(yùn)動理解的基準(zhǔn)。實驗結(jié)果表明,EMA在MotionBench和流行的視頻問答基準(zhǔn)上均達(dá)到了最先進(jìn)的性能,同時降低了推理成本。此外,EMA還表現(xiàn)出強(qiáng)大的可擴(kuò)展性,在長視頻理解基準(zhǔn)上也展現(xiàn)了具有競爭力的性能。

基于GOP編碼模式的高效理解架構(gòu)


37.面向異步視頻生成的自回歸擴(kuò)散生成方法

AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion

論文作者:孫銘真,王衛(wèi)寧,李根,劉佳偉,孫家輝,馮萬泉,勞珊珊,周思宇,何茜,劉靜

視頻生成的任務(wù)需要合成視覺上逼真且時間上連貫的視頻幀。現(xiàn)有的方法主要使用異步自回歸模型或同步擴(kuò)散模型來解決這一挑戰(zhàn)。然而,異步自回歸模型通常存在誤差累積等問題,而同步擴(kuò)散模型則受限于其對固定序列長度的依賴。為了解決這些問題,我們提出了一種新穎的模型——自回歸擴(kuò)散模型(Auto-Regressive Diffusion, AR-Diffusion),它結(jié)合了自回歸模型和擴(kuò)散模型的優(yōu)勢,實現(xiàn)了靈活、異步的視頻生成。具體來說,我們的方法利用擴(kuò)散過程在訓(xùn)練和推理階段逐漸破壞視頻幀,從而減少這兩個階段之間的差異。受自回歸生成的啟發(fā),我們在單個幀的破壞時間步上引入了非遞減約束,確保較早的幀比后續(xù)的幀保持更清晰的狀態(tài)。此外,我們設(shè)計了兩種專門的時間步調(diào)度器:FoPP調(diào)度器用于在訓(xùn)練期間平衡時間步采樣,AD調(diào)度器用于在推理期間實現(xiàn)靈活的時間步差異,支持同步和異步生成。大量實驗證明了我們提出的方法的優(yōu)越性,該方法在四個具有挑戰(zhàn)性的基準(zhǔn)測試中取得了具有競爭力且領(lǐng)先的結(jié)果。

圖1.不同的生成模型表現(xiàn)的不同特性

圖2. AR-Diffusion的整體框架圖


來源:中國科學(xué)院自動化研究所


熱點新聞

推薦產(chǎn)品

x
  • 在線反饋
1.我有以下需求:



2.詳細(xì)的需求:
姓名:
單位:
電話:
郵件:
主站蜘蛛池模板: 国产免费福利视频 | 中文字幕亚洲无线码 | 欧美一区二区在线观看 | 国产午夜视频 | 日韩在线一区高清在线 | 欧美久在线观看在线观看 | 天天摸夜夜添久久精品麻豆 | 国产欧美性综合视频性刺激 | 五月婷婷六月丁香综合 | 乡村乱妇一级毛片 | 在线播放国产麻豆 | 免费观看女人高清视频 | 九九久久国产 | 欧美高清在线视频一区二区 | 视频自拍网 | 国产亚洲精品一区在线播 | 欧美一区二区三区不卡免费观看 | 精品视频一区二区三区在线观看 | 国产精品宾馆在线精品酒店 | 成人黄页网站免费观看大全 | 亚洲精品高清久久 | 国产精品亚洲片在线va | 福利视频在线观看视频 | 日本免费一区二区在线观看 | 午夜毛片视频高清不卡免费 | 亚洲精品视频在线免费 | 高清性色生活片欧美在线 | a级特黄毛片 | 国产精品久久久久久久久久久不卡 | 91丁香亚洲综合社区 | 国产在线高清一级毛片 | 国产精品观看在线亚洲人成网 | 在线观看的黄色网址 | www色婷婷 | 国产成人免费片在线视频观看 | 国产在线精品一区二区中文 | 成人毛片在线 | 成人免费va视频 | 精品一区二区日本高清 | 国产专区视频在线观看 | 国产精品亚洲色图 |