當前位置:首頁 > 科技文檔 > 軟件 > 正文

基于時空信息輔助監(jiān)督的語言-視頻對比學習模型

計算機學報 頁數(shù): 17 2024-08-15
摘要: 同時使用語言和圖像兩種模態(tài)信息的神經(jīng)網(wǎng)絡模型在計算機視覺領域取得了很大進展.一些將其用于視頻識別任務的工作,存在未考慮視頻中豐富的時間-空間信息、用于描述類別的文本過于簡單等不足.對此,本文提出了基于時空輔助信息監(jiān)督的語言-視頻對比學習模型.對于視頻編碼,提出了基于類別詞元的時序加權位移模塊進行時序建模,使得時序信息在網(wǎng)絡從底層到高層的各個層次傳播;而且還提出了時空信息輔助監(jiān)督... (共17頁)

開通會員,享受整站包年服務立即開通 >