當(dāng)前位置:首頁 > 科技文檔 > 電信技術(shù) > 正文

基于擴(kuò)張卷積和Transformer的視聽融合語音分離方法

信號處理 頁數(shù): 10 2023-10-16
摘要: 為了提高語音分離的效果,除了利用混合的語音信號,還可以借助視覺信號作為輔助信息。這種融合了視覺與音頻信號的多模態(tài)建模方式,已被證實可以有效地提高語音分離的性能,為語音分離任務(wù)提供了新的可能性。為了更好地捕捉視覺與音頻特征中的長期依賴關(guān)系,并強(qiáng)化網(wǎng)絡(luò)對輸入上下文信息的理解,本文提出了一種基于一維擴(kuò)張卷積與Transformer的時域視聽融合語音分離模型。將基于頻域的傳統(tǒng)視聽融合語... (共10頁)

開通會員,享受整站包年服務(wù)立即開通 >
科技文檔