當前位置:首頁 > 新聞中心 > 科研動態

科研動態

圖像與視頻分析組獲得2019 VideoNet視頻內容識別挑戰賽冠軍

  • 發表日期:2019-09-05 【 【打印】【關閉】
  •   2019828日,自動化所圖像與視頻分析團隊在中國多媒體大會(ChinaMM)的VideoNet視頻內容識別挑戰賽中獲得冠軍。獲獎團隊Zhu隊由朱貴波副研究員和王金橋研究員帶隊,成員來自中科院自動化所、北京工業大學和CEIECZhu隊同時受邀在中國多媒體大會ChinaMM2019的專題論壇上做特邀報告。 

      近年來,隨著深度學習技術的發展,涌現出大量針對物體、場景、人臉、動作等維度的識別技術,在各自的目標維度上取得了明顯的進步。但是目前各視頻識別算法基本都是針對單一維度來設計的,無法利用各維度之間存在的豐富的語義關聯建立模型,提高識別準確度。當前也缺乏一個包含多維度標注的大規模視頻數據集來為多維度視頻識別算法研究提供訓練測試數據支持。 

      VideoNet視頻內容識別挑戰賽」包含行為事件識別、物體檢測、開集場景識別三個子任務,比賽最終成績由三個子任務共同加權獲得。Zhu隊在視頻事件識別子任務上,采用了基于時序偏移模塊的卷積神經網絡架構,針對視頻數據量大、視頻長度長短不一(1s-1個半小時)、樣本標簽分布不均勻等問題,采用包括自適應關鍵幀提取、時空長時池化、知識遷移、多損失函數聯合優化等策略來學習魯棒視頻特征表達并進行多尺度推斷,實現更好的事件分類。在物體檢測識別子任務上,采用了基于耦合深度神經網絡的目標檢測框架,針對目標尺度變化大、形狀變化不規則、小目標等關鍵問題,采用了包括可形變卷積、層級精細定位、數據增強、多尺度訓練和測試、多維度貝葉斯概率關系圖推斷等優化策略實現更精準的物體定位。在開集場景分類子任務上,采用基于耦合注意機制和殘差連接的卷積神經網絡架構,針對未知類所導致的驗證集和測試集準確率相差巨大這一核心問題,探索視頻、場景、物體之間存在的內在關聯,基于視頻關鍵幀構建場景識別類外類作為背景樣本對網絡模型參數進行學習優化,在推斷過程中采用多尺度測試、多維度貝葉斯概率圖推斷等策略提升預測精度。在時間和設備有限的情況下,最終綜合結果相比于第二名高了1.3個百分點。 

      據悉,本次「VideoNet視頻內容識別挑戰賽」是由復旦大學、計算機學會CCF ChinaMM和極鏈科技聯合主辦,參賽隊伍超過360支,其中不乏來自中科院、北京大學、中國科學技術大學等頂尖高校以及來自阿里巴巴、華為、騰訊、京東、大華等眾多知名企業隊伍。亞軍和季軍分別由北京大學團隊和阿里巴巴團隊獲得。 

     

        

    山东体彩网