來源:新智元
論文:https://arxiv.org/abs/2012.06567
模型庫介紹鏈接:
https://cv.gluon.ai/model_zoo/action_recognition.html
視頻行為識別是視頻理解的代表性任務之一。在過去的十年中,由于深度學習的出現,我們見證了視頻行為識別的巨大進步。但是我們也遇到了新的挑戰,包括對視頻中的遠程時間信息進行建模,高昂的計算成本以及由于數據集和評估協議差異而產生的無與倫比的結果。
在本文中,我們對200多篇有關深度學習的視頻行為識別現有論文進行了全面調查。
數據集
我們首先介紹影響模型設計的17個視頻動作識別數據集,比如Kinetics700、AVA等等。如下圖所示:
視頻動作識別模型
然后,我們按時間順序介紹了視頻動作識別模型:
從適應深度學習的早期嘗試開始,然后到雙流網絡,接著是3D卷積內核的采用,最后是最近的計算效率高的模型。
此外,我們在幾種代表性數據集上對流行方法進行了基準測試,并發布了可復現的代碼:Action Recognition。
最后,我們討論了未解決的問題,并闡明了視頻動作識別的機會,以促進新的研究思路。
論文PDF:
鏈接:https://pan.baidu.com/s/1q2Niy9jYacK9mwrHftNx5Q
提取碼:cver
(聲明:本文僅代表作者觀點,不代表新浪網立場。)