來源微信公眾號:曠視MEGVII
當?shù)貢r間6月16日,全球計算機視覺頂會 CVPR 2019 在美國長灘拉開帷幕,超過9200位相關人士共赴盛會,推進計算機視覺技術的交流與落地。曠視通過 Oral、Poster、Workshop、Demo、Booth 等形式,同世界分享在計算機視覺理論與應用領域的最新進展。值得一提的是,在 CVPR 2019 的3項挑戰(zhàn)賽中,曠視最終擊敗 Facebook、通用動力、戴姆勒等國內(nèi)外一線科技巨頭/知名高校,共計斬獲6項世界冠軍!
持續(xù)創(chuàng)新
Brain++拓展AI認知邊界
做人工智能不能閉門造車。作為以算法為基因的公司,曠視自誕生之日起便一直積極參與計算機視覺在全球范圍內(nèi)的學術交流,一方面是為了與世界分享自己的研究成果,另一方面也是為了吸取全球的智慧,研發(fā)最好的技術來助力世界發(fā)展,創(chuàng)造社會價值。
此行,曠視共參加 CVPR 2019 WAD(Workshop on Autonomous Driving
)、CVPR 2019 FGVC(Workshop on Fine-Grained Visual Categorization
)、CVPR 2019 NTIRE(New Trends in Image Restoration and Enhancement workshop)3項挑戰(zhàn)賽,拿下6項冠軍,涵蓋自動駕駛、新零售、智能手機、3D 等眾多領域,其背后起支撐作用的是曠視深度學習框架 Brain++。這是一套由曠視研究院自主原創(chuàng)的算法引擎,致力于從云、端、芯三個方面全面賦能物理世界,以實現(xiàn)對世界的感知、控制、優(yōu)化。Brain++ 不僅助力曠視拿下世界冠軍,還將推動智能汽車、商品識別、手機影像處理、智慧農(nóng)業(yè)等應用領域的進步發(fā)展。
曠視斬獲 CVPR 2019 挑戰(zhàn)賽6項世界冠軍
大會現(xiàn)場,挑戰(zhàn)賽主辦方宣布比賽成績,并向冠軍隊伍頒發(fā)獲獎證書;隨后,曠視相關的參賽人員通過一張張 Slides、一場場 Talks、一張張 Posters 向與會人員分享了奪冠背后的技術方法,以及冠軍之路上滿滿的收獲。
今年是曠視自成立以來連續(xù)第5年參加 CVPR,在談到參加這種頂級學術會議對公司戰(zhàn)略意義的時候,曠視首席科學家、曠視研究院院長孫劍表示:
“一流的人才往往希望在一個開放的環(huán)境中成長。發(fā)表論文、參加學術會議,其實是有人對你的工作鼓掌,激勵你繼續(xù)前行。
曠視研究院最寶貴的財產(chǎn)是人才。如何吸引、培養(yǎng)、保留人才是一個組織健康和高速發(fā)展最關鍵的。
我的工作第一優(yōu)先級是打造一個好的研發(fā)環(huán)境,讓公司贏,讓我們贏,讓每個人贏。因為我始終相信兩點:中國不缺乏聰明人,中國有世界上最好的發(fā)展機會。我們就是要把一幫聰明人聚起來,齊心協(xié)力,貫徹‘發(fā)展就是硬道理’。”
冠軍之路,滿是收獲
CVPR 2019 WAD nuScenes 3D Detection Challenge
CVPR 2019 WAD 是自動駕駛領域的權威比賽,其中 nuScenes 比賽方向是 3D detection,旨在通過模型分析 3D 激光雷達/相機數(shù)據(jù),賦予自動駕駛汽車偵測物體的能力,保障行駛安全。
nuScenes 不僅需要同時識別10類物體(相比 KITTI 只需預測單個類別),還加入了速度和屬性的預測,而且需要解決嚴重的類別不均衡問題,因此任務難度大幅提高,因而也更具有實際意義。
比賽中,曠視設計了一個多尺度、多任務的模型,借助新型檢測網(wǎng)絡,結合均衡采樣等策略,極大提高了模型的檢測精度,尤其是在小物體上。由最終結果可知,相較于官方 Baseline 45.3%, 曠視的模型高出18個點,達到63.3%,比第二名也高出8.8個點, 擊敗一系列頂尖團隊,一舉奪魁。
CVPR 2019 WAD Detection/Tracking Domain Adaptation Challenge
Detection Domain Adaptation Challenge 是 CVPR 2019 WAD 的另一項挑戰(zhàn)賽,旨在對自動駕駛場景下的環(huán)境(二維圖像信息)進行感知,今年的比賽主要解決領域自適應問題,即美國道路場景和中國道路場景的相互適應。
具體而言,即利用7萬張美國道路場景數(shù)據(jù)進行訓練,對近15萬張中國道路場景進行測試,不允許使用任何標注測試數(shù)據(jù),只允許使用 ImageNet 進行預訓練。圖像本身的不一致之外,不同天氣、不同道路以及復雜的交通狀況都給任務增加了額外挑戰(zhàn),同時也為實際使用提供了可能性。
曠視基于自身積累的檢測算法之外,加之復現(xiàn)/使用的最前沿的檢測算法(比如 NAS-FPN、Cascade RCNN),進而對 Cascade RCNN 做出一系列改進,使得網(wǎng)絡在不同 IOU 閾值下的檢測結果都有一定漲幅;同時,為了解決兩個數(shù)據(jù)集之間數(shù)據(jù)分布不一致的問題,曠視還利用合并訓練、AdaBN、Data Distillation 等技術手段,最終在測試集上高出第二名深蘭科技1.7個點,同時在所有單類別上取得最高結果。
另外,在 Tracking Domain Adaptation Challenge 上,曠視使用 Online 方法進行多目標跟蹤,即在高精度檢測結果的基礎上,使用 IOU Tracker 進行跟蹤;跟蹤過程中,改進和調(diào)試影響結果的多種因素,最終也在 Tracking 任務上取得第一。
CVPR 2019 FGVC iNaturalist\Herbarium Challenge
CVPR 2019 FGVC 是細粒度識別領域最權威的賽事,iNaturalist Challenge 是此項領域的旗艦比賽,旨在讓計算機自動識別物體的精細類別,它不僅要求識別1000多個品種的動、植物,還要識別其在不同發(fā)育期的狀態(tài);Herbarium Challenge 則要解決開花植物野牡丹科的物種分類問題,所采用的圖像集僅包括保存于臘葉標本上的干標本圖像。
除了大模型/大分辨率圖圖像進行訓練、測試等常規(guī)操作外,曠視還集成最前沿細粒度技術成果(比如 Coarse-to-fine hierarchical classification、iSQRT、Class-Balanced Focal Loss 等),同時創(chuàng)造性提出“后驗概率重校準”技術,即通過先驗知識對模型輸出的后驗概率進行校準,極大提高擁有較少訓練圖像的長尾類別的識別準確率,兩項比賽結果均高出第2名近1個點,一舉奪魁。
在業(yè)務方面,商品識別、菜品識別、缺陷檢測、生產(chǎn)線零件識別、車型/車輛識別等均是細粒度圖像分析技術的應用,目前已應用于產(chǎn)品研發(fā)中。
在 iNaturalist 上,曠視擊敗了通用動力等頂尖團隊;在 Herbarium 上,曠視擊敗了大連理工(上年冠軍)、瑞典自然歷史博物館、Facebook。
CVPR 2019 NTIRE Real Image Denosing Challenge
CVPR 2019 NTIRE Real Image Denosing Challenge 基于新近的智能手機圖像降噪數(shù)據(jù)集 SIDD,它由很多真實的噪聲圖像及其相應的 ground truth 組成,且每幅圖像都有以原始傳感器數(shù)據(jù)(raw)和標準 RBG(sRGB)格式存儲的兩個版本。
圖像降噪一直是曠視研究院“手機攝影超畫質”的技術儲備項目,自第一版原型誕生以后不斷迭代;其中,針對原始傳感器數(shù)據(jù)(raw)的圖像降噪更是整個項目的基礎技術。
這次比賽中,曠視研究院提出針對 raw 圖像的基于 U-Net 框架的“拜爾陣列歸一化與保列增廣”方法。盡管不同輸入圖像間的數(shù)據(jù)格式存在差異,但是,為保持網(wǎng)絡輸入一致性,曠視精心設計了一種數(shù)據(jù)預處理方法,使得相同的網(wǎng)絡工作應用到具有不同拜耳模式的輸入上,從而在保證性能的前提下用更大的圖像集合訓練網(wǎng)絡。
本次冠軍算法已成功落地于 OPPO Reno 10 倍變焦版。OPPO Reno 10 倍變焦版搭載了基于曠視超畫質技術研發(fā)的“超清夜景2.0”功能,能夠為用戶提供非同凡響的夜拍體驗。這也是曠視超畫質技術首次運用在大規(guī)模量產(chǎn)機型上。
價值創(chuàng)造驅動技術創(chuàng)新
做真正WORK的科研
人工智能自誕生之日起便已宣稱了其改變世界的雄心。當圖靈于1950年在論文《Computing Machinery and Intelligence》尾頁畫上句號的剎那,一個前所未有的屬于人類的智能時代就此拉開序幕。
從 Marvin Minsky 于1966年對機器人模仿人類抓取物品的研究,到神經(jīng)心理學家 David Marr 于80年代初創(chuàng)建的關于計算機視覺研究的理論框架;從手工特征設計到受生物視覺神經(jīng)網(wǎng)絡為啟發(fā)而誕生的卷積網(wǎng)絡(CNN),人類將機器智能從小說幻想帶進了現(xiàn)實,為世界裝上了明眸。
人工智能,其本質是造福人類,便利生活,所以能否為世界帶來足夠的價值是曠視關注的核心。通過深挖社會痛點,找出致病原因,曠視一直在尋找著讓世界更美好的方法。
曠視成立早期便上線了自主原創(chuàng)的深度學習框架——Brain++。作為企業(yè)級的人工智能算法制造工廠,Brain++ 從底層有力支撐著曠視研究院整體的研究生產(chǎn)工作與曠視核心產(chǎn)品的工程化建設。這次6冠的勝利,即是上述算法和底層系統(tǒng)優(yōu)越性的再次證明。
憑借強大的軟硬件結合能力,曠視目前已在‘個人設備大腦’、‘城市大腦’和‘供應鏈大腦’三個核心 AIoT 場景深度布局。在與行業(yè)龍頭力量的聯(lián)合下,曠視正在推進尖端技術方案的強垂直落地,為整個產(chǎn)業(yè)結構調(diào)整及商業(yè)變革激活引擎,積聚力量;與生態(tài)伙伴一起服務于數(shù)字化建設,用軟硬結合的解決方案為客戶提供閉環(huán)的商業(yè)價值,成為行業(yè)智能物聯(lián)方案專家。
免責聲明:自媒體綜合提供的內(nèi)容均源自自媒體,版權歸原作者所有,轉載請聯(lián)系原作者并獲許可。文章觀點僅代表作者本人,不代表新浪立場。若內(nèi)容涉及投資建議,僅供參考勿作為投資依據(jù)。投資有風險,入市需謹慎。
責任編輯:馬婕
熱門推薦
收起24小時滾動播報最新的財經(jīng)資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)