來源:新智元
2020年,想必各國的人民都被新冠病毒支配得瑟瑟發抖...
不過,這并不影響科研工作者的工作態度和產出質量。
疫情之下,通過各種方式,全球的研究者繼續積極合作,發表了許許多多有影響力的成果——特別是在人工智能領域。
同時,AI偏見和AI倫理也開始逐漸引起大家的普遍重視。
在今年新的研究成果中,那些匯集著科研工作者心血的精華部分,勢必會對未來幾年人工智能的發展,有著不小的影響。
這篇文章就為您介紹了從2020年初到現在為止,在AI和數據科學領域,最有趣,最具突破性的論文成果:
(小編給大家放上了每篇論文的Github代碼地址,對任意研究成果感興趣的小伙伴都可以前往一探究竟哦)
1、YOLOv4:目標檢測的最佳速度和精度
論文原文:
A. Bochkovskiy, C.-Y. Wang, and H.-Y. M. Liao, Yolov4: Optimal speed and accuracy of object detection, 2020. arXiv:2004.10934 [cs.CV].
2020年4月,Alexey Bochkovsky等人在論文“YOLOv4:目標檢測的最優速度和精度”中正式引入了Yolo4。論文中算法的主要目標,是制作一個具有高質量、高精度的超高速目標探測器。
代碼地址:
https://github.com/AlexeyAB/darknet
2、DeepFace rawing:依據草圖的人臉圖像深度生成
論文原文:
S.-Y. Chen, W. Su, L. Gao, S. Xia, and H. Fu, “DeepFaceDrawing: Deep generation of face images from sketches,” ACM Transactions on Graphics (Proceedings of ACM SIGGRAPH2020), vol. 39, no. 4, 72:1–72:16, 2020.
根據這種新的圖像到圖像轉換技術,我們可以從粗糙的或甚至不完整的草圖出發,來生成高質量的面部圖像。不僅如此,我們甚至還可以調整眼睛、嘴巴和鼻子對最終圖像的影響。
代碼地址:
https://github.com/IGLICT/DeepFaceDrawing-Jittor
3、PULSE:通過生成模型的潛空間探索進行自我監督照片上采樣
論文原文:
S. Menon, A. Damian, S. Hu, N. Ravi, and C. Rudin, Pulse: Self-supervised photo upsampling via latent space exploration of generative models, 2020. arXiv:2003.03808 [cs.CV].
該算法可以將模糊的圖像轉換成高分辨率的圖像——它可以把一個超低分辨率的16x16圖像,轉換成1080p高清晰度的人臉。
代碼地址:
https://github.com/adamian98/pulse
4、編程語言的無監督翻譯
論文原文:
M.-A. Lachaux, B. Roziere, L. Chanussot, and G. Lample, Unsupervised translation of programming languages, 2020. arXiv:2006.03511 [cs.CL].
這種新模型,可以將代碼從一種編程語言轉換為另一種編程語言,而不需要任何監督。它可以接受Python函數并將其轉換為c++函數,反之亦然,而不需要任何先前的示例。它理解每種語言的語法,因此可以推廣到任何編程語言。
代碼地址:
https://github.com/facebookresearch/TransCoder?utm_source=catalyzex.com
5、PIFuHD:多層次像素對齊隱式功能,用于高分辨率的3D人體重建
論文原文:
S. Saito, T. Simon, J. Saragih, and H. Joo, Pifuhd: Multi-level pixel-aligned implicit function for high-resolution 3d human digitization, 2020. arXiv:2004.00452 [cs.CV].
這個技術,可以根據2D圖像來重建3D高分辨率的人。你只需要提供一個單一的形象,就可以產生一個3D化身,哪怕從背后,也看起來像你。
代碼地址:
https://github.com/facebookresearch/pifuhd
6、迪士尼的百萬像素級換臉技術
論文原文:
J. Naruniec, L. Helminger, C. Schroers, and R. Weber, “High-resolution neural face-swapping for visual effects,” Computer Graphics Forum, vol. 39, pp. 173–184, Jul. 2020.doi:10.1111/cgf.14062.
迪士尼在歐洲圖形學會透視研討會(EGSR)上發表研究,展示了首個百萬像素逼真換臉技術。他們提出了一種在圖像和視頻中實現全自動換臉的算法。據研究者稱,這是首個渲染百萬像素逼真結果的方法,且輸出結果具備時序一致性。
論文鏈接:
https://studios.disneyresearch.com/2020/06/29/high-resolution-neural-face-swapping-for-visual-effects/
7、互換自動編碼器的深度圖像處理
論文原文:
T. Park, J.-Y. Zhu, O. Wang, J. Lu, E. Shechtman, A. A. Efros, and R. Zhang,Swappingautoencoder for deep image manipulation, 2020. arXiv:2007.00653 [cs.CV].
這種新技術,通過完全的無監督訓練,可以改變任何圖片的紋理,同時還能保持真實性。結果看起來甚至比GAN還要好,并且速度要快得多。它甚至可以用來制作deepfakes。
代碼地址:
https://github.com/rosinality/swapping-autoencoder-pytorch?utm_source=catalyzex.com
8、GPT-3:實現小樣本學習的語言模型
論文原文:
T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P.Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S.Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei,“Language models are few-shot learners,” 2020. arXiv:2005.14165 [cs.CL].
目前最先進的NLP系統,都在努力推廣到不同的任務上去,而它們需要在數千個樣本的數據集上進行微調,相比而言,人類只需要看到幾個例子,就可以執行新的語言任務。這就是GPT-3背后的目標——改進語言模型的任務無關特性。
代碼地址:
https://github.com/openai/gpt-3
9、聯合時空變換的視頻繪制
論文原文:
Y. Zeng, J. Fu, and H. Chao, Learning joint spatial-temporal transformations for video in-painting, 2020. arXiv:2007.10247 [cs.CV].
這種AI技術,可以填補刪除移動物體后的缺失像素,并且可以重建整個視頻。這種方法,比之前的方法都要更準確,更清晰。
代碼地址:
https://github.com/researchmm/STTN?utm_source=catalyzex.com
10、像素級別的生成預處理
論文原文:
M. Chen, A. Radford, R. Child, J. Wu, H. Jun, D. Luan, and I. Sutskever, “Generative pretraining from pixels,” in Proceedings of the 37th International Conference on Machine Learning, H. D. III and A. Singh, Eds., ser. Proceedings of Machine Learning Research, vol. 119, Virtual: PMLR, 13–18 Jul 2020, pp. 1691–1703. [Online].
一個好的AI,比如在Gmail中使用的AI,可以生成連貫的文本并補全短語。類似的,使用相同的原則,這個模型可以補全一個圖像。此外,所有這些都是在無監督的訓練中完成的,根本不需要任何標簽!
代碼地址:
https://github.com/openai/image-gpt
11、使用白盒卡通表示,來學習卡通化的過程
論文原文:
Xinrui Wang and Jinze Yu, “Learning to Cartoonize Using White-box Cartoon Representations.”, IEEE Conference on Computer Vision and Pattern Recognition, June 2020.
只要輸入你想要的的卡通風格,這個AI技術可以將任何圖片或視頻卡通化。
代碼地址:
https://github.com/SystemErrorWang/White-box-Cartoonization
12、FreezeG凍結甄別器:一個簡單的基準來微調GAN
論文原文:
S. Mo, M. Cho, and J. Shin, Freeze the discriminator: A simple baseline for fine-tuning gans,2020. arXiv:2002.10964 [cs.CV].
這個人臉生成模型,能夠將正常的人臉照片轉換成獨特的風格,如Lee malnyeon,辛普森一家,藝術的風格,你甚至還可以試試狗! 這種新技術最好的地方,是它超級簡單,而且顯著優于以前使用GAN的技術。
代碼地址:
https://github.com/sangwoomo/freezeD?utm_source=catalyzex.com
13、從單一圖像對人的神經重新渲染
論文地址:
K. Sarkar, D. Mehta, W. Xu, V. Golyanik, and C. Theobalt, “Neural re-rendering of humans from a single image,” in European Conference on Computer Vision (ECCV), 2020.
該算法將人體的姿態和形狀表示為一個參數網格,可以由單個圖像重建,并易于恢復。根據其他輸入圖片,給定一個人的圖像,此技術能夠創建這個人具有不同姿勢,身穿不同衣服的合成圖像。
項目主頁:
http://gvv.mpi-inf.mpg.de/projects/NHRR/
14、I2L-MeshNet:實現從單個RGB圖像出發,來進行精確三維人體姿態和網格估計的mage-to-Lixel 預測網絡
論文原文:
G. Moon and K. M. Lee, “I2l-meshnet: Image-to-lixel prediction network for accurate 3d human pose and mesh estimation from a single rgb image,” in European Conference on ComputerVision (ECCV), 2020
該論文研究者提出了一種從單一RGB圖像,來進行三維人體姿態和網格估計的新技術,他們將其稱之為I2L-MeshNet。其中I2L表示圖像到lixel,類似于體素(體積+像素),研究者將lixel、一條線和像素定義為一維空間中的量化細胞。
I2L-MeshNet: Image-to-Lixel Prediction Network for Accurate 3D Human Pose and Mesh Estimation from a Single RGB Image [14]
代碼地址:
https://github.com/mks0601/I2L-MeshNet_RELEASE
15、超級導航圖:連續環境中的視覺語言導航
論文原文:
J. Krantz, E. Wijmans, A. Majumdar, D. Batra, and S. Lee, “Beyond the nav-graph: Vision-and-language navigation in continuous environments,” 2020. arXiv:2004.02857 [cs.CV].
語言導航是一個被廣泛研究且非常復雜的領域。事實上,對于一個人來說,穿過一間房子去取你放在床邊床頭柜上的咖啡似乎很簡單。但對于機器來說,情況就完全不同了。agent是一種自主的人工智能驅動系統,使用深度學習來執行任務。
代碼地址:
https://github.com/jacobkrantz/VLN-CE
16、RAFT:光流的循環全對場變換
論文原文:
Z. Teed and J. Deng, Raft: Recurrent all-pairs field transforms for optical flow, 2020. arXiv:2003.12039 [cs.CV].
此篇論文來自于普林斯頓大學的團隊,并獲得ECCV 2020最佳論文獎。研究者開發了一種新的端到端可訓練的光流模型。他們的方法超越了最先進的架構在多個數據集上的準確性,而且效率更高。
代碼地址:
https://github.com/princeton-vl/RAFT
17、眾包采樣全光功能
論文原文:
Z. Li, W. Xian, A. Davis, and N. Snavely, “Crowdsampling the plenoptic function,” inProc.European Conference on Computer Vision (ECCV), 2020.
利用游客在網上公開的照片,他們能夠重建一個場景的多個視點,并保留真實的陰影和光線。對于photorealistic場景渲染來說,這是一個巨大的進步,象征著最先進的技術。他們的結果是驚人的。
代碼地址:
https://github.com/zhengqili/Crowdsampling-the-Plenoptic-Function
18、通過深度潛在空間翻譯來恢復老照片
論文原文:
Z. Wan, B. Zhang, D. Chen, P. Zhang, D. Chen, J. Liao, and F. Wen, Old photo restoration via deep latent space translation, 2020. arXiv:2009.07047 [cs.CV].
想象一下,僅僅靠那些舊的、折疊的、甚至撕破的照片,你就不留任何人工痕跡地可以擁有祖母18歲時的高清照——這就是所謂的舊照片恢復。
代碼地址:
https://github.com/microsoft/Bringing-Old-Photos-Back-to-Life?utm_source=catalyzex.com
19、支持可審核自治的神經回路策略
論文原文:
Lechner, M., Hasani, R., Amini, A. et al. Neural circuit policies enabling auditable autonomy. Nat Mach Intell2, 642–652 (2020).
奧地利理工學院(IST Austria)和麻省理工學院(MIT)的研究人員利用一種新的人工智能系統,是基于蠕蟲等微小動物的大腦,他們成功訓練了一輛自動駕駛汽車。與Inceptions、Resnets或VGG等流行的深度神經網絡所需的數百萬神經元相比,他們只需要少數神經元,就能控制自動駕駛汽車。
論文地址:
https://doi.org/10.1038/s42256-020-00237-3
20、了解不同歲數的你
論文原文:
R. Or-El, S. Sengupta, O. Fried, E. Shechtman, and I. Kemelmacher-Shlizerman, “Lifespanage transformation synthesis,” in Proceedings of the European Conference on Computer Vision(ECCV), 2020.
想看看你40歲的時候長什么樣?現在可以了!Adobe研究院的一組研究人員開發了一種新技術,僅根據一張真人照片,就可以合成此人在任何年齡的照片。
代碼地址:
https://github.com/royorel/Lifespan_Age_Transformation_Synthesis
21、DeOldify:為黑白圖像著色
DeOldify是一種對舊的黑白圖像或甚至電影膠片進行著色和恢復的技術。它由Jason Antic開發,目前仍在更新中。這是現在給黑白圖像著色的最先進的方法,所有的東西都是開源的。
代碼地址:
https://github.com/jantic/DeOldify
22、COOT:視頻文本表示學習的協作層次變換
論文原文:
S. Ging, M. Zolfaghari, H. Pirsiavash, and T. Brox, “Coot: Cooperative hierarchical trans-former for video-text representation learning,” in Conference on Neural Information ProcessingSystems, 2020.
顧名思義,通過輸入視頻和視頻的一般描述,此技術能使用轉換器,為視頻的每個序列生成準確的文本描述。
代碼地址:
https://github.com/gingsi/coot-videotext
22、像一個真正的畫家一樣變換圖片風格
論文原文:
Z. Zou, T. Shi, S. Qiu, Y. Yuan, and Z. Shi, Stylized neural painting, 2020. arXiv:2011.08114[cs.CV]
這種從圖像到繪畫的轉換模型,使用了一種不涉及任何GAN架構的新穎方法,在多種風格上模擬一個真正的畫家。
代碼地址:
https://github.com/jiupinjia/stylized-neural-painting
23、實時人像摳圖真的需要綠色屏幕嗎?
論文原文:
Z. Ke, K. Li, Y. Zhou, Q. Wu, X. Mao, Q. Yan, and R. W. Lau, “Is a green screen really necessary for real-time portrait matting?” ArXiv, vol. abs/2011.11961, 2020.
人體摳圖是一項非常有趣的任務,它的目標是找到照片中的任何一個人,并將背景從照片中移除。由于任務的復雜性,要找到擁有完美輪廓的人是非常困難的。在這篇文章中,研究者回顧了這些年來使用的最佳技術和發表于2020年11月29日的一種新方法。
項目地址:
https://github.com/ZHKKKe/MODNet
24、ADA: 使用有限數據訓練生成對抗網絡
(聲明:本文僅代表作者觀點,不代表新浪網立場。)