科技首頁創事記互聯網電信 IT業界投稿

25分鐘訓練機器人學會6個動作，伯克利開發高效機器人操縱框架

2021-01-03 12:29:07 創事記作者：量子位

　　歡迎關注“創事記”的微信訂閱號：sinachuangshiji　

　　文/蕾師師

　　來源：量子位（ID:QbitAI）

　　這個機械臂正在完成夠、拿、移、推、點、開等6個動作。

　　而且動作嫻熟，還不存在失誤。

　　更令人意外的是，訓練這個機械臂，只花了短短25分鐘。

　　即使有人為干擾，它也能夠成功完成抓取動作。

　　還能抓起以前沒有見過的物體形狀。

　　這就是來自加州大學伯克利分校的一項新研究——高效機器操作框架Framework for Efficient Robotic Manipulation（FERM），專門對機械臂進行高效率操作的算法訓練。

　　FERM為什么比其他方法效率高?

　　目前來看，大多數針對機器人訓練的的RL算法效率都不是很好。

　　采用稀疏獎勵的方法訓練Dota5游戲的人機操作，使之成為達到人類玩家的高手水平，需要花180年的游戲時間。

　　訓練一個機械臂的手勢，則需要上千萬的模擬學習的樣本和兩周的訓練時間。

　　Sim2Real和模擬學習這兩個方法稍微好點。Sim2Real需要接受模擬訓練，再將訓練結果運用到現實事例中。

　　模擬學習則需要通過一系列的專業訓練示范案例和監督學習，才能得出最后的訓練策略，實驗結果非常依賴于輸入示范案例的質量。

　　FERM優勢在于，既沒有依靠模擬訓練轉換到現實，也不用高度依賴于輸入的示范案例的質量。

　　而是基于非監督性表征學習和數據擴張技術，使用了pixel-based RL。

　　因此，它僅僅需要10個Demo，25分鐘的訓練時間，就可以讓機器人學會六個動作。

　　FERM具體怎么訓練？

　　FERM采用了基于像素的強化學習（pixel-based RL）方法。

　　具體而言，先收集小部分演示數據，并且將這些數據存放在“回放緩沖區”上。

　　然后，用觀察結果結合對比損失量，來對編碼器進行預訓練。

　　而后，編碼器和“回放緩沖區”運用一種線下的數據來加強RL算法，對RL智能體進行訓練。

　　在論文中，研究人員總結了FERM主要優點：

　　1、高效率：FERM可以學習6種不同操作任務的最優策略，在15-50分鐘的訓練時間內完成每項任務。

　　2、簡單統一的框架：框架結合現有的組成部分，將無監督的預訓練和在線RL與數據擴充成一個單一高效的框架。

　　3、常規輕量設置：實施起來只需要一個機器人、一個GPU、兩個攝像頭、幾個演示，以及稀疏獎勵函數等等。

　　具體的實驗結果如何？

　　實驗結果

　　這項實驗采用像素觀察的方法執行了一系列任務。下圖的每一欄顯示了初始、中間、結果等三個狀態。只有當機器人完成任務時，才會獲得稀疏獎勵。

　　這個訓練算法的效率可謂很高了。具體完成時間如下圖表格所示，在30分鐘左右，它就可以讓機器人學習操作任務。而簡單的“夠”（Reach）動作，則只需要三分鐘。

　　實驗結果稱，它不需要很多的Demo，也不需要到大量的設備，首次完成任務的平均時間為11分鐘，并且可以在25分鐘內訓練出6個機械動作。

　　所以研究人員驕傲地說：

　　“據我們所知，FERM是第一個能在不到一小時的時間內，能通過像素點直接完成來自不同組、采用稀疏獎勵方法的機器操作任務。”

　　而根據相關報告，未來十年，制造業將需要460萬個崗位。許多制造商也都在轉向自動化生產，機械自動化將占比越來越高。FERM這樣的高效訓練框架，可謂是制造業福音。

　　參考鏈接：

　　https://venturebeat.com/2020/12/16/new-framework-can-train-a-robotic-arm-on-6-grasping-tasks-in-less-than-an-hour/

　　論文地址：

　　https://arxiv.org/abs/2012.07975

　　源代碼：

　　https://github.com/PhilipZRH/ferm

（聲明：本文僅代表作者觀點，不代表新浪網立場。）

分享到:

保存 | 打印 | 關閉

作者簡介

量子位

關注前沿科技資訊，追蹤人工智能動態。

作者文章

人臉識別“抓”錯了人，他在監獄呆了10天

一個酒店偷竊案件，嫌疑人駕車逃逸。警察沒有驗指紋、沒測DNA，僅靠人臉識別系統，就鎖定了“罪犯”——Nijeer Parks（帕克斯）。

詳細>>

首页国产亚洲小说图片,337p人体粉嫩胞高清视频,久久精品国产72国产精,国产乱理伦片在线观看

25分鐘訓練機器人學會6個動作，伯克利開發高效機器人操縱框架

微博推薦

作者簡介

量子位

作者文章

人臉識別“抓”錯了人，他在監獄呆了10天

推薦閱讀

新聞熱榜

首页 国产 亚洲 小说图片,337p人体粉嫩胞高清视频,久久精品国产72国产精,国产乱理伦片在线观看

25分鐘訓練機器人學會6個動作，伯克利開發高效機器人操縱框架

微博推薦

作者簡介

量子位

作者文章

人臉識別“抓”錯了人，他在監獄呆了10天

推薦閱讀

新聞熱榜

首页国产亚洲小说图片,337p人体粉嫩胞高清视频,久久精品国产72国产精,国产乱理伦片在线观看