Andrew這次演講的主題是「Bridging AI's Proof-of-Concept to Production Gap」,即「將人工智能的概念驗證與生產差距連接起來」,提出了人工智能部署面臨的三個調整和解決的方案,并解答了一些問題。
人工智能部署面臨的三大挑戰
1.小數據(Small data:Moving beyond big data)
當今很多互聯網公司的人工智能算法研究通常使用的是「Big Data」,因為用戶產生了很多的數據可供模型訓練,而小數據在消費者互聯網之外的工業應用領域中卻很常見。
智能手機上的各種APP,因為「拿到」了數以億計的用戶數據,所以訓練出一個效果很好的神經網絡是非常簡單的。
但是如何使用小數據來讓很多其他行業也能得到效果不錯的模型,將是未來的AI發展面臨的一個挑戰。
例如在做X射線的時候,當樣本量達到11000時,AI算法的診斷結果和放射科專家的結果是沒有區別的,但在數據量很小的時候,放射科醫生的準確率就會遠大于模型的結果。
吳恩達指出,當數據分布大致呈現出均勻分布的時候,模型的效果通常是不錯的,但是當模型的分布非常不均勻的時候,機器學習算法的效果就會差強人意,這正是人工智能在醫療領域面臨的一個重大問題。
如上圖所示,「Hernia」是一種罕見的案例,統計數據量非常少,忽略不計對模型準確度的影響不大,但是在醫療領域,「Hernia」作為一種癥狀,是絕對不可以被忽略的。
就像他經常聽到很多的有趣對話一樣,通常算法工程師在炫耀說:「快看我的模型在測試集上得到了非常高的準確率」,而醫生則通常會說:「恭喜你的算法取得了很好的效果,并且能發論文了,但是你的系統不能用」。
而這種結果就導致了人工智能面臨的第二個挑戰。
2.算法的魯棒性和泛化性(Generalizability and robustness)
一個模型通常在已發表的論文中work,而在實際生產環境中通常不work。
而這種情況不僅僅只發生在醫療領域,在其他的領域中也非常常見。很多情況下,當你使用了一個完全不同的數據集,模型的泛化能力就會大大降低。
3.變革管理(Change management:manage the change the technology brings)
在自動化工作流中,一個部分使用的模型可能會潛在地影響整個系統和許多其他相關方。
吳恩達舉了一個姑息療法(Palliative care,也叫臨終關懷)的例子:在美國,很多醫生雖然非常的關注自己的病人,但是由于醫生人數的短缺,他們卻很少會去做Palliative care。
而通過人工智能設計的系統,醫生們可以了解到每一位病人的死亡率,可以更高效的輔助他們的工作。
同時,在醫療系統中,「可解釋AI」的作用非常重要,因為醫生是無法輕易信任一個黑盒算法給出的結果的。
最后,吳恩達還指出,機器學習的代碼(ML Code)只是解決問題的非常小的一部分,需要很多環節形成一個整體的閉環。
應對挑戰的解決方案
通常來講,一個AI項目的整體流程包括如下幾個階段:
完成一個項目需要系統地規劃機器學習項目的整個周期,從范圍到數據、建模和部署。
在部署階段,吳恩達指出了一種「Shadow deployment」的方法,就像在放射科使用AI系統一樣,算法本身不會做出任何的決策,只會用來輔助醫生得到診斷結果。
在模型構建和訓練的階段,Andrew提出了訓練數據的重要性,在訓練階段使用一些現成的數據集得出的模型并不一定在實際使用中有很好的泛化能力。
在數據方面,「不要等待找到完美的數據才開始行動」,這是Andrew接觸過的很多CEO經常會犯的錯誤。
吳恩達還指出,AI解決問題不可以憑空想象,一定要結合各個行業的實際痛點,解決對商業有價值的需求。
演講的最后,他還分享了一個麥肯錫的調研圖表:
結果顯示,AI所能做的領域遠不止消費電子行業,其他領域也有非常廣闊的市場空間。
完整版視頻地址放送如下:
https://crossminds.ai/video/5f9a11f026cd723d6a05efa4/?timecode=1134.021093202179&&utm_campaign=bc839cc127703d0c&utm_medium=share
(聲明:本文僅代表作者觀點,不代表新浪網立場。)