首页 国产 亚洲 小说图片,337p人体粉嫩胞高清视频,久久精品国产72国产精,国产乱理伦片在线观看

設為書簽 Ctrl+D將本頁面保存為書簽,全面了解最新資訊,方便快捷。 您也可下載桌面快捷方式。點擊下載 | 新浪科技 | 新浪首頁 | 新浪導航

吳恩達,45歲生日快樂!提出著名二八定律:80%數據+20%模型=更好的AI

2021-04-18 12:21:00    創事記 微博 作者:   

來源:新智元

今天是吳恩達(Andrew Ng)45歲生日,讓我們祝他生日快樂!

吳恩達發推稱,「大家為自己送上最好的禮物就是,觀看這個視頻觀看并提出自己的見解。讓大家的工作從以模型為中心向以數據為中心的AI轉變。」

在這個視頻中,吳恩達提出了著名二八定律:80%的數據+20%的模型=更好的AI

他是斯坦福大學計算機科學系和電子工程系副教授,還是在線教育平臺Coursera的聯合創始人。

是當今人工智能和機器學習領域國際最權威的學者之一,學生遍布世界各地。

謝謝他帶給我們的禮物,也感謝他為機器學習領域做出的貢獻!

二八定律:80%的數據+20%的模型=更好的機器學習

機器學習操作(MLOps)——從以模型為中心到以數據為中心的AI這一課程上線的第一天,就引來了全球近3萬人的觀看。

吳恩達開場的第一句話就深入人心:

AI = Data + Code

他表示,「如果我們80%的工作是數據準備,那么確保數據質量是機器學習團隊的重要工作。

機器學習的進步是模型帶來的還是數據帶來的,這可能是一個世紀辯題。

吳恩達對此的想法是,一個機器學習團隊80%的工作應該放在數據準備上,確保數據質量是最重要的工作,每個人都知道應該如此做,但沒人在乎。如果更多地強調以數據為中心而不是以模型為中心,那么機器學習的發展會更快。

機器學習的進步很大程度上歸功于團隊下載模型并試圖在標準基準數據集上做得更好。所以他們大部分的時間都花在了改進代碼,模型或算法上。

機器學習的進步一直是由提高基準數據集性能的努力所推動的。研究人員的常見做法是在嘗試改進代碼的同時保持數據固定。但是,當數據集大小適中(<10,000個示例)時,如果數據集良好,則ML(Machine Learning)的團隊將取得更快的進步

所以對于很多問題,我們應該做的不僅是改進代碼,而且應該將思維方式轉向如何創造出一種更系統的方式來改進數據,這才是很有用的。

吳恩達(Andrew Ng)認為如果更多地強調以數據為中心而不是以模型為中心,那么機器學習將快速發展。

傳統軟件是由代碼提供動力,而AI系統是同時使用代碼(模型+算法)和數據構建的。

當系統運行不正常時,許多團隊會本能地嘗試改進代碼。但是對于許多實際應用而言,集中精力改善數據會更有效。

吳恩達(Andrew Ng)提到每個人都應對ML做出80%的數據準備

小編快速瀏覽了一下arxiv,了解到ML研究的方向現在圍繞基準測試展開了前所未有的競爭,所以我們更應該充分做好數據準備,爭取在競爭中脫穎而出。

我們都知道Google具有BERT,則OpenAI具有GPT-3。但是,這些神奇的模型僅解決了業務問題的20%。

良好部署的不同之處就在于數據的質量。每個人都可以使用經過預先訓練的模型或許可的API。

根據劍橋研究人員所做的一項研究,最重要的但卻經常被忽略的問題就是數據分散。

當數據從不同的源流式傳輸時會出現問題,這些源可能具有不同的架構,不同的約定及其存儲和訪問數據的方式。

現在,這對于ML工程師來說是一個繁瑣的過程,因為需要他們將信息組合成適合機器學習的單個數據集,較大的數據量可能還會使標記變得困難。

MLOps是什么?

MLOps,即Machine Learning和Operations的組合,是ModelOps的子集。

它是數據科學家與操作專業人員之間進行協作和交流以幫助管理機器學習任務生命周期的一種實踐。

與DevOps或DataOps方法類似,MLOps希望提高自動化程度并提高生產ML的質量,同時還要關注業務和法規要求。

互聯網公司通常用有大量的數據,而如果在缺少數據的應用場景中進行部署AI時,例如農業場景,你不能指望自己有一百萬臺拖拉機為自己收集數據。

視頻地址:https://www.youtube.com/watch?v=06-AZXmwHjo

基于MLOps,吳恩達也提出幾點建議:

MLOps的最重要任務是提供高質量數據。

標簽的一致性也很重要。檢驗標簽是否有自己所管轄的明確界限,即使標簽的定義是好的,缺乏一致性也會導致模型效果不佳。

系統地改善baseline模型上的數據質量要比追求具有低質量數據的最新模型要好。

如果訓練期間出現錯誤,那么應當采取以數據為中心的方法。

如果以數據為中心,對于較小的數據集(<10,000個樣本),則數據容量上存在很大的改進空間。

當使用較小的數據集時,提高數據質量的工具和服務至關重要。

一致性的數據定義,涵蓋所有邊界情況,從生產數據中得到及時的反饋,數據集大小合適。

吳恩達同時建議不要指望工程師去嘗試改善數據集。相反,他希望ML社區開發更多MLOps工具,以幫助產生高質量的數據集和AI系統,并使他們具有可重復性。除此之外,MLOps是一個新生領域,MLOps團隊的最重要目標應該是確保整個項目各個階段的高質量和一致的數據流。

在線教育平臺Coursera上市,吳恩達身價超4億美元

值得關注的是,3月31日,在線教育平臺Coursera以超過40億美元的估值首次公開募股(IPO)。吳恩達身價超4億美元。

Coursera由斯坦福大學計算機科學系教授Daphne Koller和吳恩達于2012年創辦。

吳恩達的理想是讓世界上每個人能夠接受高質量的免費教育。

沒想到的是,吳恩達74歲的父親Ronald Paul Ng在過去八年的時間里一直在使用自己兒子創辦的在線學習平臺Coursera,他是兒子最有力的支持者!

吳老在Coursera上報名參加的第一門課程名為《模型思維》(Model Thinking),這是密歇根大學(University of Michigan)的一門基于邏輯的在線課程。他甚至還上過自己兒子的課程:吳恩達的深度學習AI課程。

吳老不僅是Coursera的第一批學生,他還立志要終身學習!

吳恩達曾經還有一次為自己的父親學完了Coursera上面的146門課發了推特表示慶祝。

所以吳恩達為什么會創辦在線教育平臺Coursera呢?

這是因為多年前,吳恩達收到一本父親在1980年寫的有關機器學習診斷肝臟疾病的論文副本,吳恩達備受鼓舞,他想進一步將機器學習與醫療等行業結合起來,因此創辦了Coursera。

Coursera旨在同世界頂尖大學合作,在線提供網絡公開課程。Coursera的首批合作院校包括斯坦福大學、密歇根大學、普林斯頓大學、賓夕法尼亞大學等美國名校,還有很多世界上非常有名大學與企業與Coursera紛紛合作。

Coursera作為MOOC(大型開放式網絡課程)中的領頭羊,在創立后三年就擁有了160多名員工,由原耶魯校長擔任CEO,Coursera的使命就是讓所有人最便捷的獲取世界最優質的教育機會,“Universal Access to the World's Best Education”。

小編也經常在Coursera上面看國外知名大學的網課,真的受益匪淺!看來Coursera成功上市也是志在必得!

現在Coursera的股票差不多45美金/股,你們會買嗎?

參考資料:

https://www.163.com/dy/article/FP2LTNA90511831M.html

https://twitter.com/AndrewYNg/status/1383461008920891397

https://analyticsindiamag.com/big-data-to-good-data-andrew-ng-urges-ml-community-to-be-more-data-centric-and-less-model-centric/

(聲明:本文僅代表作者觀點,不代表新浪網立場。)

分享到:
保存   |   打印   |   關閉