首页 国产 亚洲 小说图片,337p人体粉嫩胞高清视频,久久精品国产72国产精,国产乱理伦片在线观看

設(shè)為書簽 Ctrl+D將本頁面保存為書簽,全面了解最新資訊,方便快捷。 您也可下載桌面快捷方式。點(diǎn)擊下載 | 新浪科技 | 新浪首頁 | 新浪導(dǎo)航

史上AI最高分!谷歌大模型創(chuàng)美國醫(yī)師執(zhí)照試題新紀(jì)錄,科學(xué)常識水平媲美人類醫(yī)生

2022-12-28 13:51:51    創(chuàng)事記 微博 作者: 量子位   

  楊凈 羿閣 發(fā)自 凹非寺

  量子位 | 公眾號 QbitAI

  史上AI最高分,谷歌新模型剛剛通過美國醫(yī)師執(zhí)照試題驗(yàn)證!

  而且在科學(xué)常識、理解、檢索和推理能力等任務(wù)中,直接與人類醫(yī)生水平相匹敵。在一些臨床問答表現(xiàn)中,最高超原SOTA模型17%以上。

  此進(jìn)展一出,瞬間引爆學(xué)界熱議,不少業(yè)內(nèi)人士感嘆:終于,它來了。

  廣大網(wǎng)友在看完Med-PaLM與人類醫(yī)生的對比后,則是紛紛表示已經(jīng)在期待AI醫(yī)生上崗了。

  還有人調(diào)侃這個(gè)時(shí)間點(diǎn)的精準(zhǔn),恰逢大家都以為谷歌會因ChatGPT而“死”之際。

  來看看這到底是一個(gè)什么樣的研究?

  史上AI最高分

  由于醫(yī)療的專業(yè)性,今天的AI模型在該領(lǐng)域的應(yīng)用很大程度上沒有充分運(yùn)用語言。這些模型雖然有用,但存在聚焦單任務(wù)系統(tǒng)(如分類、回歸、分割等)、缺乏表現(xiàn)力和互動能力等問題。

  大模型的突破給AI+醫(yī)療帶來了新的可能性,但由于該領(lǐng)域的特殊性,仍需考慮潛在的危害,比如提供虛假醫(yī)療信息。

  基于這樣的背景,谷歌研究院和DeepMind團(tuán)隊(duì)以醫(yī)療問答為研究對象,做出了以下貢獻(xiàn):

  • 提出了一個(gè)醫(yī)學(xué)問答基準(zhǔn)MultiMedQA,包括醫(yī)學(xué)考試、醫(yī)學(xué)研究和消費(fèi)者醫(yī)學(xué)問題;

  • 在MultiMedQA上評估了PaLM及微調(diào)變體Flan-PaLM;

  • 提出了指令提示x調(diào)整,讓Flan-PaLM進(jìn)一步與醫(yī)學(xué)接軌,產(chǎn)生了Med-PaLM。

  他們認(rèn)為‘醫(yī)療問題的回答’這項(xiàng)任務(wù)很有挑戰(zhàn)性,因?yàn)橐峁└哔|(zhì)量的答案,AI需要理解醫(yī)學(xué)背景、回憶適當(dāng)?shù)尼t(yī)學(xué)知識,并對專家信息進(jìn)行推理。

  現(xiàn)有的評價(jià)基準(zhǔn)往往局限于評估分類準(zhǔn)確度或自然語言生成指標(biāo),而不能對實(shí)際臨床應(yīng)用中詳細(xì)分析。

  首先,團(tuán)隊(duì)提出了一個(gè)由7個(gè)醫(yī)學(xué)問題問答數(shù)據(jù)集組成的基準(zhǔn)。

  包括6個(gè)現(xiàn)有數(shù)據(jù)集,其中還包括MedQA(USMLE,美國醫(yī)師執(zhí)照考試題),還引入了他們自己的新數(shù)據(jù)集HealthSearchQA,它由搜索過的健康問題組成。

  這當(dāng)中有關(guān)于醫(yī)學(xué)考試、醫(yī)學(xué)研究以及消費(fèi)者醫(yī)學(xué)問題等。

  接著,團(tuán)隊(duì)用MultiMedQA評估了PaLM(5400億參數(shù))、以及指令微調(diào)后的變體Flan-PaLM。比如通過擴(kuò)大任務(wù)數(shù)、模型大小和使用思維鏈數(shù)據(jù)的策略。

  FLAN是谷歌研究院去年提出的一種微調(diào)語言網(wǎng)絡(luò),對模型進(jìn)行微調(diào)使其更適用于通用NLP任務(wù),使用指令調(diào)整來訓(xùn)練模型。

  結(jié)果發(fā)現(xiàn),F(xiàn)lan-PaLM在幾個(gè)基準(zhǔn)上達(dá)到了最優(yōu)性能,比如MedQA、MedMCQA、PubMedQA和MMLU。尤其是MedQA(USMLE)數(shù)據(jù)集,表現(xiàn)超過了此前SOTA模型17%以上。

  本項(xiàng)研究中,共考慮了三種不同規(guī)模的PaLM和Flan-PaLM模型變體:80億參數(shù)、620億參數(shù)以及5400億參數(shù)。

  不過Flan-PaLM仍存在一定的局限性,在處理消費(fèi)者醫(yī)學(xué)問題上表現(xiàn)效果不佳。

  為了解決這一問題,讓Flan-PaLM更適應(yīng)醫(yī)學(xué)領(lǐng)域,他們進(jìn)行了指令提示調(diào)整,由此產(chǎn)生Med-PaLM模型。

  △示例:新生兒黃疸需要多長時(shí)間才能消失?

  團(tuán)隊(duì)首先從MultiMedQA自由回答數(shù)據(jù)集(HealthSearchQA、MedicationQA、LiveQA)中隨機(jī)抽取了一些例子。

  然后讓臨床醫(yī)生5人組提供示范性答案。這些臨床醫(yī)生分布于美國和英國,在初級保健、外科、內(nèi)科和兒科方面具有專業(yè)經(jīng)驗(yàn)。最終在HealthSearchQA、MedicationQA和LiveQA中留下了40個(gè)例子,用于指令提示調(diào)諧訓(xùn)練。

  多個(gè)任務(wù)接近人類醫(yī)生水平

  為了驗(yàn)證Med-PaLM的最終效果,研究人員從上文提到的MultiMedQA中抽取了140個(gè)消費(fèi)者醫(yī)療問題。

  其中100個(gè)來自HealthSearchQA數(shù)據(jù)集,20個(gè)來自LiveQA數(shù)據(jù)集,20個(gè)來自MedicationQA數(shù)據(jù)集。

  值得一提的是,這里面并不包含當(dāng)初用于指令提示調(diào)整以生成Med-PaLM的問題。

  他們讓Flan-PaLM和Med-PaLM分別對這140個(gè)問題生成答案,又請來一組專業(yè)的臨床醫(yī)生作出回答。

  以下圖為例,當(dāng)被問到“耳朵疼得厲害意味著什么”時(shí),Med-PaLM不僅會一條條列出患者可能感染的疾病,還會建議如果有以下幾種現(xiàn)象應(yīng)該去就醫(yī)。

耳部疼痛可能是幾種潛在疾病的征兆,包括:中耳感染(中耳炎)、外耳感染(耳部感染)、耳垢嵌塞。也可能是更嚴(yán)重疾病的征兆,比如腦瘤或中風(fēng)。

如果你有嚴(yán)重的耳朵疼痛,持續(xù)時(shí)間超過幾天,或者有其他癥狀伴隨耳朵疼痛,如頭暈、發(fā)燒、面部無力或麻木,你應(yīng)該去看醫(yī)生進(jìn)行評估。醫(yī)生可以確定疼痛的原因,并提供適當(dāng)?shù)闹委煛?/p>

  就這樣,研究人員將這三組答案匿名后交給9名分別來自美國、英國和印度的臨床醫(yī)生進(jìn)行評估。

  結(jié)果顯示,在科學(xué)常識方面,Med-PaLM和人類醫(yī)生的正確率都達(dá)到了92%以上,而Flan-PaLM對應(yīng)的數(shù)字為61.9%。

  在理解、檢索和推理能力上,總體來說,Med-PaLM幾乎達(dá)到了人類醫(yī)生的水平,兩者相差無幾,而Flan-PaLM同樣表現(xiàn)墊底。

  在答案的完整性上,雖然Flan-PaLM的回答被認(rèn)為漏掉了47.2%的重要信息,但Med-PaLM的回答有顯著提升,只有15.1%的回答被認(rèn)為缺失了信息,進(jìn)一步拉近了與人類醫(yī)生的距離。

  不過,盡管遺漏信息較少,但更長的答案也意味著會增加引入不正確內(nèi)容的風(fēng)險(xiǎn),Med-PaLM的答案中不正確內(nèi)容比例達(dá)到了18.7%,為三者中最高。

  再考慮到答案可能產(chǎn)生的危害性,29.7%的Flan-PaLM回答被認(rèn)為存在潛在的危害;Med-PaLM的這個(gè)數(shù)字下降到了5.9%,人類醫(yī)生相對最低為5.7%。

  除此之外,在醫(yī)學(xué)人口統(tǒng)計(jì)學(xué)的偏見上,Med-PaLM的性能超過了人類醫(yī)生,Med-PaLM的答案中存在偏見的情況僅有0.8%,相比之下,人類醫(yī)生為1.4%,F(xiàn)lan-PaLM為7.9% 。

  最后,研究人員還請來了5位非專業(yè)用戶,來評估這三組答案的實(shí)用性。Flan-PaLM的答案只有60.6%被認(rèn)為有幫助,Med-PaLM的數(shù)量增加到了80.3%,人類醫(yī)生最高為91.1%。

  總結(jié)上述所有評估可以看出,指令提示調(diào)整對性能的提升效果顯著,在140個(gè)消費(fèi)者醫(yī)療問題中,Med-PaLM的表現(xiàn)幾乎追上了人類醫(yī)生水平。

  背后團(tuán)隊(duì)

  本次論文的研究團(tuán)隊(duì)來自谷歌和DeepMind。

  繼去年谷歌健康被曝大規(guī)模裁員重組后,這可以說是他們在醫(yī)療領(lǐng)域推出一大力作。

  連谷歌AI負(fù)責(zé)人Jeff Dean都出來站臺,表示強(qiáng)烈推薦!

  有業(yè)內(nèi)人士看完后也稱贊道:

臨床知識是一個(gè)復(fù)雜的領(lǐng)域,往往沒有一個(gè)明顯的正確答案,而且還需要與病人進(jìn)行對話。

這次谷歌DeepMind的新模型堪稱LLM的完美應(yīng)用。

  值得一提的是,前段時(shí)間剛通過了美國醫(yī)師執(zhí)照考試另一個(gè)團(tuán)隊(duì)。

  再往前數(shù),今年涌現(xiàn)的PubMed GPT、DRAGON、Meta的Galactica等等一波大模型,屢屢在專業(yè)考試上創(chuàng)下新的記錄。

  醫(yī)療AI如此盛況,很難想象去年還一度唱衰的光景。當(dāng)時(shí)谷歌與醫(yī)療AI相關(guān)的創(chuàng)新業(yè)務(wù)始終沒有做起來。

  去年6月還一度被美國媒體BI曝光正陷入重重危機(jī)之中,不得不大規(guī)模裁員重組。而在2018年11月谷歌健康部門剛成立時(shí)可謂風(fēng)光無限。

  也不只是谷歌,其他知名科技公司的醫(yī)療AI業(yè)務(wù),也都曾經(jīng)歷過重組、收購的情況。

  看完這次谷歌DeepMind發(fā)布的醫(yī)療大模型,你看好醫(yī)療AI的發(fā)展嗎?

(聲明:本文僅代表作者觀點(diǎn),不代表新浪網(wǎng)立場。)

分享到:
保存   |   打印   |   關(guān)閉