科技首頁(yè) 創(chuàng)事記互聯(lián)網(wǎng) 電信 IT業(yè)界投稿

高端大氣的谷歌AI，學(xué)術(shù)黑暗的“名利場(chǎng)”

2022-05-05 09:17:03 創(chuàng)事記作者：硅星人

　　歡迎關(guān)注“新浪科技”的微信訂閱號(hào)：techsina

　　在谷歌公司利益的面前，學(xué)術(shù)倫理恐怕得“往旁邊稍稍”。

　　文｜杜晨編輯 | Lianzi

　　來(lái)源：硅星人

　　在美國(guó)學(xué)術(shù)圈，種種圍繞論文發(fā)表的黑暗事情并不少見(jiàn)。一些人為了逃避這種學(xué)術(shù)黑暗，加上科技公司拋出的高薪橄欖枝，選擇加入工業(yè)界，跳槽谷歌這樣的科技大公司。然而令人沒(méi)想到的是：就連谷歌居然也叛變了，也成為了 AI 學(xué)術(shù)界的一個(gè)黑暗角落。

　　根據(jù)《紐約時(shí)報(bào)》獨(dú)家報(bào)道：谷歌在今年3月低調(diào)開(kāi)除了一位 AI 研究員，因?yàn)樗L(zhǎng)期以來(lái)都和自己的同事們對(duì)著干，對(duì)公司發(fā)表的高知名度論文橫加質(zhì)疑批判。

　　Google AI 在去年6月發(fā)表論文A Graph Placement Methodology for Fast Chip Design，提出采用 EdgeGNN 強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)一些芯片組件的能力已經(jīng)超過(guò)了人類(lèi)。這篇論文（以下簡(jiǎn)稱(chēng)“芯片論文”）刊登于《自然》，在業(yè)界影響力極大，并且谷歌 AI 事業(yè)的總負(fù)責(zé)人 Jeff Dean 也是作者之一。

　　而這位研究員 Satrajit Chatterjee 對(duì)于芯片論文心存疑慮，所以率領(lǐng)了一支隊(duì)伍寫(xiě)了一篇論文（簡(jiǎn)稱(chēng)為“駁斥論文”），試圖證偽前述論文中的一些重要的宣稱(chēng)。

　　然而根據(jù)四位匿名谷歌員工透露的情況，就在這篇駁斥論文已經(jīng)寫(xiě)完的時(shí)候，公司先是拒絕了發(fā)布，然后很快就將 Chatterjee 開(kāi)除出了公司。

　　“我們對(duì)駁斥論文里面提出的一些宣稱(chēng)進(jìn)行了嚴(yán)格的檢查，最終認(rèn)定它未達(dá)到我們的發(fā)表標(biāo)準(zhǔn)。”谷歌研究部門(mén)副總裁 Zoubin Ghahramani 對(duì)《紐約時(shí)報(bào)》表示。

　　Chatterjee 似乎也已經(jīng)退出了 AI 研究的一線崗位，加入了一家風(fēng)投公司（未經(jīng)本人證實(shí))。

　　| 除名作者、封口威脅：谷歌學(xué)術(shù)竟也如此黑暗？

　　事情經(jīng)過(guò)大概是這樣的：

　　在前述的芯片論文刊登于《自然》之前，谷歌在2020年4月發(fā)表了一篇基本同題的預(yù)印本論文 Chip Placement with Deep Reinforcement Learning。

　　據(jù)《紐約時(shí)報(bào)》援引幾位匿名知情人士描述的情況，當(dāng)時(shí)谷歌對(duì) AI 設(shè)計(jì)芯片的研究方向非常重視，并且有很急切的欲望想要將自家研究的這項(xiàng)技術(shù)盡快變現(xiàn)。

　　這篇預(yù)印本論文發(fā)布的時(shí)候，谷歌找到 Chatterjee 咨詢(xún)能否將這項(xiàng)技術(shù)直接出售出售或授權(quán)給芯片設(shè)計(jì)公司。

　　然而，這位曾在英特爾工作，在芯片行業(yè)擁有豐富經(jīng)驗(yàn)的研究員，卻直接給 Jeff Dean 潑了一盆冷水。他發(fā)郵件告訴同事，自己對(duì)于這篇預(yù)印本論文當(dāng)中的一些宣稱(chēng)表示“保留意見(jiàn)”，并且質(zhì)疑所采用的技術(shù)沒(méi)有經(jīng)過(guò)嚴(yán)格的測(cè)試。

　　在團(tuán)隊(duì)中，Chatterjee 并不是唯一對(duì)這項(xiàng)研究表示質(zhì)疑的谷歌員工。就在這篇預(yù)印本論文中，還有兩位合作作者——谷歌 AI Kernel 團(tuán)隊(duì)的創(chuàng)始人 Anand Babu 和軟件工程師 Sungmin Bae也支持 Chatterjee 的意見(jiàn)。

　　與此同時(shí)，谷歌已經(jīng)等不及想要用這篇論文來(lái)賺錢(qián)了。

Satrajit Chatterjee 圖片來(lái)源：個(gè)人網(wǎng)站

　　Google AI 把這篇預(yù)印本論文重新調(diào)整了一下，換了個(gè)標(biāo)題，直接提交到了學(xué)術(shù)界最久負(fù)盛名的《自然》期刊，并且成功得到了發(fā)表（即前述的芯片論文）。

　　然而據(jù)硅星人了解，這次論文改題刪名重發(fā)事件，在 Google AI 內(nèi)部引發(fā)了不小的爭(zhēng)議。有員工感到事情很詭異：

　　首先，這論文為什么改個(gè)題又發(fā)一遍？

　　其次，既然要重新發(fā)一個(gè)版本，為什么沒(méi)有經(jīng)過(guò)公司內(nèi)部論文評(píng)議委員會(huì)的重新審核？

　　最后，也是最詭異的地方：為什么這個(gè)發(fā)到《自然》的新版本，除掉了對(duì)本次研究發(fā)表不同意見(jiàn)的兩位作者名字？意思是他們倆對(duì)新版本沒(méi)有貢獻(xiàn)，所以就直接消除掉他們存在過(guò)的痕跡，就像從未對(duì)此次研究做出過(guò)貢獻(xiàn)一樣？

　　上圖：2020年4月的預(yù)印本論文版本；下圖：2021年6月的《自然》版本（“芯片論文”），后者刪除了兩位作者的名字圖片來(lái)源：arXiv, Nature

　　為了平息爭(zhēng)議，Jeff Dean 批準(zhǔn)包括 Chatterjee、Bae、Babu 等在內(nèi)的員工對(duì)芯片論文進(jìn)行挑戰(zhàn)，并且允諾他們事后出來(lái)的報(bào)告（即駁斥論文）會(huì)按照公司既定的政策，走論文發(fā)表審批委員會(huì)的流程。

　　沒(méi)過(guò)多久，Chatterjee 等人就把駁斥論文寫(xiě)出來(lái)了，標(biāo)題為 Stronger Baselines for Evaluating Deep Reincorcement Learning in Chip Placement（點(diǎn)擊文末“閱讀原文”按鈕查看）。

　　在駁斥論文中，作者們提出了幾種新的基線，也即基準(zhǔn)參照算法，意思就是比這個(gè)基線效果還差的即不能接受，沒(méi)有發(fā)論文的必要。

　　結(jié)果，作者所提出的比谷歌芯片論文中所采用算法的實(shí)現(xiàn)的效果還好，并且運(yùn)行所依賴(lài)的算力小得多。消融研究結(jié)果指出了芯片論文中算法的弱點(diǎn)。

　　不僅如此，作者還進(jìn)一步指出，人類(lèi)芯片設(shè)計(jì)師的設(shè)計(jì)能力并不能夠作為強(qiáng)有力的基線，也即芯片論文里拿強(qiáng)化學(xué)習(xí)算法跟人作為對(duì)比是很沒(méi)本事的行為。

　　帶著這些調(diào)查結(jié)果，Chatterjee 等人把駁斥論文提交到了谷歌的論文發(fā)表審核委員會(huì)，等了幾個(gè)月的時(shí)間，最后卻被拒絕發(fā)表。Google AI 方面高管的回應(yīng)是這篇駁斥論文未滿足發(fā)表標(biāo)準(zhǔn)。

　　作者們甚至找到了公司 CEO Sundar Pichai 和 Alphabet 董事會(huì)，指出這篇駁斥論文被拒絕發(fā)表的情況，可能涉嫌違反了公司的 AI 研究發(fā)表和道德方面的原則。

　　然而，他們的反抗很快就被打壓了下來(lái)。沒(méi)過(guò)多久，Chatterjee 就收到了自己被解雇的通知。

　　與此同時(shí)，芯片論文的聯(lián)合第一作者 Anna Goldie 卻有不同聲音。她告訴《紐約時(shí)報(bào)》 Chatterjee 在三年前曾經(jīng)試圖奪權(quán)，自從那之后自己就成為了后者“虛假信息”攻擊的受害者。

　　我們不知道這位表達(dá)不同聲音的 Chatterjee，被公司解雇的直接理由究竟是什么。但硅星人從谷歌員工那里了解到，一些員工認(rèn)為 Chatterjee 被解雇的真實(shí)原因，是站在了公司利益，以及 Google AI 部分核心高管力推項(xiàng)目的對(duì)立面。

　　在一些人看來(lái)，即使如谷歌這樣架構(gòu)扁平、制度公平的大公司，也難免為了保護(hù)公司利益和高管的顏面，而暫時(shí)改變自己的規(guī)矩，把唱反調(diào)的人一腳踹開(kāi)。

　　| 利益沖突遭開(kāi)除，員工“改名”表抗議

　　這確實(shí)不是 Google AI 內(nèi)部第一次因?yàn)閷W(xué)術(shù)見(jiàn)解不同和辦公室政治而出現(xiàn)抓馬了。

　　在行業(yè)里影響力頗大的斯坦福 AI 實(shí)驗(yàn)室成員、前谷歌研究員 Timnit Gebru，在兩年前遭到谷歌突然開(kāi)除的事情，當(dāng)時(shí)就已經(jīng)給很多同行留下了非常差的印象。

　　并且巧合的是，Gebru 當(dāng)時(shí)被谷歌開(kāi)除的原因和 Chatterjee 一模一樣：跟公司利益對(duì)著干，被公司拒絕發(fā)表論文。

　?。ㄊ孪嚷暶鳎篢imnit Gebru 本人在行業(yè)里是 AI 偏見(jiàn)方面的專(zhuān)家，但她本人具有一定爭(zhēng)議性。有很多人認(rèn)為她的“社會(huì)正義戰(zhàn)士”性格強(qiáng)于作為學(xué)者的公允性，遭到部分同行質(zhì)疑。）

Timnit Gebru 圖片來(lái)源：Wikipedia Commons 知識(shí)共享授權(quán)

　　2020年，Gebru 在網(wǎng)上和圖靈獎(jiǎng)得主，人稱(chēng) AI “三教父”之一的 Yann LeCun 之間展開(kāi)了一場(chǎng)對(duì)峙。

　　當(dāng)時(shí)，有人采用低分辨率人臉還原模型 PULSE 還原奧巴馬照片，出現(xiàn)了白人結(jié)果。LeCun 對(duì)此發(fā)表了自己的觀點(diǎn)，認(rèn)為是數(shù)據(jù)集的固有偏差導(dǎo)致了 AI 偏見(jiàn)的結(jié)果。

　　這一表示遭到了包括 Gebru 在內(nèi)很多人的批評(píng)。Gebru 表示對(duì) LeCun 的發(fā)言很失望，因?yàn)?AI 算法中的偏見(jiàn)不只是來(lái)自數(shù)據(jù)。她本人在此方面做了很多研究，發(fā)表了一些論文。她的觀點(diǎn)一直是：AI 的偏見(jiàn)不止來(lái)自于數(shù)據(jù)集，光解決數(shù)據(jù)集并不能徹底解決 AI 偏見(jiàn)問(wèn)題。

　　LeCun 進(jìn)一步發(fā)了十幾條推文，進(jìn)一步解釋自己的觀點(diǎn)，結(jié)果卻被 Gebru 以及她的支持者當(dāng)成了“班門(mén)弄斧”——雖然 LeCun 是”AI 教父“，但 Gebru 本人才是 AI 偏見(jiàn)方面的權(quán)威專(zhuān)家。

　　LeCun 和包括 Gebru 在內(nèi)的批評(píng)者之間的罵戰(zhàn)持續(xù)了半個(gè)月，結(jié)果以前者“退推"告一段落。

　　Gebru 在社交網(wǎng)絡(luò)上直言抨擊 LeCun 這種機(jī)器學(xué)習(xí)元老級(jí)專(zhuān)家的行為，卻在谷歌內(nèi)部被一些高層人士認(rèn)為破壞了公司和學(xué)術(shù)界/行業(yè)之間的友善關(guān)系。雖然 Gebru 獲得了階段性的“勝利”，可是她當(dāng)時(shí)并沒(méi)有完全意識(shí)到事情的嚴(yán)重性，以及陰云已經(jīng)籠罩在自己的頭上。

　　大家應(yīng)該知道最近幾年大模型（以超大參數(shù)量的語(yǔ)言模型為代表）在 AI 研究領(lǐng)域有多火，包括谷歌、OpenAI、微軟、亞馬遜、BAAI 等機(jī)構(gòu)都在這方面投資巨大，誕生了 BERT、T5、GPT、Switch-C、GShard 等在內(nèi)的一系列超大規(guī)模語(yǔ)言向神經(jīng)網(wǎng)絡(luò)模型和相關(guān)技術(shù)。

　　也是在2020年，Gebru 的團(tuán)隊(duì)撰寫(xiě)了一篇論文 On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 希望揭露超大規(guī)模語(yǔ)言模型在實(shí)際使用中的危險(xiǎn)性，批評(píng)其可能在 AI 偏見(jiàn)方面造成的影響。

　　這一方向的研究并不小眾，畢竟在此之前已經(jīng)有研究發(fā)現(xiàn)，GPT-2/3 等超大語(yǔ)言模型在真實(shí)場(chǎng)景中使用時(shí)會(huì)強(qiáng)化已經(jīng)存在的社會(huì)偏見(jiàn)和歧視（包括性別、族裔），對(duì)實(shí)際用戶(hù)造成傷害。

　　Gebru 團(tuán)隊(duì)的這篇文章，主要表達(dá)的觀點(diǎn)確實(shí)都沒(méi)什么毛病。然而在 Jeff Dean 看來(lái)，篇幅很短，敘述和引述多于基于實(shí)驗(yàn)的結(jié)果，缺乏科學(xué)實(shí)證的要素，不構(gòu)成谷歌公開(kāi)冠名發(fā)表論文的條件，因此將其駁回不予發(fā)表。

　　可能更接近本質(zhì)的原因在于：這篇論文如果發(fā)表出來(lái)，等于是在和谷歌近幾年在大語(yǔ)言模型方面的努力唱反調(diào)，在谷歌 AI 管理層看來(lái)會(huì)非常影響士氣。

　　Gebru 堅(jiān)持就算公司不批準(zhǔn)，自己也要想辦法把論文發(fā)出去。谷歌要求她在論文里去掉作者的谷歌從屬關(guān)系，意思就是這篇文章是幾個(gè)作者私下做的，公司并不認(rèn)可。這一要求也被 Gebru 嚴(yán)詞拒絕。

　　對(duì)于 Gebru 的離開(kāi)，谷歌表示她是自己辭職的（內(nèi)部員工透露，Gebru 當(dāng)時(shí)確實(shí)曾以辭職作為威脅）。但是 Gebru 對(duì)外透露的是自己被公司開(kāi)除了。

　　Gebru 在谷歌的匯報(bào)對(duì)象 Samy Bengio 在當(dāng)時(shí)表示自己感到非常震驚。Bengio 曾獲得谷歌杰出科學(xué)家的殊榮，是公司14年元老，原谷歌大腦團(tuán)隊(duì)的創(chuàng)始成員之一（也是 AI 三教父之一 Yoshua Bengio 的胞弟），后來(lái)也直接因?yàn)閷?duì)解雇 Gebru 不滿，在2021年離開(kāi)了谷歌。

　　后來(lái)，Gebru 團(tuán)隊(duì)的論文后來(lái)還是在2021年3月在 ACM 旗下的跨學(xué)科會(huì)議 FAccT（公平、責(zé)任和透明度大會(huì)）上得以發(fā)表，只是四位作者當(dāng)中的兩位，無(wú)法以谷歌員工的身份出現(xiàn)在作者名單里。

　　值得一提的是：雖然 Gebru 在論文發(fā)表前就已經(jīng)和谷歌掰了，另一位作者 Margaret Mitchell 在文章發(fā)表的時(shí)候仍然供職于谷歌（后來(lái)也還是被開(kāi)除了）。

　　在發(fā)表版本的論文里，她“改名換姓”，在自己的名字前面加上了“Sh”，以諷刺公司對(duì)自己的噤聲：

圖片來(lái)源：Wikipedia Commons 知識(shí)共享授權(quán)

　　但是更離譜的事情還在后面。

　　就在上個(gè)月初，谷歌AI 發(fā)表了另一篇論文，介紹了團(tuán)隊(duì)開(kāi)發(fā)的一個(gè)全新的5400億密集激活參數(shù)的超大規(guī)模語(yǔ)言模型 PaLM。

　　在模型架構(gòu)解釋 (Model Architecture) 和道德思考 (Ethical Considerations) 部分，PaLM 論文曾經(jīng)先后至少兩次引用了前年被谷歌拒絕發(fā)表的那篇 Gebru 團(tuán)隊(duì)的論文。

　　在道德思考的部分，論文寫(xiě)道，由于從訓(xùn)練數(shù)據(jù)和模型中完全消除社會(huì)偏見(jiàn)的可行性不高，因此分析模型中可能出現(xiàn)的相關(guān)偏見(jiàn)和風(fēng)險(xiǎn)是至關(guān)重要的，并且也引用和參考了 Gebru 等人在那篇被拒發(fā)論文中采用的分析方法。

　　更何況 Jeff Dean 也是 PaLM 論文的作者。這就屬實(shí)非常尷尬了。

上圖：諷刺的是，引用列表中還留下了前員工 Mitchell 影射公司的記錄。

　　Gebru 對(duì)此表示，

　　“這些（谷歌的）AI大佬們完全可以為所欲為。他們完全不用考慮我是被公司開(kāi)除的，我的論文是被公司被評(píng)為不及格的。他們完全不用思考后果，他們恐怕早就忘了當(dāng)年的事了。”

　　最后，可能很多人都想知道：為什么最近幾年谷歌 AI 研究部門(mén)的鬧劇如此之多，而且還都是員工研究方向和公司利益沖突相關(guān)？

　　一位了解 Google AI 情況的前谷歌員工對(duì)硅星人做出如下評(píng)價(jià)：

　　“一邊要靠放衛(wèi)星吸引更多 HR 和 PR 關(guān)注度，一邊要盡快把 AI 這邊的研究成果投產(chǎn)，一邊又因?yàn)槟承┯袪?zhēng)議的項(xiàng)目要改善社會(huì)責(zé)任感。魚(yú)和熊掌不可兼得?！?/p>

　　（注：關(guān)于"放衛(wèi)星"的部分，這位前員工指的是谷歌的一些超大模型研究在發(fā)布當(dāng)時(shí)并未達(dá)到 State-of-the-Art 的水平。比如谷歌的1.6萬(wàn)億參數(shù)量 Switch Transformers 模型，性能并未超過(guò)有效參數(shù)量更少的類(lèi)似模型，并且 API 方面的易用性也很差，所以沒(méi)法像 GPT-3 那樣做出很令人印象深刻的演示。）

　　毫無(wú)疑問(wèn)，Google AI 已經(jīng)成為業(yè)界科技公司里從事 AI 的基礎(chǔ)和應(yīng)用科研方面的標(biāo)桿機(jī)構(gòu)。

　　考慮到 Google AI 的許多研究成果能夠更快地投入到各種谷歌核心產(chǎn)品當(dāng)中，而這些產(chǎn)品的用戶(hù)量又是數(shù)億甚至數(shù)十億級(jí)別的，可以說(shuō) Google AI 的研究對(duì)于世界也有著十分重大的意義。

　　與此同時(shí)，不可否認(rèn)的是谷歌/Alphabet 仍然是一家營(yíng)利性質(zhì)的上市公司，需要對(duì)股東負(fù)責(zé)，需要穩(wěn)定持續(xù)的增長(zhǎng)。而 AI 在今天作為一個(gè)不算新，商業(yè)化的程度和可行性已經(jīng)非常高的技術(shù)，谷歌公司內(nèi)部對(duì)于 AI 產(chǎn)學(xué)研結(jié)合的期待肯定是日益提升的。

　　考慮到以上背景，就不難理解為什么 Jeff Dean 等研究部門(mén)的大佬們，要不顧一切保護(hù)公司在 AI 研究方面的投資和名譽(yù)了。

　　必須承認(rèn)的是，這些大佬們?cè)疽捕际窃?AI 學(xué)術(shù)界建功立業(yè)的先驅(qū)，說(shuō)他們不認(rèn)可學(xué)術(shù)倫理，也是一種侮辱。但很遺憾，在現(xiàn)如今公司利益的面前，只能在其位謀其政。大難臨頭的時(shí)候，也許學(xué)術(shù)上的正直，也只好暫時(shí)往邊上稍稍了。