■本報記者 趙廣立 見習記者 趙宇彤
你知道“momo”嗎?
近年來,互聯網上不知不覺涌現出一批“momo大軍”,他們用著同一個昵稱、頂著一模一樣的頭像,混跡于微信、豆瓣、小紅書、微博等各大社交平臺。
這是許多年輕人隱藏身份的“馬甲”。是的,曾經以個性十足、特立獨行為傲的那批人,現在更在意的是怎樣隱匿自己在網絡上的言行,而原因是只為了逃脫“算法圍城”。
他們不希望“信息繭房”成為自己的“人生第一套房”,不想讓社交媒體的分享成為大數據窺探的窗口,不愿意付出時間和健康的代價,卻被困在一個看不見的牢籠里。
但他們何嘗不知道,數字生存如同雪泥鴻爪,數字互聯時代,想要雁過無痕,談何容易!
“硬剛”算法的年輕人
不管承不承認,我們每個人都活在算法圍城之中。
同一份外賣,老顧客要比新會員多付幾元;同一時間的相同路程,不同手機型號的用戶單價不一;當你拿起另一半的手機,居然發現在短視頻平臺看到的熱搜評論都不盡相同……
面對算法圍城,普通人有普通人的痛楚,名人有名人的煩惱。
近一年以來,農夫山泉創始人鐘睒睒以及農夫山泉頻上“熱搜”:從產品、環保議題到個人家事,不僅農夫山泉的股價應聲滑落,鐘睒睒個人也遭受了前所未有的流量“集火”。
忍無可忍的鐘睒睒在一場交流活動中隔空喊話字節跳動創始人張一鳴,直言有人利用算法“制造單一敘事和惡意對立”,并稱這種“利用科技手段、技術能力造成的惡”比普通人造成的惡要大,“是大惡”。
“他們用算法放大情緒,把復雜的問題簡單化,把不同的聲音屏蔽掉。”鐘睒睒說,這種行為不僅破壞了公平的輿論環境,也讓公眾陷入片面認知,而受害者往往都是底層民眾。
在“網暴”面前,絕大部分人不是鐘睒睒。面對各種算法織就的網,鐘睒睒可以“隔空喊話”,普通人卻只能套上“馬甲”。
于是,越來越多的年輕人決定主動出擊,試圖“反向訓練算法”,和平臺正面“硬剛”。
他們中有人“賽博哭窮”,“機票太貴了我不去了”“買不起,不買了”“9毛9,我喝得起的咖啡”;有人“喊話威脅”,給某軟件留言,“竟然殺熟,太過分了,我要卸載”;有人則是行動派,移除軟件后故意過一段時間再重新下載,以期再次享受大額優惠;還有人利用軟件生成的虛擬手機號頻繁注冊平臺軟件新號,“薅新人羊毛”。
有網友表示,有些“偏方”好像真的管用,發牢騷、抱怨價格、卸載重裝,一套流程走完能省下一筆不小的費用。在小某書,隨處可見諸如“罵機票專用帖”等熱門經驗分享。也有人覺得這一切都是徒勞,到頭來還是被平臺用算法“收割”。但不管怎樣,他們樂此不疲,并美其名曰“反向馴化大數據”“用算法打敗算法”。
“反向馴化”其實見效甚微
“反向訓練算法”有沒有用?《中國科學報》就此咨詢了算法專家。得到的答案,恐怕要給大家澆一盆冷水。
“‘反向馴化大數據’這類做法可能僅僅對一些簡單的算法有效果。”中國科學院自動化研究所副研究員、武漢人工智能研究院算法總監吳凌翔說,平臺會根據用戶大量的歷史信息、IP地址、社會關系、手機型號等做算法推薦,如果用戶不了解算法機制,很難“反向訓練”。
中國傳媒大學媒體融合與傳播國家重點實驗室媒體大數據中心首席科學家沈浩則認為,用戶通過主動關閉定位、禁止后臺調取通訊錄等方式能起到一定的屏蔽作用,但試圖通過調整標簽、更換人設來“迷惑”算法,可能適得其反,新的“人設”還會出現新的“信息繭房”。
事實上,許多軟件都給了用戶選擇取消“個性化推薦”的功能,但由于這項功能于平臺而言太過重要,往往隱藏較深。
而在沈浩看來,取消個性化推薦也不能根治“信息繭房”。
“不推薦、表示‘不感興趣’也是一種推薦。”沈浩告訴記者,算法是基于用戶數據驅動的,每個人都或多或少被“困”在“信息繭房”里,只不過感知程度不同。
北京航空航天大學計算機學院教授王靜遠直言,自己雖然沒有專門研究過用戶對抗算法推薦的做法,但他對出現的這種現象并不感到意外。
“這反映了一些算法對用戶信息的收集和利用有些過分。”王靜遠對《中國科學報》說,當平臺逼得用戶連頭像、昵稱這些基礎信息都要隱藏,說明用戶的一切痕跡都有可能被作為特征而提取,“用到極致了”。
在采訪中,專家們不止一次提到“算法中立論”,認為算法無罪,罪在利益相關方。但是,當每一次點擊、每一句評論,甚至每多停留一秒鐘,這些痕跡都成了平臺訓練算法的“養料”;當外賣、網約車等平臺被大數據操縱,吃什么、去哪里都被“讀心術”安排得明明白白;那么在被浪費的時間、被挑撥的情緒、被掏走的“冤枉錢”面前,用戶眼中的算法就不再是“中立”的,而是越來越大的“牢籠”。
“當一切痕跡都在利益驅使下過度商業化時,自然會有反抗。”王靜遠說。
“舊病未愈,又添新疾”
一邊是平臺利用算法精準織網,一邊是越來越多的人開始覺醒與反抗。野蠻生長的算法亂象,正被社會全方位審視。
近日,中央網信辦、工信部、公安部、市場監管總局四部門聯合部署開展“清朗·網絡平臺算法典型問題治理”專項行動,重點整治“信息繭房”、操縱榜單、利益侵害、大數據“殺熟”、算法推薦等典型問題。
但如果回溯大數據興起之時,“算法治亂”一直都有。
早在2018年,美國臉書首席執行官馬克·扎克伯格在美國國會上就數據隱私、虛假信息、監管等數個議題接受訊問。當時人們已經意識到,當用戶獲得免費或者極低費用的服務時,消費者將被要求提供更多的個人數據,而這些數據被濫用的可能性會顯著增加。
我國也在2021年就出臺了《關于加強互聯網信息服務算法綜合治理的指導意見》《互聯網信息服務算法推薦管理規定》等規定,明確算法治理的必要性和具體要求。而此次“清朗·網絡平臺算法典型問題治理”專項行動,力度更大、問題更加聚焦。
曾經,互聯網努力為不同人群、不同議題提供平等的交流平臺,打造自由對話的多元空間。但隨著“流量至上”成了各大平臺目標,它們開始借由算法之手不擇手段,用戶隱私信息得不到保護的問題浮出水面。
近年來,隨著大語言模型技術進步、生成式人工智能服務興起,若人工智能(AI)技術不加規范,會帶來許多新問題:AI換臉詐騙、AI造謠、AI偏見歧視、AI語言暴力等。尤其是當生成式人工智能服務的對象是未成年人和老年人時,將會面臨更大的風險。
據外媒報道,創辦于2021年的Character.AI平臺,近期就因開發的“情感陪伴聊天機器人”而官司纏身。今年10月,Character.AI在美國佛羅里達州一名青少年自殺事件中“扮演了某種角色”;12月,美國得克薩斯州一對父母決定起訴它“教唆未成年人殺害家長”,他們稱機器人聊天工具讓未滿18歲的青少年“過度接觸了色情、血腥暴力等不良內容”。
能否打開算法“黑箱”?
面對算法“作惡”,鐘睒睒呼吁“算法應該明白無誤地公之于眾”。他認為,沒有一種標準是不可以公布的,應該公布并讓所有使用者評價其意義。
但公開算法,就能打開“黑箱”、制止亂象嗎?
吳凌翔告訴《中國科學報》,算法并不像外界理解的那樣是徹底不透明的,一般都會通過發表論文、學術會議分享、公開課等公開其原理。但是,即便是常見的推薦系統,背后的算法機制也非常復雜,常常“不是一兩個部門的事”,即便是開發者也未必全能搞清楚。反倒是AI檢索增強生成的內容,現在的技術手段可以溯源——通過關聯標記能夠獲取它是基于哪些數據和信息“習得”的。
王靜遠也同意,算法機制問題并不像想象的那樣簡單。“比如深度學習本身就是一個‘黑箱’,即便開發者也不清楚其中原理。”
事實上,對于算法工程師而言,真正的“黑箱”不在算法原理之中,而在數據與平臺機制的設置之中——當用戶量增大、數據變多,平臺機制逐漸向利益“妥協”,久而久之便產生了“算法亂象”。
“算法始終是算法設計者意志的反映,是平臺意志的反映。”北京大學數字治理研究中心主任邱澤奇在接受《中國科學報》采訪時說。言外之意,復雜的算法問題背后潛藏的是平臺“無形的手”。
就如鐘睒睒所遭遇的那樣,“當你打開這些平臺,看到的總是同樣的內容”“很多惡是人為造成的”。
不得不提的是,許多平臺型軟件在誕生之初,都肩負著改造社會的使命。比如某音的初心是“記錄美好生活”、某團致力于打造“美好生活小幫手”、某滴提出的愿景是“讓出行更美好”、某程希望提供“放心的服務,放心的價格”……不可否認,這些軟件已經成為人們數字生活中的基礎設施,但在巨大的發展慣性下,平臺自發性選擇了阻力最小、收益最高的方向,輕視乃至忽略了社會價值。在這種嬗變之中,算法的用途逐漸跑偏。
“在算法訓練中,目標導向是關鍵因素。”王靜遠告訴記者,人工智能算法在設計時,會要求開發者設置一個目標函數,訓練算法時會盡最大可能優化這個目標函數。如果算法以提高調度效率為目標,在模型優化過程中就會犧牲其他因素來追求高效;如果以精準的個性化推薦為目標,就不可避免地出現過度收集和利用信息的問題。
信息大爆炸時代,算法的篩選和過濾無疑迎合了為大腦“降本增效”的剛需。然而,當精準“捕捉”用戶已無法滿足平臺的胃口時,殺熟成了平臺“向前一步”的試水。王靜遠提到,平臺通過“精準營銷”為不同消費水平的顧客推薦不同價位的產品尚情有可原,但通過分析用戶經濟能力進行“個性化定價”的歧視行為就令人難以接受了,這在技術上能夠且應亟須加以規避。
走向共同治理
在訪談中,幾位專家不約而同談到,除了人為濫用算法制造矛盾和對立外,算法更多是在復刻社會的現實問題。
“坦率地講,算法就是幫你算數。你寫了一套程序,它幫你把一些說不清、道不明的規律從數據里‘扒’出來。我的觀點是,算法不會作惡。”邱澤奇說,問題的關鍵是數據和算法的匹配以及算法的調試,“說到底,都是人在忙活”。
他提出,不同的人雖然在使用同一個軟件平臺,但每人對數據的貢獻和得到的反饋,在量和質上都有差異;而當算法應用數據時,便會復刻現實社會的結構,甚至放大現實社會的問題。
基于此,他認為有兩條路可以嘗試解決算法問題:一是對真實數據進行權重配置,二是調試算法進行糾偏。
“算法是人寫的,是可以調整的。在方法意義上,算法是工具。”邱澤奇認為,工具是否適用是可以做交叉檢驗的,在技術上并不難實現。
有研究指出,算法黑箱、算法權力、算法陷阱等亂象很可能會成為數智經濟負外部性的深層來源。此時,“算法向善”就成了全社會的共同呼喚。
在邱澤奇看來,“算法向善”包括四個關鍵概念:首先是改進,這是平臺承擔社會責任和社會價值的必然要求;其次是普惠,利益相關者的收益不提高,平臺經營就是竭澤而漁;再次是包容,關注數智弱勢群體,不只是平臺的社會責任,也是人類價值的體現;最后是誠信,這是數智社會的底線規則,沒有人類之間的誠信,算法只會成為人類自我欺詐的武器。
他坦承,通往“算法向善”的道路曲折而遙遠,需要多方共同努力。
“首先需要解決平臺和算法設計者的認知問題。”邱澤奇提出,前提是要著眼于保護各方的利益:在平臺內部,建立平臺業務的社會后果評估機制,不限于經濟產出評估;在平臺與社會之間,建立與利益相關者的協商溝通機制;在平臺外部,建立平臺社會評價機制,等等。
吳凌翔提出了類似建議,她認為算法治理需要搭建一個用戶、平臺、專家共同參與、共商機制的平臺,促進通過對話達成共識。此外,她認為用戶反饋機制和參與機制非常重要,這是社會治理的一種體現。
技術層面也有施展空間,以推薦算法為例,吳凌翔說,不僅要提升數據的多樣性和豐富度,還可以對算法進行公平性約束、增加敏感性分析,并通過評估監測推薦系統內的不同環節,增加敏感性分析等方式,從技術角度對算法糾偏。
應對生成式內容帶來的合規需求,王靜遠提到,現階段重要的議題之一是要發展負責任的AI相關研究,其中既包括AI可解釋性、公平性、泛化性的研究,也涉及安全可控方面的議題。但目前該領域面臨著社會關注度不高、投入較少的尷尬局面。
“只有把蛋糕做大,才有蛋糕可分。”邱澤奇認為,治理與發展本就是一場拉鋸賽,當前應在促進創新的前提下,通過“問責制”調整利益分配的邏輯和份額,考慮分配的公平性問題,在鼓勵創新與促進平等之間尋求平衡。
“對于新生事物,制度建設不宜超前。”邱澤奇強調,新發展也會帶來新問題,算法治理無法一蹴而就。“一個簡單的警示和預防策略是對傷害的問責。”他強調,隨著AI深入發展,算法自身的邏輯網絡會越來越復雜,試圖就具體問題進行預防是沒有止境的。
記者手記
算法的一些“偏見”可能是固有的
■趙廣立
算法有偏見或歧視嗎?
不同的人給出的答案可能完全相反。認為算法有偏見者,可能會以大數據殺熟、保險單歧視等來舉證;認為算法無偏見者,會指出算法僅僅是如菜刀一般的工具而已,工具怎么會有偏見或歧視?
但是,如果我們換一種問法:人類社會產生的數據有偏見或歧視嗎?如果答案是肯定的,那么算法“吃進”這些有偏見或歧視性的數據,會怎樣?
從技術上講,算法本身沒有像人類一樣的情感、觀念和偏見。它僅僅是一系列指令的集合。在理想狀態下,它只是按照預定的規則和邏輯對輸入的數據進行處理、輸出,不存在偏向。
但是,算法是基于數據進行訓練和學習的。如果數據本身存在偏差,那么算法就會產生偏見。
例如,在招聘算法中,如果用于訓練的數據大部分源于男性求職者的成功事例,那么算法在評估求職者時,可能會對男性求職者產生偏向。同理,算法“學習”了其他具有性別、地域或文化傾向的數據模式,它在后續的應用中就會帶有這種偏見。
美國一些學者曾于2018年啟動一項名為“圖網輪盤”的研究,專門就此問題做了探討:“這些圖片來自哪里?”“照片中的人為什么會被貼上這樣那樣的標簽?”“當圖片和標簽對應時,什么樣的因素在起作用?”“當它們被用來訓練模型系統時,會產生什么樣的影響?”
這一研究更像一次行為藝術,明白無誤地反映出人工智能算法系統很容易復刻和強化來自現實社會的固有偏見。如果對此視而不見,這些偏見便會滲入各類數字系統,繼而影響整個社會的發展。
除了反映社會偏見之外,算法還會造成數據屏蔽——算法對數據的提取、分析、處理等操作是基于概率,那么它優先抓取的、出現頻次較高的數據,就會成為“強勢數據”,一些“弱勢數據”或“少數派數據”就容易被忽略、被屏蔽。而且,數據體量越大、越是高度自動化的算法,越容易造成數據屏蔽。
數據屏蔽的問題更為隱蔽,但它的影響不容小覷,顯著問題之一就是對文化多元性的影響。美國計算機科學家喬恩·克萊因伯格曾這樣詰問:“如果我們都使用同一種算法作決定,是否會導致作出的決定高度趨同,導致我們的文化也高度趨同?”
如果說數據偏差帶來的算法偏見算是“無心之失”的話,那么人為因素導致的算法偏向就是別有用心了。
例如,在設計內容推薦系統時,人為將系統目標設計為“延長用戶的停留時間”,這就會導致算法傾向于推送聳人聽聞的新聞信息或低俗娛樂內容,進而對內容的多樣性和用戶體驗產生影響。另外,被困在算法里的外賣騎手、遭遇大數據殺熟的網約車用戶等,背后的算法多是受人為因素干擾的。
算法偏見并非“頑癥”,只要肯下功夫,總有辦法盡量去消除。比如,從數據端著手,倡導在算法設計階段進行多樣化數據的收集,確保用于訓練算法的數據多樣性。尤其是涉及就業、金融保險等民生議題,在構建算法數據集時,可以通過收集來自不同性別、種族、年齡、地域等各種背景的事例,避免數據過于集中。
同時,還應對數據進行嚴格的質量檢查,剔除帶有明顯歧視、偏見的信息。在算法的設計過程中,必須考慮多元化的公平標準,并引入公平性指標作為約束條件。
在監管上,要求平臺或算法開發者公開算法設計的決策依據并不過分。如此,監管機構和第三方才能對算法是否存在潛在的偏見進行審查。
此外,設立專門的渠道,讓公眾能夠通過反饋、投訴等方式參與到算法改善中。
最后,就目前所涌現的算法亂象問題,筆者認為,平臺有很大的作為空間。以“鐘睒睒事件”和“假冒張文宏事件”為例,平臺至少可以有效處理虛假信息。對于未經核實的信息和內容,平臺負有提示的責任和義務。平臺的工作量和成本投入或許會增加,但受益的是大多數人。
如果平臺最終留存的都是更優質的內容,數字空間也會因此更加清朗,社會也將更為積極向上。
“掌”握科技鮮聞 (微信搜索techsina或掃描左側二維碼關注)