科技首頁創事記互聯網電信 IT業界投稿

科大訊飛背上抄襲OpenAI的罵名，冤嗎？

2023-05-11 11:26:05 創事記作者：略大參考

　　目前互聯網公司和AI公司都在大模型上較勁，晚推出一個月，都有可能影響自己的股價。既然GPT1和GPT2和已經開源，那么在已有的模型基礎之上來建立自己的大模型產品，是既合法也經濟的選擇。

　　作者|程怡小船楊知潮

　　來源|略大參考

　　當科技圈討論AI大模型，他們在思考什么？

　　阿里巴巴董事局主席張勇說，所有產品都值得用AI重做一遍。李彥宏說，百度同學要有意識的培養AI原生應用的思維方式和理念，用新理念重構現在的每個產品，每個業務。周鴻祎說360鼓勵每一位員工、每個產品和業務都要全面擁抱人工智能，適應人機協作，著手產品重塑。

　　凡此種種的表態，無一不在透露一種思考：AI大模型是技術浪潮，也會是產品思維方式的浪潮，它會推動人工智能時代出行跟互聯網、移動互聯網時代，不同的思考模式和產品形式。

　　處于巨變前夜，科大訊飛表態在10月底，新發布的星火大模型會追上ChatGPT的發言，就沒有那么激動人心。一方面，說今年能追趕上的人太多了。另一方面ChatGPT的價值不僅僅是OpenAI基于GPT大模型，打造出來的一款成功產品。借用周鴻祎的話說，ChatGPT讓人工智能變成了一項云服務。

　　百度的文心大模型發布之后，飽受非議，并不耽誤百度宣傳“百度云是國內第一個訓練出大模型的云”。前陣子，阿里云毫不留情，啟動史上最大規模降價搶占市場，存儲業務最高降幅50%。因為投資OpenAI成為生成式AI贏家的微軟，多筆對OpenAI的投資，都是以云服務消費券的方式提供現金+云服務的投資形式。

　　在人工智能同各行業、多應用場景結合帶來的大數據爆發階段，科技企業們一邊走在探索AI重構產品形態的道路，一邊用云技術作為底層技術基礎，存儲和分析海量，挖掘服務收入，對沖探索成本。即便是作為“AI后輩”的商湯，也搭建出來算力中心的商業模型，想做人工智能行業的“水電煤”。

　　在告別營收連續10年增長的業績之后，科大訊飛借用生成式AI的新“舊瓶”，卻裝進一個客戶、一個應用場景的技術落地之路的“舊模式”，辛苦當搬水工，商業模式看起來就沒有那么性感了。

　　科大訊飛要去追趕ChatGPT，但對押注AI的互聯網企業來說，它們想追趕的是微軟。

　　重新定義自研

　　自從大洋彼岸的OpenAI于2022年11月推出ChatGPT后，一場波及全球科技的“海嘯”就此爆發。在國內大模型扎堆的上半年，中國幾乎所有的知名的科技企業，都發布了類ChatGPT的“AI大模型”。

　　科大訊飛并非沖在第一陣線的排頭兵。盡管有十余年對于認知智能相關的研究和計劃，擁有“人工智能國家隊”的美名，訊飛的認知大模型成果發布會直到5月6日才姍姍來遲。而在其4月17日對于發布會的官宣公告中，有一句頗為保守的補充說明——“公司尚不能預測相關技術及應用對2023年度銷售收入和經營業績的提升影響”。

　　但5月6日的發布會上基調定得很高，圍繞訊飛星火認知大模型，科大訊飛董事長劉慶峰和訊飛研究院院長劉聰，一同在現場進行了1個小時左右的實時演示，展示星火在語言理解、知識問答、邏輯推理，數學、代碼及多模態等方面的能力。

　　科大訊飛方面表示，訊飛星火在長文本生成、數學能力和泛領域開放式知識問答三大能力已超ChatGPT。在 2023 年內預計還會進行三次升級，分批次增強數學能力、補足代碼能力，希望最終將在10月24日全球開發者大會期間，能夠全面對標 ChatGPT，在中文上要超越 ChatGPT。

　　官方的“王婆賣瓜”是一碼事，星火大模型在用戶端的實際使用情況如何呢？

　　5月9日晚，一段關于訊飛星火的群聊記錄在各個群廣為流傳，一張截圖顯示，得到內測資格的提問者問道星火提供的API接口是OpenAI的？星火大模型回答道，“是的，我是由OpenAI開發的”。緊跟截圖后面，是群內的議論，指向星火大模型疑似套殼OpenAI？

　　當然，孩童也會說自己是奧特曼。今天的AI還處在幼兒期，星火大模型說自己來自OpenAI，就一定來自OpenAI嗎？

　　答案是不一定。西安交通大學AI學院的浩儒博士告訴“略大參考”，大模型還是靠函數擬合，沒有真正的自我認知，他們不知道自己是誰，很可能在哪個網站上學習過這句話就說了出來。

　　但是他認為，星火大模型也有可能是“借鑒”了GPT。浩儒博士表示：“模型都是經過預訓練的，相當于硬盤出廠的時候里面就有資料，如果你把GPT開源的模型直接拿過來用，就可能會一塊學習到GPT的語料，造成這種烏龍事件?！?/p>

　　類似的事件在國內AI行業不是第一次發生，早在星火大模型推出之前，也有用戶發現百度的文心一言的繪圖疑似為漢譯英后再繪制，有使用國外框架的嫌疑。

　　浩儒博士透露，把別人開源的模型拿過來直接用，在自然語言處理科研領域是很常見的的做法：“高校不可能都從頭開始訓練”。對企業來說也是如此，目前互聯網公司和AI公司都在大模型上較勁，晚推出一個月，都有可能影響自己的股價。既然GPT1和GPT2和已經開源，那么在已有的模型基礎之上來建立自己的大模型產品，是既合法也經濟的選擇。

　　市場端的及時反應則是，科大訊飛成為5月10日北向資金凈賣出7只個股中金額最多的一只，收盤價65.45元，凈賣出4.377億元。

　　增長神話終結

　　如果“借鑒”了GPT，那還算是原創的大模型嗎？這可能是個哲學問題。浩儒博士表示。語言大模型是混沌系統，運行原理都是未知的，構成更是根本說不清楚：“就像忒休斯的船，即使你用了別人的骨干，也很難說不斷學習后的大模型還是不是之前的大模型?！?/p>

　　一個月前，商湯在交流日上也曾因為號稱完全自研的文生圖創作平臺“秒畫SenseMirage”在精選模型中出現AI模型站civitai的圖片引發廣泛質疑。商湯方面的解釋是：秒畫SenseMirage包含商湯自研AIGC大模型，也提供第三方社區開源模型。

　　就像此前的發布會慣例一樣，國內的AI大模型發布會不單是為了炫技，主要是用來“賣”的。訊飛星火將在教育、辦公、汽車、數字員工四個領域的尋找應用方向，與訊飛旗下教育產品AI學習機以及辦公產品訊飛聽見相結合，尋找落地場景。處于審慎考慮，稍晚時刻，科大訊飛會推出面向醫療場景的服務。

　　近兩年，人工智能技術發生了方向性的改變，用李彥宏的話說：從辨別式的人工智能走向生成式的人工智能，AIGC成為新方向。

　　科大訊飛是“辨別式”人工智能時代，很早一批從事人工智能研究的企業，幾乎跟BAT是同一時期創立的，2008年已在深交所上市。前身歷史甚至更悠久，是80年代中國科技大學的電子工程系人機語音通信實驗室。

　　不過，很長時間科大訊飛以to B端服務商的身份，蟄居在客戶身后。2016年，羅永浩在錘子M1手機新品發布會上的一番“胡說八道”帶火了科大訊飛。

　　羅永浩在發布會現場，展示一段沒有經過編排，只是一些生活瑣事，且語速較快的“口水話”，結果訊飛輸入法在羅永浩結束語音輸入的瞬間，幾乎是秒將語音轉換成文字，而且完全正確。現場響起了哇的驚呼，和長達23秒的掌聲。

　　錘子的新品發布會，結果訊飛輸入法“炸”了，一炮而紅，市值和產品下載量雙雙暴增。

　　在人工智能時代以檢測和識別為主要應用的階段，科大訊飛在語音識別領域，將業務伸向眾多應用場景，形成了 ToB + ToC + ToG 的三駕馬車。收入也水漲船高，從過連續10年業績增長的神話，增長幅度較少的年份，增速都接近30%。

　　然而，AI技術不斷更迭，在深度神經網絡及云計算、大模型的演進過程中，理解、推理邏輯為基礎的生成式AI，成為新趨勢，AI技術的迭代路徑，已不在科大訊飛的優勢區域了。

　　反映在財報上，便是連續 10 年的業績增長神話終結。財報顯示，2022 年科大訊飛實現營收188.2 億元，同比僅增長2.77%；歸母凈利潤5.61 億元，同比下滑 63.94%。

　　這是近五年來科大訊飛凈利潤的首次下滑。

　　商業模式之戰

　　最近幾個月大半個科技圈為AI大模型沸騰。

　　2月份出門問問的創始人李志飛到硅谷轉了一圈，想搞懂什么是大模型。見了幾位谷歌科學家，了解一圈信息后，回國在源碼資本的分享會上跟王興、王慧文等創業者分享，結果分享出一位競爭對手：王慧文雖然不懂，但大受震撼，激動的要自帶資金，肉身入股，加入到AI大模型的科技浪潮。

　　其他人也沒閑著，紛紛從功成名就的幕后，走向臺前，李開復、王小川要組建團隊。退休后的張一鳴，沒有公開表態，也在悄咪咪的準備，挑燈夜讀學習OpenAI的論文。

　　今年以來市場隔三差五有一款大模型產品問世，華為盤古，昆侖萬維天工。市場涌向大模型的熱烈氛圍被形容為蹭熱點的多，技術能打的少。

　　國內人工智能企業，似乎形成一種共識，構建起關鍵性門檻的并不是技術和算法環節，比拼的關鍵在于吸引客戶的能力。李志飛對此有過形象表述：“90%以上的技術都沒有獨門武器，更多是一個門票?！?/p>

　　劉慶峰相信人工智能拼場景的商業模式，他曾說。“人工智能改變世界，需要在一個又一個的領域進行應用的創新”。星火大模型發布后，他亦說道“誰能夠在具備社會剛需的應用場景落地，誰就最先能形成自我造血的良性循環?！?/p>

　　在應用落地上，國內AI公司的發展速度比硅谷快10倍?？拼笥嶏w自去年12月15日正式啟動“1+N”認知大模型專項攻關，其中“1”就是指通用認知智能大模型，“N”就是大模型在教育、辦公、汽車、人機交互等各個領域的落地。

　　只是，國內無論哪家企業發布AI大模型產品，幾乎都是卷進相同的應用場景。但一家技術型公司要一下子摸透各種細分行業的門道，并不現實。

　　技術不行，有時候就得靠技巧來湊?？拼笥嶏w曾被爆出了人工翻譯冒充AI的造假丑聞。在2018創新與新興產業發展國際會議（IEID）的高端裝備技術與產業分會上，科大訊飛稱為現場提供了AI同聲傳譯。

　　但事后，那場會議的同聲傳譯員卻在知乎上曝光，整場會議的翻譯都是由人員提供的，他甚至還提供了視頻證據，視頻顯示，AI同傳的語音幾乎都是在復讀一位女翻譯員的翻譯?？拼笥嶏w事后回應，“個別同傳譯員對于科大訊飛存在誤解，我們認為僅僅是對會議服務方面的分工溝通了解不清?！笨拼笥嶏w只是將同傳的“語音”轉成“文字”。

　　科大訊飛的短板在于，面向C端它沒有一款國民級的應用，同樣是辦公場景，釘釘接入阿里的通義千問，通過輸入斜杠 “/”，可喚起 10 余項 AI 能力；字節跳動旗下的飛書也將上線 AI 助手 “My AI”，它們的人工智能技術可以跟現有的產品做結合。

　　面向B端，結合客戶的需求，做應用場景的數據、算法。服務用戶的成本，難以分攤的。傳統的語音識別賽道，增速放緩，做toG業務，需要考慮漫長的回款周期，現金流承壓。

　　好在，科大訊飛能得到政府支持，2022年計入當期損益的政府補助金額甚至升到了 10 億元，它一年凈利潤也不過才5.61億元。

　　但拿到這些支持的科大訊飛老實發展技術了嗎？由于是高科技企業，科大訊飛能夠獲得許多政策上的支持，2018年，央視曝光了科大訊飛的投機套路：以建設培訓基地為名換取園區類土地，再通過買賣地皮套現。

　　2021年，科大訊飛董事長劉慶峰曾豪言，提出“2025年千億營收目標，構建萬億生態”的承諾。按照現在目標進度，還沒有完成20%。它試圖通過擁抱多元化，發展橫跨機器人、教育、醫療、城市運營、房地產、消費、汽車、金融等多個條線的“一攬子”應用場景落地計劃，更像是為了達到營收目標的“饑不擇食”。