北京金控集團董事長范文仲:我國人工智能發展需要突破訓練數據和算力兩大瓶頸

北京金控集團董事長范文仲:我國人工智能發展需要突破訓練數據和算力兩大瓶頸
2024年03月29日 17:07 北青網

  文/記者 程婕

  3月29日下午,2024北京AI原生產業創新大會暨北京數據基礎制度先行區成果發布會在亦莊舉辦。北京金控集團董事長、北京國際大數據交易所(以下簡稱“北數所”)董事長范文仲在發布會上發言指出,當前,我國人工智能的發展需要突破兩大瓶頸問題,一是缺乏高質量的訓練數據,二是缺乏滿足智能運算要求的算力。

  他表示,從數據來看,人工智能大模型的訓練越來越依賴高質量數據集的提供。企業要發展人工智能技術,往往缺乏數量足夠大、合法合規、可用度高、成本適宜的多模態數據集。目前訓練數據集涉及的知識產權合規性問題是一大難點。人工智能模型訓練所用的部分數據,例如書籍、期刊、論文等,可能存在知識產權爭議。范文仲建議政府出臺法規,鼓勵敏感的大模型數據進場交易,使用避風港原則和發展人工智能訓練保險產品,不斷降低人工智能模型訓練的合規風險。

  從算力來看,算力作為數字經濟時代的基礎支撐和新型生產力,賦能作用日漸凸顯。然而,我國算力市場發展面臨著高質量算力資源不足且分散、算力資源供需錯配時有發生、算力投入遠超中小企業承受范圍等問題。

  對此,范文仲建議,一是大力發展聚合計算先進技術,科學組合不同類型的算力單元,實現計算密度、性能和效率的大幅提升。二是打造統一的算力交易和調度平臺,智能統籌調度周邊城市各類算力資源,為中小人工智能企業訓練大模型提供價格低廉的普惠算力。

  據介紹,本次大會發布了第一批人工智能大模型高質量訓練數據集。該數據集是北數所聯合北京人工智能產業聯盟共同征集的,包括中科院大氣物理所、北京科學技術研究院、中國知網、中汽智聯、北方健康、中文在線、中國搜索、牡丹集團等36家機構及企業提供的大模型語料訓練數據,共同為先行區人工智能訓練場示范基地建立模型訓練語料資源庫。

  首批發布的數據集覆蓋科技創新、金融服務、醫療健康、醫藥研發、自動駕駛、氣象服務、商業航天、影視創作等20多個應用場景,共計100余個語料數據,數據總量逾150PB,涵蓋了專業知識問答、古今文化書籍、互聯網輿情資訊、多語種音視頻、教學資源題庫、科研數據、高清圖片等多領域、多模態的數據語料。

  在算力方面,北數所已建設了算力交易專區,上線了東數西算算力服務平臺和北京算力交易統一系統,致力于為全國各行業智算、超算、通用算力等各類算力產品提供算力發現、供需撮合、交易購買、調度使用等于一體的、穩定可信的綜合服務平臺。北數所還積極爭取各級政府財政專項資金支持,通過北數所進場交易的算力,將會獲得適度的資金獎勵和補貼,進一步降低企業算力和數據的使用成本,涵養和培育持久的數據和算力流通生態,讓小公司也能做大模型。

  作為運營單位之一,北數所參與了北京數據基礎制度先行區人工智能數據訓練基地建設工作,發揮數據資源優勢和專業優勢,結合人工智能、醫療健康、自動駕駛、智能制造、金融、文旅、教育等實際應用場景,匯聚和儲備大模型訓練所需的高質量語料集,通過在可信數據空間打造集數據托管-數據標注-數據訓練-數據交易于一體的數據可信流通體系,為人工智能大模型訓練提供合規高效、安全有序的數據支撐。

海量資訊、精準解讀,盡在新浪財經APP

責任編輯:劉天行

北京金控

VIP課程推薦

加載中...

APP專享直播

1/10

熱門推薦

收起
新浪財經公眾號
新浪財經公眾號

24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)

股市直播

  • 圖文直播間
  • 視頻直播間

7X24小時

  • 04-01 宏鑫科技 301539 10.64
  • 03-29 燦芯股份 688691 19.86
  • 03-27 無錫鼎邦 872931 6.2
  • 03-25 中瑞股份 301587 21.73
  • 03-22 廣合科技 001389 17.43
  • 新浪首頁 語音播報 相關新聞 返回頂部