陳運文:達觀“曹植”大模型發展動態

陳運文:達觀“曹植”大模型發展動態
2023年09月15日 14:39 市場資訊

  2023中國AIGC創新發展論壇于2023年9月4日在北京召開,達觀數據董事長兼CEO陳運文出席并新品發布。

  以下為演講實錄:

  大家好,很高興今天下午來到現場跟大家分享達觀大語言模型以及我們曹植大模型的發展動態。

  我們達觀也是一家專門從事文檔資料自動化處理的公司,經過幾年發展已經成為行業的領軍企業。我們主要的工作就是圍繞怎么樣用AI技術去處理我們日常各個垂直領域的專業文檔資料數據工作。日常工作中不管是寫非常垂直行業的方案還是回答問題還是審核材料還是翻譯內容等等,和日常白領專業工作息息相關的,都是達觀所從事的。所以我們從事能讓AI技術自動化完成文檔資料自動化處理工作的,這是我們的老本行,做智能文本處理相關工作。

  其實文檔處理工作相當難,因為我自己從事這個領域的研發工作很多年,人看文檔是很快的,可以很快捕捉到內容,讓AI看這個文檔,必須要有很好的技術讓AI對文檔進行庖丁解牛的工作,基本上要把文檔里的各種版面、位置、圖、表格都要做一個解析,才能很好完成這個文檔的解析工作,所以我們開發了很多的獨特的技術,進行復雜的文檔版面的理解和配置工作。

  今天扔進去一個文檔讓處理的時候,可以很好對它的章章節結果解析,對表格進行自動化結構工作,比如這里有各種各樣的復雜的表格,可以讓計算機有計算機視覺和自然語言相結合的進行語義的處理工作。在語義分析的各個環節里面,一個文檔進去中間讓計算機一步一步處理,我們做了很多原創性的工作,過去幾年一步一個腳印在成長。同時積極聯合各大高校和達觀和產學研合作,一直在前進當中。

  經過幾年發展達觀能夠正式發布“曹植”的大語言模型。大家都知道曹植有一個古代的典故七步城市,今天達觀的大語言模型也試圖像“曹植”一樣能才高八斗,能對文檔進行非常準確的清晰的挖掘工作。尤其曹植在古代文人里是寫長文檔最好的,我們知道唐詩宋詞篇幅很短,但是《洛神賦》接近一千字,在古代的文檔很長。我們的大語言文本特別擅長做長文本的處理工作,大家日常工作中的各種標書各種的負責大文檔都特別適合用“曹植”大模型去完成。另外支持垂直和多語言的支持工作,在過去訓練大模型的過程中,我們積累了很好的經驗,今天也跟大家分享一下。

  首先訓練我們的模型,我們使用一個混合語料技術,其中一半采用通用的語料,各行各業都包括。另外一半是垂直行業的專業語料,兩個合在一起形成一個通用的基礎能力和專業能力兩者相結合的模式。在模型實際落地過程中我們使用一個創新的技術叫多模型并聯架構的技術,比如規模特別大的模型在垂直領域應用的時候精調的效率非常低,達到特定好的效果需要代價非常大。參數規模比較小的模型,相對來說比較靈活,但是泛化能力比較弱,所以相結合是比較好的方式。另外發現,在各行各業很多非常專業的行業規則和知識圖譜,把這些行業規則和知識圖譜結合在一起可以讓大模型在垂直領域更專業更好用,更加精準處理專業問題,也可以很好地抑制大模型的泛在問題。

  這個模型已經可以在文本的自動寫作、自動審核、自動閱讀等等領域發揮很好的作用。大家看這邊有作一個對比,如果讓AI技術自動去完成相關的工作,結合大數據的自然語言處理、文本挖掘等等技術,融合在一起可以非常好模擬一個白領完成日常的工作。左邊是一個白領完成日常的操作工作,右邊是我們的“曹植”大模型去完成同樣的工作。大家看在同樣時間里面“曹植”可以做得比我們人類白領更快更準更高效。這些我覺得隨著人工智能大模型技術的發展,會有越來越多的很繁瑣人的工作事項可以交給人工智能系統自動去完成。自動審核材料、自動填報材料,自動完成工作,效率比人類有幾十倍的提升。

  這背后是達觀引以為傲的“曹植”大語言模型,這個模型專門處理文檔資料尤其是長文本的文檔資料,這些文檔資料包含復雜的結構,而且還有非常多垂直領域的專業知識,讓計算機自動完成專業的文檔資料報告閱讀理解分析相關工作,就可以來做很多各行各業非常專業人的工作。比如文檔審核、比對、分析、挖掘等等工作,而這些工作跟很多的垂直行業密切相關,是我們針對垂直行業專業的知識問答的相關工作。這里面還涉及到比如印章、簽名等等都需要讓AI理解、分析并且能夠應答。這是專業的報告解讀,而且能做到圖文并茂的解讀,這些都是由AI生成的。

  這些是達觀“曹植”大模型文本處理相關技術。

  在后臺我們最近也為我們的客戶開發了我們稱為KMS知識管理的大模型產品。我們發現很多企業對文檔資源有效匯總分析整理工作,我們大模型在企業落地的時候首先要為企業開發一整套的智能知識管理系統,所以我們在行業里開發了智能知識管理系統,底側是我們的基座,上層是給客戶開發的知識搜索、社區等等一整套的系統,一個企業把他的知識管理起來,才能更好地位企業將來的賦能做工作。

  未來為每個企業開發知識庫打造企業的知識大腦,還和客戶相關產品相打通,比如現在和WPS、Office打通,開發了相應的插件,可以把我們的“曹植”大模型和客戶員工的工作相結合,自動化幫員工完成排版、寫作、審核、分析等等工作,這些工作可以非常好地為我們的客戶每一位員工提高日常的工作效率。

  今天“曹植”大模型在垂直化、長文本、多語言方面已經做出非常多的成功應用。大家看到在我們公司的官網上面已經可以申請試用各種專業報告的寫作能力,這些能力我們相信未來會在各行各業里落地應用起來,發揮作用。

  這些是我們的一些今天可以使用的專業領域的報告寫作工作,比如大家可以看我們的報告是分步驟來寫作的,首先要根據標題生成大綱,再根據大綱生成全文,并且能圖文并茂生成文章里的很多的章節、目錄、配圖、表格等多模態的內容,可以非常好地幫助我們的可取完成日常工作。今天AIGC的能力,在垂直領域我們和各行各業的合作伙伴共同開發非常有效的產品,爭取讓這些產品為各行各業賦能,包括多語種的支持,今天我們的模型在除中文以外其他的語言處理上長文本的能力也非常強大。這是“曹植”大模型的各種各樣的應用系統,我們的研發團隊在扎扎實實一點一滴開發各種的算法。

  我們達觀求賢若渴,今年招聘了非常多的年輕的優秀的工程師,加入我們達觀,和我們一起把優秀的大語言模型應用落地。我們相信未來的生態定上游的算力、數據等生產資料和達觀為代表的通用大模型和垂直大模型和中游相結合,應用到下游各行各業去,是未來的產業鏈,這是未來的方向。

  未來希望我們的辦公形態,在達觀的長文本數據系統里將有豐富淋漓的展示,未來會有很多的黑燈辦公室出現,會有很多的自動化的技術出現走進千行百業,為他們賦能。

  總結一下,達觀我們相信智能文本處理技術未來會有很大的發展,左邊放的圖是宋代的畢昇是活字印刷術,今天的達觀的“曹植”大模型像活字印刷術一樣,我們希望這個技術能為各行各業賦能,為AIGC創造價值,謝謝大家。

海量資訊、精準解讀,盡在新浪財經APP

責任編輯:梁斌 SF055

VIP課程推薦

加載中...

APP專享直播

1/10

熱門推薦

收起
新浪財經公眾號
新浪財經公眾號

24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)

股市直播

  • 圖文直播間
  • 視頻直播間

7X24小時

  • 09-22 中集環科 301559 --
  • 09-21 浩辰軟件 688657 --
  • 09-19 三態股份 301558 --
  • 09-18 愛科賽博 688719 69.98
  • 09-14 恒興新材 603276 25.73
  • 新浪首頁 語音播報 相關新聞 返回頂部