來自“?知識圖譜標準化”
本文件給出了知識圖譜的技術框架中知識圖譜供應方、知識圖譜集成方、知識圖譜用戶、知識圖?譜生態合作伙伴的主要活動、任務組成和質量一般性能等。本文件適用于知識圖譜及其應用系統的構建、應用、實施與維護。
本文件給出了知識圖譜的技術框架中知識圖譜供應方、知識圖譜集成方、知識圖譜用戶、知識圖 譜生態合作伙伴的主要活動、任務組成和質量一般性能等。本文件適用于知識圖譜及其應用系統的構建、應用、實施與維護。
目的意義
當前,人工智能發展進入新階段,其迅速發展正在深刻改變人類社會生活、 改變世界,成為國際競爭的新焦點和經濟發展的新引擎。其中,如何從海量數據 中獲取有用的信息是人工智能關注的一個重要問題。知識圖譜技術提供了一種從 海量文本和圖像等數據中抽取結構化知識的手段,是搜索引擎、問答系統等應用 的核心技術。在國務院發布的《新一代人工智能發展規劃》中明確指出要發展“知 識計算引擎和知識服務技術”,重點突破知識加工、深度搜索和可視交互核心技術,實現對知識持續增量的自動獲取,具備概念識別、實體發現、屬性預測、知 識演化建模和關系挖掘能力,形成涵蓋數十億實體規模的多源、多學科和多數據 類型的跨媒體知識圖譜。知識圖譜技術提供了一種從海量文本和圖像等數據中抽 取結構化知識的手段,是搜索引擎、問答系統等應用的核心技術,并在金融證券、 生物醫療、交通、教育、農業、電信、電商、出版等行業已有非常豐富的應用場 景。但是,目前還缺少一套規范化的知識圖譜技術框架指導相關企業,特別是中 小型企業和創業公司有效開展技術研發,同時與其他行業的現有系統之間實現互 聯互通和信息融合。存在的問題如下:
1)知識圖譜相關核心術語定義缺失,各方使用術語混雜、內容不明確、體 系不統一;2)知識圖譜構成描述不統一、不明確,內容劃分混亂;
3)知識圖譜構建技術路徑及主要組成活動間關系不明確;?
4)知識圖譜應用系統架構不統一,核心模塊定義缺失;
5)知識圖譜應用系統集成與部署路徑及主要組成活動間關系不明確。
本文件在編制過程中,通過參考大量已經發布的國內外標準,并廣泛聽取產 學研用相關單位的意見和建議,結合知識圖譜技術水平和應用現狀,對知識圖譜 供應方、知識圖譜集成方、知識圖譜用戶、知識圖譜生態合作伙伴等利益相關方 劃分進行明確,提出了各利益相關方的輸入輸出關系和主要活動構成等。
范圍和主要技術內容
本標準規定了知識圖譜的框架,包括知識圖譜的輸入要求,知識圖譜的建立過程,即知識圖譜的提取、存儲、挖掘與推斷、性能指標、知識圖譜的應用、相關領域、知識圖譜涉及的人工智能技術以及其他需要的數字基礎設施。?本標準的目標使用者包括:任意類型與規模的企業,包括應用或實施知識圖譜系統的公有和民營企業、政府主管部門、非營利組織等。?本標準的主要技術內容包括:知識圖譜架構、輸入要求、場景定義、性能指標、構建知識圖譜所需的人工智能技術和數字基礎設施等。
產業化情況、推廣應用論證和預期達到的經濟效果
知識圖譜作為機器認知智能實現的基礎之一,是人工智能的重要組成部分, 有助于實現自動化和智能化獲取、挖掘和應用知識,獲得了產業界和學術界的廣 泛關注。知識圖譜是以結構化的形式描述客觀世界中的概念、實體及其關系的大 型知識網絡,將信息表達成更接近人類認知的形式,提供了一種更好地組織、管 理和理解海量信息的能力。在政策部署、技術研發、標準研制、產業化推廣、前 沿應用場景試點等多方面因素的共同驅動下,知識圖譜逐漸實現在智慧金融、智 慧醫療、智慧能源、智能制造等眾多領域的落地應用和深度融合,同時在各行業 的數字化轉型過程中,跨領域、行業或產業的知識圖譜也逐漸獲得關注。
在上述背景下,本標準對目前知識圖譜應用比較好的金融證券、生物醫療、 交通、教育、農業、電信、電商、出版等行業的應用過程特點、需求、主要問題 和未來趨勢進行了歸納總結。制定本標準有助于不同類型的企業基于規范化的實 施路徑進行知識圖譜應用的開發。同時,該標準還有利于給知識圖譜研發企業提 供數字化基礎設施支持的人員,如云平臺研發人員,信息安全工程師等理解知識 圖譜,從而提供更有效的技術支持。不同行業的應用企業和人員也可通過這一框 架提取出更多類型的知識,產生更多可能的應用場景。此外,本標準的研制對推 動企業進行知識驅動的數字化轉型升級具有重要意義,為進一步加快知識要素的 規劃化獲取、挖掘、應用與流通奠定了基礎。
知識圖譜概念模型
知識圖譜的概念模型可劃分為本體層和實例層,如圖1所示。其中,本體層由實體類型和其屬性、 實體類型間關系類型、規則等本體相關知識元素構成;實例層是對本體層的實例化,由實體類型對應 的實體及其屬性以及實體間關系等實體相關知識元素構成。?圖1示出的知識圖譜概念模式的主體是實體。實體是真實對象的抽象,實體類型是某類實體的進一 步抽象。基于不同層次的抽象,圖中的本體層和與實例層是相對的。構建某個知識領域的某個層次的 特定知識圖譜時,“實體”這個抽象稱呼將使用所關注的特定對象的具體名稱取代。圖中名為“屬性” 的兩個方框是分別針對本體層的所有實體類型和實例層的所有實體。本體層的“屬性”是指對應實體 類型的屬性,各個屬性是概括性描述;實體層的“屬性”是指對應實體的屬性,是某實體類型實例的 屬性的具體描述。同時,多個實體和關系的組合可以構成新的復雜實體,如:由時間、人物、地點等 要素構成的事件,由不同模塊構成的產品等。
知識圖譜技術框架
圖2示出從構建到使用知識圖譜涉及的各類技術活動的框架,簡稱技術框架。這些活動歸納為知識 圖譜的構建、基于知識圖譜的產品或服務的開發、知識圖譜的使用、以及面向知識圖譜開發和使用的 輔助支持四大類。
圖2示出的四大類知識圖譜相關活動簡述如下:?
a) 知識圖譜的構建:此組活動主要包括知識表示、知識建模、知識獲取等活動。其主要目標是構 建出所需的知識圖譜,同時開發出相應的基礎工具和/或服務。此組活動的主要依據是知識圖 譜應用需求和質量要求;往往需要行業知識、業務數據、輔助知識等予以支持。?
b) 基于知識圖譜的產品或服務開發:此組活動主要包括需求分析、系統設計、知識圖譜集成等活 動。這些活動的執行基于上述a)描述的活動構建的知識圖譜和相應的知識圖譜應用需求等完成 知識圖譜應用系統的開發和集成,并提供配套的產品或服務。?
c) 知識圖譜的使用:此組活動主要包括知識應用、知識維護、知識提供等活動。這些活動的執行 基于上述b)描述的活動產生的知識圖譜應用系統或服務。通過這些活動完成知識的使用和維護, 并對外提供必要的知識。?
d) 知識圖譜開發和使用的支持:此組活動主要包括基礎設施提供、數據提供、安全保障、咨詢評 估等。它們對上述a)、b)和c)描述的活動的執行提供必要支持,例如:提供輔助數據或知識、 支撐技術或服務等。
上述四大類活動分別主要由以下四類參與者執行:?
1) 知識圖譜供應方:主要執行知識圖譜的構建和提供活動;?
2) 知識圖譜集成方:主要執行基于知識圖譜的工具或服務開發和集成活動;
3) 知識圖譜用戶:主要執行知識圖譜的使用活動;?
4) 知識圖譜生態系統合作伙伴:主要執行知識圖譜開發和使用的支持活動。每類參與者有其主要執行的活動,同時可能執行涉及四大類活動中的多項活動,知識圖譜利益相 關方構成及其關系見附錄A。
(聲明:本文僅代表作者觀點,不代表新浪網立場。)