股市瞬息萬變,投資難以決策?來#A股參謀部#超話聊一聊,[點擊進入]
9月3日,2021中國智能產業論壇在北京首鋼園舉行,本次論壇為服貿會論壇活動之一,主題為“智能時代 引領未來”。北京愛數智慧創始人兼CEO,聲學博士張晴晴出席并發表演講。
張晴晴在演講中表示,人工智能領域多模態標注平臺推動AI數據服務發展。大家知道人工智能有三架馬車。對于多模態的定義是什么,其實可以看到過去很多的數據是以結構化的方式存在的,而現在隨著物聯網的到來,有線下許多非結構化的數據,包括音頻、視頻還包括手寫體等等要錄入到系統,跟系統交互起來,有非常重要的環節,就是系統能對非結構化的數據進行結構化的處理和整合,最后才能夠用于模型預測。
愛數智慧就是針對這樣的一些多模態的數據對現實生活中的一些音視頻數據進行相應處理,幫助所有的人工智能正在進行研發的這些算法或者企業去不斷優化他們的AI模型。
張晴晴介紹稱,愛數智慧成立于2016年,到現在五年時間,在這五時間里服務全球100多家AI頭部企業。公司客戶群體分七大類,首先有國內的互聯網型公司,也是AI領頭企業,同時還有海外客戶,包括一些芯片廠商,包括像高通英韋達,還有社交客戶,還有銀行。家居也是互聯網這個范疇里,也在服務頭部企業。前三大產品是AI訓練數據集,所有做AI領域的人都知道AI需要有數據集驅動,愛數智慧在一些場景特別是日常應用的情況下去幫助客戶定向收集相應數據,快速迭代針對性優化模型,這是愛數智慧的產品。第二個是數據處理的工具,其實模型在不斷演進和迭代的過程中,總是要靠線上數據不斷滾動,而這些線上數據也是要靠數據的清洗和標簽化的工具完成,而目前推出的Annotator是公司5年智能化標注平臺。第三個,愛數智慧也提供相應的數據采集和標簽化的服務。
談及愛數智慧的標簽化系統,張晴晴表示,首先看到數據從物聯網的時代到來,現實生活中有非常多的非結構化的數據需要去處理,所有處理的過程都定義為數據標注,數據標簽化的過程,這個部分主要的構成有圖象的數據處理、音頻的數據處理以及自然語言文本的數據處理。在標簽化過程中處理數據的時候發現有一些痛點,包括多模態的數據處理的復雜度,以及人員適配性,以及處理過程中希望通過技術降本增效,盡可能提高人處理效能的提升。今年愛數智慧發布落Annotator系統,首先支持多模態標注,音視頻的標注,任務可以拆分,比如過程中會有數據的流水線的操作,以及數據標簽質檢驗收環節都可以在平臺上完成。過程中進行可視化管理,最后通過智能化輔助實現降本增效,快速完成標簽的標注。
這個是通過音頻實現標簽化的標注,包括工業的噪聲檢測,像噪聲的數據也可以在平臺上進行相應的標簽化。這部分是針對文本的標簽化的平臺,在這個標簽化的平臺上可以用以處理像大家知道的知識圖譜關聯管理知識圖譜,幫助大家自然語言快速的迭代。
對于音視頻多模態標注平臺,張晴晴稱,主要用算法理念幫助音視頻做一個高維的標簽化,甚至超過千維的標簽,實現精準的分發。
在這個過程中可以實現整個任務的拆解和流水,實現標注質監驗收的步驟,而平臺中也可以對于過程中的情況實現可視化的管理。這部分是底層技術,包括語音識別技術、聲紋識別技術等等,可以幫助快速識別過程,幫助他們快速完成標簽化的動作。目前看到使用愛數智慧標簽化的系統Annotator比起同類型的標簽化的系統來講,愛數智慧的綜合成本降低50%,效率提升百分之百,一鍵部署,也是易于運維的狀態。
新浪聲明:所有會議實錄均為現場速記整理,未經演講者審閱,新浪網登載此文出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其描述。
責任編輯:鄧健
APP專享直播
熱門推薦
收起24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)