“復旦·眸思”助力視障者“看見”世界

“復旦·眸思”助力視障者“看見”世界
2024年03月03日 10:12 媒體滾動

“眸思”與復旦自然語言處理實驗室開發的MOSS同音,但和基于文本的MOSS不同,它能夠理解并識別圖片內容,致力于成為視障者的一雙“眸”。

團隊從基于GPT3.5的文本模型轉向圍繞GPT4-v復現多模態大模型,對模型中的核心關鍵點開展研究,致力于提升單項任務的準確率和大模型的強化學習。在基于幾億張圖片訓練出的“眸思”大模型基礎上,針對視障者提出的各類需求,團隊使用上萬張圖片進行特殊樣本訓練,使“眸思”具備能夠適配更多場景的能力。

據了解,基于“眸思”的“聽見世界”APP針對視障者日常生活需求,設計了3種模式:街道行走模式,“眸思”可以細致掃描道路情況并提示潛在風險,陪伴視障者安全通行;自由問答模式,不論是博物館、藝術館,還是公園,“眸思”能夠捕捉四周景象的每個細節,用聲音構建豐富的生活場景。

預計今年3月,“聽見世界”APP將完成第一輪測試,在我國一、二線城市和地區同步開啟試點,根據算力部署情況進行推廣。更多模式也正在開發中,比如閱讀模式,服務盲人朋友點菜、讀書等場景,解說模式,承擔無障礙電影解說員的工作。

今年上半年,團隊將結合AR升級APP內的定位精度細化至亞米級別;下半年,團隊希望將“眸思”升級到基于視頻的判斷。復旦大學自然語言實驗室教授張奇表示:“人工智能發展日新月異,科技應該要改變更多人的生活,希望‘眸思’能夠幫助視障人士走出家門,讓他們可以嘗試更多工作,為人生書寫更多可能。”

復旦大學
新浪科技公眾號
新浪科技公眾號

“掌”握科技鮮聞 (微信搜索techsina或掃描左側二維碼關注)

創事記

科學探索

科學大家

蘋果匯

眾測

專題

官方微博

新浪科技 新浪數碼 新浪手機 科學探索 蘋果匯 新浪眾測

公眾號

新浪科技

新浪科技為你帶來最新鮮的科技資訊

蘋果匯

蘋果匯為你帶來最新鮮的蘋果產品新聞

新浪眾測

新酷產品第一時間免費試玩

新浪探索

提供最新的科學家新聞,精彩的震撼圖片