個人養老金正式實施,36個城市試點,23家銀行可以開戶,您會參與嗎?40家基金公司的129只產品,您中意哪只?歡迎參與調查! [點擊進入活動頁面]
來源:北京商報
“互聯網+醫療”大數據可以為防疫提供參考嗎?近日,隨著疫情防控措施持續優化,關于各地疫情峰值的大V模型、小程序預測等也引發了網友的討論。如在微信小程序中,可查看各大城市疫情高峰時間進度條,直接具體到高峰期的開始和結束日。
專家分析認為這種從統計學角度做流行病的預測和觀察所得出的宏觀趨勢,有一定的參考價值,但精準到某天開始、某天結束的數據準確性有待商榷且價值不大。同時,這兩種模型都將百度這一搜索引擎的搜索數據用作數據源,存在一定缺陷。
預測精準到“天數”
北京商報記者檢索發現,互聯網上的疫情峰值預測來源主要有2個:其一是一位大V建模,其二是微信小程序數據團+。
大V建模方面,經濟學家、某平臺百萬粉絲大V陳沁用公開的百度指數和一套成熟的數學模型做了疫情峰值預測。他預測北京本輪疫情感染已經到達峰值,一直到1月上旬,會不斷趨好。
公開資料顯示,陳沁畢業于復旦大學經濟系,曾任教于復旦大學經濟學院,現任BBD Index首席經濟學家。曾在China Economic Review、《經濟研究》《經濟學季刊》《金融研究》等權威期刊發表過諸多論文。
微信小程序數據團+,則由一家致力于大數據和人工智能領域的科技公司——上海脈策數據科技有限公司提供技術支持,在小程序上選擇想要查詢的城市,便可以顯示所預測的該城市“疫達峰”可視化進度圖表,如小程序顯示北京第一波高峰到達日為12月16日,第一波高峰結束日為1月13日。
這兩種疫情峰值測算都有其背后的原理。
根據陳沁公開的信息,他是借鑒了已經比較成熟的數學模型,用百度指數去測算疫情情況,“總體來說就是看超額搜索指數的覆蓋面積,當覆蓋面積達到一定閾值后就代表人口感染達到一定閾值,感染自然達峰、結束”。
微信小程序數據團+的原理類似,使用的是百度搜索指數和巨量算數數據進行計算。
北京商報記者注意到,這兩種預測模式都將百度搜索指數納入了數據源之中,但這種依賴搜索引擎數據的模型科學嗎?
數據源存問題
北京商報記者將各地官方已經公布的疫情高峰預估時間和微信小程序預測的時間進行了對比。
如江西省政府新聞辦在12月15日召開的江西省新冠肺炎疫情防控工作新聞發布會指出,據專家分析研判,江西省下一波疫情高峰將在今年12月底、明年1月初到來,2023年春節前后達到峰值。僅可選擇城市的小程序中查詢的結果則顯示,南昌市第一波高峰峰值在12月21日,在2023年1月8日結束高峰期。
對此,一位統計學領域的專業人士周鴻(化名)向北京商報記者分析表示,一方面,從統計學角度做流行病的預測和觀察,所得出的宏觀趨勢有一定的參考價值,但精準到某天開始、某天結束的數據準確性有待商榷且價值不大;另一方面,這兩種模型都將百度這一搜索引擎的搜索數據用作數據源,在數據源上便存在一定問題。
“百度引擎的搜索頻次總體上有一定價值,但跟實際結合后可能存在一些差異。”周鴻解釋道,首先在移動互聯網時代,大眾的搜索渠道眾多,百度搜索只是其中之一,甚至還有很大數量的人群并不會使用智能手機進行檢索;其次,公共衛生事件所受到的影響因素非常多,比如某個地區突然出臺了防疫相關的政策變動,會導致短期內該地區對相關話題的搜索量大幅上升。綜合來看,將百度引擎作為數據源之一,并不能完全反映現實情況。
如何才能使模型更科學?周鴻建議,將國家衛健委公布的每日陽性人數和進行一定規模問卷調查得出的感染情況作為數據源之一,反而更能準確地反映出某個城市疫情發展趨勢的變化。
回歸到本次模型預測的價值本身,北京社科院研究員、中國人民大學智能社會治理研究中心研究員王鵬認為,就模型所測的月份上的峰值,在宏觀角度上可以為線下防疫提供參考。“一方面各地通過感染情況,提前做好醫療資源、物資儲備、人員調度等,也為市民日常生活防護進行一定的提醒;另一方面,這種模型對全國各地‘疫情峰值’進度都有一定預測,為全國一盤棋、疫情發展階段不同的地區合作調配資源等提供了參考。”
“醫療大數據”尚有局限性
事實上,運用統計學的專業知識進行大數據分析、預測的案例并不少見。國家統計局每個月發布的宏觀經濟數據如全國CPI(居民消費價格指數)和PPI(工業生產者出廠價格指數)等,便是在對相關主體進行抽樣調查的基礎上進行的。另外,相關機構通過對人口基數和增速進行統計后,對人口規模的預測也屬于統計學的應用。
而此次“疫達峰”所屬的醫療衛生領域,則是統計學大數據適用的一個相對特殊的領域。
周鴻介紹了國外“醫療大數據”的一個典型案例——谷歌流感趨勢(GFT)。谷歌公司發現,每年大約有9000萬美國居民使用互聯網來查詢與自身相關的疾病、藥物或者醫院信息,而關于流行性感冒的搜索量可以及時地反映當時流感的現狀;因此,他們使用互聯網搜索記錄來即時預測美國疾控中心延遲發布的疑似流感病例占比。該研究利用2003-2007年這五年的流感數據做模型,其推論在2008年的測試數據中得到很好驗證,之后很長一段時間的流感預測結果也與實際情況非常一致。
但四年以后,《自然雜志消息》報道,在最近的一次流行感冒爆發中谷歌利用大數據流感趨勢預測失效了,這一次谷歌的大數據預測模型顯示流感爆發非常嚴重,然而疾控中心在慢慢匯總各地統計的流感數據以后,發現谷歌的預測結果遠遠超過了實際情況。
對于這種統計學大數據在醫療領域的適用性,中南大學碩士研究生劉琛發表在《臨床醫學研究與實踐》期刊上的《從谷歌流感趨勢(GFT)案例分析“醫療大數據”的局限性》一文中得出結論指出,醫學本質是一門經驗科學,大數據是人類邁向數據時代的工具,大數據分析為許多醫學難題的解決提供了新途徑,改變了一些疾病診斷方式,另一方面也為科研教學提供了有力的數據支撐。
“但就現狀而言,大部分大數據分析技術(如nosql)還難以在醫療領域被重用,只有通過大數據方面的技術研究,不斷地改進大數據在臨床醫學應用中的缺陷,才能更好、更準確地為患者服務。”劉琛說。
北京商報記者 方彬楠 陸珊珊
責任編輯:呂成飛
VIP課程推薦
APP專享直播
熱門推薦
收起24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)