“CC講壇”(第十三期)于2016年6月6日,在北京大學(xué)百周年紀(jì)念講堂舉行。中國科學(xué)院自動化研究所研究員、生物識別與安全技術(shù)研究中心室主任李子青出席并做了題為《解密刷臉與生物特征識別》的演講。
以下為演講實(shí)錄:
人臉識別在最近一兩年特別地火。有幾個原因,第一是技術(shù)的進(jìn)步所帶來的發(fā)展;第二個是應(yīng)用有強(qiáng)勁的需求;第三,是大佬們的推波助瀾以及資本的熱捧。
現(xiàn)在的人臉識別技術(shù)可以輕松地搞定普通的應(yīng)用。比如,我們要用人臉識別來搜papi醬,那么它返回的結(jié)果,現(xiàn)在基本上可以做到都是papi醬本人。結(jié)果當(dāng)中可能也會包含一些其他的不是papi醬本人的女孩子,但對這種人臉?biāo)阉鞯膽?yīng)用來說也無傷大雅。況且,人家可能也是集美貌與才華于一身,對吧?再高端的一些應(yīng)用,比如說刷臉支付,現(xiàn)在還存在著一些技術(shù)和安全性上的問題。相信馬云他本人會授權(quán),他自己的賬戶用刷臉來轉(zhuǎn)賬,那就too young too simple(圖樣圖森破),sometimes naive(有時天真)!
早在十多年以前,人臉識別就小火了一把。比爾?蓋茨他本人非常看好生物特征識別技術(shù)的應(yīng)用與未來。他在2001年就對外界媒體公開了自家的人臉識別技術(shù)。那是我研發(fā)的一個完整的、全自動的、實(shí)時的人臉識別系統(tǒng)。后面有一個人肉背景,帶眼鏡的,那就是我年輕的時候。因?yàn)槲覀冞@個演示很成功。這個記者最后說了一句,他說:“你們這幫人,這個星期的薪水,已經(jīng)有著落了。”
早在那之前,比爾蓋茨他發(fā)布一個Windows的新版本,在發(fā)布會上遇到了藍(lán)屏死機(jī),所以在接受CNN采訪之前,我們做了各種各樣的預(yù)案。包括精心部署這個燈光,并且請比爾?蓋茨他老人家能夠正面配合一下,看著攝像頭,還有請您不要太得意,夸張的表情可能會對識別造成錯誤。
人臉識別,這樣一個事情是我們一生下來就在做的。這是幾百萬年所進(jìn)化的我們一個能力。自動的人臉識別算法,世界上第一個做這個事情的是一個英國人。他受一家政府機(jī)構(gòu)的委托來開展研究。他當(dāng)時所采用的方法是一種半自動的方法,就是用手工在圖像上標(biāo)定人臉上面的關(guān)鍵點(diǎn),然后測量兩眼之間的距離、嘴唇的厚度,以此作為特征來進(jìn)行人臉的比對。其實(shí)我很多的朋友,當(dāng)我告訴他我是做人臉識別的。他就會告訴我:“我知道怎么做,就是兩眼之間的距離,眼睛大小、嘴唇大小。”但實(shí)際上,現(xiàn)在的技術(shù)不是這樣的。在那之后,有非常多的重大的技術(shù)突破,比較關(guān)鍵的是2001年的一個叫AdaBoost,這樣一個人臉檢測技術(shù),它很能快速地從照片當(dāng)中、圖片當(dāng)中把人臉框出來。最近的10年,深度學(xué)習(xí)的研究與應(yīng)用使得人臉識別和人工智能的核心技術(shù)得到了極大的提升。圖像硬件的發(fā)展也有力地給這個人臉識別提供了很好的圖像基礎(chǔ)。
人臉識別的流程大概是這樣的。首先我們在圖像當(dāng)中找到這個人臉,然后把每個人臉進(jìn)行一種預(yù)處理,給它進(jìn)行光照、姿態(tài)、表情等等一些校正。然后在這個基礎(chǔ)之上,我們用算法對它這個人臉部分進(jìn)行一個特征的提取,把圖片變成一個二維碼。在此基礎(chǔ)上進(jìn)行特征的對比,然后進(jìn)行身份識別的判決。這里面遇到的技術(shù)難點(diǎn),首先是要解決光照問題。比如說在全黑的條件下,我們連圖像都采不到。怎么能進(jìn)行人臉識別?像在左邊這樣一個條件下,一個極端的光照我們現(xiàn)在的算法還不能很好地去對它進(jìn)行一個有效的、正確的比對。其他的包括姿態(tài)、表情、還有配飾。比如說戴個墨鏡,還有頭發(fā)的遮擋。經(jīng)常女孩子會比較難以識別,因?yàn)樗念^發(fā)遮擋住了。還有化妝,很多人會問我,“我到韓國去整個容,那么我進(jìn)海關(guān)怎么辦?”實(shí)際上我認(rèn)為靠人臉識別的話如果你完全不一樣了,應(yīng)該是當(dāng)成不同的人。還有人問我,“我雙胞胎,長得一模一樣,那你能區(qū)分出來嗎?”我說:“NO!”因?yàn)榭块L相、靠人臉的話,那雙胞胎他就是同一張人臉。還有一些問題就是比如說年齡的跨度,我從小到大,我的面容變化非常地巨大,這也是一個問題。
前面提到就是為了給比爾?蓋茨做演示,我們精心地布置了燈光。在那之后,我就在想如何解決這個光照問題,這是第一步要解決的。直接的一個解決方案就是說我們可以像數(shù)碼相機(jī)那樣在前面加個閃光燈。“啪”的一下,只要能采到正面的照片,那么我們就能以很高的準(zhǔn)確率進(jìn)行識別。但是如果說每次做人臉識別的時候,都要用閃光燈閃一下給人的體驗(yàn)是非常差的,那個是不太可行。但是我們有其它的方法,比如說,用近紅外主動光源。大家可能看到聊天攝像頭上面和那種監(jiān)控視頻上面,晚上都有一些肉眼看不見但是傳感器、攝像頭它能看得見的這樣一種方式。所以,我發(fā)明了這樣一個近紅外人臉識別的這樣一個方法。這樣一個產(chǎn)品長相是這樣的,是不是大家看著非常的土?這是第二代的樣品。第一代的樣品更土,是裝在一個蒙牛牛奶的包裝盒里邊的,所有的電路、包括二極管、包括一些傳感器什么東西都包在里面。但是它work,它解決了問題。使得2004年,當(dāng)時的這樣一個人臉識別率得到了極大的提升。現(xiàn)在這個產(chǎn)品是長成是這樣的。比以前要高大上多了,這樣一個產(chǎn)品的話在全世界各地每年銷售有幾十萬臺。
大數(shù)據(jù)和深度學(xué)習(xí)極大地推進(jìn)了人臉識別和人工智能,包括AlphaGO。這樣一個技術(shù)的發(fā)展這里面有三個要素,第一個是大數(shù)據(jù)。要學(xué)習(xí)到這個模型的這樣一個數(shù)據(jù),它要能囊括能夠概括我們大多數(shù)場景下能夠看到的這樣一些數(shù)據(jù)。第二個就是深度網(wǎng)絡(luò)的結(jié)構(gòu)。它層數(shù)很深,并且它是一個非線性變換,使得這樣一個函數(shù)它能處理像人臉識別、語音識別和機(jī)器下棋,這樣一些非常復(fù)雜的問題。第三個要素就是深度學(xué)習(xí)的運(yùn)算量非常的大,我們希望能在有限的、可以等待的時間內(nèi),把這個模型訓(xùn)練學(xué)習(xí)完成,這就需要有GPU的加速。這三個要素缺一不可!
在很多情況下,人臉的姿態(tài)和表情是不受控制的。那么如何去解決這個問題?我們?yōu)榇搜邪l(fā)了三維可形變的模型。它具體就是把輸入圖像往一個內(nèi)部的、三維模型上面給它貼上去,然后根據(jù)關(guān)鍵點(diǎn)的位置用三維模型把這個姿態(tài)給它轉(zhuǎn)過來。轉(zhuǎn)到正面之后,我們再把這個表情再給它歸一化,給它變成一個中性的表情,最后就得到這樣一個輸出。這樣的話就能夠提高在大姿態(tài)、大的表情條件下的人臉識別的準(zhǔn)確率。最新的進(jìn)展就是我們把前面所說的,三維可形變模型與深度學(xué)習(xí)處理進(jìn)一步結(jié)合,使得它更加強(qiáng)悍,能夠解決更加困難的問題。
各種各樣的生物特征識別,包括人臉、指紋、虹膜、眼睛等等一些,它都存在著一些問題。首先就是識別錯誤的問題。因?yàn)闆]有哪一個算法,哪一個人工智能的技術(shù)能夠保證百分之百。第二個就是這個系統(tǒng)會受到各種各樣的假體的攻擊。關(guān)于識別率錯誤的問題,一個很典型的案例,就是趙薇的司機(jī)把趙薇老公的房子給賣了。可能這個新聞大家都知道,原因是趙薇的司機(jī)騙過了人臉識別系統(tǒng)。這司機(jī)得長成啥樣?他才能夠騙過這個人臉識別系統(tǒng),并且準(zhǔn)確率、相似度高達(dá)98.3%,所以說我就在網(wǎng)上搜了一下,這是趙薇老公,我也曾經(jīng)試圖去搜索那個司機(jī)的人臉,但是沒搜到。但是很機(jī)智的我,搜出了一個老司機(jī)的表情包。大家仔細(xì)看一下是不是挺像的,所以說我們應(yīng)該為那套人臉識別系統(tǒng)點(diǎn)贊,很智能、很準(zhǔn)確!
各種各樣的假體攻擊,人臉識別的話包括照片的打印、視頻的播放,比如說安卓4.0,它推出了人臉解鎖。馬上就有人說,“我拿這個手機(jī)拍一張照片,對著這個手機(jī)就能解鎖了。”還有就是人臉的面具。對付照片打印還是比較簡單的,我們可以采取人機(jī)交互的方法。比如說我可以下指令,你給我眨個眼睛,那我就看你是不是眨了眼睛。你給我張張嘴,你給我搖搖頭。當(dāng)這個防假體攻擊的技術(shù)出現(xiàn)之后,又出現(xiàn)了另外一種攻擊形態(tài)。他把這個照片打印出來,然后把眼睛和嘴巴的地方給它摳出來,你讓我眨眼我就眨眼,你要我張嘴我就張嘴,你讓我搖頭我就搖頭,所以說這個技術(shù)就是有矛又有盾,我們是螺旋式的上升和技術(shù)進(jìn)步。網(wǎng)上可以買賣到的仿人皮的這樣一個人臉。除了這個人臉之外,指紋這個假體是更加普遍。你在百度上面去搜一下,就能搜出各種各樣的仿制的指紋的方法。它可以代打卡嘛!我可以不用去上班了。我也是非常希望我們每一個中國人都能在一個良好的環(huán)境當(dāng)中去生存,就是能夠活得有尊嚴(yán),所以說這種騙術(shù)我們一定要給它鏟除。
為了解決生物識別防假體攻擊這樣一個問題,歐盟組織了12個團(tuán)隊(duì)來開展系統(tǒng)性的、合作研究,其中11個團(tuán)隊(duì)是歐盟成員國的團(tuán)隊(duì),我們作為唯一的一個非歐團(tuán)隊(duì)受邀參加這樣一個項(xiàng)目。我們在這個項(xiàng)目當(dāng)中提出了,用多光譜的方法。就是多光譜,包括紫外、近紅外、熱紅外成像,這是我們?nèi)庋鄄豢梢姡窃诟鞣N光譜情況下的成像,它可能能分辨出。這個真人和假體的區(qū)別這樣一種技術(shù)它是需要一種特殊的硬件的。
下面我來比較一下機(jī)器的識別與人工的這樣一個識別。這是一個招商銀行提供的一個圖片,那么在柜臺我們都要出示我們的身份證,柜員來核驗(yàn)。招商銀行統(tǒng)計(jì)是人工核驗(yàn)的錯誤率大概是百分之五,而機(jī)器自動識別的錯誤率大概在千分之一到萬分之一之間,所以說這個機(jī)器已經(jīng)遠(yuǎn)遠(yuǎn)超過了人工的這樣一個識別,但是這是有條件的。
這個案例是在深圳羅湖海關(guān)抓有案底的這樣一些水客。因?yàn)槿四軌蜃R別的面孔大概只有幾千張,特別是對不熟悉的人,我很難去給他識別出來。像我本人的話,我是特別的臉盲,我覺得我頂多只能識別不到一千張臉,遠(yuǎn)遠(yuǎn)低于這個平均水平。這個系統(tǒng)在頭三天的啟用就成功地識別兩百多個水客。
那比較一下機(jī)器識別與人工識別在正常的條件下,機(jī)器人臉識別的成功率、準(zhǔn)確率是遠(yuǎn)遠(yuǎn)高于人工識別的,但是機(jī)器它做人臉識別的時候,它只看人臉這樣一部分。它沒有用到一些外部的一些信息、線索,比如說什么發(fā)型,高矮胖瘦啊。它是不看的,而人可以看這個。另外,機(jī)器的話,剛才我說了,我可以在大數(shù)據(jù)當(dāng)中去搜索人臉。比如說,我們做的一個案例,搜索一千萬張只需要不到一秒的時間,而剛才我說了人他一生當(dāng)中只能認(rèn)識幾千個人,但是機(jī)器呢比較容易受到這種偽造的攻擊,用一張照片或者一段視頻,或者拿個手機(jī),但是人能夠比較容易地去識別這樣一個假體攻擊。
除了人臉之外,還有各種各樣的生物特征。我們比較熟悉的就是指紋、虹膜,像那些大片里面掌紋、掌靜脈、步態(tài)、簽名、指靜脈。那么我們把不同的多種的生物特征給它結(jié)合起來,這樣的話有可能提升它的準(zhǔn)確性與安全性。比如說我拍臉的時候,我同樣把這個瞳孔,這個虹膜給它拍出來。這樣既不影響你使用的便捷性,又能提升你的識別率;指紋的話,我既采指紋又采指靜脈,那這樣的話其實(shí)也是不會影響它使用的便捷性,但是可以提高它的準(zhǔn)確性和安全性。
最后談一下技術(shù)發(fā)展。深度學(xué)習(xí)已經(jīng)是目前人臉識別、物體識別、語音識別和人工智能的一種核心的這樣一個方法。大家有個感覺,深度學(xué)習(xí)在最近幾年其實(shí)沒有什么太多發(fā)展,它之所以應(yīng)用成功是因?yàn)槲覀冊谧龊芏喙こ躺厦娴氖占瘮?shù)據(jù)。然后進(jìn)行訓(xùn)練,然后調(diào)參數(shù)、調(diào)應(yīng)用,我不認(rèn)為把這個技術(shù)的提升可以歸結(jié)為一個工程化的成果,我認(rèn)為深度學(xué)習(xí)理論本身,還是有很大的潛力可以挖出來。很多的工程應(yīng)用問題都可以歸結(jié)成一個優(yōu)化的問題,那么在定義了目標(biāo)函數(shù)之后,我們要去尋優(yōu)要去求解一個最優(yōu)解,這里面就涉及到一個全局優(yōu)化的問題。比如說我知道,全球的最高峰是珠穆朗瑪峰,但是如果說我順著爬上去任何一座山的話,也許我就爬到香山上面了,那就不是珠穆朗瑪峰了。所以說要如何能跳出,要避免這樣一個不太好的局部極值,能夠找到全局的最優(yōu)點(diǎn)。其實(shí)這個已經(jīng)是在數(shù)學(xué)界、理論界是一個還是沒有很好解決的問題。
那么進(jìn)一步要把這個人工智能提升到更高的一個臺階,需要我們進(jìn)行一個跨界的努力,需要我們對自己的大腦進(jìn)行這樣一個更加深刻的認(rèn)識。那么現(xiàn)在已經(jīng)知道,人的大腦里面有不同的區(qū)域是執(zhí)行不同的功能的。這部分是識別人臉的,這部分是識別貓的,那這部分識別人臉里面是不是有張三李四。也在不同的一個細(xì)胞,這就是所謂稀疏表達(dá)問題,或者在腦科學(xué)里面叫祖母細(xì)胞的問題。
深度學(xué)習(xí)有賴于大數(shù)據(jù),沒有大數(shù)據(jù)的話,你這個深度學(xué)習(xí)還是沒有什么用的,但是我們?nèi)嗽趯W(xué)習(xí)一個新概念的時候,我們并沒有用大數(shù)據(jù)。比如說,我們在中國長大的,我過去從來沒有見過榴蓮這樣的一種熱帶水果,還有其他的一些熱帶水果。我只需要看見一次,我今后就認(rèn)識它了,我并不需要拿一大堆榴蓮來我看來看去。對吧?所以說這個就是人的認(rèn)知跟我們現(xiàn)在做的機(jī)器智能的很大的區(qū)別。所以說我們需要跨界的合作,需要做腦科學(xué)的、需要做生物、物理、化學(xué)的、需要我們做人工智能的,大家一起來進(jìn)行合作探討。
總而言之,技術(shù)的進(jìn)步和應(yīng)用需求使我們進(jìn)入了刷臉的時代,而進(jìn)一步上一個臺階需要我們在科學(xué)與技術(shù)上進(jìn)一步探索與突破。除此之外,人臉識別的應(yīng)用還存在著一些安全和隱私的問題,除了技術(shù)需要進(jìn)一步提升,要制訂相關(guān)的一些標(biāo)準(zhǔn)、法律、法規(guī),以規(guī)避可能存在的風(fēng)險,讓我們努力,讓我們期待,謝謝大家!
新浪聲明:所有會議實(shí)錄均為現(xiàn)場速記整理,未經(jīng)演講者審閱,新浪網(wǎng)登載此文出于傳遞更多信息之目的,并不意味著贊同其觀點(diǎn)或證實(shí)其描述。
進(jìn)入【新浪財(cái)經(jīng)股吧】討論
責(zé)任編輯:梁斌 SF055
《財(cái)經(jīng)會議》報道你看不見的會場實(shí)況,傳播會議精華內(nèi)容,會議直播提前預(yù)告,不定期送出免費(fèi)超值會議門票。官方微博:財(cái)經(jīng)會議,微信號:caijinghy。掃碼更方便。