文/新浪港股(微信公眾號xlgg-sina)專欄作家 王澤基
“最強人工智能”在金融投資領域的嘗試,至今依然在摸索中。然而一個普遍的疑問在于,與圍棋和電競不同,金融市場投資是一個受宏觀環境、市場波動、突發事件等等眾多不可控因素影響的復雜決策,人工智能如何能像真人一樣完成如此復雜的決策?它們最終能擊敗頂尖的人類基金經理和投資專家嗎?
自從阿爾法狗(Alpha Go)在圍棋“終極人機大戰”完勝棋王柯潔,OPEN AI的人工智能又在DOTA游戲中打敗人類業余高手團隊,并宣布即將挑戰職業選手,關于“金融阿爾法狗”也將面世的說法就不絕于耳。內地市場還曾傳出,研發阿爾法狗的DeepMind團隊發表了一篇論文,指其人工智能投資系統“阿爾法股”(Alpha Stock)在A股市場潛伏交易36個月,但最終虧損不斷擴大,令團隊決定暫停該領域研究。
當然,這只是一個段子,“最強人工智能”在金融投資領域的嘗試,至今依然在摸索中。然而一個普遍的疑問在于,與圍棋和電競不同,金融市場投資是一個受宏觀環境、市場波動、突發事件等等眾多不可控因素影響的復雜決策,人工智能如何能像真人一樣完成如此復雜的決策?它們最終能擊敗頂尖的人類基金經理和投資專家嗎?
人工智能是在模擬人腦嗎?
要解答這個疑問,首先我們需要了解人工智能到底是如何去“學習”下棋、電競和其他技能的。
今天外界對人工智能最大的誤解,恐怕就是認為人工智能是對人腦的“模擬”,然而人工智能的工作和學習機制,事實上與人腦完全不同。當前被稱為“人工智能”的,至少包括以下三種體系。
首先,人工智能的起步,在于人類最簡單的一種思考能力:推斷邏輯。邏輯學自古希臘開始對此已經深有研究,并且提出一系列明確簡單的推斷原則。以此為基礎,人工智能的起步從具體“算法”開始,也就是讓電腦遵循邏輯推理的命題和原則來完成任務。例如,向電腦輸入某個知識體系,并且設定推理的算法,電腦就可以成為一套“專家系統”,通過自動推理來解答人們提出的問題,近年流行的人工智能醫療診斷,就是這樣的“專家系統”。
其后興起的第二個人工智能體系叫做“搜索系統”,例如尋求迷宮的解法,以及在地圖上尋找最短路徑。這一系統目前普及度也很高,許多家庭都在使用的“掃地機器人”就是這一系統的運用,能夠找到清潔全家地板的最優化路線。
然而真實的世界總是千變萬化,邏輯遠遠無法涵蓋。今天真正讓世界震驚,能夠擊敗人類圍棋冠軍和電競高手的人工智能早已突破“邏輯”的范疇,它們誕生于第三套系統:通過統計學方法,用大量的數據統計和分析來作出最優的決策。可以說,統計學方法帶來了當前真正強大的人工智能,我們稱之為“機器學習”。
還是從阿爾法狗說起,由于真正的圍棋招數可能性遠超于宇宙原子的數量,不可能通過邏輯來窮盡所有招數,因此在阿爾法狗以前,人工智能用邏輯推論方法來解決圍棋,耗費多年而毫無寸進。此時,統計學為人工智能帶來了一個重要的啟示:我們可以通過對一小部分的策略的抽樣研究,歸納出有效的策略。這正如要知道一個國家的經濟發展,并不需要知道每一個人在做什么,而只需要抽樣調查來研究是一樣的。
簡而言之,Alpha Go和Open AI用來打敗人類的能力,源自它們龐大而高速的統計能力,通過統計學抽樣去模擬圍棋手或游戲玩家每一步每一招的可能性,從而找到致勝的招數,而并不是它們真的“學會”模擬人類大腦來思考。
人工智能是怎樣自己“學習”的
人工智能今天的強大,并不意味著他們開始“接近“人腦”,剛好相反,他們的優勢在于能夠完成人腦根本無法處理的大量統計。以下圍棋為例,每多一個決策,就增加了一個新的維度,需要計算的可能性也就呈指數級增加,所以在人工智慧研究的早期,機器要通過如此大量的統計去“學習”也是困難的。
早期機器學習中,由于數據量過于龐大難以處理,人類采取了提示一些“捷徑”的方法。其中最主要的方式叫做“監督學習”,也就是機器在人類提供經驗的“監督”下去統計分析數據。俗話說“依樣畫葫蘆”,這就比如一個新員工來到公司,老板就教了他一套自己工作的方法,讓他有樣學樣去做,就是“監督學習”。此前版本的Alpha Go也是通過學習從古到今的大量棋譜數據來學習圍棋,并先后打敗了人類頂尖高手李世石和柯潔。
然而,經驗畢竟是有限的,而且需要大量人力和時間去總結和標簽。真實世界的大多數決策畢竟不像圍棋,擁有數千年的經驗積累和現成棋譜。那么,機器是否能夠具備自己去挖掘經驗的能力呢?
由此,機器學習進入了“無監督學習”領域,即讓機器徹底去自己摸索,人類不給予任何總結的經驗,不對任何數據進行標簽。當前人工智能中的自然語言處理,讓人工智能通過大量的語言輸入去理解語言中詞語關系的內在規律,就是“無監督學習”的一種應用。更常見的應用則是在網上購物的“推薦商品”中,機器通過分析大量的過往數據,“學習”去推薦買家最有可能感興趣的商品。
第三種模式則叫做“強化學習”,可以算是“監督”和“無監督”各占一半的方式。
還是用企業新員工來打比方,這一次老板并不具體告員工要怎么做,但是到了年底會發出或多或少的獎金。當然,獎金的多少存在不同的可能性,是員工對客戶服務態度好?還是工作特別勤奮?又或是拍老板馬屁拍的好?在真實的人生中,這種分析顯然是極為困難的。然而理論上,如果這個職員一直通過獎金多少來反省自己的工作,然后持續做同一份工作一百萬年時間,那么他會無限逼近“獎金的真相”。
這種通過反饋來修改行動的模型,我們稱之為策略-評估(Actor-Critic)模型,隨著策略(Actor)所做的決策被評估(Critic)所修正,決策的質量一點一點逐步地改善,機器開始自己去學習,并找到獨特的學習方法。人活不了一百萬年,當然也就算不了一百萬年。但是機器隨著計算速度——即所謂“算力”的迅速提高,卻有望解決這個看起來荒謬的難題。2016年的計算機已經比2007年速度快一萬倍,今天普通工業級電腦已經可以展開深度強化學習,而且算力的提高速度還在持續加快。
2017年10月,Alpha Go進化為Alpha Go Zero。兩者最大區別就是,后者在沒有任何棋譜數據和人類經驗輸入的前提下學習圍棋,每一步都由機器自己隨機嘗試,通過最后勝敗的統計分析來判斷每一步是“好棋”還是“臭棋”。算力強大的Alpha Go Zero僅僅用了三天,就從一張白紙成長為以100比0完勝舊版Alpha Go(即擊敗柯潔的版本)的頂級高手。最妙的是,至今人類也不知道Alpha Go Zero自己摸索開發出的算法是怎樣。
同樣是2017年,發明家馬斯克旗下Open AI的人工智能玩家在電競游戲DOTA這種存在各種陌生環境,需要團體協作的游戲中,連續打敗頂尖業余人類玩家組合的隊伍。在此之前,人工智能僅僅經歷數周的自我訓練和對戰,游戲技巧的進步一日千里。這也代表著人工智能“深度學習”的能力,已經從圍棋這種相對單純的“分割空間”走向更為復雜的“連續空間”,開始處理更復雜環境中的決策。
人工智能會下棋就會投資?
相信大家已經看出,人工智能的深度強化學習的范疇,已經跟真實環境中的要求越來越接近。可以說,基于深度強化學習的“金融Alpha Go Zero”誕生只是時間問題。目前,我們正在研發中的人工智能量化投資模型,與上文中圍棋或電競游戲的方法非常相似:
在環境因素中,Alpha Go Zero分析的是對手和自己的下子,金融Alpha Go Zero分析的則是資本市場和宏觀經濟的各種信息。在回報方面,Alpha Go Zero分析獲勝的概率,金融Alpha Go Zero分析的回報則是投資收益,是否達到投資目標。在行動范圍方面,圍棋Alpha Go Zero分析的是棋盤上沒有被落子的位置,金融Alpha Go Zero分析的則是設計者規定的投資范圍和標的。
在學習的過程中,圍棋Alpha Go Zero評估潛在落子位置的價值,評估自己的落子位置策略和先后,金融Alpha Go Zero則評估各類資產的投資價值,評估每個可投資資產應當被依照什么比重來配置。
這只自我學習的“金融阿爾法狗”如何工作是人類難以想象的。正如圍棋Alpha Go Zero不再需要經驗和棋譜,“金融阿爾法狗”學習的,是投資的“能力”而非僅是“技巧”。
與過去各類量化投資模型相比,這一進步的巨大意義首先在于,設計者不需要再對每類資產單獨設計模型,不用提取“因子”或設立標簽,大大減少了人力成本,而其學習也不受到資產類別的限制,可以自動靈活應變。由于不用人類提供標簽和經驗,設計者可以建立各種不同的目標,例如成本、風險、最大回撤,流動性變現等等,各種投資中需要考慮的因素和目標如何去平衡?這個問題交給機器自己。
此外,過往的量化投資算法往往本身就基于歷史數據和經驗歸納,很難再用同一堆歷史數據去測試出它真實的投資能力,而且金融市場用歷史推斷未來往往失效。人工智能的強化學習則可以采取用一類資產的歷史數據進行學習,再用另一類資產的數據進行測試,或者是用中國股市的數據進行學習,用印度股市的數據來測試,更能夠測試出人工智能的真實能力。
這聽起來或許神乎其神,但事實上,它符合我們生活中最簡單的判斷方式——要知道一個孩子是不是好學生,最好的方法是交給他新的學習任務,看他是否能很快攻克。要知道一個新人是不是好員工,最好的方法是交給他從未做過的工作,看他是否能順利完成。人工智能是不是真的能自學成才,超越人類投資專家,也有待給予它們全新挑戰去驗證。
(本文作者介紹:平安海外控股董事總經理;目前于香港科技大學及香港中文大學分別擔任數學系及工程系教授,于牛津大學取得碩士及博士學位。)
責任編輯:白仲平
歡迎關注官方微信“意見領袖”,閱讀更多精彩文章。點擊微信界面右上角的+號,選擇“添加朋友”,輸入意見領袖的微信號“kopleader”即可,也可以掃描下方二維碼添加關注。意見領袖將為您提供財經專業領域的專業分析。