(電子商務研究中心訊) 引言
“人工智能”這個名詞在沉寂了近30年之后,最近兩年“咸魚翻身”,成為了科技公司公關的戰(zhàn)場、網(wǎng)絡媒體吸睛的風口,隨后受到政府的重視和投資界的追捧。于是,新聞發(fā)布會、高峰論壇接踵而來,政府戰(zhàn)略規(guī)劃出臺,各種新聞應接不暇,宣告一個“智能為王”時代的到來。
到底什么是人工智能?現(xiàn)在的研究處于什么階段?今后如何發(fā)展?這是大家普遍關注的問題。由于人工智能涵蓋的學科和技術面非常廣,要在短時間內(nèi)全面認識、理解人工智能,別說非專業(yè)人士,就算對本行業(yè)研究人員,也是十分困難的任務。
所以,現(xiàn)在很多宣傳與決策沖到認識之前了,由此不可避免地造成一些思想和輿論的混亂。
自從去年用了微信以來,我就常常收到親朋好友轉來的驚世駭俗的新聞標題。我發(fā)現(xiàn)很多議論缺乏科學依據(jù),變成了“娛樂AI”。一個在1970年代研究黑洞的物理學博士,從來沒有研究過人工智能,卻時不時被抬出來預測人類末日的到來。某些公司的公關部門和媒體發(fā)揮想象力,動輒把一些無辜的研究人員封為“大師”、“泰斗”。最近,名詞不夠用了。九月初,就有報道把請來的一位美國教授稱作“人工智能祖師爺”。這位教授的確是機器學習領域的一個領軍人物,但人工智能是1956年開始的,這位教授也才剛剛出生。況且機器學習只是人工智能的一個領域而已,大部分其它重要領域,如視覺、語言、機器人,他都沒有涉足,所以這樣的封號很荒唐(申明一點:我對這位學者本人沒有意見,估計他自己不一定知道這個封號)。當時我想,后面是不是有人會搬出“達摩老祖、佛祖如來、孔雀王、太上老君、玉皇大帝”這樣的封號。十月初,赫然就聽說達摩院成立了,宣稱要碾壓美國,輿情轟動!別說一般老百姓擔心丟飯碗,就連一些業(yè)內(nèi)的研究人員都被說得心慌了,來問我有什么看法。
我的看法很簡單:大多數(shù)寫報道和搞炒作宣傳的人,基本不懂人工智能。這就像年輕人玩的傳話游戲,扭曲的信息在多次傳導過程中,逐級放大,最后傳回來,自己嚇到自己了。下面這個例子就說明公眾的誤解到了什么程度。今年9月我在車上聽到一家電臺討論人工智能。兩位主持人談到硅谷臉書公司,有個程序員突然發(fā)現(xiàn),兩臺電腦在通訊過程中發(fā)明了一種全新的語言,快速交流,人看不懂。眼看一種“超級智能”在幾秒之內(nèi)迅速迭代升級(我加一句:這似乎就像宇宙大爆炸的前幾秒鐘),程序員驚恐萬狀。人類現(xiàn)在只剩最后一招才能拯救自己了:“別愣著,趕緊拔電源?。?hellip;”終于把人類從鬼門關又拉回來了。
回到本文的正題。全面認識人工智能之所以困難,是有客觀原因的。
其一、人工智能是一個非常廣泛的領域。當前人工智能涵蓋很多大的學科,我把它們歸納為六個:
(1)計算機視覺(暫且把模式識別,圖像處理等問題歸入其中)、
(2)自然語言理解與交流(暫且把語音識別、合成歸入其中,包括對話)、
(3)認知與推理(包含各種物理和社會常識)、
(4)機器人學(機械、控制、設計、運動規(guī)劃、任務規(guī)劃等)、
(5)博弈與倫理(多代理人agents的交互、對抗與合作,機器人與社會融合等議題)。
(6)機器學習(各種統(tǒng)計的建模、分析工具和計算的方法),
這些領域目前還比較散,目前它們正在交叉發(fā)展,走向統(tǒng)一的過程中。我把它們通俗稱作“戰(zhàn)國六雄”,中國歷史本來是“戰(zhàn)國七雄”,我這里為了省事,把兩個小一點的領域:博弈與倫理合并了,倫理本身就是博弈的種種平衡態(tài)。最終目標是希望形成一個完整的科學體系,從目前鬧哄哄的工程實踐變成一門真正的科學ScienceofIntelligence。
由于學科比較分散,從事相關研究的大多數(shù)博士、教授等專業(yè)人員,往往也只是涉及以上某個學科,甚至長期專注于某個學科中的具體問題。比如,人臉識別是計算機視覺這個學科里面的一個很小的問題;深度學習屬于機器學習這個學科的一個當紅的流派。很多人現(xiàn)在把深度學習就等同于人工智能,就相當于把一個地級市說成全國,肯定不合適。讀到這里,搞深度學習的同學一定不服氣,或者很生氣。你先別急,等讀完后面的內(nèi)容,你就會發(fā)現(xiàn),不管CNN網(wǎng)絡有多少層,還是很淺,涉及的任務還是很小。
各個領域的研究人員看人工智能,如果按照印度人的諺語可以叫做“盲人摸象”,但這顯然是言語冒犯了,還是中國的文豪蘇軾游廬山時說得有水準:
“橫看成嶺側成峰,遠近高低各不同。
不識廬山真面目,只緣身在此山中。”
其二,人工智能發(fā)展的斷代現(xiàn)象。由于歷史發(fā)展的原因,人工智能自1980年代以來,被分化出以上幾大學科,相互獨立發(fā)展,而且這些學科基本拋棄了之前30年以邏輯推理與啟發(fā)式搜索為主的研究方法,取而代之的是概率統(tǒng)計(建模、學習)的方法。留在傳統(tǒng)人工智能領域(邏輯推理、搜索博弈、專家系統(tǒng)等)而沒有分流到以上分支學科的老一輩中,的確是有很多全局視野的,但多數(shù)已經(jīng)過世或退休了。他們之中只有極少數(shù)人在80-90年代,以敏銳的眼光,過渡或者引領了概率統(tǒng)計與學習的方法,成為了學術領軍人物。而新生代(80年代以后)留在傳統(tǒng)人工智能學科的研究人員很少,他們又不是很了解那些被分化出去的學科中的具體問題。
這種領域的分化與歷史的斷代,客觀上造成了目前的學界和產(chǎn)業(yè)界思路和觀點相當“混亂”的局面,媒體上的混亂就更放大了。但是,以積極的態(tài)度來看,這個局面確實為現(xiàn)在的年輕一代研究人員、研究生提供了一個很好的建功立業(yè)的機會和廣闊的舞臺。
鑒于這些現(xiàn)象,《視覺求索》編輯部同仁和同行多次催促我寫一篇人工智能的評論和介紹材料。我就免為其難,僅以自己30年來讀書和跨學科研究的經(jīng)歷、觀察和思辨,淺談什么是人工智能;它的研究現(xiàn)狀、任務與構架;以及如何走向統(tǒng)一。
我寫這篇文章的動機在于三點:
(1)為在讀的研究生們、為有志進入人工智能研究領域的年輕學者開闊視野。
(2)為那些對人工智能感興趣、喜歡思考的人們,做一個前沿的、綜述性的介紹。
(3)為公眾與媒體從業(yè)人員,做一個人工智能科普,澄清一些事實。
本文來歷:本文技術內(nèi)容選自我2014年來在多所大學和研究所做的講座報告。2017年7月,微軟的沈向洋博士要求我在一個朋友聚會上做一個人工智能的簡介,我增加了一些通俗的內(nèi)容。2017年9月,在譚鐵牛和王蘊紅老師的要求下,我參加了中科院自動化所舉辦的人工智能人機交互講習班,他們派速記員和一名博士生整理出本文初稿。如果沒有他們的熱情幫助,這篇文章是不可能寫成的。原講座兩個半小時,本文做了刪減和文字修飾。仍然有四萬字,加上大量插圖和示例。很抱歉,無法再壓縮了。
本文摘要:文章前四節(jié)淺顯探討什么是人工智能和當前所處的歷史時期,后面六節(jié)分別探討六個學科的重點研究問題和難點,有什么樣的前沿的課題等待年輕人去探索,最后一節(jié)討論人工智能是否以及如何成為一門成熟的科學體系。
誠如屈子所言:“路漫漫其修遠兮,吾將上下而求索”。
第一節(jié)現(xiàn)狀評估:正視現(xiàn)實
人工智能的研究,簡單來說,就是要通過智能的機器,延伸和增強(augment)人類在改造自然、治理社會的各項任務中的能力和效率,最終實現(xiàn)一個人與機器和諧共生共存的社會。這里說的智能機器,可以是一個虛擬的或者物理的機器人。與人類幾千年來創(chuàng)造出來的各種工具和機器不同的是,智能機器有自主的感知、認知、決策、學習、執(zhí)行和社會協(xié)作能力,符合人類情感、倫理與道德觀念。
拋開科幻的空想,談幾個近期具體的應用。無人駕駛大家聽了很多,先說說軍用。軍隊里的一個班或者行動組,現(xiàn)在比如要七個人,將來可以減到五個人,另外兩個用機器來替換。其次,機器人可以用在救災和一些危險的場景,如核泄露現(xiàn)場,人不能進去,必須靠機器人。醫(yī)用的例子很多:智能的假肢或外骨架(exoskeleton)與人腦和身體信號對接,增強人的行動控制能力,幫助殘疾人更好生活。此外,還有就是家庭養(yǎng)老等服務機器人等。
但是,這方面的進展很不盡人意。以前日本常常炫耀他們機器人能跳舞,中國有一次春節(jié)晚會也拿來表演了。那都是事先編寫的程序,結果一個福島核輻射事故一下子把所有問題都暴露了,發(fā)現(xiàn)他們的機器人一點招都沒有。美國也派了機器人過去,同樣出了很多問題。比如一個簡單的技術問題,機器人進到災難現(xiàn)場,背后拖一根長長的電纜,要供電和傳數(shù)據(jù),結果電纜就被纏住了,動彈不得。有一次,一位同事在餐桌上半開玩笑說,以現(xiàn)在的技術,要讓一個機器人長時間像人一樣處理問題,可能要自帶兩個微型的核電站,一個發(fā)電驅動機械和計算設備,另一個發(fā)電驅動冷卻系統(tǒng)。順便說一個,人腦的功耗大約是10-25瓦。
看到這里,有人要問了,教授說得不對,我們明明在網(wǎng)上看到美國機器人讓人嘆為觀止的表現(xiàn)。比如,這一家波士頓動力學公司(BostonDynamics)的演示,它們的機器人,怎么踢都踢不倒呢,或者踢倒了可以自己爬起來,而且在野外叢林箭步如飛呢,還有幾個負重的電驢、大狗也很酷。這家公司本來是由美國國防部支持開發(fā)出機器人來的,被谷歌收購之后、就不再承接國防項目。可是,谷歌發(fā)現(xiàn)除了燒錢,目前還找不到商業(yè)出路,最近一直待售之中。您會問,那谷歌不是很牛嗎?DeepMind下圍棋不是也一次次刺激中國人的神經(jīng)嗎?有一個逆天的機器人身體、一個逆天的機器人大腦,它們都在同一個公司內(nèi)部,那為什么沒有做出一個人工智能的產(chǎn)品呢?他們何嘗不在夜以繼日的奮戰(zhàn)之中啊。
人工智能炒作了這么長時間,您看看周圍環(huán)境,您看到機器人走到大街上了?沒有。您看到人工智能進入家庭了嗎?其實還沒有。您可能唯一直接領教過的是基于大數(shù)據(jù)和深度學習訓練出來的聊天機器人,你可能跟Ta聊過。用我老家湖北人的話,這就叫做“扯白”---東扯西拉、說白話。如果你沒有被Ta氣得背過氣的話,要么您真的是閑得慌,要么是您真的有耐性。
為了測試技術現(xiàn)狀,美國國防部高級研究署2015年在洛杉磯郊區(qū)Pomona做了一個DARPARobotChallenge(DRC),懸賞了兩百萬美金獎給競賽的第一名。有很多隊伍參加了這個競賽,上圖是韓國科技大學隊贏了第一名,右邊是他們的機器人在現(xiàn)場開門進去“救災”。整個比賽場景設置的跟好萊塢片場一樣,復制了三個賽場,全是冒煙的救災場面。機器人自己開著一個車子過來,自己下車,開門,去拿工具,關閥門,在墻上開洞,最后過一個磚頭做的障礙區(qū),上樓梯等一系列動作。我當時帶著學生在現(xiàn)場看,因為我們剛好有一個大的DARPA項目,項目主管是里面的裁判員。當時,我第一感覺還是很震撼的,感覺不錯。后來發(fā)現(xiàn)內(nèi)情,原來機器人所有的動作基本上是人在遙控的。每一步、每一個場景分別有一個界面,每個學生控制一個模塊。感知、認知、動作都是人在指揮。就是說這個機器人其實并沒有自己的感知、認知、思維推理、規(guī)劃的能力。造成的結果是,你就可以看到一些不可思議的事情。比如說這個機器人去抓門把手的時候,因為它靠后臺人的感知,誤差一厘米,就沒抓著;或者腳踩樓梯的時候差了一點點,它重心就失去了平衡,可是在后面控制的學生沒有重力感知信號,一看失去平衡,他來不及反應了。你想想看,我們?nèi)瞬然艘幌伦幽鼙3制胶猓驗槟阏麄€人都在一起反應,可是那個學生只是遠遠地看著,他反應不過來,所以機器人就東倒西歪。
這還是一個簡單的場景。其一、整個場景都是事先設定的,各個團隊也都反復操練過的。如果是沒有遇見的場景,需要靈機決斷呢?其二、整個場景還沒有人出現(xiàn),如果有其他人出現(xiàn),需要社會活動(如語言交流、分工協(xié)作)的話,那復雜度就又要上兩個數(shù)量級了。
其實,要是完全由人手動控制,現(xiàn)在的機器人都可以做手術了,而且手術機器人已經(jīng)在普及之中。上圖是我實驗室與一家公司合作的項目,機器人可以開拉鏈、檢查包裹、用鉗子撤除炸彈等,都是可以實現(xiàn)的?,F(xiàn)在的機器人,機械控制這一塊已經(jīng)很不錯了,但這也不是完全管用。比如上面提到的波士頓動力學公司的機器人電驢走山路很穩(wěn)定,但是它馬達噪音大,轟隆隆的噪音,到戰(zhàn)場上去把目標都給暴露了。特別是晚上執(zhí)勤、偵察,你搞那么大動靜,怎么行呢?
2015年的這次DRC競賽,暫時就斷送了美國機器人研究的重大項目的立項。外行(包含國會議員)從表面看,以為這個問題已經(jīng)解決了,應該留給公司去開發(fā);內(nèi)行看到里面的困難,覺得一時半會沒有大量經(jīng)費解決不了。這個認識上的落差在某種程度上就是“科研的冬天”到來的前題條件。
小結一下,現(xiàn)在的人工智能和機器人,關鍵問題是缺乏物理的常識和社會的常識“Commonsense”。這是人工智能研究最大的障礙。那么什么是常識?常識就是我們在這個世界和社會生存的最基本的知識:(1)它使用頻率最高;(2)它可以舉一反三,推導出并且?guī)椭@取其它知識。這是解決人工智能研究的一個核心課題。我自2010年來,一直在帶領一個跨學科團隊,攻關視覺常識的獲取與推理問題。我在自動化所做了另外一個關于視覺常識報告,也被轉錄成中文了,不久會發(fā)表出來。
那么是不是說,我們離真正的人工智能還很遙遠呢?其實也不然。關鍵是研究的思路要找對問題和方向。自然界已經(jīng)為我們提供了很好的案例。
下面,我就來看一下,自然界給我們展示的解答。
第二節(jié)未來目標:一只烏鴉給我們的啟示
同屬自然界的鳥類,我們對比一下體型大小都差不多的烏鴉和鸚鵡。鸚鵡有很強的語言模仿能力,你說一個短句,多說幾遍,它能重復,這就類似于當前的由數(shù)據(jù)驅動的聊天機器人。二者都可以說話,但鸚鵡和聊天機器人都不明白說話的語境和語義,也就是它們不能把說的話對應到物理世界和社會的物體、場景、人物,不符合因果與邏輯。
可是,烏鴉就遠比鸚鵡聰明,它們能夠制造工具,懂得各種物理的常識和人的活動的社會常識。
下面,我就介紹一只烏鴉,它生活在復雜的城市環(huán)境中,與人類交互和共存。YouTube網(wǎng)上有不少這方面的視頻,大家可以找來看看。我個人認為,人工智能研究該搞一個“烏鴉圖騰”,因為我們必須認真向它們學習。
上圖a是一只烏鴉,被研究人員在日本發(fā)現(xiàn)和跟蹤拍攝的。烏鴉是野生的,也就是說,沒人管,沒人教。它必須靠自己的觀察、感知、認知、學習、推理、執(zhí)行,完全自主生活。假如把它看成機器人的話,它就在我們現(xiàn)實生活中活下來。如果這是一個自主的流浪漢進城了,他要在城里活下去,包括與城管周旋。
首先,烏鴉面臨一個任務,就是尋找食物。它找到了堅果(至于如何發(fā)現(xiàn)堅果里面有果肉,那是另外一個例子了),需要砸碎,可是這個任務超出它的物理動作的能力。其它動物,如大猩猩會使用工具,找?guī)讐K石頭,一塊大的墊在底下,一塊中等的拿在手上來砸。烏鴉怎么試都不行,它把堅果從天上往下拋,發(fā)現(xiàn)解決不了這個任務。在這個過程中,它就發(fā)現(xiàn)一個訣竅,把果子放到路上讓車軋過去(圖b),這就是“鳥機交互”了。后來進一步發(fā)現(xiàn),雖然堅果被軋碎了,但它到路中間去吃是一件很危險的事。因為在一個車水馬龍的路面上,隨時它就犧牲了。我這里要強調一點,這個過程是沒有大數(shù)據(jù)訓練的,也沒有所謂監(jiān)督學習,烏鴉的生命沒有第二次機會。這是與當前很多機器學習,特別是深度學習完全不同的機制。
然后,它又開始觀察了,見圖c。它發(fā)現(xiàn)在靠近紅綠路燈的路口,車子和人有時候停下了。這時,它必須進一步領悟出紅綠燈、斑馬線、行人指示燈、車子停、人流停這之間復雜的因果鏈。甚至,哪個燈在哪個方向管用、對什么對象管用。搞清楚之后,烏鴉就選擇了一根正好在斑馬線上方的一根電線,蹲下來了(圖d)。這里我要強調另一點,也許它觀察和學習的是別的地點,那個點沒有這些蹲點的條件。它必須相信,同樣的因果關系,可以搬到當前的地點來用。這一點,當前很多機器學習方法是做不到的。比如,一些增強學習方法,讓機器人抓取一些固定物體,如積木玩具,換一換位置都不行;打游戲的人工智能算法,換一換畫面,又得重新開始學習。
它把堅果拋到斑馬線上,等車子軋過去,然后等到行人燈亮了(圖e)。這個時候,車子都停在斑馬線外面,它終于可以從容不迫地走過去,吃到了地上的果肉。你說這個烏鴉有多聰明,這是我期望的真正的智能。
這個烏鴉給我們的啟示,至少有三點:
其一、它是一個完全自主的智能。感知、認知、推理、學習、和執(zhí)行,它都有。我們前面說的,世界上一批頂級的科學家都解決不了的問題,烏鴉向我們證明了,這個解存在。
其二、你說它有大數(shù)據(jù)學習嗎?這個烏鴉有幾百萬人工標注好的訓練數(shù)據(jù)給它學習嗎?沒有,它自己把這個事通過少量數(shù)據(jù)想清楚了,沒人教它。
其三、烏鴉頭有多大?不到人腦的1%大小。人腦功耗大約是10-25瓦,它就只有0.1-0.2瓦,就實現(xiàn)功能了,根本不需要前面談到的核動力發(fā)電。這給硬件芯片設計者也提出了挑戰(zhàn)和思路。十幾年前我到中科院計算所講座,就說要做視覺芯片VPU,應該比后來的GPU更超前。我最近參與了一個計算機體系結構的大項目,也有這個目標。
在座的年輕人想想看,你們有很大的機會在這里面,這個解存在,但是我們不知道怎么用一個科學的手段去實現(xiàn)這個解。
講通俗一點,我們要尋找“烏鴉”模式的智能,而不要“鸚鵡”模式的智能。當然,我們必須也要看到,“鸚鵡”模式的智能在商業(yè)上,針對某些垂直應用或許有效。
我這里不是說要把所有智能問題都解決了,才能做商業(yè)應用。單項技術如果成熟落地,也可以有巨大商業(yè)價值。我這里談的是科學研究的目標。
第三節(jié)歷史時期:從“春秋五霸”到“戰(zhàn)國六雄”
要搞清楚人工智能的發(fā)展趨勢,首先得回顧歷史。讀不懂歷史,無法預測未來。這一節(jié),我就結合自己的經(jīng)歷談一下我的觀點,不見得準確和全面。為了讓非專業(yè)人士便于理解,我把人工智能的60年歷史與中國歷史的一個時期做一個類比,但絕對不要做更多的推廣和延伸。如下圖所示,這個的時期是以美國時間為準的,中國一般會滯后一兩年。
首先,從表面一層來看。反映在一些產(chǎn)業(yè)新聞和社會新聞層面上,人工智能經(jīng)過了幾起幾落,英文叫做BoomandBust,意思是一哄而上、一哄而散,很形象。每次興盛期都有不同的技術在里面起作用。
最早一次的興起是1956-1974,以命題邏輯、謂詞邏輯等知識表達、啟發(fā)式搜索算法為代表。當時就已經(jīng)開始研究下棋了。然后進入第一次冬天。這個時候,中國結束文革,開始學習西方科技。我上小學的時候,就聽到報紙報道計算機與人下國際象棋,十分好奇。
1980年代初又興起了第二次熱潮,一批吹牛的教授、研究人員登場了。做專家系統(tǒng)、知識工程、醫(yī)療診斷等,中國當時也有人想做中醫(yī)等系統(tǒng)。雖然這次其中也有學者拿了圖靈獎,但這些研究沒有很好的理論根基。1986年我上了中國科大計算機系,我對計算機專業(yè)本身不是最感興趣,覺得那就是一個工具和技能,而人工智能方向水很深,值得長期探索,所以我很早就去選修了人工智能的研究生課程,是由自動化系一個到美國進修的老師回來開的課。上完課,我很失望,感覺撲空了。它基本還是以符號為主的推理,離現(xiàn)實世界很遠。當時人工智能里面的人員也很悲觀,沒士氣。所以,我就去閱讀關于人的智能的相關領域:神經(jīng)生理學、心理學、認知科學等,這就讓我摸到了計算機視覺這個新興的學科。在80年代末有個短暫的神經(jīng)網(wǎng)絡的研究熱潮,我們當時本科五年制,我的大學畢業(yè)論文就是做神經(jīng)網(wǎng)絡的。隨后,人工智能就跌入了近30年的寒冬。
第三次熱潮就是最近兩年興起的深度學習推動的。有了以前的教訓,一開始學者們都很謹慎,出來警告說我們做的是特定任務,不是通用人工智能,大家不要炒作。但是,攔不住了。公司要做宣傳,然后,大家開始加碼宣傳。這就像踩踏事件,處在前面的人是清醒的,他們叫停,可是后面大量聞信趕來的人不知情,拼命往里面擠。人工智能的確是太重要了,誰都不想誤了這趟車。也有人認為這次是真的,不會再有冬天了。冬天不冬天,那就要看我們現(xiàn)在怎么做了。
所以說,從我讀大學開始,人工智能這個名詞從公眾視線就消失了近30年。我現(xiàn)在回頭看,其實它當時并沒有消失,而是分化了。研究人員分別聚集到五個大的領域或者叫做學科:計算機視覺、自然語言理解、認知科學、機器學習、機器人學。這些領域形成了自己的學術圈子、國際會議、國際期刊,各搞各的,獨立發(fā)展。人工智能里面還有一些做博弈下棋、常識推理,還留在里面繼續(xù)搞,但人數(shù)不多。我把這30年叫做一個“分治時期”,相當于中國歷史的“春秋時期”。春秋五霸就相當于這分出去的五個學科,大家各自發(fā)展壯大。
其次、從深一層的理論基礎看。我把人工智能發(fā)展的60年分為兩個階段。
第一階段:前30年以數(shù)理邏輯的表達與推理為主。這里面有一些杰出的代表人物,如JohnMcCarthy、MarvinMinsky、HerbertSimmon。他們懂很多認知科學的東西,有很強的全局觀念。這些都是我讀大學的時候仰慕的人物,他們拿過圖靈獎和其它一堆大獎。但是,他們的工具基本都是基于數(shù)理邏輯和推理。這一套邏輯的東西發(fā)展得很干凈、漂亮,很值得我們學習。大家有興趣,可以參考一本最新工具書:TheHandbookofKnowledgeRepresentation,2007年編寫的,1000多頁。但是,這些符號的知識表達不落地,全書談的沒有實際的圖片和系統(tǒng);所以,一本1000多頁的書,PDF文件只有10M,下載非常快。而我現(xiàn)在給的這個講座,PPT差不多1G,因為有大量的圖片、視頻,是真實的例子。
這個邏輯表達的“體制”,就相當于中國的周朝,周文王建立了一個相對松散的諸侯部落體制,后來指揮不靈,就瓦解了,進入一個春秋五霸時期。而人工智能正好也分出了五大領域。
第二階段:后30年以概率統(tǒng)計的建模、學習和計算為主。在10余年的發(fā)展之后,“春秋五霸”在1990年中期都開始找到了概率統(tǒng)計這個新“體制”:統(tǒng)計建模、機器學習、隨機計算算法等。
在這個體制的轉型過程中,起到核心作用的有這么幾個人。講得通俗一點,他們屬于先知先覺者,提前看到了人工智能的發(fā)展趨勢,押對了方向(就相當于80年代買了微軟、英特爾股票;90年代末,押對了中國房地產(chǎn)的那一批人)。他們沒有進入中國媒體的宣傳視野。我簡要介紹一下,從中我們也可以學習到一些治學之道。
第一個人叫UlfGrenander。他從60年代就開始做隨機過程和概率模型,是最早的先驅。60年代屬于百家爭鳴的時期,當別的領軍人物都在談邏輯、神經(jīng)網(wǎng)絡的時候,他開始做概率模型和計算,建立了廣義模式理論,試圖給自然界各種模式建立一套統(tǒng)一的數(shù)理模型。我在以前談計算機視覺歷史的博文里寫過他,他剛剛去世。美國數(shù)學學會AMS剛剛以他名字設立了一個獎項(GrenanderPrize)獎給對統(tǒng)計模型和計算領域有貢獻的學者。他絕對是學術思想的先驅人物。
第二個人是JudeaPearl。他是我在UCLA的同事,原來是做啟發(fā)式搜索算法的。80年代提出貝葉斯網(wǎng)絡把概率知識表達于認知推理,并估計推理的不確定性。到90年代末,他進一步研究因果推理,這又一次領先于時代。2011年因為這些貢獻他拿了圖靈獎。他是一個知識淵博、思維活躍的人,不斷有原創(chuàng)思想。80多歲了,還在高產(chǎn)發(fā)表論文。順便吹牛一句,他是第一個在UCLA計算機系和統(tǒng)計系兼職的教授,我是多年之后第二個這樣兼職的。其實搞這種跨學科研究當時思想超前,找工作或者評議的時候,兩邊的同行都不待見,不認可。
第三個人是LesleiValiant。他因離散數(shù)學、計算機算法、分布式體系結構方面的大量貢獻,2010年拿了圖靈獎。1984年,他發(fā)表了一篇文章,開創(chuàng)了computationallearningtheory。他問了兩個很簡單、但是深刻的問題。第一個問題:你到底要多少例子、數(shù)據(jù)才能近似地、以某種置信度學到某個概念,就是PAClearning;第二個問題:如果兩個弱分類器綜合在一起,能否提高性能?如果能,那么不斷加弱分類器,就可以收斂到強分類器。這個就是Boosting和Adaboost的來源,后來被他的一個博士后設計了算法。順便講一句,這個機器學習的原理,其實中國人早就在生活中觀察到了,就是俗話說的“三個臭裨將、頂個諸葛亮”。這里的裨將就是副官,打仗的時候湊在一起商量對策,被民間以訛傳訛,說成“皮匠”。Valiant為人非常低調。我1992年去哈佛讀書的時候,第一學期就上他的課,當時聽不懂他說話,他上課基本是自言自語。他把自己科研的問題直接布置作業(yè)讓我們?nèi)プ觯侥睦锒颊也坏絽⒖即鸢?,也沒有任何人可以問。苦啊,100分的課我考了40多分。上課的人從四十多人,到了期中只有十來個人,我開始擔心是不是要掛科了。最后,還是堅持到期末。他把成績貼在他辦公室門上,當我懷著忐忑不安心情去看分的時候,發(fā)現(xiàn)他給每個人都是A。
第四個人是DavidMumford。我把他放在這里,有點私心,因為他是我博士導師。他說他60年代初本來對人工智能感興趣。因為他數(shù)學能力特別強,上代數(shù)幾何課程的時候就發(fā)現(xiàn)能夠證明大定理了,結果一路不可收拾,拿了菲爾茨獎。但是,到了80年代中期,他不忘初心,還是決定轉回到人工智能方向來,從計算機視覺和計算神經(jīng)科學入手。我聽說他把原來代數(shù)幾何的書全部拿下書架放在走廊,讓人拿走,再也不看了。數(shù)學家來訪問,他也不接待了。計算機視覺80年代至90年代初,一個最大的流派就是做幾何和不變量,他是這方面的行家,但他根本不過問這個方向。他就從頭開始學概率,那個時候他搞不懂的問題就帶我去敲樓上統(tǒng)計系教授的門,比如去問哈佛一個有名的概率學家PersyDiaconis。他完全是一個學者,放下架子去學習新東西,直奔關鍵的體系,而不是拿著手上用慣了的錘子到處找釘子---這是我最佩服的地方。然后,他皈依了廣義模式理論。他的貢獻,我就避嫌不說了。
這個時期,還有一個重要的人物是做神經(jīng)網(wǎng)絡和深度學習的多倫多大學教授Hinton。我上大學的時候,80年代后期那一次神經(jīng)網(wǎng)絡熱潮,他就出名了。他很有思想,也很堅持,是個學者型的人物。所不同的是,他下面的團隊有點像搖滾歌手,能憑著一首通俗歌曲(代碼),迅速紅遍大江南北。這里順便說一下,我跟Hinton只見過一面。他腰椎疾病使得他不能到處作報告,前幾年來UCLA做講座(那時候深度學習剛剛開始起來),我們安排了一個面談。一見面,他就說“我們總算見面了”,因為他讀過我早期做的統(tǒng)計紋理模型和隨機算法的一些論文,他們學派的一些模型和算法與我們做的工作在數(shù)理層面有很多本質的聯(lián)系。我打印了一篇綜述文章給他帶在坐火車回去的路上看。這是一篇關于隱式(馬爾科夫場)與顯式(稀疏)模型的統(tǒng)一與過渡的信息尺度的論文,他回Toronto后就發(fā)來郵件,說很高興讀到這篇論文。很有意思的是,這篇論文的初稿,我和學生匿名投到CVPR會議,三個評分是“(5)強烈拒絕;(5)強烈拒絕;(4)拒絕”。評論都很短:“這篇文章不知所云,很怪異weird”。我們覺得文章死定了,就懶得反駁(rebuttal),結果出乎意外地被錄取了。當然,發(fā)表了也沒人讀懂。所以,我就寫成一篇長的綜述,算是暫時擱置了。我把這篇論文給他看,Hinton畢竟是行家,他一定也想過類似的問題。最近,我們又回去做這個問題,我在今年的ICIP大會特邀報告上還提到這個問題,后面也會作為一個《視覺求索》文章發(fā)布出來。這是一個十分關鍵的問題,就是兩大類概率統(tǒng)計模型如何統(tǒng)一起來(就像物理學,希望統(tǒng)一某兩個力和場),這是繞不過去的。
扯遠了,回到人工智能的歷史時期,我作了一個比較通俗的說法,讓大家好記住,相當于咱們中國早期的歷史。早期數(shù)理邏輯的體制相當于周朝,到80年代這個體制瓦解了,人工智能大概有二三十年不存在了,說起人工智能大家都覺得不著調,污名化了。其實,它進入一個春秋五霸時期,計算機視覺、自然語言理解、認知科學、機器學習、機器人學五大學科獨立發(fā)展。在發(fā)展壯大的過程中,這些學科都發(fā)現(xiàn)了一個新的平臺或者模式,就是概率建模和隨機計算。春秋時期雖然有一些征戰(zhàn),但還是相對平靜的時期。
那么現(xiàn)在開始進入一個什么狀態(tài)呢?這“春秋五霸”不斷擴充地盤和人馬,在一個共同平臺上開始交互了。比如說視覺跟機器學習很早就開始融合了?,F(xiàn)在視覺與自然語言、視覺跟認知、視覺跟機器人開始融合了。近年來,我和合作者就多次組織這樣的聯(lián)席研討會?,F(xiàn)在,學科之間則開始兼并了,就像是中國歷史上的“戰(zhàn)國七雄”時期。除了五霸,還有原來留在人工智能里面的兩個大方向:博弈決策和倫理道德。這兩者其實很接近,我后面把它們歸并到一起來講,一共六大領域,我把它歸納為“戰(zhàn)國六雄”。
所以,我跟那些計算機視覺的研究生和年輕人說,你們不要單純在視覺這里做,你趕緊出去“搶地盤”,單獨做視覺,已經(jīng)沒有多少新東西可做的了,性能調不過公司的人是一方面;更麻煩的是,別的領域的人打進來,把你的地盤給占了。這是必然發(fā)生的事情,現(xiàn)在正在發(fā)生的事情。
我的判斷是,我們剛剛進入一個“戰(zhàn)國時期”,以后就要把這些領域統(tǒng)一起來。首先我們必須深入理解計算機視覺、自然語言、機器人等領域,這里面有很豐富的內(nèi)容和語意。如果您不懂這些問題domain的內(nèi)涵,僅僅是做機器學習就稱作人工智能專家,恐怕說不過去。
我們正在進入這么一個大集成的、大變革的時代,有很多機會讓我們?nèi)ヌ剿髑把?,不要辜負了這個時代。這是我演講的第一個部分:人工智能的歷史、現(xiàn)狀,發(fā)展的大趨勢。
下面,進入我今天演講的第二個主題:用一個什么樣的構架把這些領域和問題統(tǒng)一起來。我不敢說我有答案,只是給大家提出一些問題、例子和思路,供大家思考。不要指望我給你提供代碼,下載回去,調調參數(shù)就能發(fā)文章。
第四節(jié)人工智能研究的認知構架:小數(shù)據(jù)、大任務范式
智能是一種現(xiàn)象,表現(xiàn)在個體和社會群體的行為過程中。回到前面烏鴉的例子,我認為智能系統(tǒng)的根源可以追溯到兩個基本前提條件:
一、物理環(huán)境客觀的現(xiàn)實與因果鏈條。這是外部物理環(huán)境給烏鴉提供的、生活的邊界條件。在不同的環(huán)境條件下,智能的形式會是不一樣的。任何智能的機器必須理解物理世界及其因果鏈條,適應這個世界。
二、智能物種與生俱來的任務與價值鏈條。這個任務是一個生物進化的“剛需”。如個體的生存,要解決吃飯和安全問題,而物種的傳承需要交配和社會活動。這些基本任務會衍生出大量的其它的“任務”。動物的行為都是被各種任務驅動的。任務代表了價值觀和決策函數(shù),這些價值函數(shù)很多在進化過程中就已經(jīng)形成了,包括人腦中發(fā)現(xiàn)的各種化學成分的獎懲調制,如多巴胺(快樂)、血清素(痛苦)、乙酰膽堿(焦慮、不確定性)、去甲腎上腺素(新奇、興奮)等。
有了物理環(huán)境的因果鏈和智能物種的任務與價值鏈,那么一切都是可以推導出來的。要構造一個智能系統(tǒng),如機器人或者游戲環(huán)境中的虛擬的人物,我們先給他們定義好身體的基本行動的功能,再定一個模型的空間(包括價值函數(shù))。其實,生物的基因也就給了每個智能的個體這兩點。然后,它就降臨在某個環(huán)境和社會群體之中,就應該自主地生存,就像烏鴉那樣找到一條活路:認識世界、利用世界、改造世界。
這里說的模型的空間是一個數(shù)學的概念,我們?nèi)四X時刻都在改變之中,也就是一個抽象的點,在這個空間中移動。模型的空間通過價值函數(shù)、決策函數(shù)、感知、認知、任務計劃等來表達。通俗來說,一個腦模型就是世界觀、人生觀、價值觀的一個數(shù)學的表達。這個空間的復雜度決定了個體的智商和成就。我后面會講到,這個模型的表達方式和包含哪些基本要素。
有了這個先天的基本條件(設計)后,下一個重要問題:是什么驅動了模型在空間中的運動,也就是學習的過程?還是兩點:
一、外來的數(shù)據(jù)。外部世界通過各種感知信號,傳遞到人腦,塑造我們的模型。數(shù)據(jù)來源于觀察(observation)和實踐(experimentation)。觀察的數(shù)據(jù)一般用于學習各種統(tǒng)計模型,這種模型就是某種時間和空間的聯(lián)合分布,也就是統(tǒng)計的關聯(lián)與相關性。實踐的數(shù)據(jù)用于學習各種因果模型,將行為與結果聯(lián)系在一起。因果與統(tǒng)計相關是不同的概念。
二、內(nèi)在的任務。這就是由內(nèi)在的價值函數(shù)驅動的行為、以期達到某種目的。我們的價值函數(shù)是在生物進化過程中形成的。因為任務的不同,我們往往對環(huán)境中有些變量非常敏感,而對其它一些變量不關心。由此,形成不同的模型。
機器人的腦、人腦都可以看成一個模型。任何一個模型由數(shù)據(jù)與任務來共同塑造。
現(xiàn)在,我們就來到一個很關鍵的地方。同樣是在概率統(tǒng)計的框架下,當前的很多深度學習方法,屬于一個被我稱作“大數(shù)據(jù)、小任務范式(bigdataforsmalltask)”。針對某個特定的任務,如人臉識別和物體識別,設計一個簡單的價值函數(shù)Lossfunction,用大量數(shù)據(jù)訓練特定的模型。這種方法在某些問題上也很有效。但是,造成的結果是,這個模型不能泛化和解釋。所謂泛化就是把模型用到其它任務,解釋其實也是一種復雜的任務。這是必然的結果:你種的是瓜,怎么希望得豆呢?
我多年來一直在提倡的一個相反的思路:人工智能的發(fā)展,需要進入一個“小數(shù)據(jù)、大任務范式(smalldataforbigtasks)”,要用大量任務、而不是大量數(shù)據(jù)來塑造智能系統(tǒng)和模型。在哲學思想上,必須有一個思路上的大的轉變和顛覆。自然辨證法里面,恩格斯講過,“勞動創(chuàng)造了人”,這個有點爭議。我認為一個更合適的說法是“任務塑造了智能”。人的各種感知和行為,時時刻刻都是被任務驅動的。這是我過去很多年來一直堅持的觀點,也是為什么我總體上不認可深度學習這個學派的做法,雖然我自己是最早提倡統(tǒng)計建模與學習的一批人,但是后來我看到了更大的問題和局勢。當然,我們的假設前提是智能系統(tǒng)已經(jīng)有了前面講的基本的設置,這個系統(tǒng)設置是億萬年的進化得來的,是不是通過大量數(shù)據(jù)了打磨(淘汰)出來的呢。有道理!如果我們把整個發(fā)展的過程都考慮進來,智能系統(tǒng)的影響可以分成三個時間段:(1)億萬年的進化,被達爾文理論的一個客觀的適者生存的pheontypelandscape驅動;(2)千年的文化形成與傳承;(3)幾十年個體的學習與適應。我們?nèi)斯ぶ悄苎芯客ǔ?紤]的是第三個階段。
那么,如何定義大量的任務?人所感興趣的任務有多少,是個什么空間結構?這個問題,心理和認知科學一直說不清楚,寫不下來。這是人工智能發(fā)展的一個巨大挑戰(zhàn)。
理清了這些前提條件,帶著這樣的問題,下面我用六節(jié)分別介紹六大領域的問題和例子,看能不能找到共性的、統(tǒng)一的框架和表達模型。過去幾年來,我的研究中心一直把這六個領域的問題綜合在一起研究,目的就是尋找一個統(tǒng)一的構架,找到“烏鴉”這個解。
第五節(jié)計算機視覺:從“深”到“暗”Dark,BeyondDeep
視覺是人腦最主要的信息來源,也是進入人工智能這個殿堂的大門。我自己的研究也正是從這里入手的。這一節(jié)以一個具體例子來介紹視覺里面的問題。當然,很多問題遠遠沒有被解決。
這是我家廚房的一個視角。多年前的一個下午,我女兒放學回家,我正在寫一個大的項目申請書,就拍了這一張作為例子。圖像就是一個像素的二維矩陣,可是我們感知到非常豐富的三維場景、行為的信息;你看的時間越長,理解的也越多。下面我列舉幾個被主流(指大多數(shù)研究人員)忽視的、但是很關鍵的研究問題。
一、幾何常識推理與三維場景構建。以前計算機視覺的研究,需要通過多張圖像(多視角)之間特征點的對應關系,去計算這些點在三維世界坐標系的位置(SfM、SLAM)。其實人只需要一張圖像就可以把三維幾何估算出來。最早我在2002與一個學生韓峰發(fā)表了一篇文章,受到當時幾何學派的嘲笑:一張圖像怎么能計算三維呢,數(shù)學上說不通呀。其實,在我們的人造環(huán)境中,有很多幾何常識和規(guī)律:比如,你坐的椅子高度就是你小腿的長度約16英寸,桌子約30英寸,案臺約35英寸,門高約80英寸---都是按照人的身體尺寸和動作來設計的。另外,人造環(huán)境中有很多重復的東西,比如幾個窗戶一樣大小一致,建筑設計和城市規(guī)劃都有規(guī)則。這些就是geometriccommonsense,你根據(jù)這些幾何的約束就可以定位很多點的三維位置,同時估計相機位置和光軸。
見下圖所示,在這個三維場景中,我們的理解就可以表達成為一個層次分解(compositional)的時空因果的解譯圖(Spatial,TemporalandCausalParseGraph),簡稱STC-PG。STC-PG是一個極其重要的概念,我下面會逐步介紹。
幾何重建的一個很重要的背景是,我們往往不需要追求十分精確的深度位置。比如,人對三維的感知其實都是非常不準的,它的精確度取決于你當前要執(zhí)行的任務。在執(zhí)行的過程中,你不斷地根據(jù)需要來提高精度。比如,你要去拿幾米以外的一個杯子,一開始你對杯子的方位只是一個大致的估計,在你走近、伸手的過程中逐步調整精度。
這就回到上一節(jié)談的問題,不同任務對幾何與識別的精度要求不一樣。這是人腦計算非常高效的一個重要原因。最近,我以前一個博士后劉曉白(現(xiàn)在是助理教授)和我其他學生在這方面取得了很好進展,具體可以查看他們相關文章。
二、場景識別的本質是功能推理?,F(xiàn)在很多學者做場景的分類和分割都是用一些圖像特征,用大量的圖片例子和手工標注的結果去訓練神經(jīng)網(wǎng)絡模型---這是典型的“鸚鵡”模式。而一個場景的定義本質上就是功能。當你看到一個三維空間之后,人腦很快就可以想象我可以干什么:這個地方倒水,這里可以拿杯子,這里可以坐著看電視等?,F(xiàn)代的設計往往是復合的空間,就是一個房間可以多種功能,所以簡單去分類已經(jīng)不合適了。比如,美式廚房可以做飯、洗菜、用餐、聊天、吃飯。臥室可以睡覺、梳妝、放衣服、看書。場景的定義是按照你在里面能夠干什么,這個場景就是個什么,按照功能劃分,這些動作都是你想象出來的,實際圖像中并沒有。人腦感知的識別區(qū)與運動規(guī)劃區(qū)是直接互通的,相互影響。我的博士學生趙一彪就是做這個的,他畢業(yè)去了MIT做認知科學博后,現(xiàn)在創(chuàng)立了一家自動駕駛的AI公司。
為了想象這些功能,人腦有十分豐富的動作模型,這些動作根據(jù)尺度分為兩類(見下圖)。第一類(左圖)是與整個身體相關的動作,如坐、站、睡覺、工作等等;第二類(右圖)是與手的動作相關的,如砸、剁、鋸、撬等等。這些四維基本模型(三維空間加一維時間)可以通過日常活動記錄下來,表達了人的動作和家具之間,以及手和工具之間的關系。正因為這一點,心理學研究發(fā)現(xiàn)我們將物體分成兩大類,分別存放在腦皮層不同區(qū)域:一類是跟手的大小有關,跟手的動作相關的,如你桌上的東西;另一類是跟身體有關,例如家具之類。
有了這個理解,我們就知道:下面兩張圖,雖然圖像特征完全不同,但是他們是同一類場景,功能上是等價的。人的活動和行為,不管你是哪個國家、哪個歷史時期,基本是不變的。這是智能泛化的基礎,也就是把你放到一個新的地區(qū),你不需要大數(shù)據(jù)訓練,馬上就能理解、適應。這是我們能夠舉一反三的一個基礎。
回到前面的那個STC-PG解譯圖,每個場景底下其實就分解成為一些動作和功能(見STC-PG圖中的綠色方片節(jié)點)。由計算機想象、推理的各種功能決定對場景的分類。想象功能就是把人的各種姿態(tài)放到三維場景中去擬合(見廚房解譯圖中人體線畫)。這是完全不同于當前的深度學習方法用的分類方法。
三、物理穩(wěn)定性與關系的推理。我們的生活空間除了滿足人類的各種需求(功能、任務)之外,另一個基本約束就是物理。我們對圖像的解釋和理解被表達成為一個解譯圖,這個解譯圖必須滿足物理規(guī)律,否則就是錯誤的。比如穩(wěn)定性是人可以快速感知的,如果你發(fā)現(xiàn)周圍東西不穩(wěn),要倒了,你反應非???,趕緊閃開。最近我們項目組的耶魯大學教授BrianScholl的認知實驗發(fā)現(xiàn),人對物理穩(wěn)定性的反應是毫秒級,第一反應時間大約100ms。
我們對圖像的理解包含了物體之間的物理關系,每個物體的支撐點在那里。比如,下面這個圖,吊燈和墻上掛的東西,如果沒有支撐點,就會掉下來(右圖)。這個研究方向,MIT認知科學系的JoshTenenbuam教授與我都做了多年。
我提出了一個新的場景理解的minimax標準:minimizeinstabilityandmaximizefunctionality最小化不穩(wěn)定性且最大化功能性。這比以前我們做圖像理解的用的MDL(最小描述長度)標準要更靠譜。這是解決計算機視覺的基本原理,功能和物理是設計場景的基本原則。幾何尺寸是附屬于功能推出來的,比如椅子的高度就是因為你要坐得舒服,所以就是你小腿的長度。
回到我家廚房的例子,你就會問,那里面的水是如何被檢測到的呢?水是看不見的,花瓶和水壺里的水由各種方式推出來的。另外,你可能注意到,桌上的番茄醬瓶子是倒立著,為什么呢?你可能很清楚,你家的洗頭膏快用完的時候,瓶子是不是也是的倒著放的呢?這就是對粘稠液體的物理和功能理解之后的結果。由此,你可以看到我們對一個場景的理解是何等“深刻”,遠遠超過了用深度學習來做的物體分類和檢測。
四、意向、注意和預測。廚房那張圖有一個人和一只狗,我們可以進一步識別其動作、眼睛注視的地方,由此推導其動機和意向。這樣我們可以計算她在干什么、想干什么,比如說她現(xiàn)在是渴了,還是累了。通過時間累積之后,進而知道她知道哪些,也就是她看到了或者沒有看到什么。在時間上做預測,她下面想干什么。只有把這些都計算出來了,機器才能更好地與人進行交互。
所以,雖然我們只看到一張圖片,那張STC-PG中,我們增加了時間維度,對人和動物的之前和之后的動作,做一個層次的分析和預測。當機器人能夠預判別人的意圖和下面的動作,那么它才能和人進行互動和合作。后面,我們講的語言對話可以幫助人機互動和合作;但是,我們?nèi)粘:芏嘟换f(xié)助,靠的是默契,不需要言語也能做不少事。
下面的這一張圖,是多攝像機的一個綜合場景的解譯實例。這是我的實驗室做出來的一個視覺系統(tǒng)。這個視頻的理解就輸出為一個大的綜合的STC-PG。在此基礎上,就可以輸出文字的描述(I2T)和回答提問QA。我們把它叫做視覺圖靈測試,網(wǎng)址:visualturingtest.com。
與第一節(jié)講的機器人競賽類似,這也是一個DARPA項目。測試就是用大量視頻,我們算出場景和人的三維的模型、動作、屬性、關系等等,然后就來回答各種各樣的1000多個問題。現(xiàn)在一幫計算機視覺的人研究VQA(視覺問答),就是拿大量的圖像和文本一起訓練,這是典型的“鸚鵡”系統(tǒng),基本都是“扯白”。回答的文字沒有真正理解圖像的內(nèi)容,常常邏輯不通。我們這個工作是在VQA之前,認真做了多年。我們系統(tǒng)在項目DARPA測試中領先,當時其它團隊根本無法完成這項任務??墒?,現(xiàn)在科研的一個現(xiàn)實是走向“娛樂化”:膚淺的歌曲流行,大家都能唱,復雜高深的東西大家躲著走。
既然說到這里,我就順便說說一些競賽的事情。大約從2008年開始,CVPR會議的風氣就被人“帶到溝里”了,組織各種數(shù)據(jù)集競賽,不談理解了,就是數(shù)字掛帥。中國很多學生和團隊就開始參與,俗稱“刷榜”。我那個時候跟那些組織數(shù)據(jù)集的人說(其實我自己2005年是最早在湖北蓮花山做大型數(shù)據(jù)標注的,但我一早就看到這個問題,不鼓勵刷榜),你們這些比賽前幾名肯定是中國學生或者公司?,F(xiàn)在果然應驗了,大部分榜上前幾名都是中國人名字或單位了。咱們刷榜比打乒乓球還厲害,刷榜變成咱們AI研究的“國球”。所謂刷榜,一般是下載了人家的代碼,改進、調整、搭建更大模塊,這樣速度快。我曾經(jīng)訪問一家技術很牛的中國公司(不是搞視覺的),那個公司的研發(fā)主管非常驕傲,說他們刷榜總是贏,美國一流大學都不在話下。我聽得不耐煩了,我說人家就是兩個學生在那里弄,你們這么大個團隊在這里刷,你代碼里面基本沒有算法是你自己的。如果人家之前不公布代碼,你們根本沒法玩。很多公司就拿這種刷榜的結果宣傳自己超過了世界一流水平。
五、任務驅動的因果推理與學習。前面我談了場景的理解的例子,下面我談一下物體的識別和理解,以及為什么我們不需要大數(shù)據(jù)的學習模式,而是靠舉一反三的能力。
我們?nèi)耸欠浅9纳鐣游?,就是說做什么事情都是被任務所驅動的。這一點,2000年前的司馬遷就已經(jīng)遠在西方功利哲學之前看到了(《史記》“貨殖列傳”):
“天下熙熙,皆為利來;天下攘攘,皆為利往。”
那么,人也就帶著功利的目的來看待這個世界,這叫做“teleologicalstance”。這個物體是用來干什么的?它對我有什么用?怎么用?
當然,有沒有用是相對于我們手頭的任務來決定的。很多東西,當你用不上的時候,往往視而不見;一旦要急用,你就會當個寶。俗話叫做“勢利眼”,沒辦法,這是人性!你今天干什么、明天干什么,每時每刻都有任務。俗話又叫做“屁股決定腦袋”,一個官員坐在不同位置,他就有不同的任務與思路,位置一調,馬上就“物是人非”了。
我們的知識是根據(jù)我們的任務來組織的。那么什么叫做任務呢?如何表達成數(shù)學描述呢?
每個任務其實是在改變場景中的某些物體的狀態(tài)。牛頓發(fā)明了一個詞,在這里被借用了:叫做fluent。這個詞還沒被翻譯到中文,就是一種可以改變的狀態(tài),我暫且翻譯為“流態(tài)”吧。比如,把水燒開,水溫就是一個流態(tài);番茄醬與瓶子的空間位置關系是一個流態(tài),可以被擠出來;還有一些流態(tài)是人的生物狀態(tài),比如餓、累、喜悅、悲痛;或者社會關系:從一般人,到朋友、再到密友等。人類和動物忙忙碌碌,都是在改變各種流態(tài),以提高我們的價值函數(shù)(利益)。
懂得這一點,我們再來談理解圖像中的三維場景和人的動作。其實,這就是因果關系的推理。所謂因果就是:人的動作導致了某種流態(tài)的改變。理解圖像其實與偵探(福爾摩斯)破案一樣,他需要的數(shù)據(jù)往往就是很小的蛛絲馬跡,但是,他能看到這些蛛絲馬跡,而普通沒有受偵探訓練的人就看不見。那么,如何才能看到這些蛛絲馬跡呢?其一、你需要大量的知識,這個知識來源于圖像之外,是你想象的過程中用到的,比如一個頭發(fā)怎么掉在這里的?還有就是行為的動機目的,犯案人員到底想改變什么“流態(tài)”?
我把這些圖像之外的東西統(tǒng)稱為“暗物質”---DarkMatter。物理學家認為我們可觀察的物質和能量只是占宇宙總體的5%,剩下的95%是觀察不到的暗物質和暗能量。視覺與此十分相似:感知的圖像往往只占5%,提供一些蛛絲馬跡;而后面的95%,包括功能、物理、因果、動機等等是要靠人的想象和推理過程來完成的。
有了這個認識,我們來看一個例子(見下圖左)。這個例子來自我們CVPR2015年發(fā)的paper,主要作者是朱毅鑫,這也是我很喜歡的一個工作。一個人要完成的任務是砸核桃,改變桌子上那個核桃的流態(tài)。把這個任務交給UCLA一個學生,他從桌面上的工具里面選擇了一個錘子,整個過程沒有任何過人之處,因為你也會這么做。
不過你細想一下,這個問題還相當復雜。這個動作就包含了很多信息:他為什么選這個錘子而不選別的東西,他為什么拿著錘這個柄靠后的位置?他揮動的力度用多少,這都是經(jīng)過計算的。這還有幾千幾萬的可能其他各種選擇、解法,他沒有選擇,說明他這個選法比其它的選擇肯定會好,好在哪呢?看似簡單的問題,往往很關鍵,一般人往往忽略了。
你通過這一琢磨、一對比就領悟到這個任務是什么,有什么竅門。以前學徒就是跟著師傅學,師傅經(jīng)常在做任務,徒弟就看著,師傅也不教,徒弟就靠自己領悟。有時候師傅還要留一手,不然你早早出師了,搶他的飯碗。有時候師傅擋著不讓你看;莫言的小說就有這樣的情節(jié)。人就是在觀察的時候,把這個任務學會了。
現(xiàn)在到一個新的場景(圖右),原來學習的那些工具都不存在了,完全是新的場景和物體,任務保持不變。你再來砸這個核桃試試看,怎么辦?人當然沒有問題,選這個木頭做的桌子腿,然后砸的動作也不一樣。這才是舉一反三,這才是智能,這沒有什么其他數(shù)據(jù),沒有大量數(shù)據(jù)訓練,這不是深度學習方法。
那這個算法怎么做的呢?我們把對這個物理空間、動作、因果的理解還是表達成為一個Spatial,TemporalandCausalParseGraph(STC-PG)。這個STC-PG包含了你對空間的理解(物體、三維形狀、材質等)、時間上動作的規(guī)劃、因果的推理。最好是這樣子砸,它物理因果能夠實現(xiàn),可能會被砸開,再連在一塊來求解,求時間、空間和因果的這么一個解析圖,就是一個解。也就是,最后你達到目的,改變了某種物理的流態(tài)。
我再強調幾點:
一、這個STC-PG的表達是你想象出來的。這個理解的過程是在你動手之前就想好了的,它里面的節(jié)點和邊大多數(shù)在圖像中是沒有的,也就是我稱作的“暗物質”。
二、這個計算的過程中,大量的運算屬于“top-down”自頂向下的計算過程。也就是用你腦皮層里面學習到的大量的知識來解釋你看到的“蛛絲馬跡”,形成一個合理的解。而這種Top-down的計算過程在目前的深度多層神經(jīng)網(wǎng)絡中是沒有的。神經(jīng)網(wǎng)絡只有feedforward向上逐層傳播信息。你可能要說了,那不是有Back-propagation嗎?那不是top-down。一年前,LeCun來UCLA做講座,他看到我在座,就說DNN目前缺乏朱教授一直提倡的Top-Down計算進程。
三、學習這個任務只需要極少的幾個例子。如果一個人要太多的例子,說明Ta腦袋“不開竅”,智商不夠。順便說一句,我在UCLA講課,期末學生會給老師評估教學質量。一個常見的學生意見就是朱教授給的例子太少了。對不起,我沒時間給你上課講那么多例子,靠做題、題海訓練,那不是真本事,也不是學習的本質。子曰:“學而不思則罔,思而不學則殆”。這里的“思”應該是推理,對于自然界或者社會的現(xiàn)象、行為和任務,形成一個符合規(guī)律的自洽的解釋,在我看來就是一個STC-PG。
那么STC-PG是如何推導出來的呢?它的母板是一個STC-AOG,AOG就是And-OrGraph與或圖。這個與或圖是一個復雜的概率語法圖模型,它可以導出巨量的合乎規(guī)則的概率事件,每一個事件就是STC-PG。這個表達與語言、認知、機器人等領域是一致的。在我看來,這個STC-AOG是一個統(tǒng)一表達,它與邏輯以及DNN可以打通關節(jié)。這里就不多講了。
接著砸核桃的例子講,還是朱毅鑫那篇文章的實驗,這個實驗很難做。比如現(xiàn)在的一個任務是“鏟土”,我給你一個例子什么叫鏟土,然后開始測試這個智能算法(機器人)的泛化能力。見下圖。
第一組實驗(圖左)。我給你一些工具,讓你鏟土,機器人第一選擇挑了這個鏟子,這個不是模式識別,它同時輸出用這個鏟子的動作、速度;輸出鏟子柄的綠色地方表示它要手握的地方,這個紅的表示它用來鏟土的位置。第二選擇是一把刷子。
第二組實驗(圖中)。假如我要把這些工具拿走,你現(xiàn)在用一些家里常見的物體,任務還是鏟土。它的第一選擇是鍋,第二選擇是杯子。二者的確都是最佳選擇。這是計算機視覺做出來的,自動的。
第三組實驗(圖右)。假如我們回到石器時代,一堆石頭能干什么事情?所以我經(jīng)常說,咱們石器時代的祖先,比現(xiàn)在的小孩聰明。因為他們能夠理解這個世界的本質,現(xiàn)在,工具和物體越來越特定了,一個工具做一個任務,人都變成越來越傻了。視覺認知就退化成模式識別的問題了:從原來工具的理解變成一個模式識別。也就是由烏鴉變鸚鵡了。
計算機視覺小結:我簡短總結一下視覺的歷史。見下圖。
視覺研究前面25年的主流是做幾何,以形狀和物體為中心的研究:Geometry-BasedandObject-Centered。最近25年是從圖像視角通過提取豐富的圖像特征描述物體的外觀來做識別、分類:Appearance-BasedandView-Centered。幾何當然決定表觀。那么幾何后面深處原因是什么呢?幾何形狀的設計是因為有任務,最頂層是有任務,然后考慮到功能、物理、因果,設計了這些物體再來產(chǎn)生圖像,這是核心問題所在。我把在當前圖像是看不見的“東西”叫darkmatter。物理里面darkmatterenergy占95%,確確實實在我們智能里面darkmatter也占了大部分。而你看到的東西就是現(xiàn)在深度學習能夠解決的,比如說人臉識別、語音識別,就是很小的一部分看得見的東西;看不見的在后面,才是我們真正的智能,像那個烏鴉能做到的。
所以,我的一個理念是:計算機視覺要繼續(xù)發(fā)展,必須發(fā)掘這些“darkmatter”。把圖像中想象的95%的暗物質與圖像中可見的5%的蛛絲馬跡,結合起來思考,才能到達真正的理解?,F(xiàn)在大家都喜歡在自己工作前面加一個Deep,以為這樣就算深刻了、深沉了,但其實還是非常膚淺的。不管你多深,不管你卷積神經(jīng)網(wǎng)絡多少層,它只是處理可見的圖像表觀特征、語音特征,沒有跳出那5%,對吧?那些認為深度學習解決了計算機視覺的同學,我說服你了么?如果沒有,后面還有更多的內(nèi)容。
視覺研究的未來,我用一句話來說:GoDark,BeyondDeep---發(fā)掘暗,超越深。
這樣一來,視覺就跟認知和語言接軌了。
第六節(jié)認知推理:走進內(nèi)心世界
上一節(jié)講到的智能的暗物質,已經(jīng)屬于感知與認知的結合了。再往里面走一步,就進入人與動物的內(nèi)心世界Mind,內(nèi)心世界反映外部世界,同時受到動機任務的影響和扭曲。研究內(nèi)涵包括:
Ta看到什么了?知道什么了?什么時候知道的?這其實是對視覺的歷史時間求積分。
Ta現(xiàn)在在關注什么?這是當前的正在執(zhí)行的任務。
Ta的意圖是什么?后面想干什么?預判未來的目的和動機。
Ta喜歡什么?有什么價值函數(shù)?這在第九節(jié)會談到具體例子。
自從人工智能一開始,研究者就提出這些問題,代表人物是Minsky:societyofminds,心理學研究叫做Theoryofminds。到2006年的時候,MIT認知科學系的Saxe與Kanwisher(她是我一個項目合作者)發(fā)現(xiàn)人的大腦皮層有一個專門的區(qū),用于感受、推理到別人的想法:我知道你在想什么、干什么。這是人工智能的重要部分。
說個通俗的例子,你可能聽到過這樣的社會新聞:某男能夠同時與幾個女朋友維持關系,而且不被對方發(fā)現(xiàn),就是他那幾個女朋友互相不知情。這其實很難做到,因為你一不小心就要暴露了。他需要記住跟誰說過什么謊話、做過或者答應過什么事。這種人的這個腦皮層區(qū)一定是特別發(fā)達,而他的那些女朋友的這個區(qū)可能不那么發(fā)達。電影中的間諜需要特別訓練這方面的“反偵察”能力,就是你盡量不讓對方發(fā)現(xiàn)你的內(nèi)心。這是極端狀況。現(xiàn)實生活中,一般非隱私性的活動中,我們是不設防的,也就是“君子坦蕩蕩”。
不光是人有這個偵察與反偵察的能力,動物也有(見上圖)。比如說這個鳥(圖左),它藏果子的時候,會查看周圍是否有其它鳥或者動物在那里看到它;如果有,它就不藏,它非要找到?jīng)]人看它的時候和地方藏。這就是它在觀察你,知道你知道什么。圖中是一個狐貍和水獺對峙的視頻。水獺抓到魚了以后,發(fā)現(xiàn)這個狐貍在岸上盯著它呢,它知道這個狐貍想搶它嘴里叼著的魚。水獺就想辦法把魚藏起來,它把這個魚藏到水底下,然后這個狐貍去找。這說明了動物之間互相知道對方在想什么。
小孩從一歲多的時候開始就有了這個意識。一個關鍵反應證據(jù)是:他會指東西給你看,你看到了、還是沒看到的,他會知道。FelixWarneken現(xiàn)在在哈佛大學當心理學系的助理教授。他當博士生的時候做過一系列心理實驗。一般一歲多的小孩能知道給你開門,小孩很樂意、主動去幫忙。小孩很早就知道跟人進行配合,這就是人機交互。你把這個小孩看成一個機器人的話,你要設計一個機器人,就是希望它知道看你想干什么,這是人工智能的一個核心表現(xiàn)。
盡管人工智能和認知科學,以及最近機器人領域的人都對這個問題感興趣,但是,大家以前還都是嘴上、紙上談兵,用的是一些toyexamples作為例子來分析。要做真實世界的研究,就需要從計算機視覺入手。計算機視覺里面的人呢,又大部分都在忙著刷榜,一時半會還沒意思到這是個問題。我的實驗室就捷足先登,做了一些初步的探索,目前還在積極推進之中。
我們首先做一個簡單的試驗,如上圖。這個人在廚房里,當前正在用微波爐。有一個攝像頭在看著他,就跟監(jiān)控一樣,也可以是機器人的眼睛(圖左)。首先能夠看到他目前在看什么(圖中),然后,轉換視角,推算他目前看到了什么(圖右)。
上面這個圖是實驗的視頻的截圖。假設機器人事先已經(jīng)熟悉某個三維房間(圖e),它在觀察一個人在房間里面做事(圖a)。為了方便理解,咱們就想象這是一個養(yǎng)老院或者醫(yī)院病房,機器人需要知道這個人現(xiàn)在在干什么,看什么(圖c)。它的輸入僅僅是一個二維的視頻(圖a)。它開始跟蹤這個人的運動軌跡和眼睛注視的地方,顯示在圖e的那些軌跡和圖f的行為分類。然后,圖d(右上角)是它估算出來的,這個人應該在看什么的圖片。也就是,它把它附體到這個人身上,來感知。這個結果與圖b對比,非常吻合。圖b是這個人帶一個眼鏡,眼鏡有一個小攝像頭記錄下來的,他確實在看的東西。這個實驗結果是魏平博士提供的,他是西交大前校長鄭南寧老師那里的一個青年教師,博士期間在我實驗室訪問,后來又回來進修。
這里面需要推測動作與物體的時空交互,動作隨時間的轉換,手眼協(xié)調。然后,進一步猜他下面干什么,意圖等等。這個細節(jié)我不多講了。
對這個人內(nèi)心的狀態(tài),也可以用一個STC-AOG和STC-PG來表達的,見下圖,大致包含四部分。
一、時空因果的概率“與或圖”,STC-AOG。它是這個人的一個總的知識,包含了所有的可能性,我待會兒會進一步闡述這個問題。剩下的是他對當前時空的一個表達,是一個STC-PG解譯圖。此解譯圖包含三部分,圖中表達為三個三角形,每個三角形也是一個STC-PG解譯圖。
二、當前的情景situation,由上圖的藍色三角形表示。當前的情況是什么,這也是一個解,表示視覺在0-t時間段之間對這個場景的理解的一個解譯圖。
三、意向與動作規(guī)劃圖,由上圖的綠色三角形表示。這也是一個層次化的解譯圖,預判他下面還會做什么事情,
四、當前的注意力,由上圖的紅色三角形表示。描述他正在關注什么。
把這整個解譯圖放在一塊,基本上代表著我們腦袋的過去、現(xiàn)在、未來的短暫時間內(nèi)的狀態(tài)。用一個統(tǒng)一的STC-PG和STC-AOG來解釋。這是一個層次的分解。因為是Composition,它需要的樣本就很少。
有人要說了,我的深度神經(jīng)網(wǎng)絡也有層次,還一百多層呢。我要說的是,你那一百多層其實就只有一層,對不對?因為你從特征做這個識別,中間的東西是什么你不知道,他不能去解釋中間那些過程,只有最后一層輸出物體類別。
上面說的這個表達,是機器人對某個人內(nèi)心狀態(tài)的一個估計,這個估計有一個后驗概率,這個估計不是唯一的,存在不確定性。而且,它肯定不是真相。不同的人觀察某個人,可能估計都不一樣。那么在一個機器與人共生共存的環(huán)境中,假設這個場景里有N個機器人或者人,這里面有很多N個“自我”minds。然后,每個人有對別人有一個估計,這就有Nx(N-1)個minds表達。我知道你在想什么,你知道我在想什么,這至少是平方級的。你有一百個朋友的話,哪個朋友他腦袋里想什么你心里都有數(shù)。關系越近,理解也就越深,越準確。
當然,我們這里只是做一階推理,在復雜、對抗的環(huán)境中,人們不得不用多階的表達。當年司馬懿和諸葛亮在祁山對峙時,諸葛亮比司馬懿總是要多算一階。所謂兵不厭詐,就是有時候我故意把一個錯誤信息傳給你,《三國演義》中很多此類的精彩故事,比如周瑜打黃蓋、蔣干盜書。
我用下面這個圖來大致總結一下。兩個人A與B或者一個人一個機器人,他們腦袋里面的表達模式。圖中是一個嵌套的遞歸結構,每一個橢圓代表一個大腦的內(nèi)心mind。
每個mind除了上面談到的知識STC-AOG和狀態(tài)STC-PG,還包含了價值函數(shù),就是價值觀,和決策函數(shù)。價值觀驅動動作,然后根據(jù)感知、行動去改變世界,這樣因果就出來了。我后面再細談這個問題。
最底下中間的那個橢圓代表真實世界(“上帝”的mind,真相只有TA知道,我們都不知道),上面中間的那個橢圓是共識。多個人的話就是社會共識。在感知基礎上,大家形成一個統(tǒng)一的東西,共同理解,我們達成共識。比如,大家一起吃飯,菜上來了,大家都看到這個菜是什么菜,如果沒有共識那沒法弄。比如,“指鹿為馬”或者“皇帝的新裝”,就是在這些minds之間出現(xiàn)了不一致的東西。這是所謂“認識論”里面的問題。以前,在大學學習認識論,老師講得比較空泛,很難理解;現(xiàn)在你把表達寫出來,一切都清楚了。這也是人工智能必須解決的問題。
我們要達成共識,共同的知識,然后在一個小的團體、大致社會達成共同的價值觀。當有了共同價值觀的時候,就有社會道德和倫理規(guī)范,這都可以推導出來了。俗話說,入鄉(xiāng)隨俗。當你加入一個新的團體或者社交群體,你可能先觀察看看大家都是怎么做事說話的。機器人要與人共生共存必須理解人的團體的社會道德和倫理規(guī)范。所以說,這個認識論是機器人發(fā)展的必經(jīng)之道。烏鴉知道人類在干什么,它才能夠利用這個在社會里生存。
那么如何達成共識呢?語言就是必要的形成共識的工具了。
第七節(jié)語言通訊:溝通的認知基礎
我要介紹的人工智能的第三個領域是語言、對話。最近我兩次在視覺與語言結合的研討會上做了報告,從我自己觀察的角度來談,視覺與語言是密不可分的。
人類的語言中樞是獨特的,有趣的是它在運動規(guī)劃區(qū)的附近。我們?yōu)槭裁匆獙υ捘??語言的起源就是要把一個人腦袋(mind)的一個信息表達傳給你一個人,這就包括上一節(jié)講的知識、注意、意向計劃,歸納為圖中那三個三角形的表達。希望通過對話形成共識,形成共同的任務規(guī)劃,就是我們一致行動。所以,語言產(chǎn)生的基礎是人要尋求合作。
動物之間就已經(jīng)有豐富的交流的方式,很多借助于肢體語言。人的對話不一定用語言,手語、啞劇(pantomine)同樣可以傳遞很多信息。所以,在語言產(chǎn)生之前,人類就已經(jīng)有了十分豐富的認知基礎,也就是上一節(jié)談的那些表達。沒有這樣的認知基礎,語言是空洞的符號,對話也不可能發(fā)生。
發(fā)育心理學實驗表明,12個月的小孩就可以知道去指東西,更小年齡就不會,但是很多動物永遠達不到這個水平。舉個例子,有人做了個實驗。一群大猩猩坐在動物園里,一個猩猩媽媽帶一個小猩猩,玩著玩著小猩猩跑不見了,然后這個媽媽去找。周圍一大堆閑著的猩猩坐在那里曬太陽,它們明明知道那個小猩猩去哪了。如果是人的話,我們就會熱心地指那個小孩的方向,人天生是合作的,去幫助別人的,助人為樂,所以這是為什么我們?nèi)诉M化出來了。猩猩不會,猩猩不指,它們沒有這個動機,它們腦袋與人相比一定是缺了一塊。人和動物相比,我們之所以能夠比他們更高級,因為腦袋里有很多通信的認知構架(就像多層網(wǎng)絡通訊協(xié)議)在大腦皮層里面,沒有這些認知構架就沒法通信。研究語言的人不去研究底下的認知構架,那是不會有很大出息的。下面這個圖來源于人類學的研究的一個領軍人物MichaelTomasello。
除了需要這個認知基礎,語言的研究不能脫離了視覺對外部世界的感知、機器人運動的因果推理,否則語言就是無源之水、無本之木。這也就是為什么當前一些聊天機器人都在“扯白”。
我們先來看一個最基本的的過程:信息的一次發(fā)送。當某甲(sender)要發(fā)送一條消息給某乙(receiver),這是一個簡單的通訊communication。這個通訊的數(shù)學模型是當年貝爾實驗室香農(nóng)Shannon1948年提出來的信息論。首先把它編碼,因為這樣送起來比較短,比較快;針對噪聲通道,加些冗余碼防錯;然后解碼,某乙就拿到了這個信息。見下圖。
在這個通訊過程之中他有兩個基本的假設。第一、這兩邊共享一個碼本,否則你沒法解碼,這是一個基本假設。第二、就是我們有個共享的外部世界的知識在里面,我們都知道世界上正在發(fā)生什么什么事件,比如哪個股票明天要漲了,哪個地方要發(fā)生什么戰(zhàn)爭了等等。我給你傳過去的這個信息其實是一個解譯圖的片段(PG:parsegraph)。這個解譯圖的片段對于我們物理世界的一個狀態(tài)或者可能發(fā)生的狀態(tài)的描述。這個狀態(tài)也有可能就是我腦袋Mind里面的一個想法、感覺、流態(tài)(fluents)。比如,很多女人拿起電話,叫做“煲粥”,就在交流內(nèi)心的一些經(jīng)歷和感受。
如果沒有這個共同的外部世界,那我根本就不知道你在說什么。比如外國人聚在一起講一個笑話,我們可能聽不懂。我們中國人說“林黛玉”,那是非常豐富的一個文化符號,我們都明白誰是林黛玉,她的身世、情感、性格和價值觀,就輪到外國人聽不懂了。
Shannon的通訊理論只關心碼本的建立(比如視頻編解碼)和通訊帶寬(3G,4G,5G)。1948年提出信息論后,盡管有很多聰明人、數(shù)學根底很強的人進到這個領域,這個領域一直沒有什么大的突破。為什么?因為他們忽視了幾個更重大的認識論的問題,避而不談:
甲應該要想一下:乙腦袋里面是否與甲有一個共同的世界模型?否則,解碼之后,乙也不能領會里面的內(nèi)容?或者會誤解。那么我發(fā)這個信息的時候,措辭要盡量減少這樣的誤解。
甲還應該要想一下:為什么要發(fā)這個信息?乙是不是已經(jīng)知道了,乙關不關注這個信息呢?乙愛不愛聽呢?聽后有什么反應?這一句話說出去有什么后果呢?
乙要想一下:我為什么要收這個信息呢?你發(fā)給我是什么意圖?
這是在認知層面的,遞歸循環(huán)的認知,在編碼之外。所以,通訊理論就只管發(fā)送,就像以前電報大樓的發(fā)報員,收錢發(fā)報,他們不管你發(fā)報的動機、內(nèi)容和后果。
縱觀人類語言,中國的象形文字實在了不起。所謂象形文字就完全是“明碼通訊”。每個字就是外部世界的一個圖片、你一看就明白了,不需要編解碼。我覺得研究自然語言的人和研究視覺統(tǒng)計建模的人,都要好好看看中國的甲骨文,然后,所有的事情都清楚了。每個甲骨文字就是一張圖,圖是什么?代表的就是一個解譯圖的片段(fragmentofparsegraph)。
上面這個圖是一個漢字的演變和關系圖,從一本書叫做《漢字樹》得來的。幾年前,我到臺灣訪問,發(fā)現(xiàn)這本叢書,很有意思。這個圖是從眼睛開始的一系列文字。
首先從具象的東西開始,這中間是一個眼睛,“目”字,把手搭在眼睛上面,孫悟空經(jīng)常有這個動作,就是“看”(look)。
然后是會意,比如“省”,就是細看,明察秋毫,畫一個很小的葉子在眼睛上面,指示說你看葉子里面的東西,表示你要細看。
然后開始表達抽象的概念,屬性attribute、時空怎么表達,就是我們甲骨文里面,表示出發(fā)、終止,表示人的關系,人的腦袋狀態(tài),甚至表現(xiàn)倫理道德。就這樣,一直推演開。
所以,搞視覺認知的,要理解物體功能就要追溯到石器時代去,搞語言的要追溯到語言起源。
下圖是另一個例子:日、月、山、水、木;鳥、雞、魚、象、羊。下面彩色的圖是我們實驗室現(xiàn)在用計算機視覺技術從圖像中得到的一些物體的表達圖模型,其實就重新發(fā)明一些更具像的甲骨文。這項技術是由YiHong,司長長等博士做的無監(jiān)督學習。他們的算法發(fā)現(xiàn)了代表鳥的有頭、身子和腳、水波和水草等“類甲骨文”名詞符號。這種視覺的表達模型是可解釋explainable、直觀的。
所以,從生成式模型的角度來看,語言就是視覺,視覺就是語言。
再來看看動詞??伎寄銈儯@是啥意思?第一個字,兩只手,一根繩子,在拖地上一個東西,拿根繩子拽。第二個很簡單,洗手。第三是關門。第四是援助的援字,一只手把另外一個人的手往上拉。第五也是兩個手,一個手朝下一個手朝上,啥意思?我給你東西,你接受。第六是爭奪的爭,兩個手往相反的方向搶。第七兩個人在聊天?;旧?,字已經(jīng)表示了人和人之間的動作細節(jié)。
現(xiàn)在我的實驗室里,計算機也能自動學出“類甲骨文”的動詞的表達,見下圖。我們學出來的這些兩個人交互的動作包括:坐、玩手機、握手、人拉人等等。我們把這些動作模型分別叫做4DHOI(4DHuman-ObjectInteraction)、4Dhoi(4Dhand-objectinteraction)、4DHHI(4DHuman-HumanInteraction)。
我剛才說了名詞和動詞,還有很多其他的東西,我建議你們?nèi)パ芯恳幌?,要建模型的話我們古代的甲骨文其實就是一個模型,他能夠把我們世界上所有需要表達的東西都給你表達了,是一個完備了的語言模型。
我再舉個復雜和抽象的例子,咱們古代人怎么定義倫理道德,非常的漂亮!
引言中談到,大家擔心機器人進入社會以后,是不是會危害人類生存,所以引發(fā)了很多討論。有一次我參加一個DARPA內(nèi)部會議,會議邀請了各界教授們討論這個問題,他們來自社會倫理學、認知科學、人工智能等學科。大家莫衷一是。輪到我做報告,我就說,其實這個問題,中國古代人的智慧就已經(jīng)想清楚了。
倫理道德的“德”字怎么定義的?什么叫道德?
道德規(guī)范是什么,它是個相對的定義,隨著時間和人群而變化。我剛來美國的時候,美國社會不許墮胎、不許同性戀,現(xiàn)在都可以了。中國以前婦女都不許改嫁。甚至到幾十年前,我在家鄉(xiāng)都聽說這樣的規(guī)矩:如果一個婦女在路上,她的影子投到一個長老身上,那是大不敬,所以走路必須繞開,這就是一種社會規(guī)范?! ?
中文這個“德”字你看左邊是雙人旁,雙人旁其實不是兩個人,雙人旁在甲骨文畫的是十字路口(見最右邊那個圖),十字路口就是說你是要做個選擇,是個決策。你怎么選擇?比如說一個老人倒在地上,你是扶他還是不扶他?這就是一個選擇。貪不貪污、受不受賄這都是內(nèi)心的一個選擇。這個選擇是你心里面做出的,所以下面有個心字。
那怎么判斷你內(nèi)心的選擇符不符合道德呢?社會不可能把大量規(guī)則逐條列出來,一個漢字也沒法表達那么多的內(nèi)容吧。“德”字上面是一個十字,十字下面一個四,其實不是四,而是眼睛,十個眼睛看著你。就是由群眾來評判的。這就相當于西方的陪審團,陪審團都是普通民眾中挑選出來的(那是更進一層的法律規(guī)范了)。他們?nèi)绻X得你做的事情能夠接受就是道德,如果不接受那就是不道德。所以,你在做選擇的時候,必須考慮周圍人的看法,人家腦袋里會怎么想,才決定這個東西做不做。
所以,如果沒有上一節(jié)講的認知基礎,也就是你如果不能推斷別人的思想,那就無法知道道德倫理。研究機器人的一個很重要的一個問題是:機器要去做的事情它不知道該不該做。那么它首先想一下(就相當于棋盤推演simulation):我如何做這個事情,人會有什么反應,如果反應好就做,如果反應不好就不做,就這么一個規(guī)則。以不變應萬變。
那它怎么知道你怎么想的呢?它必須先了解你,你喜歡什么、厭惡什么。每個人都不一樣,你在不同的群體里面,哪些話該說,哪些話不該說,大家心里都知道,這才是交互,你沒有這方面知識你怎么交互呢?
所以我還是覺得我們古代的人很有智慧,比我們現(xiàn)在的人想的深刻的多,一個字就把一個問題說得很精辟。咱們現(xiàn)在大部分人不想問題,因為你不需要想問題了,大量媒體、廣告到處都是,時時刻刻吸引你的眼球,你光看都看不過來,還想個什么呢!只要娛樂就好了。
現(xiàn)在,我們回到語言通訊、人與機器人對話的問題。下圖就是我提出的一個認知模型。
兩個人之間至少要表達五個腦袋minds:我知道的東西、你知道的東西、我知道你知道的東西、你知道我知道的東西、我們共同知道的東西。還有,對話的時候你的意圖是什么等等諸多問題。具體我不講那么多了。
最后,我想談一點,語言與視覺更深層的聯(lián)系、與數(shù)學中代數(shù)拓撲的聯(lián)系。拓撲學是什么意思?就是說圖象空間,語言空間,就是一個大集合,全集。我們的每個概念往往是它的一個子集,比如說,所有的圖象是一個集合,一百萬個象素就是一百萬維空間,每張圖像就是這百萬維空間的一個點。人臉是個概念,所有的人臉就是在這一百萬維空間的一個子集,但是這個子集和其它個子集要發(fā)生關系,這個關系叫拓撲關系。計算機的人把它叫做語法,對應于代數(shù)拓撲。比如,頭和脖子在肩膀上是合規(guī)的,概率很高。這個圖像空間的結構其實就是語法,這個語法就是STC-AOG,時空因果的與或圖。語法可導出“語言”,語言就是一個符合語法的句子的總的集合。STC-AOG就是知識的總體表達,而我們看到的眼前每一個例子是由STC-AOG導出來的時空因果解譯圖STC-PG。計算機視覺用它,語言肯定用它,認知是它,機器人任務規(guī)劃也是它。這就是一個統(tǒng)一的表達。
第八節(jié)博弈倫理:獲取、共享人類的價值觀
機器人要與人交流,它必須懂得人類價值觀。哲學和經(jīng)濟學里面有一個基本假設,認為一個理性的人(rationalagent),他的行為和決策都由利益和價值驅動,總在追求自己的利益最大化。與此對應的是非理性的人。對于理性的人,你通過觀察他的行為和選擇,就可以反向推理、學習、估算他的價值觀。我們暫時排除他有可能故意假裝、迷惑我們的情況。
這個價值觀我們把它表達為一個利益函數(shù)Utilityfunction,用一個符號U表示。它通常包含兩部分:(1)Loss損失函數(shù),或者Reward獎勵函數(shù);(2)Cost消費函數(shù)。就是說,你做一件事得到多少利益,花費多少成本。我們可以把這個利益函數(shù)定義在流態(tài)的(fluents)空間里面。我們每次行動,改變某些流態(tài),從而在U定義的空間中向上走,也就是“升值”。由函數(shù)U對流態(tài)向量F求微分的話,就得到一個“場”。
復習一下高等數(shù)學,我們假設一個人在某個時期,他的價值取向不是矛盾的。比如,如果他認為A比B好,B比C好,然后C比A好,那就循環(huán)了,價值觀就不自恰。這在場論中就是一個“漩渦”。一個處處“無旋”的場,就叫做一個保守場。其對于的價值觀U就是一個勢能函數(shù)。
所謂“人往高處走、水往低處流”說的是社會和物理的兩個不同現(xiàn)象,本質完全一致。就是人和水都在按照各自的勢能函數(shù)在運動!那么驅動人的勢能函數(shù)是什么呢?
人與人的價值不同,就算同一個人,價值觀也在改變。本文不討論這些社會層面的價值觀,我們指的是一些最基本的、常識性的、人類共同的價值觀。比如說把房間收拾干凈了,這是我們的共識。
上圖是我做的一個簡單的實驗。我把幾種不同的椅子、凳子放在我辦公室(左圖)和實驗室(右圖)。然后,我統(tǒng)計一下學生進來以后,他喜歡坐哪個椅子,實在不行可以坐地上。這樣我就可以得到這些椅子的排序。A、B、C、D、E、F、G排個序,見上面的統(tǒng)計圖。我觀察了這些人的選擇,就問:為什么這個椅子比那個椅子好?是什么好?這其實就反映了人的腦袋里面一個基本的價值函數(shù)。又說一遍:很普通的日常現(xiàn)象,蘊含深刻的道路。蘋果落地不是這樣嗎?大家司空見慣了,就不去問這個問題了。
為了解答問題,我的兩個博士生朱毅鑫和搞物理和圖形學的蔣凡夫(他剛剛去Upenn賓州大學當助理教授),用圖形學的物理人體模型模擬人的各種的姿勢,然后計算出這些坐姿在這些椅子上的時候,身體幾大部件的受力分布圖。見下圖,比如背部、臀部、頭部受多少力。
下圖中藍色的直方圖顯示了六個身體部位的受力分別圖。由此我們就可以推算出每個維度的價值函數(shù)。下面圖中六條紅色的曲線是負的價值函數(shù),當人的坐姿使得各部位受力處于紅線較低的值,就有較高的“價值”,也就是坐得“舒服”。當然每個人可能不一樣,有的人腰疼必須坐硬板凳子有的人喜歡坐軟沙發(fā)。這也是為什么,如果你觀察到有些異樣,可以推導這個人某地方可能受傷了。
讀到這里,你不禁要問:這不是與物理的勢能函數(shù),如重力場,一樣嗎?對,就是一個道理。這也是在最后一節(jié)我將要說的:達爾文與牛頓的理論體系要統(tǒng)一。
這對我們是常識,但是機器人必須計算出很多這樣的常識,TA需要設身處地為人著想,這個就不容易了。
疊衣服也是我們做的另外一個例子。如果我們把這個保守的勢能函數(shù)可視化為一個地形圖,那么你疊一個衣服的過程,就像走一條登山的路徑。這個衣服我們原來搞亂了,它對應的狀態(tài)在谷底,最后疊好了就等于上到山頂了。每一步動作就有一個獎勵reward。我根據(jù)你疊衣服的過程,把這山形狀基本畫出來,機器就知道疊衣服這個任務的本質是什么。你給它新的衣服,它也會疊了。機器人可以判斷你的價值觀。
最近大家談論較多的是機器人下棋,特別是下圍棋,的確刺激了國人的神經(jīng)。下棋程序里面一個關鍵就是學習價值函數(shù),就是每一個可能的棋局,它要有一個正確的價值判斷。最近,各種游戲、和增強學習也比較火熱。但這些研究都是在簡單的符號空間里面玩。我實驗室做的這兩個例子是在真實世界,學習人的價值函數(shù)。
有了價值函數(shù),在一個多人環(huán)境中,就有了競爭與合作,形成我們上一節(jié)談到的社會規(guī)范、倫理道德。這些倫理、社會規(guī)范就是人群在競爭合作之中,受到外部物理環(huán)境與因果限制下,達成的暫時的準平衡態(tài)。每種平衡態(tài)不見得是一個固定的規(guī)則,要求大家做同樣的規(guī)定動作,而是一種概率的“行為的語法”。規(guī)則其實就是語法。說到底,這還是一種概率的時空因果與或圖STC-AOG的表達。
在社會進化過程中,由于某些邊界條件的改變(如新的技術發(fā)明,像互聯(lián)網(wǎng)、人工智能)或者是政策改變(如改革開放),打破了舊的平衡,社會急劇變化;然后,達成新的準平衡態(tài)。那么社會規(guī)范對應的是另一個時空因果與或圖STC-AOG。你拿著一個準平衡態(tài)的STC-AOG模型去到另一個準平衡態(tài)生活,就出現(xiàn)所謂的“水土不服”現(xiàn)象。
談到這里,我想順便對比兩大類學習方法。
一、歸納學習Inductivelearning。我們通過觀察大量數(shù)據(jù)樣本,這些樣本就是對某個時期、某個地域、某個人群達成的準平衡態(tài)的觀察。也是我前面談過的千年文化的形成與傳承。歸納學習的結果就是一個時空因果的概率模型,我把它表達為STC-AOG。每個時空的動作是一個STC-PG,解譯圖。
二、演繹學習Deductivelearning。這個東西文獻中很少,也就是從價值函數(shù)(還有物理因果)出發(fā),直接推導出這些準平衡態(tài),在我看來,這也是一個STC-AOG。這就要求對研究的對象有深刻的、生成式的模型和理解。比如,諸葛亮到了祁山,先查看地形,知道自己的隊伍、糧草情況,摸清楚對手司馬懿的情況(包括性格)。然后,他腦袋里面推演,就知道怎么布局了。
人的學習往往是兩者的結合。年輕的時候,歸納學習用得多一些,演繹學習往往是一種不成熟沖動,交點學費,但也可能發(fā)現(xiàn)了新天地。到了“五十而不惑”的時候,價值觀成型了,價值觀覆蓋的空間也基本齊全了,那么基本上就用演繹學習。
AlphaGo先是通過歸納學習,學習人類大量棋局;然后,最近它就完全是演繹學習了。AlphaGo的棋局空間與人類生存的空間復雜度還是沒法比的。而且,它不用考慮因果關系,一步棋下下去,那是確定的。人的每個動作的結果都有很多不確定因素,所以要困難得多。
第九節(jié)機器人學:構建大任務平臺
我在第四節(jié)談到人工智能研究的認知構架,應該是小數(shù)據(jù)、大任務范式。機器人就是這么一個大任務的科研平臺。它不僅要調度視覺識別、語言交流、認知推理等任務,還要執(zhí)行大量的行動去改變環(huán)境。我就不介紹機械控制這些問題了,就用市面上提供的通用機器人平臺。
前面介紹過,人和機器人要執(zhí)行任務,把任務分解成一連串的動作,而每個動作都是要改變環(huán)境中的流態(tài)。
我把流態(tài)分作兩大類:
(1)物理流態(tài)(PhysicalFluents):如下圖左邊,刷漆、燒開水、拖地板、切菜。
(2)社會流態(tài)(SocialFluents):如下圖右邊,吃、喝、追逐、攙扶,是改變自己內(nèi)部生物狀態(tài)、或者是與別人的關系。
當機器人重建了三維場景后(在談視覺的時候提到了,這其實是一個與任務、功能推理的迭代生成的過程),它就帶著功利和任務的眼光來看這個場景。如下圖所示,哪個地方可以站,哪個地方可以坐,哪個地方可以倒水等等。下面圖中亮的地方表示可以執(zhí)行某個動作。這些圖在機器人規(guī)劃中又叫做AffordanceMap。意思是:這個場景可以給你提供什么?
有了這些單個基本任務的地圖,機器人就可以做任務的規(guī)劃。這個規(guī)劃本身就是一個層次化的表達。文獻中有多種方法,我還是把它統(tǒng)一稱作一種STC-PG。這個過程,其實相當復雜,因為它一邊做,一邊還要不斷看和更新場景的模型。因為我前面介紹過,對環(huán)境三維形狀的計算精度是根據(jù)任務需要來決定的,也就是Task-Centered視覺表達。
這個動作計劃的過程還要考慮因果、考慮到場景中別人的反應。考慮的東西越多,它就越成熟,做事就得體、不莽莽撞撞。
我一開始講到的那個機器人競賽,這些感知和規(guī)劃的任務其實都交給了一群在后臺遙控的人。
下面,我就簡單介紹幾個我實驗室得到的初步演示結果,后臺沒有遙控的人。我實驗室用的是一個通用的Baxter機器人,配上一個萬向移動的底座和兩個抓手(grippers),還有一些傳感器、攝像頭等。兩個抓手是不同的,左手力道大,右手靈活。很有意思的是,如果你觀察過龍蝦等動物,它的兩個鉗子也是不同的,一個用來夾碎、一個是鋸齒狀的。
下圖是一個博士生舒天民教會了機器人幾種社交動作,比如握手。握手看似平常,其實非常微妙。但你走過去跟一個人握手的過程中,你其實需要多次判斷對方的意圖;否則,會出現(xiàn)尷尬局面。舒的論文在美國這邊媒體都報道過。
下面這個組圖是機器人完成一個綜合的任務。首先它聽到有人去敲門,推斷有人要進來,它就去開門。其次,它看到這個人手上拿個蛋糕盒子,雙手被占了,所以需要幫助。通過對話,它知道對方要把蛋糕放到冰箱里面,所以它就去幫人開冰箱的門(上右圖)。這個人坐下來后,他有一個動作是抓可樂罐,搖了搖,放下來。它必須推斷這個人要喝水,而可樂罐是空的(不可見的流態(tài))。假設它知道有可樂在冰箱,它后面就開冰箱門拿可樂,然后遞給人。
當然,這個是受限環(huán)境,要能夠把樣的功能做成任意一個場景的話,那就基本能接近我們前面提到的可敬的烏鴉了。我們還在努力中!
第十節(jié)機器學習:學習的極限和“停機問題”
前面談的五個領域,屬于各個層面上的“問題領域”,叫Domains。我們努力把這些問題放在一個框架中來思考,尋求一個統(tǒng)一的表達與算法。而最后要介紹的機器學習,是研究解決“方法領域”(Methods),研究如何去擬合、獲取上面的那些知識。打個比方,那五個領域就像是五種釘子,機器學習是研究錘子,希望去把那些釘子錘進去。深度學習就像一把比較好用的錘子。當然,五大領域里面的人也發(fā)明了很多錘子。只不過最近這幾年深度學習這把錘子比較流行。
網(wǎng)上關于機器學習的討論很多,我這里就提出一個基本問題,與大家探討:學習的極限與“停機問題”。
大家都知道,計算機科學里面有一個著名的圖靈停機Halting問題,就是判斷圖靈機在計算過程中是否會停下了。我提出一個學習的停機問題:學習應該是一個連續(xù)交流與通訊的過程,這個交流過程是基于我們的認知構架的。那么,在什么條件下,學習過程會終止呢?當學習過程終止了,系統(tǒng)也就達到了極限。比如,有的人早早就決定不學習了。
首先,到底什么是學習?
當前大家做的機器學習,其實是一個很狹義的定義,不代表整個的學習過程。見下圖。它就包含三步:
(1)你定義一個損失函數(shù)lossfunction記作u,代表一個小任務,比如人臉識別,對了就獎勵1,錯了就是-1。
(2)你選擇一個模型,比如一個10-層的神經(jīng)網(wǎng)絡,它帶有幾億個參數(shù)theta,需要通過數(shù)據(jù)來擬合。
(3)你拿到大量數(shù)據(jù),這里假設有人給你準備了標注的數(shù)據(jù),然后就開始擬合參數(shù)了。
這個過程沒有因果,沒有機器人行動,是純粹的、被動的統(tǒng)計學習。目前那些做視覺識別和語音識別都是這一類。
其實真正的學習是一個交互的過程。就像孔子與學生的對話,我們教學生也是這樣一個過程。學生可以問老師,老師問學生,共同思考,是一種平等交流,而不是通過大量題海、填鴨式的訓練。坦白說,我雖然是教授,現(xiàn)在就常常從我的博士生那里學到新知識。
這個學習過程是建立在認知構架之上的(第六節(jié)講過的構架)。我把這種廣義的學習稱作通訊學習CommunicativeLearning,見下圖。
這個圖里面是兩個人A與B的交流,一個是老師,一個是學生,完全是對等的結構,體現(xiàn)了教與學是一個平等的互動過程。每個橢圓代表一個腦袋mind,它包含了三大塊:知識theta、決策函數(shù)pi、價值函數(shù)mu。最底下的那個橢圓代表物理世界,也就是“上帝”腦袋里面知道的東西。上面中間的那個橢圓代表雙方達成的共識。
這個通訊學習的構架里面,就包含了大量的學習模式,包括以下七種學習模式(每種學習模式其實對應與圖中的某個或者幾個箭頭),這里面還有很多模式可以開發(fā)出來。
(1)被動統(tǒng)計學習passivestatisticallearning:上面剛剛談到的、當前最流行的學習模式,用大數(shù)據(jù)擬合模型。
(2)主動學習activelearning:學生可以問老師主動要數(shù)據(jù),這個在機器學習里面也流行過。
(3)算法教學algorithmicteaching:老師主動跟蹤學生的進展和能力,然后,設計例子來幫你學。這是成本比較高的、理想的優(yōu)秀教師的教學方式。
(4)演示學習learningfromdemonstration:這是機器人學科里面常用的,就是手把手叫機器人做動作。一個變種是模仿學習immitationlearning。
(5)感知因果學習perceptualcausality:這是我發(fā)明的一種,就是通過觀察別人行為的因果,而不需要去做實驗驗證,學習出來的因果模型,這在人類認知中十分普遍。
(6)因果學習causallearning:通過動手實驗,控制其它變量,而得到更可靠的因果模型,科學實驗往往屬于這一類。
(7)增強學習reinforcementlearning:就是去學習決策函數(shù)與價值函數(shù)的一種方法。
我在第一節(jié)談到過,深度學習只是這個廣義學習構架里面很小的一部分,而學習又是人工智能里面一個領域。所以,把深度學習等同于人工智能,真的是坐井觀天、以管窺豹。
其次,學習的極限是什么?停機條件是什么?
對于被動的統(tǒng)計學習,文獻中有很多關于樣本數(shù)量或者錯誤率的上限。這里我所說的學習的極限就遠遠超越了那些定義。我是指這個廣義的學習過程能否收斂?收斂到哪?學習的停機問題,就是這個學習過程怎么終止的問題。就這些問題,我和吳英年正在寫一個綜述文章。
我們學習、談話的過程,其實就是某種信息在這些橢圓之間流動的過程。那么影響這個流動的因素就很多,我列舉幾條如下。
(1)教與學的動機:老師要去交學生一個知識、決策、價值,首先他必須確認自己知道、而學生不知道這個事。同理,學生去問老師,他也必須意識到自己不知道,而這個老師知道。那么,一個關鍵是,雙方對自己和對方有一個準確的估計。
(2)教與學的方法:如果老師準確知道學生的進度,就可以準確地提供新知識,而非重復。這在algorithmiclearning和perceptualcausality里面很明顯。
(3)智商問題:如何去測量一個機器的智商?很多動物,有些概念你怎么教都教不會。
(4)價值函數(shù):如果你對某些知識不感興趣,那肯定不想學。價值觀相左的人,那根本都無法交流,更別談相互傾聽、學習了。比如微信群里面有的人就待不了,退群了,因為他跟你不一樣,收斂不到一起去,最后同一個群的人收斂到一起去了,互相增強。這在某種程度上造成了社會的分裂。
這個學習條件的設定條件不同,人們學習肯定不會收斂到同一個地方。中國14億人,有14億個不同的腦模型,這14億人中間,局部又有一些共識,也就是共享的模型。
我說的停機問題,就是這個動態(tài)過程中所達成的各種平衡態(tài)。
第十一節(jié)總結:智能科學---牛頓與達爾文理論體系的統(tǒng)一
到此,我摘要介紹了人工智能這六大領域的一些前沿問題,希望幫助大家看到一個大致的輪廓與脈絡,在我眼中,它們在一個共同的認知構架下正在走向統(tǒng)一。其中有很多激動人心的前沿課題,等待年輕人去探索。
那么人工智能這六大領域、或者叫“戰(zhàn)國六雄”,如何從當前鬧哄哄的工程實踐,成為一門成熟的科學體系呢?從人工智能ArtificialIntelligence變成智能科學ScienceofIntelligence,或者叫IntelligenceScience,這個統(tǒng)一的科學體系應該是什么?
什么叫科學?物理學是迄今為止發(fā)展最為完善的一門科學,我們可以借鑒物理學發(fā)展的歷史。我自己特別喜歡物理學,1986年報考中科大的時候,我填寫的志愿就是近代物理(4系)。填完志愿以后,我就回鄉(xiāng)下去了。我哥哥當時是市里的干部,他去高中查看我的志愿,一看報的是物理,只怕將來不好找工作,他就給我改報計算機。當時我們都沒見過計算機,他也沒跟我商量,所以我是誤打誤撞進了這個新興的專業(yè),但心里總是念念不忘物理學之美。
等到開學,上《力學概論》的課,教材是當時常務副校長夫婦寫的,我這里就不提名字了,大家都知道,這是科大那一代人心中永恒的記憶。翻開書的第一頁,我就被緒論的文字震撼了。下面是一個截圖,劃了重點兩句話,討論如下。
(1)物理學的發(fā)展就是一部追求物理世界的統(tǒng)一的歷史。第一次大的統(tǒng)一就是牛頓的經(jīng)典力學,通過萬有引力把天界星體運動與世俗的看似復雜的物體運動做了一個統(tǒng)一的解釋。形成一個科學的體系,從此也堅定了大家的信念:
“物理世界存在著完整的因果鏈條”。
物理學的責任就是尋找支配自然各種現(xiàn)象的統(tǒng)一的力。
這完全是一個信念,你相信了,就為此努力!自牛頓以來,300多年了,物理學家還在奮斗,逐步發(fā)現(xiàn)了一個美妙的宇宙模型。
相比于物理學,可嘆的是,人工智能的研究,到目前為止,極少關注這個科學的問題。頂級的工程學院也不教這個事情,大家忙著教一些技能。解決一些小問題,日子就能過得紅紅火火。80年代有些知名教授公開講智能現(xiàn)象那么復雜,根本不可能有統(tǒng)一的解釋,更可能是“abagoftricks”一麻袋的詭計。有一些“兵來將擋、水來土掩”的工程法則就行了。這當然是膚淺和短視的。
我的博士導師Mumford1980年代從純數(shù)學轉來學習、研究人工智能,他的理想是為智能構建一個數(shù)學體系(mathematicsofintelligence)。以他的身份做這種轉變是極其不容易的(他有很多嚇人的頭銜,包括菲爾茲獎、麥克阿瑟天才獎、國際數(shù)學家協(xié)會主席、美國國家科學勛章),而我到目前還沒有見過第二個這么轉型的大家。1991年我讀完大學,申請研究生院的個人陳述(StatementofPurpose)中就懵懵懂懂地提出要探索這樣一種統(tǒng)一框架。當時也沒有互聯(lián)網(wǎng),我也沒有聽說過Mumford。記得當時科大計算機系剛剛有了第一臺激光打印機,替代針式打印。我買了兩包“佛子嶺”香煙給管機房的師兄,讓他一定要幫我把這三頁紙的個人陳述好好排版、打印出來!結果,大部分學校都拒絕了我的申請,而我導師把我錄取到哈佛讀博士。同一年,科大計算機系一個師弟吳英年被錄取到哈佛統(tǒng)計學讀博,我們就成了室友。他對物理和統(tǒng)計的理解十分深刻,過去25年我們一直在一起合作?,F(xiàn)在回頭看,人生何其幸哉!
(2)物理學把生物的意志排除在研究之外,而這正好是智能科學要研究的對象。智能科學要研究的是一個物理與生物混合的復雜系統(tǒng)。智能作為一種現(xiàn)象,就表現(xiàn)在個體與自然、社會群體的相互作用和行為過程中。我個人相信這些行為和現(xiàn)象必然有統(tǒng)一的力、相互作用、基本元素來描述。其實這些概念對我們搞計算機視覺的人來說一點也不陌生。我們的模型與物理模型是完全相通的,當你有一個概率分布,你就有了“勢能函數(shù)”,就有了各種“相互作用”,然后就有了各種“場”與“力”。
這些問題放在以前是沒有數(shù)據(jù)來做研究的,就像愛因斯坦講的“…不過是一個大膽的奢望,一個哲學學派成問題的理想而已”。而現(xiàn)在可以了,我前面已經(jīng)給出了一些例子:砸核桃、坐椅子、疊衣服。我們可以從數(shù)據(jù)中推算各種相互作用的力,用于解釋人的各種行為。最近,我有兩個學生謝丹和舒天民就用“社會的力和場”來解釋人的相互作用,舒還拿了2017年國際認知學會的一個“計算建模獎”。我們以后會寫文章介紹這方面的工作。
智能科學的復雜之處在于:
(1)物理學面對的是一個客觀的世界,當這個客觀世界映射到每個人腦中,形成一個主觀與客觀融合的世界,也就是每個人腦中的模型(這是統(tǒng)計中貝葉斯學派觀點)。這個模型又被映射到別人腦袋之中。每個腦Mind里面包含了上百個他人的模型的估計。由這些模型來驅動人的運動、行為。
(2)物理學可以把各種現(xiàn)象隔離出來研究,而我們一張圖像就包含大量的模式,人的一個簡單動作后面包含了很復雜的心理活動,很難隔離開。況且,當前以大數(shù)據(jù)集為依據(jù)的“深度學習”學派、“刷榜派”非常流行,你要把一個小問題單獨拿出來研究,那在他們復雜數(shù)據(jù)集里面是討不到什么便宜的。文章送到他們手上,他們就“強烈拒絕”,要求你到他們數(shù)據(jù)集上跑結果。這批人缺乏科學的思維和素養(yǎng)。嗚呼哀哉!
回到前面烏鴉的例子,我在第四節(jié)討論到,我們研究的物理與生物系統(tǒng)有兩個基本前提:
一、智能物種與生俱來的任務與價值鏈條。這是生物進化的“剛需”,動物的行為都是被各種任務驅動的,任務由價值函數(shù)決定,而后者是進化論中的phenotypelandscape,通俗地說就是進化的適者生存。達爾文進化論中提出來進化這個概念,但沒有給出數(shù)學描述。后來大家發(fā)現(xiàn),基因突變其實就是物種在這個進化的、大時間尺度上的價值函數(shù)中的行動action。我前面那個疊衣服的價值函數(shù)地形圖,就是從生物學借來的。
二、物理環(huán)境客觀的現(xiàn)實與因果鏈條。這就是自然尺度下的物理世界與因果鏈條,也就是牛頓力學的東西。
說到底,人工智能要變成智能科學,它本質上必將是達爾文與牛頓這兩個理論體系的統(tǒng)一。
2016年我到牛津大學開項目合作會,順便參觀了倫敦的WestminsterAbbey大教堂。讓我驚訝的是:牛頓(1642-1727)與達爾文(1809-1882)兩人的墓穴相距也就2-3米遠。站在那個地點,我當時十分感慨。這兩個人可以說是徹底改變?nèi)祟愂澜缬^的、最偉大的科學巨人,但是他們偉大的理論體系和思想的統(tǒng)一,還要等多久呢?
這篇長文的成稿正好是深秋,讓我想起唐代詩人劉禹錫的《秋詞》,很能說明科研的一種境界,與大家共賞:
“自古逢秋悲寂寥,我言秋日勝春朝。
晴空一鶴排云上,便引詩情到碧霄。”(來源:視覺求索 文/朱松純 編選:網(wǎng)經(jīng)社)