(電子商務(wù)研究中心訊) AlphaGO還能做什么?本次人機(jī)大賽的結(jié)果基本沒(méi)有懸念,所以這次AlphaGo與柯潔的對(duì)戰(zhàn),看點(diǎn)已經(jīng)不是棋局的輸贏,而是AlphaGo是否能進(jìn)入更加實(shí)用的領(lǐng)域,實(shí)現(xiàn)產(chǎn)品化。AlphaGo是一個(gè)標(biāo)志,意味著人們對(duì)人工智能的探索已經(jīng)達(dá)到一個(gè)新的階段,人工智能將逐漸滲透到各個(gè)行業(yè),提高各行業(yè)的效率。目前AlphaGo的創(chuàng)始團(tuán)隊(duì)DeepMind利用AI系統(tǒng),優(yōu)化整個(gè)機(jī)房的冷卻系統(tǒng)的用電效率,幫助谷歌減少40%在機(jī)房冷卻系統(tǒng)上的花費(fèi),節(jié)省上億美金。同時(shí)也正在將AlphaGo的變體應(yīng)用于醫(yī)療行業(yè),用AlphaGo的算法來(lái)模擬蛋白質(zhì)的3D折疊,可以使藥物研發(fā)加速5到10年。還希望能夠與英國(guó)國(guó)家電網(wǎng)合作,利用人工智能將英國(guó)的能耗減少10%。
強(qiáng)大的分布式計(jì)算群在底層支撐AlphaGo。AlphaGo強(qiáng)大的計(jì)算能力是通過(guò)通用硬件搭建的分布式計(jì)算群來(lái)支撐的,根據(jù)Deepmind員工發(fā)表在2016年1月Nature期刊的論文,分布式版本使用了1202個(gè)CPU和176個(gè)GPU,同時(shí)可以有40個(gè)搜索線程。AlphaGo的計(jì)算能力達(dá)到3.38PFLOPS,是當(dāng)年IBM深藍(lán)的3萬(wàn)倍,而我國(guó)天河二號(hào)超級(jí)計(jì)算機(jī),運(yùn)算能力達(dá)到33.86PFLOPS,是深藍(lán)的30萬(wàn)倍。
深度學(xué)習(xí)算法是AlphaGo打敗人類選手的秘訣。AlphaGo的算法結(jié)構(gòu)是:深度神經(jīng)網(wǎng)絡(luò)+監(jiān)督/強(qiáng)化學(xué)習(xí)+蒙特卡洛樹搜索。深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)訓(xùn)練出三個(gè)網(wǎng)絡(luò):兩個(gè)落子策略+一個(gè)局面評(píng)估模型,這三個(gè)策略的神經(jīng)網(wǎng)絡(luò)架構(gòu)基本相同,參數(shù)不同。AlphaG0 1.0版本通過(guò)輸入幾千萬(wàn)個(gè)人類棋譜,訓(xùn)練神經(jīng)網(wǎng)絡(luò),給出圍棋手?jǐn)?shù)的估值,而增強(qiáng)學(xué)習(xí)類似一個(gè)“自學(xué)成長(zhǎng)腦”,給神經(jīng)網(wǎng)絡(luò)提供不限量的計(jì)算樣本通過(guò)反復(fù)和過(guò)去的“自己”下棋來(lái)獲得數(shù)據(jù),通過(guò)輸贏來(lái)判喜斷好壞,根據(jù)好壞結(jié)果來(lái)計(jì)算策略梯度,從而更新參數(shù)。通過(guò)反復(fù)的自學(xué),自己產(chǎn)生了新的下棋方法,形成自己的一套更強(qiáng)的下棋風(fēng)格。
我們認(rèn)為在現(xiàn)有計(jì)算能力的支撐下,數(shù)據(jù)是AI重要的資產(chǎn),通過(guò)海量的數(shù)據(jù)才可以更好的培訓(xùn)算法。目前AI正在數(shù)據(jù)化程度高的行業(yè)逐漸落地,安防、醫(yī)療、金融、零售等行業(yè)數(shù)據(jù)電子化程度高且比較集中,將率先涌現(xiàn)大量的人工智能場(chǎng)景應(yīng)用。建議關(guān)注??低暋⑷f(wàn)東醫(yī)療。(來(lái)源:浙商證券 文/楊云 編選:中國(guó)電子商務(wù)研究中心)