深度學(xué)習(xí),它給我們真正帶來的東西是什么?未來,對(duì)行業(yè)和社會(huì)有什么影響?中國(guó)公司的機(jī)會(huì)在哪?
最重要是——深度學(xué)習(xí)真的給我們帶來影響了嗎?
答案顯而易見。
任何一場(chǎng)革命,絕不是以敲鑼打鼓的方式,來到你的身邊。等到某一天,你忽然發(fā)現(xiàn)快要天翻地覆時(shí),再去看,發(fā)現(xiàn)自己已被別人拋棄了。
過去以端為中心的技術(shù)革命,不能說結(jié)束了,但已不再是時(shí)代的風(fēng)口。
技術(shù),進(jìn)入了一場(chǎng)以數(shù)據(jù)為驅(qū)動(dòng)的革命。
互聯(lián)網(wǎng)不再只是一張?zhí)摂M的網(wǎng),而更像是一個(gè)大數(shù)據(jù)庫(kù)。大量的數(shù)據(jù),沉甸甸,就在那里。沒有人知道,怎么把這些數(shù)據(jù),更加完整清晰的表達(dá)出來。
我們需要重新思考技術(shù)的致勝點(diǎn)。
怎么思考呢?我講幾個(gè)關(guān)鍵點(diǎn)。
1.數(shù)據(jù)和運(yùn)算能力,變得越來越重要。
孔子說過一句話:“學(xué)而不思則罔,思而不學(xué)則殆”。
先說,學(xué)而不思則罔。你拿了很多知識(shí),不深度學(xué)習(xí),不行。如果你沒有運(yùn)算能力,有了一堆數(shù)據(jù),算不出來,沒用。不是深度越深,效果越好。
這是個(gè)復(fù)雜的問題。需要不停算,不停實(shí)驗(yàn)。
今天,整個(gè)深度學(xué)習(xí)的理論,還不夠成熟,依然落后于實(shí)踐。更多時(shí)候,只能靠試。此時(shí),運(yùn)算能力,就變得非常關(guān)鍵。
假如,別人做一次運(yùn)算,要兩個(gè)禮拜,而你只需要一天或2個(gè)小時(shí)。同樣時(shí)間內(nèi),你可以做更多實(shí)驗(yàn),積累更多寶貴經(jīng)驗(yàn),迭代速度也更快。
這就好像,兩個(gè)人起點(diǎn)一樣,但由于迭代速度不同,導(dǎo)致了最后成就的千差萬別。每一次迭代,相當(dāng)于你的一次翻版。你是一天迭代一次,還是一年迭代一次。你對(duì)自己翻版本的速度有多快,決定你最后以多大的成果超過對(duì)手。
思而不學(xué)則殆呢?簡(jiǎn)單說,如果你沒有數(shù)據(jù),一點(diǎn)用都沒有。
這個(gè)時(shí)代越來越需要海量數(shù)據(jù)。數(shù)據(jù)量越大越好。甚至于,我們以前被認(rèn)為不是很關(guān)鍵的數(shù)據(jù),都有可能灌進(jìn)去,再看效果。
這才有了一句流行語——Welcome to the GPU world.
GPU最早為快速滿足增長(zhǎng)的圖形計(jì)算需求而設(shè)計(jì)。它不同于CPU,在多核多線程處理上浮點(diǎn)性能更佳,使得它在圖形界的并行運(yùn)算,變得超強(qiáng)。
早期,谷歌發(fā)表了一篇論文說——深度學(xué)習(xí)的結(jié)果,要跑在英偉達(dá)的GPU上。很快,做芯片起家的英偉達(dá),其公司股價(jià)開始蹭蹭蹭一路上漲,漲了好幾十塊。
然而,如果今天,你還以為英偉達(dá)是個(gè)顯卡公司,那就大錯(cuò)特錯(cuò)了。如今汽車的防撞系統(tǒng),警告系統(tǒng),以及無人駕駛采用的雙目視覺圖像處理,英偉達(dá)是第一大提供商。它其實(shí)變成了一家人工智能公司。
說到這,大家可能也會(huì)奇怪——今天關(guān)于無人駕駛,輔助駕駛的新聞越來越多,也有越來越多的公司在做,為啥呢?
核心就在于,深度學(xué)習(xí)極大降低了這一門檻。只要你能拿到足夠數(shù)據(jù),就可能實(shí)現(xiàn)對(duì)物體的各種判斷。
本質(zhì)也帶來了一個(gè)技術(shù)上彎道超車的好機(jī)會(huì)。很多公司辛苦積累的軟件技術(shù)直接作廢了。包括IBM做了語音輸入好多年,上來就被深度學(xué)習(xí)超越了。尤其當(dāng)谷歌進(jìn)入語音輸入時(shí),一下就超越了IBM多年的技術(shù)積累。與此同時(shí),谷歌還有足夠多的數(shù)據(jù),以及足夠多的語音樣本,不停輸入。
算法為核心的競(jìng)爭(zhēng)力,正轉(zhuǎn)換成數(shù)據(jù)為核心競(jìng)爭(zhēng)力。
我個(gè)人覺得,甚至有些算法會(huì)消失掉。但,并不是說算法不重要。只是神經(jīng)網(wǎng)絡(luò)的核心算法,提升起來太難。
現(xiàn)在大家都把專注度放在了數(shù)據(jù)和運(yùn)算。尤其在深度學(xué)習(xí)里,獲取足夠多的數(shù)據(jù),就有機(jī)會(huì)產(chǎn)生更好的結(jié)果。神經(jīng)網(wǎng)絡(luò)本身差異不會(huì)很大,關(guān)鍵比的是——誰能把這些數(shù)據(jù)用好,并快速計(jì)算。
數(shù)據(jù)變得越來越重要。尤其在深度學(xué)習(xí)里,獲取足夠多的數(shù)據(jù),就有機(jī)會(huì)產(chǎn)生更好的結(jié)果。神經(jīng)網(wǎng)絡(luò)本身差異不會(huì)很大,關(guān)鍵比的是——誰能把這些數(shù)據(jù)用好,并快速計(jì)算。
2.公司研發(fā)結(jié)構(gòu)會(huì)發(fā)生很多改變,數(shù)據(jù)獲取和數(shù)據(jù)標(biāo)注會(huì)變得非常重要。
中國(guó)在這場(chǎng)競(jìng)爭(zhēng)中,還是有很大機(jī)會(huì)。能夠輕易獲取的互聯(lián)網(wǎng)數(shù)據(jù),以及低成本的眾包勞動(dòng),將為中國(guó)公司帶來訓(xùn)練所需的計(jì)算和人力資源。
第一,數(shù)據(jù)獲取的量級(jí)。盡管美國(guó)整個(gè)技術(shù)的前沿性很好,問題在于——硅谷一家小公司拿到的數(shù)據(jù),和一家中國(guó)告訴發(fā)展的互聯(lián)網(wǎng)公司拿到的數(shù)據(jù),不可同日而語。
第二,數(shù)據(jù)標(biāo)注的成本。在美國(guó),要搞數(shù)據(jù)標(biāo)注,肯定很累,多貴?。〉谥袊?guó),到珠?;虺啥茧S便找300個(gè)人,去幫你標(biāo)注,成本很低。ImageNet圖像分類大賽,中國(guó)人取得的成績(jī)明顯突出。國(guó)外,微軟或谷歌參賽,都是幾個(gè)人去做圖像標(biāo)注和算法驗(yàn)證。而中國(guó)可以組織足夠多的人去做標(biāo)注。
我認(rèn)為,ImageNet大賽,未來的世界冠軍都會(huì)來自中國(guó)。
3.并行異構(gòu)計(jì)算的人才,變成核心競(jìng)爭(zhēng)力。
過去計(jì)算領(lǐng)域都是以CPU為中心的計(jì)算模式。深度學(xué)習(xí)要將CPU和GPU兩個(gè)加起來。這是兩個(gè)技術(shù)的計(jì)算模型,是異構(gòu)的模型。
為什么要異構(gòu)?因?yàn)镚PU是并行的。它需要用來顯示。為了讓你的屏幕刷新保持更快更流暢,就要把GPU分成很多個(gè)小的運(yùn)算單元。每一個(gè)運(yùn)算單元,負(fù)責(zé)屏幕某一塊具體區(qū)域的刷新。而大量這樣的運(yùn)算單元都包含在一個(gè)GPU當(dāng)中。要想跑得快,就得把計(jì)算邏輯放在CPU中,同時(shí)再把你準(zhǔn)備好的數(shù)據(jù)拷貝到GPU中。然后呢?GPU再用并行的方式,計(jì)算準(zhǔn)備好的這些數(shù)據(jù)。這就是異構(gòu)的模型。
這個(gè)模型,是計(jì)算體系,也是硬件體系的一次革命,是真正的技術(shù)革命。
舉個(gè)例子。現(xiàn)在要完成一個(gè)復(fù)雜的大型任務(wù),需分割在100臺(tái)機(jī)器,讓它們分開跑,又同時(shí)共同執(zhí)行同一個(gè)全局任務(wù),需要一個(gè)數(shù)學(xué)上嚴(yán)格的方法來完成。這意味著,每一次計(jì)算更新的時(shí)候,都要把大數(shù)據(jù)刷一遍,刷幾千遍是何其難的事情。幾十億個(gè)參數(shù)的深度學(xué)習(xí)模型,每一次迭代都要把參數(shù)刷一遍。尤其數(shù)據(jù)量足夠大時(shí),這是很難的。
因此,能否調(diào)動(dòng)大量的運(yùn)算資源,就會(huì)成為核心競(jìng)爭(zhēng)力。我的判斷是,未來整個(gè)研發(fā)結(jié)構(gòu)——重?cái)?shù)據(jù),重運(yùn)算,這兩點(diǎn),必然出現(xiàn)。
4.語音和視覺,將成為下一代交互模式。
可能大家沒有注意一個(gè)數(shù)據(jù),谷歌已經(jīng)有20%的搜索來自語音。這是很可怕的一個(gè)趨勢(shì)。
我認(rèn)為,語音和視覺會(huì)是下一代的交互模式。
過去我們從PC時(shí)代的十指模式(電腦鍵盤),走到今天的拇指模式(手機(jī)),未來一定是自然模式(語音和視覺)。
因?yàn)?,太多的交互都?huì)變得很簡(jiǎn)單。有多簡(jiǎn)單呢?只會(huì)用接觸的方式去完成。今天之所以還沒有大規(guī)模到來,其實(shí)是技術(shù)不夠成熟。
亞馬遜發(fā)布Echo時(shí),為什么谷歌那么在意?我覺得很重要的一點(diǎn),就是它通過300萬臺(tái)的設(shè)備,不停地拿數(shù)據(jù)——用戶的每一次說話,都是一次新的數(shù)據(jù)。這個(gè)數(shù)據(jù)足夠多,又反過來加深它的語音能力。
交互模式的變化,不僅改變了產(chǎn)品,也影響了數(shù)據(jù)方式。
5.深度學(xué)習(xí)在各個(gè)領(lǐng)域產(chǎn)生的變革才剛剛開始。
無論是現(xiàn)階段的內(nèi)容個(gè)性化推薦,還是未來輸入方式的改變,還有太多地方,可以被深度學(xué)習(xí)改變。
比如人臉識(shí)別。今天你用支付寶,或招商銀行客戶端,都會(huì)讓你掃一掃,準(zhǔn)確率已經(jīng)相當(dāng)高了。高到什么程度呢?有一家公司專門為海關(guān)提供人臉識(shí)別服務(wù)。以前用人工查看,看兩個(gè)小時(shí)后就會(huì)出錯(cuò),加上深度學(xué)習(xí)算法的系統(tǒng),極大降低了人臉識(shí)別的出錯(cuò)率。
我認(rèn)為,只要需求越多,它就會(huì)越來越準(zhǔn)。
比如小米手機(jī)出了面孔功能。根據(jù)人臉識(shí)別進(jìn)行照片分類。已經(jīng)可以達(dá)到92%的準(zhǔn)確率了。包括獵豹。我們?cè)谌蛴?億月度活躍用戶,一旦建立起深度學(xué)習(xí)的核心技術(shù)能力,獵豹向很多領(lǐng)域的擴(kuò)展和應(yīng)用結(jié)合就會(huì)變成可能。
如果你把深度學(xué)習(xí)看成一種“工具”,就會(huì)發(fā)現(xiàn)——它有很多和其它領(lǐng)域,包括傳統(tǒng)行業(yè)相互結(jié)合的機(jī)會(huì)。
漫漫長(zhǎng)路,才剛剛開始。