傅盛：關(guān)于深度學(xué)習(xí)的五個(gè)思考

瀏覽量：776 · 時(shí)間：2016-09-23 14:09

深度學(xué)習(xí),它給我們真正帶來的東西是什么？未來，對(duì)行業(yè)和社會(huì)有什么影響？中國(guó)公司的機(jī)會(huì)在哪？

最重要是——深度學(xué)習(xí)真的給我們帶來影響了嗎？

答案顯而易見。

任何一場(chǎng)革命，絕不是以敲鑼打鼓的方式，來到你的身邊。等到某一天，你忽然發(fā)現(xiàn)快要天翻地覆時(shí)，再去看，發(fā)現(xiàn)自己已被別人拋棄了。

過去以端為中心的技術(shù)革命，不能說結(jié)束了，但已不再是時(shí)代的風(fēng)口。

技術(shù)，進(jìn)入了一場(chǎng)以數(shù)據(jù)為驅(qū)動(dòng)的革命。

互聯(lián)網(wǎng)不再只是一張?zhí)摂M的網(wǎng)，而更像是一個(gè)大數(shù)據(jù)庫(kù)。大量的數(shù)據(jù)，沉甸甸，就在那里。沒有人知道，怎么把這些數(shù)據(jù)，更加完整清晰的表達(dá)出來。

我們需要重新思考技術(shù)的致勝點(diǎn)。

怎么思考呢？我講幾個(gè)關(guān)鍵點(diǎn)。

1.數(shù)據(jù)和運(yùn)算能力，變得越來越重要。

孔子說過一句話：“學(xué)而不思則罔，思而不學(xué)則殆”。

先說，學(xué)而不思則罔。你拿了很多知識(shí)，不深度學(xué)習(xí)，不行。如果你沒有運(yùn)算能力，有了一堆數(shù)據(jù)，算不出來，沒用。不是深度越深，效果越好。

這是個(gè)復(fù)雜的問題。需要不停算，不停實(shí)驗(yàn)。

今天，整個(gè)深度學(xué)習(xí)的理論，還不夠成熟，依然落后于實(shí)踐。更多時(shí)候，只能靠試。此時(shí)，運(yùn)算能力，就變得非常關(guān)鍵。

假如，別人做一次運(yùn)算，要兩個(gè)禮拜，而你只需要一天或2個(gè)小時(shí)。同樣時(shí)間內(nèi)，你可以做更多實(shí)驗(yàn)，積累更多寶貴經(jīng)驗(yàn)，迭代速度也更快。

這就好像，兩個(gè)人起點(diǎn)一樣，但由于迭代速度不同，導(dǎo)致了最后成就的千差萬別。每一次迭代，相當(dāng)于你的一次翻版。你是一天迭代一次，還是一年迭代一次。你對(duì)自己翻版本的速度有多快，決定你最后以多大的成果超過對(duì)手。

思而不學(xué)則殆呢？簡(jiǎn)單說，如果你沒有數(shù)據(jù)，一點(diǎn)用都沒有。

這個(gè)時(shí)代越來越需要海量數(shù)據(jù)。數(shù)據(jù)量越大越好。甚至于，我們以前被認(rèn)為不是很關(guān)鍵的數(shù)據(jù)，都有可能灌進(jìn)去，再看效果。

這才有了一句流行語——Welcome to the GPU world.

GPU最早為快速滿足增長(zhǎng)的圖形計(jì)算需求而設(shè)計(jì)。它不同于CPU，在多核多線程處理上浮點(diǎn)性能更佳，使得它在圖形界的并行運(yùn)算，變得超強(qiáng)。

早期，谷歌發(fā)表了一篇論文說——深度學(xué)習(xí)的結(jié)果，要跑在英偉達(dá)的GPU上。很快，做芯片起家的英偉達(dá)，其公司股價(jià)開始蹭蹭蹭一路上漲，漲了好幾十塊。

然而，如果今天，你還以為英偉達(dá)是個(gè)顯卡公司，那就大錯(cuò)特錯(cuò)了。如今汽車的防撞系統(tǒng)，警告系統(tǒng)，以及無人駕駛采用的雙目視覺圖像處理，英偉達(dá)是第一大提供商。它其實(shí)變成了一家人工智能公司。

說到這，大家可能也會(huì)奇怪——今天關(guān)于無人駕駛，輔助駕駛的新聞越來越多，也有越來越多的公司在做，為啥呢？

核心就在于，深度學(xué)習(xí)極大降低了這一門檻。只要你能拿到足夠數(shù)據(jù)，就可能實(shí)現(xiàn)對(duì)物體的各種判斷。

本質(zhì)也帶來了一個(gè)技術(shù)上彎道超車的好機(jī)會(huì)。很多公司辛苦積累的軟件技術(shù)直接作廢了。包括IBM做了語音輸入好多年，上來就被深度學(xué)習(xí)超越了。尤其當(dāng)谷歌進(jìn)入語音輸入時(shí)，一下就超越了IBM多年的技術(shù)積累。與此同時(shí)，谷歌還有足夠多的數(shù)據(jù)，以及足夠多的語音樣本，不停輸入。

算法為核心的競(jìng)爭(zhēng)力，正轉(zhuǎn)換成數(shù)據(jù)為核心競(jìng)爭(zhēng)力。

我個(gè)人覺得，甚至有些算法會(huì)消失掉。但，并不是說算法不重要。只是神經(jīng)網(wǎng)絡(luò)的核心算法，提升起來太難。

現(xiàn)在大家都把專注度放在了數(shù)據(jù)和運(yùn)算。尤其在深度學(xué)習(xí)里，獲取足夠多的數(shù)據(jù)，就有機(jī)會(huì)產(chǎn)生更好的結(jié)果。神經(jīng)網(wǎng)絡(luò)本身差異不會(huì)很大，關(guān)鍵比的是——誰能把這些數(shù)據(jù)用好，并快速計(jì)算。

數(shù)據(jù)變得越來越重要。尤其在深度學(xué)習(xí)里，獲取足夠多的數(shù)據(jù)，就有機(jī)會(huì)產(chǎn)生更好的結(jié)果。神經(jīng)網(wǎng)絡(luò)本身差異不會(huì)很大，關(guān)鍵比的是——誰能把這些數(shù)據(jù)用好，并快速計(jì)算。

2.公司研發(fā)結(jié)構(gòu)會(huì)發(fā)生很多改變，數(shù)據(jù)獲取和數(shù)據(jù)標(biāo)注會(huì)變得非常重要。

中國(guó)在這場(chǎng)競(jìng)爭(zhēng)中，還是有很大機(jī)會(huì)。能夠輕易獲取的互聯(lián)網(wǎng)數(shù)據(jù)，以及低成本的眾包勞動(dòng)，將為中國(guó)公司帶來訓(xùn)練所需的計(jì)算和人力資源。

第一，數(shù)據(jù)獲取的量級(jí)。盡管美國(guó)整個(gè)技術(shù)的前沿性很好，問題在于——硅谷一家小公司拿到的數(shù)據(jù)，和一家中國(guó)告訴發(fā)展的互聯(lián)網(wǎng)公司拿到的數(shù)據(jù)，不可同日而語。

第二，數(shù)據(jù)標(biāo)注的成本。在美國(guó)，要搞數(shù)據(jù)標(biāo)注，肯定很累，多貴?。〉谥袊?guó)，到珠?；虺啥茧S便找300個(gè)人，去幫你標(biāo)注，成本很低。ImageNet圖像分類大賽，中國(guó)人取得的成績(jī)明顯突出。國(guó)外，微軟或谷歌參賽，都是幾個(gè)人去做圖像標(biāo)注和算法驗(yàn)證。而中國(guó)可以組織足夠多的人去做標(biāo)注。

我認(rèn)為，ImageNet大賽，未來的世界冠軍都會(huì)來自中國(guó)。

3.并行異構(gòu)計(jì)算的人才，變成核心競(jìng)爭(zhēng)力。

過去計(jì)算領(lǐng)域都是以CPU為中心的計(jì)算模式。深度學(xué)習(xí)要將CPU和GPU兩個(gè)加起來。這是兩個(gè)技術(shù)的計(jì)算模型，是異構(gòu)的模型。

為什么要異構(gòu)？因?yàn)镚PU是并行的。它需要用來顯示。為了讓你的屏幕刷新保持更快更流暢，就要把GPU分成很多個(gè)小的運(yùn)算單元。每一個(gè)運(yùn)算單元，負(fù)責(zé)屏幕某一塊具體區(qū)域的刷新。而大量這樣的運(yùn)算單元都包含在一個(gè)GPU當(dāng)中。要想跑得快，就得把計(jì)算邏輯放在CPU中，同時(shí)再把你準(zhǔn)備好的數(shù)據(jù)拷貝到GPU中。然后呢？GPU再用并行的方式，計(jì)算準(zhǔn)備好的這些數(shù)據(jù)。這就是異構(gòu)的模型。

這個(gè)模型，是計(jì)算體系，也是硬件體系的一次革命，是真正的技術(shù)革命。

舉個(gè)例子。現(xiàn)在要完成一個(gè)復(fù)雜的大型任務(wù)，需分割在100臺(tái)機(jī)器，讓它們分開跑，又同時(shí)共同執(zhí)行同一個(gè)全局任務(wù)，需要一個(gè)數(shù)學(xué)上嚴(yán)格的方法來完成。這意味著，每一次計(jì)算更新的時(shí)候，都要把大數(shù)據(jù)刷一遍，刷幾千遍是何其難的事情。幾十億個(gè)參數(shù)的深度學(xué)習(xí)模型，每一次迭代都要把參數(shù)刷一遍。尤其數(shù)據(jù)量足夠大時(shí)，這是很難的。

因此，能否調(diào)動(dòng)大量的運(yùn)算資源，就會(huì)成為核心競(jìng)爭(zhēng)力。我的判斷是，未來整個(gè)研發(fā)結(jié)構(gòu)——重?cái)?shù)據(jù)，重運(yùn)算，這兩點(diǎn)，必然出現(xiàn)。

4.語音和視覺，將成為下一代交互模式。

可能大家沒有注意一個(gè)數(shù)據(jù)，谷歌已經(jīng)有20%的搜索來自語音。這是很可怕的一個(gè)趨勢(shì)。

我認(rèn)為，語音和視覺會(huì)是下一代的交互模式。

過去我們從PC時(shí)代的十指模式（電腦鍵盤），走到今天的拇指模式（手機(jī)），未來一定是自然模式（語音和視覺）。

因?yàn)?，太多的交互都?huì)變得很簡(jiǎn)單。有多簡(jiǎn)單呢？只會(huì)用接觸的方式去完成。今天之所以還沒有大規(guī)模到來，其實(shí)是技術(shù)不夠成熟。

亞馬遜發(fā)布Echo時(shí)，為什么谷歌那么在意？我覺得很重要的一點(diǎn)，就是它通過300萬臺(tái)的設(shè)備，不停地拿數(shù)據(jù)——用戶的每一次說話，都是一次新的數(shù)據(jù)。這個(gè)數(shù)據(jù)足夠多，又反過來加深它的語音能力。

交互模式的變化，不僅改變了產(chǎn)品，也影響了數(shù)據(jù)方式。

5.深度學(xué)習(xí)在各個(gè)領(lǐng)域產(chǎn)生的變革才剛剛開始。

無論是現(xiàn)階段的內(nèi)容個(gè)性化推薦，還是未來輸入方式的改變，還有太多地方，可以被深度學(xué)習(xí)改變。

比如人臉識(shí)別。今天你用支付寶，或招商銀行客戶端，都會(huì)讓你掃一掃，準(zhǔn)確率已經(jīng)相當(dāng)高了。高到什么程度呢？有一家公司專門為海關(guān)提供人臉識(shí)別服務(wù)。以前用人工查看，看兩個(gè)小時(shí)后就會(huì)出錯(cuò)，加上深度學(xué)習(xí)算法的系統(tǒng)，極大降低了人臉識(shí)別的出錯(cuò)率。

我認(rèn)為，只要需求越多，它就會(huì)越來越準(zhǔn)。

比如小米手機(jī)出了面孔功能。根據(jù)人臉識(shí)別進(jìn)行照片分類。已經(jīng)可以達(dá)到92%的準(zhǔn)確率了。包括獵豹。我們?cè)谌蛴?億月度活躍用戶，一旦建立起深度學(xué)習(xí)的核心技術(shù)能力，獵豹向很多領(lǐng)域的擴(kuò)展和應(yīng)用結(jié)合就會(huì)變成可能。

如果你把深度學(xué)習(xí)看成一種“工具”，就會(huì)發(fā)現(xiàn)——它有很多和其它領(lǐng)域，包括傳統(tǒng)行業(yè)相互結(jié)合的機(jī)會(huì)。

漫漫長(zhǎng)路，才剛剛開始。

資訊詳情

News Show

傅盛：關(guān)于深度學(xué)習(xí)的五個(gè)思考

瀏覽量：776 · 時(shí)間：2016-09-23 14:09

聯(lián)系

Contact

服務(wù)熱線 : 010-68988613

辦公地址 : 北京市海淀區(qū)

工作時(shí)間 : 周一到周五 9:00-18:00

明德經(jīng)綸大學(xué)