- 相關(guān)推薦
專訪百度IDL負(fù)責(zé)人林元慶:告別蹣跚 AI大幕已啟
人工智能不是單個(gè)技術(shù),而是包含很多很多的不同技術(shù),以計(jì)算機(jī)視覺為例,它就有圖像分類,物體檢測,圖像分割等不同技術(shù)。
近日,在有韓國“硅谷”之稱的韓國大田,IROS 2016正在如火如荼地舉行,在Special論壇的人工智能/深度學(xué)習(xí)專場,百度深度學(xué)習(xí)實(shí)驗(yàn)室(IDL)主任林元慶做了《AI,the (next) big thing》(《人工智能:大幕已啟》)的主題演講,作為計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域非;钴S的一名成員,現(xiàn)百度IDL負(fù)責(zé)人,目前他領(lǐng)導(dǎo)的IDL正進(jìn)行著PaddlePaddle深度學(xué)習(xí)開源框架、圖片搜索、基礎(chǔ)圖像識(shí)別技術(shù)、人臉識(shí)別、OCR(光學(xué)字符識(shí)別)、視頻分析、學(xué)習(xí)機(jī)器人、細(xì)粒度圖像識(shí)別、AR以及醫(yī)療影像分析等十多個(gè)研究方向。雷鋒網(wǎng)在演講過后采訪了林元慶,請(qǐng)他講了關(guān)于IROS,關(guān)于開源平臺(tái),關(guān)于AI眼下最重要一步的看法。以下是采訪全文。
雷鋒網(wǎng):此行來IROS的目的?
IROS是世界上最大的關(guān)于Robitics的國際會(huì)議之一,大會(huì)的Plenary talk是會(huì)議眾多演講的重中之重。雖然平時(shí)我很少在外面公開做演講,但這樣一個(gè)學(xué)術(shù)性的talk既然主動(dòng)邀請(qǐng),就過來了,另外這也是向世界的Robotics研究人員介紹百度人工智能的好機(jī)會(huì)。
雷鋒網(wǎng):作為一個(gè)機(jī)器人會(huì)議中受邀的AI演講者,機(jī)器人中需要用到AI的地方,可以概括一下?
很多,像我剛剛說的百度大腦里面,有語音識(shí)別,計(jì)算機(jī)視覺,NLP,推薦/預(yù)測,運(yùn)動(dòng)/控制,決策/規(guī)劃,這幾個(gè)AI大方向都是機(jī)器人學(xué)的重要基礎(chǔ)技術(shù)。
雷鋒網(wǎng):CPU+FPGA,CPU+GPU組合更看好哪個(gè)?百度不同業(yè)務(wù)去分配的時(shí)候是如何決定用哪個(gè)組合的?
這兩個(gè)技術(shù)都在進(jìn)步,我們沒有一個(gè)預(yù)設(shè)的立場,百度這兩個(gè)方向都在應(yīng)用。選擇上,百度不同業(yè)務(wù),訓(xùn)練階段大部分用的大部分是GPU,testing階段有用GPU,也有用FPGA的,更成熟的業(yè)務(wù)可能會(huì)選擇FPGA,這樣優(yōu)化的空間會(huì)更大一些。
(看你剛剛放的PPT劃分的百度AI相關(guān)業(yè)務(wù),這些業(yè)務(wù)用哪個(gè)組合會(huì)有明確的選擇嗎?)
這個(gè)很難講,人工智能不是單個(gè)技術(shù),而是包含很多很多的不同技術(shù),以計(jì)算機(jī)視覺為例,它就有圖像分類,物體檢測,圖像分割等不同技術(shù)。GPU和FPGA對(duì)不同的任務(wù),可能各有優(yōu)缺點(diǎn)。
(就是一項(xiàng)業(yè)務(wù)訓(xùn)練的時(shí)候用的GPU,實(shí)際應(yīng)用的時(shí)候可能轉(zhuǎn)到FPGA?)
對(duì),是這樣。
雷鋒網(wǎng):現(xiàn)在ImageNet比賽結(jié)果對(duì)工業(yè)界的意義在哪里?
這幾年ImageNet的競賽涌現(xiàn)出一些非常有用的算法,比如AlexNet之后的GoogleNet, VGG, ResNet等,對(duì)工業(yè)界的技術(shù)性能的提高,有很大的推動(dòng)作用。ImageNet一個(gè)很大的意義是在于推動(dòng)算法的革新。這對(duì)工業(yè)界和學(xué)術(shù)界,都是非常有意義的。
同時(shí),工業(yè)界打造的產(chǎn)品,常常需要go beyond ImageNet。我記得第一年(2010年)ImageNet比賽我們拿了第一名。我是當(dāng)時(shí)項(xiàng)目的負(fù)責(zé)人。但之后我們發(fā)現(xiàn)ImageNet的結(jié)果很難直接用在產(chǎn)品上。我們后來開始主攻細(xì)粒度圖像識(shí)別。百度糯米這個(gè)月下旬將推出一個(gè)非常重要的功能,其中的一個(gè)重要技術(shù)就是菜品圖像的細(xì)粒度識(shí)別(識(shí)別圖片里的菜品是哪個(gè)餐館的哪道菜)。即使是通用的圖像分類,百度的圖像庫有接近1億張帶類別標(biāo)簽的圖片,比ImageNet Challenge(150萬張圖片)的大很多。我們內(nèi)部的數(shù)據(jù)要比公開的數(shù)據(jù)大很多,需要更好地反應(yīng)我們要解決的問題。
雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng)):你現(xiàn)在領(lǐng)導(dǎo)的十個(gè)業(yè)務(wù)都跟之前主攻方向之一大規(guī)模細(xì)粒度圖像識(shí)別有何關(guān)系?
對(duì),有很多關(guān)聯(lián)的。最直接的當(dāng)然是細(xì)粒度圖像識(shí)別方向。我們希望在百度搭建一個(gè)非常強(qiáng)大的細(xì)粒度圖像識(shí)別的研發(fā)團(tuán)隊(duì)。其它的項(xiàng)目與這也有關(guān)聯(lián)。比如人臉識(shí)別就是一個(gè)最經(jīng)典的細(xì)粒度圖像識(shí)別任務(wù)。很多技術(shù)是相通的。還比如我們的醫(yī)學(xué)圖像分析,它的很多做法與細(xì)粒度圖像識(shí)別也有相通之處。
我們現(xiàn)在強(qiáng)調(diào)做instance-level的細(xì)粒度圖像識(shí)別。比如,我們身下坐的這把椅子,我們不單單只是識(shí)別這是一把椅子,我們還需要識(shí)別出這是哪個(gè)廠家哪個(gè)型號(hào)的椅子。還比如前面提到的“哪個(gè)餐館哪道菜”的識(shí)別。這些都是非常精細(xì)的識(shí)別。這些問題當(dāng)然都很難,需要投入很大的研發(fā)力量。但應(yīng)用前景是非常大的。
雷鋒網(wǎng):跟之前NEC的工作有什么內(nèi)在聯(lián)系?
NEC美國實(shí)驗(yàn)室在美國是非常優(yōu)秀的實(shí)驗(yàn)室,也在AI上做了非常多的工作。我也非常幸運(yùn)地在那里做了7年半的研究,包括最后三年多作為實(shí)驗(yàn)室媒體分析部門的負(fù)責(zé)人。當(dāng)時(shí)的工作與現(xiàn)在的工作一脈相承。
雷鋒網(wǎng):剛在演講最后,你講到AI大幕已啟,接下來讓它走地更遠(yuǎn)的話,最重要的一步是什么?
最重要的一步是要有用,能解決實(shí)際問題,真正能解決一些很重要的問題。比如自動(dòng)駕駛,那就是要真正能上路。人臉識(shí)別,就是什么情況下人臉識(shí)別都能識(shí)別得非常精準(zhǔn)。
雷鋒網(wǎng):作為過來人分享一下,學(xué)生選Robotics專業(yè)的時(shí)候要注意什么?
機(jī)器人,包括AI,大家可能會(huì)有一些誤解,覺得這是單一技術(shù),但其實(shí)它涵蓋的技術(shù)非常復(fù)雜,而一個(gè)人是很難去解決所有的技術(shù)的。像今天第一個(gè)talk講的機(jī)器手抓取,從應(yīng)用角度來看這是一個(gè)非常特定的領(lǐng)域,但這個(gè)方向做學(xué)問的話你都可以做很久。
我個(gè)人的傾向是注意不要大而全,要根據(jù)自身的興趣和特長定一些側(cè)重點(diǎn)。我經(jīng)常會(huì)跟我身邊的人說,要認(rèn)準(zhǔn)一個(gè)方向,做到這個(gè)方向的Mr. something,比如Mr. fine-grained image recognition。這樣你的事業(yè)可能就越走越寬。
雷鋒網(wǎng):作為一個(gè)AI參與者,前不久余凱發(fā)了一個(gè)聲明:“一直以來我非常欽佩谷歌的Jeff Dean在MapReduce和谷歌大腦(TensorFlow)等項(xiàng)目上的杰出成就。但是,我必須指出,放任TensorFlow成為世界上占統(tǒng)治地位的人工智能開發(fā)平臺(tái)對(duì)世界是危險(xiǎn)的。……” 如何看這個(gè)觀點(diǎn)?
AI的平臺(tái)很重要,確實(shí)需要多樣化的選擇,上次我也回了他朋友圈,認(rèn)為我們這一代人應(yīng)該團(tuán)結(jié)起來,推動(dòng)深度學(xué)習(xí)平臺(tái)的開放和多樣化。百度現(xiàn)在有PaddlePaddle深度學(xué)習(xí)平臺(tái),這個(gè)其實(shí)是百度花了非常大的資源做的一個(gè)平臺(tái),現(xiàn)在開源了,希望能在中國人工智能領(lǐng)域貢獻(xiàn)一些我們的力量。
雷鋒網(wǎng):之前PC時(shí)代,Windows出現(xiàn)了就有Mac OS,還有Linux; 移動(dòng)互聯(lián)網(wǎng)時(shí)代,iOS出現(xiàn)了就有Android;從來沒有一家獨(dú)大的時(shí)候,會(huì)不會(huì)AI平臺(tái)也不用擔(dān)心?
還是不太一樣。很多AI技術(shù)有一個(gè)正循環(huán)效應(yīng),越多的人來用,你的系統(tǒng)越好,這樣會(huì)吸引越多的人來用。你已經(jīng)快速迭代了甚至已經(jīng)做到極致了,別人再去重新開始一個(gè),難度是比較高的。
小結(jié):
林元慶在演講的過程中,以及會(huì)后采訪的過程中,一直在強(qiáng)調(diào)AI大幕“已經(jīng)啟動(dòng)”這個(gè)關(guān)鍵動(dòng)作,雖然“人工智能”這個(gè)概念最早從1955年8月31日就開始提出,但從當(dāng)時(shí)的誕生,到中間的兩起兩落,一直像個(gè)蹣跚學(xué)步的孩子一樣經(jīng)歷了60年才迎來了第三次復(fù)興的浪潮。
1956年到1974年,全球第一次人工智能浪潮出現(xiàn)。
1974年到1980年。第一次人工智能冬天出現(xiàn)。
80年代出現(xiàn)了人工智能數(shù)學(xué)模型方面的重大發(fā)明,第二次浪潮出現(xiàn)。
1987年到1993年現(xiàn)代PC的出現(xiàn),讓人工智能的寒冬再次降臨。
不過這一次,隨著硬件,數(shù)據(jù),算法三板斧的默契配合和發(fā)展,AlphaGo與世界頂級(jí)圍棋高手李世石的人機(jī)世紀(jì)對(duì)戰(zhàn),人工智能已經(jīng)從基本的語音識(shí)別,圖像識(shí)別,向著自動(dòng)駕駛,視頻,AR,醫(yī)療,金融等各種領(lǐng)域無聲地滲透,也引發(fā)了全民關(guān)注AI復(fù)興的熱潮。
老驥伏櫪,志在千里。如果說過去60年是它從孕育到躊躇的“蹣跚”周期,那往后60年,將會(huì)是它揭開“無窮大”大幕的周期。
【專訪百度IDL負(fù)責(zé)人林元慶:告別蹣跚 AI大幕已啟】相關(guān)文章:
專訪百度IDL林元慶:我們就這樣贏了最強(qiáng)大腦03-23
專訪李開復(fù):AI時(shí)代互聯(lián)網(wǎng)巨頭將繼續(xù)壟斷03-03
專訪AlphaGo之父:AI是全人類的,不應(yīng)由幾家公司獨(dú)占02-27
500元起家估值已超百億11-17
專訪曹德安:日產(chǎn)2000箱,年銷300萬元02-27
于剛專訪02-25
王健林專訪02-28
專訪影創(chuàng)孫立:A輪獲8000萬元融資01-17
專訪AOD 3D打印CEO袁大偉03-28