北京時(shí)間3月28日,英偉達(dá)(NVIDIA)在美國加州圣何塞召開GPU技術(shù)大會(huì)(GTC)。本屆大會(huì)上,深度學(xué)習(xí)又一次不出意外地成為“主角”,圍繞這一領(lǐng)域,掌門人黃仁勛先生介紹了一系列重要產(chǎn)品及更新的發(fā)布。此外,在計(jì)算機(jī)圖形、專業(yè)可視化、自動(dòng)駕駛、物聯(lián)網(wǎng)、GPU云等方面,英偉達(dá)也有各項(xiàng)發(fā)布。本文中,我們主要關(guān)注深度學(xué)習(xí):
世界最大GPU:DGX-2在手“虐神仙”
“先有仁勛后有天,顯卡在手虐神仙?!边@是網(wǎng)友對(duì)英偉達(dá)CEO黃仁勛的一句調(diào)侃,恰到好處地反映了他的行事風(fēng)格。這樣一個(gè)“狂人”,常常能給我們帶來巨大的沖擊。今天發(fā)布的NVIDIA DGX-2就是其中之一。
NVIDIA DGX-2 是英偉達(dá)的第二代 DGX,黃仁勛表示:“這是全球最大的GPU。”(嚴(yán)格來說它是一個(gè)計(jì)算系統(tǒng)。)重量超300斤,有汽車后備箱那么大,“沒有人能把它舉起來”。DGX-2問世,黃教主向稱霸武林的目標(biāo)又近了一步。
顯然,這款產(chǎn)品的特色并不止于“大”。它是英偉達(dá)在深度學(xué)習(xí)計(jì)算領(lǐng)域取得的重大突破,是首款能夠提供每秒2千萬億次浮點(diǎn)運(yùn)算能力的單點(diǎn)服務(wù)器,也是首款采用 NVSwitch(本次大會(huì)另一項(xiàng)重要發(fā)布,稍后我們會(huì)介紹)的系統(tǒng),其中采用的 16 個(gè) GPU 均共享統(tǒng)一的內(nèi)存空間。DGX-2 具有 300 臺(tái)服務(wù)器的深度學(xué)習(xí)處理能力,占用15個(gè)數(shù)據(jù)中心機(jī)架空間,而體積則縮小60倍,能效提升18倍。
據(jù)悉,DGX-2可提供的深度學(xué)習(xí)性能為上代DGX-1(去年9月發(fā)布)的約10倍。僅僅半年左右的時(shí)間,這一提升實(shí)在令人驚嘆。“狂人”黃仁勛,狂得有理。
NVIDIA DGX-2售價(jià)為 39.9 萬美元(約250萬人民幣),將于今年第三季度正式開放購買。
新一代革命性高速互聯(lián)技術(shù)發(fā)布,NVLink說再見?
談到CPU-GPU、GPU-GPU之間的高速互聯(lián),大家首要提的就是NVLink,不過這種現(xiàn)狀可能將要發(fā)生改變了。此次大會(huì)上,NVIDIA NVSwitch作為一個(gè)革命性的全新 GPU 互聯(lián)結(jié)構(gòu),與大家見面。
NVSwitch在NVLink的基礎(chǔ)上進(jìn)一步進(jìn)行了擴(kuò)展創(chuàng)新,它的帶寬比最好的 PCIe 交換機(jī)高出 5 倍,它可使多達(dá) 16 個(gè) Tesla V100 GPU 同時(shí)以 2.4 TB /秒的速度進(jìn)行通信,這一速度創(chuàng)下歷史新高,也讓開發(fā)者能夠采用更多的超級(jí)互聯(lián)GPU來構(gòu)建更高級(jí)的系統(tǒng),進(jìn)而靈活地連接任何基于NVLink的GPU的拓?fù)浣Y(jié)構(gòu)。我們上面所說的DGX-2,就得益于NVSwitch的超級(jí)互聯(lián)特性。
NVSwitch的優(yōu)勢(shì)是顯而易見的,其成熟程度我們尚未可知。不過,相信很多朋友看到它的第一反應(yīng)就是將取代NVLink。難道我們這么快就要對(duì)NVLink說再見了嗎?
Tesla V100內(nèi)存翻倍,掀起新一輪小規(guī)模計(jì)算迭代
英偉達(dá)平臺(tái)在各大云服務(wù)提供商和服務(wù)器制造商中已得到廣泛應(yīng)用,最強(qiáng)大的數(shù)據(jù)中心GPU——NVIDIA Tesla V100,也得到了重大提升:2倍內(nèi)存。如今Tesla V100 GPU配備了32GB內(nèi)存,將助力數(shù)據(jù)科學(xué)家對(duì)更深度、更大規(guī)模的深度學(xué)習(xí)模型進(jìn)行訓(xùn)練,且比以往都更加精確。與之前的16GB版本相比,它還能將內(nèi)存受限的HPC應(yīng)用性能提升高達(dá)50%。
Tesla V100 32GB GPU目前可用于所有 NVIDIA DGX 系統(tǒng)。此外,各大計(jì)算系統(tǒng)制造商Cray、HPE、IBM、聯(lián)想、Supermicro和Tyan也宣布將于第二季度內(nèi)推出各自全新的Tesla V100 32GB系統(tǒng)。Oracle云也宣布計(jì)劃將于今年下半年在云端提供Tesla V100 32GB。
種種跡象表明,Tesla V100的提升,可能將掀起新一輪數(shù)據(jù)中心GPU計(jì)算平臺(tái)迭代。當(dāng)然,客觀來講其規(guī)??赡懿粫?huì)太大,這要看企業(yè)和組織的實(shí)際需求。
軟件堆棧更新,推動(dòng)計(jì)算性能提升
英偉達(dá)深度學(xué)習(xí)和 HPC 軟件堆棧的更新面向開發(fā)者社群免費(fèi)提供。據(jù)了解,當(dāng)前開發(fā)者社群共有超過 82 萬名注冊(cè)用戶。此次更新包括新版本的 NVIDIA CUDA、TensorRT、NCCL和cuDNN,以及面向機(jī)器人的全新 Isaac軟件開發(fā)套件。此外,通過與領(lǐng)先云服務(wù)提供商的密切合作,各大主流深度學(xué)習(xí)框架都在持續(xù)優(yōu)化,以充分利用英偉達(dá)的GPU計(jì)算平臺(tái)。
今天發(fā)布的TensorRT 4推理軟件,與谷歌的TensorFlow框架深度融合。據(jù)了解,針對(duì)計(jì)算機(jī)視覺、神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯、自動(dòng)語音識(shí)別、語音合成與推薦系統(tǒng)等常見應(yīng)用,相比CPU,該軟件最高可將深度學(xué)習(xí)推理的速度加快190倍。
另外,最受歡迎的語音識(shí)別框架Kaldi現(xiàn)也已針對(duì)GPU進(jìn)行了優(yōu)化。
深度學(xué)習(xí)計(jì)算≈英偉達(dá)
黃教主雷厲風(fēng)行的個(gè)性顯然對(duì)英偉達(dá)也產(chǎn)生了不小的影響,從最初發(fā)現(xiàn)GPU在深度學(xué)習(xí)計(jì)算方面的潛力,到如今幾乎“無GPU不深度學(xué)習(xí)”的行業(yè)現(xiàn)狀,英偉達(dá)毅然向人工智能轉(zhuǎn)型,投入大量資源用以研發(fā),不斷推陳出新,極大地推動(dòng)了GPU在人工智能計(jì)算的應(yīng)用,同時(shí)更推動(dòng)了人工智能行業(yè)的發(fā)展。
本屆GTC上關(guān)于深度學(xué)習(xí)的各項(xiàng)重要發(fā)布,也再次向我們證明了這一點(diǎn)?;诖耍f一句“深度學(xué)習(xí)計(jì)算≈英偉達(dá)”不算過分吧。
it168網(wǎng)站原創(chuàng) 作者: 謝濤