12月13日,鄭緯在第二屆數(shù)據(jù)安全治理年會(huì)上,民院中國工程院院士鄭緯民表示,士諫我國人工智能企業(yè)正面臨“國外一卡(GPU)難求,言國國產(chǎn)卡使用意愿低”的發(fā)展現(xiàn)狀,應(yīng)從軟硬件兩方面突破瓶頸,關(guān)鍵完善國產(chǎn)GPU硬件生態(tài),問題優(yōu)化大模型基礎(chǔ)設(shè)施。鄭緯
我國人工智能產(chǎn)業(yè)面臨軟硬件兩方面瓶頸
鄭緯民提出了算力“三大定律”:人類已經(jīng)進(jìn)入以算力為核心生產(chǎn)力的民院數(shù)字經(jīng)濟(jì)時(shí)代,算力就是士諫生產(chǎn)力,這是言國“時(shí)代定律”;當(dāng)下,算力每12個(gè)月就增長一倍,發(fā)展算力資源增速顯著,關(guān)鍵已經(jīng)打破摩爾定律,問題這是鄭緯“增長定律”;算力每投入1元,就帶動(dòng)3-4元GDP經(jīng)濟(jì)增長,這是“經(jīng)濟(jì)定律”。
近年來,我國人工智能產(chǎn)業(yè)呈指數(shù)級增長。鄭緯民表示,預(yù)計(jì)到2025年,中國人工智能產(chǎn)業(yè)規(guī)模將超過4500億元,帶動(dòng)產(chǎn)業(yè)規(guī)模超1.6萬億元。
鄭緯民直言,我國人工智能產(chǎn)業(yè)正面臨著軟件、硬件兩方面的瓶頸。
從硬件角度看,一方面,我國國產(chǎn)芯片產(chǎn)量不足。鄭緯民表示,2021年,我國人工智能服務(wù)器芯片總用量100萬片,其中,美國英偉達(dá)占95%左右,國產(chǎn)芯片出貨量不到5萬片;另一方面,國產(chǎn)GPU硬件競爭力不足,并未真正受到市場認(rèn)可。
從軟件角度看,我國在算法等技術(shù)方面仍然有所欠缺,當(dāng)前,谷歌和Meta的人工智能算法開發(fā)框架占中國人工智能市場份額的90%以上。
鄭緯民坦言,目前我國人工智能企業(yè)正處于“國外一卡難求,國產(chǎn)卡使用意愿低”的現(xiàn)狀。要解決當(dāng)下面臨的問題,一是營造完善的國產(chǎn)GPU硬件生態(tài),二是優(yōu)化大模型基礎(chǔ)設(shè)施架構(gòu)。
完善硬件生態(tài)要做好10個(gè)關(guān)鍵軟件
鄭緯民認(rèn)為,要完善國產(chǎn)GPU硬件生態(tài)系統(tǒng),需要做好10個(gè)關(guān)鍵軟件:能夠降低編寫人工智能模型復(fù)雜度的編程框架;為多機(jī)多卡提供人工智能模型并行訓(xùn)練能力的并行加速;能夠提供跨機(jī)跨卡的通信能力、支持人工智能模型訓(xùn)練所需各種通信模式的通信庫;提供人工智能模型所需基本操作高性能實(shí)現(xiàn)的算子庫;能夠在異構(gòu)處理器上對人工智能程序自動(dòng)生成高效目標(biāo)代碼的AI編譯器;提供異構(gòu)處理器上編寫并行程序支持的編程語言;提供在大規(guī)模系統(tǒng)上高效調(diào)度人工智能任務(wù)能力的調(diào)度器;針對人工智能應(yīng)用特點(diǎn)提供高效內(nèi)存分配策略的內(nèi)存分配系統(tǒng);提供在硬件發(fā)生故障后快速恢復(fù)模型訓(xùn)練能力的容錯(cuò)系統(tǒng);以及支持訓(xùn)練過程所需數(shù)據(jù)讀寫的存儲(chǔ)系統(tǒng)。
鄭緯民表示,相比芯片的“硬實(shí)力”,其生態(tài)才是更加影響使用體驗(yàn)的因素。“只要生態(tài)做得好,國產(chǎn)芯片只需要達(dá)到國外芯片性能的60%,客戶就會(huì)滿意。”鄭緯民說。
“4個(gè)平衡”優(yōu)化大模型基礎(chǔ)設(shè)施
鄭緯民強(qiáng)調(diào),在設(shè)計(jì)大模型基礎(chǔ)設(shè)施時(shí),要思考“4個(gè)平衡”的優(yōu)化問題。
一是半精度運(yùn)算性能與雙精度運(yùn)算性能的平衡設(shè)計(jì)。在計(jì)算機(jī)系統(tǒng)的內(nèi)存中,半精度、單精度和雙精度是決定數(shù)據(jù)計(jì)算精確度的度量標(biāo)準(zhǔn),雙精度比半精度更精密,但同時(shí)要占據(jù)更多存儲(chǔ)空間。鄭緯民提出,大模型設(shè)計(jì)中不僅要考慮16位的半精度運(yùn)算性能,還要考慮支持64位的雙精度運(yùn)算。他表示,最優(yōu)的雙精度與半精度運(yùn)算性能比為1:100。
二是網(wǎng)絡(luò)平衡設(shè)計(jì)。鄭緯民指出,在網(wǎng)絡(luò)設(shè)計(jì)方面,高帶寬、低延遲的網(wǎng)絡(luò)是極大規(guī)模預(yù)訓(xùn)練模型運(yùn)行的必要條件。“在訓(xùn)練過程中,我們采用數(shù)據(jù)并行、模型并行和專家并行三種不同的并行方式,但這三種方式對互聯(lián)有不同的要求。”鄭緯民表示,“只有把通信做好,大模型才能順暢跑通。”
三是體系結(jié)構(gòu)感知的內(nèi)存平衡設(shè)計(jì)。通俗而言,大模型在訓(xùn)練過程中使用的大量數(shù)據(jù)會(huì)產(chǎn)生大量的內(nèi)存訪問請求;對內(nèi)存平衡的優(yōu)化,目的是提升模型訪存性能,從而提高模型訓(xùn)練效率。
四是輸入輸出子系統(tǒng)平衡設(shè)計(jì)。鄭緯民指出,機(jī)器在執(zhí)行大規(guī)模訓(xùn)練任務(wù)時(shí),發(fā)生硬件、軟件錯(cuò)誤在所難免。針對這樣的情況,容錯(cuò)檢查點(diǎn)成為了大模型訓(xùn)練中的一道“保險(xiǎn)閘”。容錯(cuò)檢查點(diǎn)設(shè)置不足,會(huì)導(dǎo)致模型訓(xùn)練效率降低;檢查設(shè)置過于頻繁,則會(huì)浪費(fèi)大量時(shí)間和存儲(chǔ)空間。因此,優(yōu)化檢查點(diǎn)存儲(chǔ)在大模型訓(xùn)練中的重要性不言而喻。
“只要以上四點(diǎn)平衡的問題得到解決,一塊GPU就能發(fā)揮兩塊的作用。”鄭緯民總結(jié)道。
責(zé)任編輯:趙強(qiáng)