在GTC 2023 | NVIDIA開發(fā)者大會上,點深度學加州伯克利數(shù)學與計算機科學的習系教授向我們介紹了關于深度學習系統(tǒng)Colossal-AI的相關內(nèi)容。
深度學習系統(tǒng)Colossal-AI使用戶能夠以大幅降低成本的點深度學方式最大限度地提高AI訓練和推理的效率。它集成了高效的習系多維并行、異構(gòu)內(nèi)存管理、點深度學自適應任務調(diào)度等先進技術。習系
Colossal-AI將更好地了解大型模型訓練和推理背后的點深度學并行性和內(nèi)存優(yōu)化技術,學習深度學習系統(tǒng)的習系實際應用(包括自然語言處理、計算機視覺、點深度學生物信息學等),習系并能夠為未來的點深度學大型 AI 模型時代做出貢獻。
Colossal-AI系統(tǒng)試圖解決什么問題呢?
主流AI模型大小增長的習系圖表,它顯示了AI模型在短短幾年內(nèi)增長的點深度學速度,每18個月增長40倍,這超過了摩爾定律在其具盛時期的習系最佳表現(xiàn)。
小型和中型企業(yè)( SMEs )在盡可能地在采用它們,點深度學Colossal-Al系統(tǒng)在2026年時可以幫你節(jié)省的成本的估計訓練175B參數(shù)GPT-3模型,利用所有這些硬件特性和變化,估計訓練成本從300降至73000美元,約為41倍。
強調(diào)大規(guī)模并行是必不可少的,使用單個A 100 GPU訓練具有540B參數(shù)的Pal M語言模型的時間和成本,需要300年并且花費920萬美元。
隨著新數(shù)據(jù)的不斷出現(xiàn),他們需要反復的新訓練以避免像2019年的GPT-2一樣無法識別COVID-19等概念。
訓練完成之后,僅使用模型進行推理也是項挑戰(zhàn),因為模型的大小需要并行技術,單個服務器的內(nèi)存可能無法容納大模型。除了設備成本之外,還有人力成本支付需要解決所有這些問題的專家團隊,這就限制了一些公司特別是無法承受這些團隊的中小企業(yè)使用這些大型模型。
因此Colossal-AI的作用出現(xiàn)了:
對特定底層硬件架構(gòu)進行優(yōu)化,左側(cè)(硬件層)可以是CPU、 GPU、TPU或FPGAl,右側(cè)是你的用于AI模型編寫的框架,如TensorFlow、 Py Torch或其他框架。Colossal-AI可以高效地將大模型部署到目標架構(gòu),實現(xiàn)底部顯示的所有目標,最小化運行時間,最小化通信(移動數(shù)據(jù))在當前架構(gòu)是最昂貴的操作,最小化用戶需要改動代碼的數(shù)量,即重構(gòu)。使模型能夠動態(tài)地適應機器的規(guī)模變化,并減少內(nèi)存占用,一邊能運行大模型。
Colossal-AI提供了三個層次:
高效的內(nèi)存系統(tǒng),可最大程度利用可用內(nèi)存。
多維并行,即如何最好地將復雜的模型映射到可用的硬件上,以最大程度地使并行處理并最小化通信。
大規(guī)模優(yōu)化,也就是如何自動調(diào)整影響準確度收斂的眾多超參數(shù),因為這些值通常取決子如何進行并行處理。
因此Colossal-AI的目標是將復雜且相互作用的決策從用戶角度隱藏起來,并自動完成所有操作。
編輯:黃飛