電子發燒友網報道(文/周凱揚)作為英偉達在CPU與GPU技術開發上的大家都爭對標的集大成之作,Grace Hopper很大程度上象征著復雜計算領軍產品。相超性盡管英偉達竭盡所能地去堆這一“超級芯片”的無人性能,但英偉達還是大家都爭對標的選擇將Grace Hopper(GH200)描述成了世界上最萬能的計算平臺,這也得益于它同時在AI計算和HPC計算領域展現的相超性可怕性能。
AI計算性能
相信絕大多數人已經從市場瘋搶A100、無人H100的大家都爭對標的現狀,對Hopper GPU(H100)的相超性性能有了大致的了解,但Grace Hopper作為一個異構計算平臺,無人在與傳統的大家都爭對標的x86 CPU與H100對比上,也有著不小的相超性性能差距。
首要區別自然就是無人連接Grace CPU和Hopper GPU的NVLink-C2C,這一高帶寬低延遲的大家都爭對標的互聯技術可謂是目前唯一能發揮H100近乎全部實力的方案。支持最高144TB內存的相超性同時,提供900GB/s的無人帶寬。
英偉達官方也對部分AI計算負載進行了測試,在終端應用上對比x86+Hopper與Grace Hopper的一體化方案有何異同。其性能差距可以說是巨大的,就拿最常見的大語言模型推理來說,GH200可以做到x86平臺的4.5倍性能表現,而DLRM(深度學習推薦模型)訓練與圖神經網絡(GNN)訓練的性能也可以分別達到3.5倍和1.9倍。
其實這里的差異還是體現在互聯方案的帶寬上,例如x86+Hopper的方案還是在使用PCIe方案,該方案在batch size較小時性能落后還不算明顯,一旦到了更大的batch size,PCIe的帶寬就成了瓶頸,而不斷以高帶寬輸送數據給H100的NVLink-C2C則可以實現比PCIe高出數倍的性能。
HPC計算性能
Grace Hopper的另一大應用領域自然就是HPC了。HPC主要集中在一些科學、工程的復雜計算上,比如天氣預測、生命科學、流體力學等。然而與此同時,不少商業相關的HPC計算也在進一步推動HPC的發展,甚至更早用上最新的芯片技術,比如油藏模擬等。
著名油藏模擬軟件ECHELON的開發商Stone Ridge,在最近獲得了早期訪問權,對英偉達的H100-PCIe、H100-NVL和Grace-Hopper來了場性能測試。早在Volta和Ampere架構時,Stone Ridge就對不同架構的GPU進行了測試,而如今的H100相較這些舊GPU已經在CUDA核心、內存容量和內存帶寬上有了數倍的提升。
這些還只是表面上的變化,英偉達還引入了諸多架構改進,提高了ML和HPC應用程序的性能。而Grace Hopper相較傳統的x86+GPU方案就更具優勢了,首先Grace本身就是一個強大的CPU,每個內核都有四個128位適量單元,超高的內存帶寬以及超大的L2+L3緩存。其次,NVLink的存在大大減少了CPU和GPU之間的通信時間。
不同架構不同版本的英偉達GPU在ECHELON模型上的性能對比 / Stone Ridge
Stone Ridge選擇了不同細胞規模的模型,從83000個細胞到670萬個細胞,其中Grace Hopper都展現出了不俗的性能,最高可達Volta架構的V100的5.7倍。值得一提的是,由于CPU采用了新的Arm架構,所以ECHELON必須重新編譯才能在系統上運行,不過對于ECHELON來說,重新編譯并不要花太多力氣,他們在不修改代碼的情況就成功重編譯在GH200上正常運行。如果對代碼進行進一步優化的話,還有機會獲得更高的性能表現。如此高的性能提升,意味著油藏勘探模擬的時間可以被大幅縮短,從而加快油藏評估的速度。
結語
可以說無論是A100還是H100,都只是英偉達在AI與HPC戰線擴大戰果的第一步棋,明年Q2交付到各大系統中的GH200才是最大的殺手锏,也很可能會成為更搶手的數據中心與超算中心硬件產品。這也恰好證明了英偉達給它的定位,世界上最萬能的計算平臺。