欧美在线专区-欧美在线伊人-欧美在线一区二区三区欧美-欧美在线一区二区三区-pornodoxxx中国妞-pornodoldoo欧美另类

AMD助力HyperAccel開發全新AI推理服務器

HyperAccel 是力H理服一家成立于 2023 年 1 月的韓國初創企業,致力于開發 AI推理專用型半導體器件和硬件,發全最大限度提升推理工作負載的力H理服存儲器帶寬使用,并通過將此解決方案應用于大型語言模型來提高成本效率。發全HyperAccel 針對新興的力H理服生成式 AI 應用提供超級加速的芯片 IP/解決方案。HyperAccel 已經打造出一個快速、發全高效且低成本的力H理服推理系統,加速了基于轉換器的發全大型語言模型( LLM )的推理,此類模型通常具有數十億個參數,力H理服例如 OpenAI 的發全 ChatGPT 和 Meta 的 Llama 3 等 Llama LLM。其 AI 芯片名為時延處理單元( LPU ),力H理服是發全專門用于 LLM 端到端推理的硬件加速器。

AMD助力HyperAccel開發全新AI推理服務器

項目挑戰

隨著 LLM 應用的力H理服擴展,對高效、發全快速和具成本效益的力H理服推理解決方案的需求不斷上升。對于云服務提供商而言,快速且成本效益高的推理硬件對于托管高性能的生成式 AI 應用并降低總擁有成本( TCO )至關重要。對于 AI 企業來說,一個直觀的軟件堆棧平臺是實現其應用或模型無縫部署的必備條件。對于服務業務,提供全面的端到端解決方案也是必要的,有利于將最先進的 AI 技術集成到更有效和先進的服務中。

解決方案

HyperAccel 提出通過開發名為“Orion”的服務器來解決成本和性能問題,該服務器搭載了一個為 LLM 推理量身定制的專用處理器,基于多個高性能 AMDFPGA部署。Orion 充分利用每個 FPGA 的存儲器帶寬和硬件資源以獲得最高水平的性能。這種可擴展的架構支持最新的 LLM,此類模型通常包含數十億個參數。

Orion 擁有 16 個時延處理單元( LPU ),它們分布在兩個 2U 機架中,提供總共 7.36TB/s 的 HBM 帶寬和 14.4 萬個 DSP。LPU 能加速內存和計算都非常密集的超大規模生成式 AI 工作負載。Orion 及其 256GB 的 HBM 容量支持多達千億參數的最先進 LLM。上圖展示了兩個 2U 機箱之一,配有 8 個 LPU。

下圖顯示了 LPU 架構,其中矢量執行引擎由 AMD Alveo U55C 高性能計算卡支持。Alveo U55C 卡具有高帶寬存儲器( HBM2 ),解決了提供低時延AI 的最關鍵性能瓶頸——存儲器帶寬。此外,它們能夠將 200 Gbps的高速網絡集成到單個小型板卡中,并且經過精心設計可在任何服務器中部署。

反過來,每個 Alveo 加速卡都由 FPGA 架構驅動。鑒于 FPGA 的大規模硬件并行性和靈活應變的存儲器層次結構,FPGA 固有的低時延特性非常適合 LLM 所需的實時 AI 服務。Alveo 卡采用了強大的 Virtex XCU55P UltraScale+ FPGA,可提供高達 38 TOPS 的 DSP 計算性能,有助于 AI 推理優化,包括用于定點與浮點計算的 INT8。這款 FPGA 能夠根據客戶反饋調整其處理器( LPU )的架構,例如,根據要求在Llama模型中實現一些非標準的處理,進而提供靈活的解決方案,能夠適應不斷變化的市場和 LLM 參數條件。

wKgaombqLxCAdBaIAAGAxEvslZA335.png

設計成效

Orion 的高性能和可擴展性是通過 LPU 實現的,由 AMD Alveo 加速卡和相關的 FPGA 以及HyperAccel 的可擴展同步鏈路( ESL )技術提供支持。這些技術最大限度提升了 P2P 傳輸中的存儲器帶寬使用,有利于靈活處理,同時消除了 P2P 計算的同步開銷 ESL 屬于為 LLM 推理中的數據傳輸優化的通信鏈路。值得注意的是,Orion 在支持標準 FP16 數據精度的硬件上保持了卓越的準確性。

HyperAccel Orion

的性能

針對時延進行優化的 HyperAccel Orion 與基于轉換器的 LLM(如 GPT、Llama 和 OPT)無縫集成,能夠在 1.3B 模型上每秒生成超過 520 個令牌,在 7B 模型上每秒生成 175 個令牌。除了卓越的性能外,Orion 還展示了出色的能源效率,在 66B 模型上生成單個令牌只需 24 毫秒,而功耗僅為 600W。

wKgaombqLxWAduahAADVjgfBfyc650.png

HyperAccel LPU 的性能(來源:https://www.hyperaccel.ai)

HyperAccel Orion

—— 工作負載多樣性

Orion 提供端到端的解決方案服務,可作為云端服務部署。對于擁有專有 LLM 的AI 企業或存在內部數據隱私與安全需求的專業部門,Orion 也能夠以本地解決方案的形式進行安裝。Orion 能夠處理以下工作負載/應用:

客戶服務:通過虛擬聊天機器人和虛擬助手實時處理查詢,因此人工客服將有時間處理更復雜的問題。

人機界面:在自助服務終端、機器人和其它設備中支持與語言相關的功能,以增強客戶互動體驗。

文本生成:協助生產、總結和精煉復雜的文本內容,為用戶提供便利。

語言翻譯:翻譯客戶查詢和回復信息,打破語言障礙,擴大企業的全球影響力。

問答:根據大量數據以及此前的互動和偏好記錄,定制針對個別客戶的回復,以提高客戶滿意度。

進一步了解AMD Virtex UltraScale+ FPGA和Alveo U55C 加速卡,請訪問產品專區。

Popular articles

主站蜘蛛池模板: 亚洲国产天堂久久综合| 国产一级特黄高清免费下载| 欧美激情第1页| 学霸c了我一节课| 国产成人在线电影| 夜夜影院未满十八勿进| 春日野吉衣| 国产三级精品三级在线专区1| 日韩精品视频在线观看免费| 精品久久久久香蕉网| 国产精品igao视频网网址| 黄色一级片日本| 成年女人毛片免费视频| 国产小视频网站| 日本大片免a费观看在线| 国产日韩在线亚洲字幕中文| 三个黑人上我一个经过| 又大又爽又湿又紧a视频| 国产浮力第一影院| 嗯啊啊啊视频| jealousvue成熟50maoff老狼| 97久久精品午夜一区二区| 日韩欧美一及在线播放| 啊灬老师灬老师灬别停灬用力| 免费一级做a爰片久久毛片潮喷| 花季app色版网站免费| 污网站在线观看免费| 无限看片在线版免费视频大全| 在线视频这里只有精品| 久久中文网中文字幕| 葫芦里不卖药葫芦娃app| 久久亚洲私人国产精品va | 亚洲情a成黄在线观看| 美女把尿口扒开让男人添| 蜜中蜜3在线观看视频| 国产猛男猛女超爽免费视频| 乱色| 搡女人免费视频大全| 欧洲美女与动zooz| 最近中文字幕高清中文字幕电影二| 一个人看日本www|