隨著人工智能( AI)技術廣泛應用于各行各業,析嵌從云到邊緣的入式解決方案逐漸成為信息技術領域新的熱點。嵌入式邊緣 AI 在當今的邊緣各種邊緣應用中能夠大幅提升作業人員的生產力,帶動整個 AI 技術在各個領域的析嵌全面落地。邊緣 AI 的入式價值在于將計算和存儲資源移動到網絡邊緣,縮短傳輸距離降低傳輸要求,邊緣大幅提升數據反饋的析嵌速度,降低了對系統云端計算能力的入式需求。邊緣處理數據無需傳輸到遠程服務器,邊緣從而大大減少了傳輸延遲,析嵌對于需要實時響應的入式應用場景至關重要。此外,邊緣嵌入式邊緣 AI 結構相對處理效率更高,析嵌通過優化算法和硬件設計,入式可以大幅降低系統處理所需的邊緣功耗。
目前的 AI 驅動型嵌入式系統實現端到端加速需要采用多芯片方法,為用戶增加了很大的開銷和設計復雜性。針對這一現狀,AMD工業、視覺、醫療與科學市場視覺業務主管 Yingyu Xia認為,全面采用嵌入式邊緣 AI 技術仍然存在障礙,包括技能人才短缺、AI 系統的復雜性以及對失業的擔憂。為了更廣泛地推廣此類應用,不僅需要展示 AI 在各個應用任務中的價值,而且還需要確保其便于部署,作為擁有多種嵌入式處理器產品的廠商,這恰是 AMD 最突出的競爭優勢所在。
Yingyu Xia
AMD 工業、視覺、醫療與科學
市場視覺業務主管
在邊緣智能的應用中,需要重點關注的就是不同處理器發揮各自的處理優勢從而更好地提升邊緣智能系統的運行效率。為了支持嵌入式設備上的生成式 AI 模型,Yingyu Xia 表示計算平臺需要確保高算力的同時具有高效率,采用處理器異構計算平臺以及一個編譯器,能夠高效地在應用處理器( PS )、圖形處理單元( GPU)、神經處理單元( NPU )和現場可編程門陣列( FPGA)之間分配各種工作負載。此外,它們應該提供易于使用的軟件開發工具套件( SDK ),幫助嵌入式工程師將其模型無縫部署到硬件平臺上。NPU 對于高效處理標準 AI 模型至關重要,有助于加速 AI 任務并最大限度降低功耗;與此同時,PS 和 GPU 對于處理尚未針對 NPU 進行優化的更高級別的模型也提供了必要支持;FPGA 則有助于集成多種傳感器模態,以利用多模態模型并確保傳感器同步。此外,FPGA 可以被編程以建立定制、優化的數據路徑,從而實現系統組件之間的有效數據傳輸。
針對各個處理器在邊緣 AI 應用中的作用,AMD 工業、視覺、醫療與科學市場機器人業務主管 KV Thanjavur Bhaaskar介紹,CPU一直以來都是功能強大的通用計算引擎,相對于許多其他計算平臺,在可提供支持的廣泛軟件生態系統方面具有優勢。嵌入式處理器集成了用于渲染、可視化和顯示的 CPU 和圖形。隨著邊緣智能的快速增長,近來的一種趨勢是 CPU 除了通用計算和圖形功能外,還具有專用的 AI 計算引擎。
KV Thanjavur Bhaaskar
AMD 工業、視覺、醫療與科學
市場機器人業務主管
迄今為止,設計人員必須在設計中引入加速器才能實現高性能的 AI 推理。將專用的 AI 計算引擎引入到 CPU 中,可提供靈活的架構選擇,減小占板面積并提高能效。就新應用而言,邊緣智能已經無處不在,所以可以想象在以前只有 CPU 的地方現在都具備了 AI 功能,比如具有 AI 路徑規劃的機器人控制器、具有診斷或感興趣區域功能的醫學成像等。正在出現的主要設計要求是在滿足整體解決方案需求的情況下選擇正確的引擎進行正確的任務,因為計算工作負載的多樣性、處理器以有效處理它們的方式、以及系統中這種處理能力的可用性都發生了顯著變化。在為傳統 CPU 增加 AI 功能之外,異構處理架構的出現能夠更好的去提升邊緣 AI 在功耗和效率方面的表現。KV Thanjavur Bhaaskar 強調,處理器的選擇取決于特定的系統級別,一個解決方案可能是選擇適合特定任務的正確引擎,因為這將為解決系統中的特定計算任務提供最節能的方式。AMD 提供的器件結合了不同技術,包括 FPGA、處理子系統(包括 Arm和 RISC-V)、基于 x86 的 CPU、GPU、AI 引擎,構成了可擴展性很強的產品系列,從成本優化的嵌入式器件一直到針對數據中心市場的高端器件。
Omdia預測
2027 年營收前 10 的嵌入式 AI 應用 ( Alexander Harrowell, Omdia, 2022 )
Omdia 預測了到 2027 年預計將產生最高收入的前 10 個嵌入式 AI 應用(如圖所示),這些應用通常展示了上述因素中的兩個或更多,呈現出業界采用嵌入式AI 的目標領域。以工廠自動化為例,工廠中的拾取和放置機器人,需要實現對目標對象的毫米級準確識別并最小化對機械臂的干擾,這需要結合 3D 視覺、點云處理、嵌入式 AI 和傳感器致動器融合。最大限度降低時延對于保持高生產力至關重要,也有助于確保產量和整體效率的提升。這方面許多人所熟悉的另一個例子是智能結賬系統,不僅可通過實時監控掃描商品來增強結賬體驗,而且還能檢測購物者的不當行為,例如將較便宜的商品(如香蕉)替換為較昂貴的商品(如牛排)。這一功能不僅鼓勵顧客使用自助結賬,減少零售商的擔憂,還解決了不斷上升的勞動力成本問題。此外,還可以參考智能交通攝像頭,其需要針對速度高達 200 公里/小時的車輛采集圖像信息。要實現這一點,需要集成各種傳感器。然而,全天候持續傳輸視頻將產生極高的成本。
統一 AI 模型的潛在發展趨勢
隨著 AI 模型及其參數的復雜性日益提高,對系統內部更有效的數據傳輸機制的需求也在增長。統一 AI 模型是最突出的潛在發展趨勢。與為同一背景下的各種任務管理多個專門的 AI 模型不同,統一模型可用于處理多種視覺任務。這種方法在嵌入式邊緣中提供了更有效地資源利用的可能性,尤其是在分布式 AI 架構中更為明顯。預計在這個領域會進行進一步的研究,以提高統一模型的準確性。
Yingyu Xia 特別提到
當前一個值得關注的趨勢,即業界出現了能夠在有限標記數據下進行有效泛化的模型。這一策略在數據采集不便和需要頻繁數據訓練的場景中具有極大的價值。由于僅需要最少量的數據進行重新訓練,這一趨勢降低了所需的技術專長,并節省了 AI 訓練時間。
此外,大型語言模型( LLM )的普及使得與 AI 的交互更類似于與人類對話。只需提出一個問題,AI 就能夠理解背景語義并像咨詢專家一樣作出回應。目前一種趨勢是在嵌入式邊緣部署的 AI 模型中提升對視覺場景的理解。這一發展有助于作業人員更清晰地理解視覺場景,在一次視頻搜索的調查過程中,它能夠以自然的人類語言提供洞察和建議。除了評估 AI 引擎的能力外,Yingyu Xia 認為嵌入式 AI 系統還在高速和大量數據涌入的實時環境中運行。確保實時操作需要硬件平臺具備高效的數據同步和前后處理流水線,以有效地管理數據流。在選擇嵌入式平臺時,不僅要考慮 AI 引擎的效率,還要考慮它與其他關鍵部分的兼容性。AI 引擎只是嵌入式系統的一個組成部分,為了實現最佳功能,必須通過其它重要因素進行補充,理想的平臺應該是根據嵌入式用例需求可以滿足下列大部分要求的平臺。
AMD Embedded+
面向邊緣 AI 應用市場,AMD 最近發布了加速嵌入式邊緣 AI 開發的 Embedded+ 架構,該架構將 AMD Ryzen(銳龍)嵌入式處理器與 AMD Versal AI Edge 自適應 SoC 集成在一塊板卡上。KV Thanjavur Bhaaskar 強調,自適應計算在確定性、低時延處理方面表現出色,而 AI 引擎則能夠提升高每瓦性能推理。在這種異構處理器架構中,Ryzen 嵌入式處理器提供了 Zen+ x86 核心,并且具備廣泛的軟件生態系統支持,Radeon 顯卡用于渲染和顯示功能。Versal AI Edge 自適應 SoC 提供了基于 Arm Cortex-A72 內核處理器的子系統用于應用處理,R5-F 用于實時處理,FPGA 用于低時延和確定性,AI 引擎用于 AI 推理,最重要的是可編程 I/O,支持用戶將各種傳感器直接連接到平臺。在自動化系統中,傳感器數據的價值會隨時間推移而遞減,而這些數據必須根據盡可能最新的信息運行,才能實現最低時延和確定性響應。在工業和醫療應用中許多決策需要在幾毫秒內做出,這就是嵌入式邊緣 AI 最適合的方向。Embedded+ 能最大限度發揮合作伙伴和客戶數據價值,其高能效和高性能算力使合作伙伴與客戶能夠專注于滿足客戶和市場需求。
AMD Embedded+ 架構將傳統的嵌入式 PC 轉變為優化的工業和醫療 PC。低時延處理和高每瓦性能推理的結合可為關鍵任務實現高性能,包括將自適應計算與靈活的 I/O、用于 AI 推理的 AI 引擎以及 AMD Radeon 顯卡實時集成到單個解決方案中,發揮每項技術的最大優勢。Embedded+ 架構作為一種可擴展的方法,可以通過 AMD 的任何器件組合進行更新,就在近期,AMD 推出了具有專用AI引擎的銳龍 8000G 系列 CPU 和第二代 Versal AI Edge 系列,這些產品可以用于新一代基于 Embedded+ 的主板,以應對邊緣智能不斷變化的需求。
KV Thanjavur Bhaaskar 特別提到
AMD 在邊緣和云計算領域擁有廣泛的產品組合。AMD 不僅將 AI 功能添加到最新發布的相關器件中,同時還將提高已有器件的 AI 能力,考慮到功率效率與成本方面因素,預計這種趨勢將持續下去。
AMD 嵌入式行業解決方案可為工業和商業應用打造高性能、高性價比的系統。
憑借一系列靈活、可擴展的處理器,AMD 為客戶帶來更出色的計算性能、先進安全性和各種連接選項。
AMD 嵌入式行業解決方案可滿足游戲、醫療、運輸、自動化等工業和商業應用的苛刻需求。
嵌入式環境中實現 AI 的分布式架構
在針對嵌入式環境中實現 AI 的分布式架構中,Yingyu Xia總結的關鍵是考慮嵌入式邊緣設備的限制性資源、功耗、實時要求和安全性等因素。考慮到每個 AI 參數需要 4 字節( 32 位)的數據,部署原始大小的 32 位浮點模型大多是不可行的。例如,如果有 1.7 萬億個參數,嵌入式設備上的存儲需求將達到 1.7 * 10^12 * 4 = 6.8 TB。因此,采用 BFLOAT16、FLOAT16、INT8 等新穎的數據格式以最小化所需的內存占用是至關重要的。通常,量化器可以幫助將來自浮點 32 模型的數據精度降低到量化模型。此外,可以利用 AI 分析工具來識別導致最重要瓶頸的層,這有助于嵌入式 AI 工程師在邊緣優化其模型。而且,關鍵在于需要開發特定領域的模型以簡化模型復雜性,從而減少模型層數,使其更容易部署到嵌入式 AI 模型中。
作為一家可以同時提供 x86、GPU、FPGA 和自適應 SoC 技術的行業領導者,AMD 的嵌入式邊緣 AI 技術聚焦在汽車、工業、智能家居和智慧城市以及網絡與存儲等應用,幫助客戶快速構建面向物聯網網關、邊緣基礎設施、迷你電腦、瘦客戶端等智能邊緣應用的經濟高效的產品和解決方案。