...

全球IP大廠安謀(ARM-US)今(19)日宣佈透過將ArmKleidi技術整合到PyTorch和ExecuTorch，促使新一代的應用在ArmCPU上運行大語言模型(LLM)。Arm指出，Kleidi彙集了最新的開發人員賦能技術和關鍵資源，目標在於推動機器學習(ML)技術堆疊中的技術協作和創新。透過這些重要進展，Arm致力於為每一位ML技術堆疊的開發人員提供更為順暢的體驗。Arm策略與生態部開發人員技術副總裁AlexSpinelli表示，Arm正與領先的雲端服務供應商和框架設計者緊密合作，以打造便捷的開發環境，讓軟體發展人員能夠輕鬆地在基於Arm架構的硬體上加速AI和ML工作負載。自該技術推出的四個月以來，Kleidi已在ArmCPU上加速開發並顯著提升主要的AI效能。Arm與PyTorch社群的緊密合作，印證了該技術可大幅減少開發人員利用高效率AI所需的工作量。在雲端，Kleidi以利用ArmComputeLibrary(ACL)強化PyTorch帶來的成果為基礎，為世界各地在Arm平台上優化AI的開發人員打造藍圖。使開發人員免去其不必要的工程工作，以便開發人員能將Arm視為運行其關鍵ML工作負載的首選平台。做為實現此一願景的關鍵一步，Arm直接與PyTorch和TensorFlow進行ArmKleidiLibraries(函式庫)的整合合作，這包括將基本的Arm函式庫整合到上述的領先框架中。重要的是，這代表著當新的框架版本發佈時，應用開發人員能夠自動地從其大幅的效能提升中獲益，而無需額外在Arm平台上進行建構。這項投入已對合作夥伴關係產生了正面的影響。Arm聊天機器人展示由MetaLlama3LLM所驅動，並運行在亞馬遜網路服務公司(AWS)Graviton處理器上，首次在主線PyTorch中實現了即時聊天回應。根據在AWSGraviton4上所測得的資料顯示，透過將Kleidi技術整合到開源PyTorch程式庫，詞元(token)首次回應時間可加快2.5倍。Arm看好，透過優化torch.compile來更有效率地使用透過ACL提供的Kleidi技術，在基於AWSGraviton3上所測得的資料顯示，各類HuggingFace模型推理工作負載上的效能可提升1.35至2倍。這些僅是出色的雲端範例之一，卻代表在Arm平台上普及ML工作負載時可實現的效能加速類型。Arm將持續投入，以確保開發人員的AI應用，從雲到邊緣都能完美運行，其中包括新功能與前代的相容，進而使得開發人員能夠立即從中獲益。隨著新的語言模型版本快速地推陳出新，生成式AI掀起了一波AI創新熱潮。Arm持續與ML技術堆疊的各個關鍵部分緊密合作，攜手AWS和Google等雲端服務供應商以及Databricks等迅速壯大的ML獨立軟體開發商(ISV)社群，進而協助開發人員立於技術的前端。GoogleCloudCompute產品管理資深總監NiravMehta表示，Arm和GoogleCloud致力於為開發人員提升AI的存取和敏捷性，而Kleidi代表了以軟硬體共同優化滿足AI需求所獲得的重要進展。隨著客戶正積極採用基於Arm架構的客製化CPU-Axion，期待在整個ML技術堆疊中為客戶帶來更為順暢的整合體驗。Databricks軟體工程師LinYuan表示，利用DatabricksDataIntelligencePlatform進行AI和ML工作流程的企業，將可受惠於跨ML軟體堆疊的ArmKleidi整合帶來的效能優化。藉由DatabricksMLRuntime叢集提供支援的Arm架構AWSGraviton處理器，企業可以從各種ML函式庫的加速中受惠，同時降低雲端服務供應商的成本。協助開發人員將Arm提供的資源應用到實際案例中至關重要，為此，Arm創立範例軟體堆疊和學習資源，向開發人員展示如何在ArmCPU上建構AI工作負載，進而迅速推動了Arm系統的廣泛採用，並加快了開發人員在Arm系統上的部署速度。第一個案例是透過Kleidi技術加速聊天機器人的實現，今年稍晚，MLOps和檢索強化生成也將添加至這些應用案例中，並計畫於2025年實現更多成果。基於Kleidi在裝置端的發展態勢，KleidiAI還將被整合到ExecuTorch(PyTorch新的裝置端推理運行runtime)。這項整合預計將於2024年10月完成，並有望為目前正在ExecuTorch中進行生產測試或推出的裝置端應用帶來顯著的效能提升。目前已完成的多項KleidiAI整合包括與GoogleXNNPACK和MediaPipe，以及騰訊的混元大模型，為其實際工作負載帶來了顯著提升，其影響不言可喻，誠如此聊天機器人所展示。Kleidi將繼續與PyTorch和ExecuTorch的各版本以及其他主要AI框架進行整合。從雲端資料中心到邊緣端裝置，開發人員現在可以即刻在各類裝置上基於Arm平台高效率的運行高效能AI工作負載。Arm將繼續積極地為PyTorch社群推出強化功能，並專注於針對各種整數格式提供量化優化，進一步提高效能，使ArmCPU能大規模地無縫運行次世代的AI體驗。PyTorch正在大規模的推動ML開發領域的創新。近日，Arm加入PyTorch基金會成為Premier成員，這對於Arm的AI之旅來說，無疑是一個重要時刻。Arm將持續致力於協助全球各地的開發人員，在Arm平台上充分發揮端到端AI的潛力，進而塑造尖端的AI和應用功能。

‌

‌

‌

‌