全球IP大廠安謀(ARM-US)今(19)日宣佈透過將ArmKleidi技術整合到PyTorch和ExecuTorch,促使新一代的應用在ArmCPU上運行大語言模型(LLM)。Arm指出,Kleidi彙集了最新的開發人員賦能技術和關鍵資源,目標在於推動機器學習(ML)技術堆疊中的技術協作和創新。透過這些重要進展,Arm致力於為每一位ML技術堆疊的開發人員提供更為順暢的體驗。Arm策略與生態部開發人員技術副總裁AlexSpinelli表示,Arm正與領先的雲端服務供應商和框架設計者緊密合作,以打造便捷的開發環境,讓軟體發展人員能夠輕鬆地在基於Arm架構的硬體上加速AI和ML工作負載。自該技術推出的四個月以來,Kleidi已在ArmCPU上加速開發並顯著提升主要的AI效能。Arm與PyTorch社群的緊密合作,印證了該技術可大幅減少開發人員利用高效率AI所需的工作量。在雲端,Kleidi以利用ArmComputeLibrary(ACL)強化PyTorch帶來的成果為基礎,為世界各地在Arm平台上優化AI的開發人員打造藍圖。使開發人員免去其不必要的工程工作,以便開發人員能將Arm視為運行其關鍵ML工作負載的首選平台。做為實現此一願景的關鍵一步,Arm直接與PyTorch和TensorFlow進行ArmKleidiLibraries(函式庫)的整合合作,這包括將基本的Arm函式庫整合到上述的領先框架中。重要的是,這代表著當新的框架版本發佈時,應用開發人員能夠自動地從其大幅的效能提升中獲益,而無需額外在Arm平台上進行建構。這項投入已對合作夥伴關係產生了正面的影響。Arm聊天機器人展示由MetaLlama3LLM所驅動,並運行在亞馬遜網路服務公司(AWS)Graviton處理器上,首次在主線PyTorch中實現了即時聊天回應。根據在AWSGraviton4上所測得的資料顯示,透過將Kleidi技術整合到開源PyTorch程式庫,詞元(token)首次回應時間可加快2.5倍。Arm看好,透過優化torch.compile來更有效率地使用透過ACL提供的Kleidi技術,在基於AWSGraviton3上所測得的資料顯示,各類HuggingFace模型推理工作負載上的效能可提升1.35至2倍。這些僅是出色的雲端範例之一,卻代表在Arm平台上普及ML工作負載時可實現的效能加速類型。Arm將持續投入,以確保開發人員的AI應用,從雲到邊緣都能完美運行,其中包括新功能與前代的相容,進而使得開發人員能夠立即從中獲益。隨著新的語言模型版本快速地推陳出新,生成式AI掀起了一波AI創新熱潮。Arm持續與ML技術堆疊的各個關鍵部分緊密合作,攜手AWS和Google等雲端服務供應商以及Databricks等迅速壯大的ML獨立軟體開發商(ISV)社群,進而協助開發人員立於技術的前端。GoogleCloudCompute產品管理資深總監NiravMehta表示,Arm和GoogleCloud致力於為開發人員提升AI的存取和敏捷性,而Kleidi代表了以軟硬體共同優化滿足AI需求所獲得的重要進展。隨著客戶正積極採用基於Arm架構的客製化CPU-Axion,期待在整個ML技術堆疊中為客戶帶來更為順暢的整合體驗。Databricks軟體工程師LinYuan表示,利用DatabricksDataIntelligencePlatform進行AI和ML工作流程的企業,將可受惠於跨ML軟體堆疊的ArmKleidi整合帶來的效能優化。藉由DatabricksMLRuntime叢集提供支援的Arm架構AWSGraviton處理器,企業可以從各種ML函式庫的加速中受惠,同時降低雲端服務供應商的成本。協助開發人員將Arm提供的資源應用到實際案例中至關重要,為此,Arm創立範例軟體堆疊和學習資源,向開發人員展示如何在ArmCPU上建構AI工作負載,進而迅速推動了Arm系統的廣泛採用,並加快了開發人員在Arm系統上的部署速度。第一個案例是透過Kleidi技術加速聊天機器人的實現,今年稍晚,MLOps和檢索強化生成也將添加至這些應用案例中,並計畫於2025年實現更多成果。基於Kleidi在裝置端的發展態勢,KleidiAI還將被整合到ExecuTorch(PyTorch新的裝置端推理運行runtime)。這項整合預計將於2024年10月完成,並有望為目前正在ExecuTorch中進行生產測試或推出的裝置端應用帶來顯著的效能提升。目前已完成的多項KleidiAI整合包括與GoogleXNNPACK和MediaPipe,以及騰訊的混元大模型,為其實際工作負載帶來了顯著提升,其影響不言可喻,誠如此聊天機器人所展示。Kleidi將繼續與PyTorch和ExecuTorch的各版本以及其他主要AI框架進行整合。從雲端資料中心到邊緣端裝置,開發人員現在可以即刻在各類裝置上基於Arm平台高效率的運行高效能AI工作負載。Arm將繼續積極地為PyTorch社群推出強化功能,並專注於針對各種整數格式提供量化優化,進一步提高效能,使ArmCPU能大規模地無縫運行次世代的AI體驗。PyTorch正在大規模的推動ML開發領域的創新。近日,Arm加入PyTorch基金會成為Premier成員,這對於Arm的AI之旅來說,無疑是一個重要時刻。Arm將持續致力於協助全球各地的開發人員,在Arm平台上充分發揮端到端AI的潛力,進而塑造尖端的AI和應用功能。