輝達團隊推新AI模型Eagle 2.5 僅用8B參數即可匹敵GPT-4o
鉅亨網新聞中心 2025-04-23 13:30

輝達、南京大學、香港理工大學及羅格斯大學團隊合作推出一項最新成果「Eagle 2.5」,這是一種用於長上下文多模態學習的視覺語言模型(VLM),為現有 VLM 打破局限性提供了一個創新解決方案。
為了應對業界中長視訊理解和高解析度影像理解方面的挑戰,輝達團隊引入了適用於這兩項任務的一種通用框架,該框架還在長情境資料訓練的流程中納入了多項效率優化措施。
根據測試結果,Eagle 2.5 在長上下文多模態基準測試中展現了顯著的性能,測試版本 Eagle 2.5-8B 在 512 個輸入幀的 Video-MME 上實現了 72.4% 的成績,與 GPT-4o 等頂級商業模型媲美,現已在開源社區上線。
Eagle 2.5 具備三點關鍵創新:
1. 資訊優先採樣
2. 漸進式混合後訓練
3. 多元化驅動的資料配方
在 Video-MME 基準測試中,Eagle 2.5 與領先的視覺語言模型 GPT-4o、Qwen2.5-VL-72B 和 InternVL2.5-78B 等進行了性能對比,結果顯示,隨著輸入幀數的增加,Eagle 2.5 展現出了持續的性能提升和競爭力水準,而且參數規模也小得多。
與那些僅僅為了處理長多模態序列而進行優化卻未提升性能的模型不同,Eagle 2.5 受益於更長的輸入長度,除了能夠處理更長的輸入之外,還能帶來持續的性能提升。
Eagle2.5-8B 在多個視訊基準測試中展現出卓越的性能,在 MVBench 上達到 74.8 分;在長視訊理解方面尤其出色,在 MLVU 上達到 77.6 分。
關於全新的資料集 Eagle-Video-110K,主要解決了業界現有資料集中影片長度不足的問題,顯著提升了模型在主流長視頻和短視頻基準測試中的表現,它通過為訓練數據提供此前開源訓練集中缺失的長視頻,顯著提升了模型處理高幀數(≥128 幀)的能力。
研究人員表示,憑藉先進的訓練策略和多樣化的數據,Eagle 2.5 和 Eagle-Video-110K 有望為未來產業創新突破奠定基礎,為在複雜的現實場景中開發高效且功能多樣的視覺語言模型鋪平了道路。
上一篇
下一篇