menu-icon
anue logo
馬來西亞房產鉅亨號鉅亨買幣
search icon


科技

幻覺率狂降70%!阿里巴巴發布新AI語音辨識模型FunAudio-ASR 解決行業兩大難題

鉅亨網編譯陳韋廷


阿里巴巴 (09988-HK)(BABA-US)通義實驗室在 AI 語音技術領域取得重大突破,周一 (15 日) 正式發表 FunAudio-ASR 端對端語音辨識大模型,該模型的問世為語音辨識技術的發展帶來了新的曙光,並有望在多個領域引發深刻變革。

cover image of news article
幻覺率狂降70%!阿里巴巴發布新AI語音辨識模型FunAudio-ASR 解決行業兩大難題(圖:Shutterstock)

FunAudio-ASR 模型透過創新的 Context 模組,成功解決了語音辨識中的兩大關鍵難題—「幻覺」和「串語種」。在高噪音場景下,幻覺率從 78.5% 大降至 10.7%,降幅接近 70%。這一卓越表現得益於該模型使用了數千萬小時的音訊資料進行訓練,並融合了大語言模型 (LLM) 的語義理解能力,進而顯著提升了語音識別的上下文一致性與跨語言切換能力。


阿里巴巴通義實驗室精心打造了 5 大類測試,重點聚焦語音辨識在遠場、吵雜背景等極具挑戰性場景下的表現,同時結合開源測試集對模型效能進行全面評估。結果顯示,FunAudio-ASR 超越了 Seed-ASR、KimiAudio-8B 等業界知名模型。

在實際應用方面,FunAudio-ASR 進行了全方位優化。它支援低延遲串流識別、跨中英文自然切換以及用戶可自訂的熱詞識別,能廣泛涵蓋視訊會議、即時字幕、智慧終端等多樣化的應用場景。

FunAudio-ASR 模型提供滿血版和輕量的 nano 版本,滿血版由 0.7B 參數量的編碼器和 7B 參數量的 LLM 組成,追求最高精度,而輕量的 nano 版本由 0.2B 參數量的編碼器和 0.6B 參數量的 LLM 組成,平衡了效率與精度。

目前,FunAudio-ASR 已在釘釘的「AI 聽記」、視訊會議、DingTalk A1 硬體等多個場景中得到應用。

值得一提的是,FunAudio-ASR 已上線阿里雲百煉平台,API 定價為每秒 0.00022 元 (人民幣,下同),轉錄一段一小時的音訊大約只需 8 毛錢,其技術報告已發布,開發者可在魔搭社群體驗其效果。

在解決「幻覺」問題方面,通義實驗室設計了 Context 增強模組,透過 CTC 解碼器快速生成第一遍解碼文本,並將其作為上下文資訊輸入 LLM,輔助理解音訊內容。為因應高雜訊場景,還在訓練資料中加入大量模擬數據,有效降低了幻覺率。

對於「串語種」問題,透過 CTC 解碼器的最佳化和將解碼結果作為提示詞輸入 LLM,緩解了模型「自動啟動」翻譯功能的現象。

此外,FunAudio-ASR 在支援術語客製化識別方面也有顯著提升,透過引入 RAG 機制,在不增加推理複雜度的前提下,擴充了客製化上文數量,並保持了較高的客製化識別效果。

在技​​術實現上,FunAudio-ASR 模型包含四個核心組件,預訓練使用了數千萬小時的音頻數據,經過多個階段的優化和強化學習,最終在各項性能上達到優異水平。

基於生成式 AI 的新一代語音識別模型,正從「能聽清楚」邁向「能理解」,FunAudio-ASR 在幻覺抑制、跨語種識別、上下文一致性等關鍵問題上取得的進展,使其有望成為終端智能交互的重要入口,為智能語音交互領域帶來新的發展機遇。

section icon

鉅亨講座

看更多
  • 講座
  • 公告


    Empty
    Empty