用 AI 來整理會議內(nèi)容,已經(jīng)是人類的常規(guī)操作。
不過,你猜怎么著?面對 1000 道多步驟音頻推理題時,30 款 AI 模型竟然幾乎全軍覆沒,很多開源模型表現(xiàn)甚至接近瞎猜。
就連表現(xiàn)最好的開源模型 Qwen-2.5-Omni,準(zhǔn)確率也只有 56.7%;而閉源選手 Gemini 2.0 Flash 則以 65.6% 的成績一騎絕塵,遙遙領(lǐng)先全場。
這一全新基準(zhǔn)測試MMAR來自上海交通大學(xué)、 南洋理工大學(xué)、倫敦瑪麗皇后大學(xué)、字節(jié)跳動、2077AI 開源基金會等研究機(jī)構(gòu)。
MMAR 全稱是:A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix。
簡單來說,它是一個包含1000 個高質(zhì)量問題的音頻理解評估基準(zhǔn),每個問題都要求模型具備多步驟的深度推理能力。
我們先來看個例子:
問題是:理發(fā)師能否聽懂英文?
在這段音頻中,被理發(fā)的人用英語反復(fù)強(qiáng)調(diào)自己想要的理發(fā)效果,另一個人將其翻譯成中文來幫助他強(qiáng)調(diào),這說明理發(fā)師不能聽懂英文,需要旁人翻譯為中文。這個問題考察音頻大模型對于多說話人交互和復(fù)雜語義的理解和推理能力,屬實(shí)不易。
而這樣的例子有整整 1000 題,由標(biāo)注者們頭腦風(fēng)暴并精心標(biāo)注,還通過了嚴(yán)格的審核程序。其他的例子包括:
" 根據(jù)聲音,判斷哪次尺子伸出桌子外的長度更長?"
" 根據(jù)石頭落井的回聲,判斷井深度?"
" 這三段音樂的作曲家的親子關(guān)系?"
" 有幾個人在學(xué)說中文?"
這些問題覆蓋了四個層級的推理能力:
層級 | 簡單解釋 |
信號層(Signal) | 聲音的基本屬性,比如頻率、波形、節(jié)奏等 |
感知層(Perception) | 識別聲音種類、來源、方向等 |
語義層(Semantic) | 理解音頻內(nèi)容所表達(dá)的意義 |
文化層(Cultural) | 結(jié)合文化背景、常識、風(fēng)格等進(jìn)行深層次解讀 |
而且,每個任務(wù)都需要多步推理,其中一些任務(wù)甚至需要極富挑戰(zhàn)性的感知技能和領(lǐng)域特定知識,音頻包含真實(shí)場景的語音、音樂、環(huán)境事件聲音和他們的混合,相當(dāng)?shù)挠须y度。
研究團(tuán)隊(duì)一口氣測試了30 款音頻相關(guān)模型,包括 LALMs(大型音頻語言模型)、LARMs(大型音頻推理模型)、OLMs(全能型多模態(tài)模型)等等。結(jié)果讓人有點(diǎn)哭笑不得:
開源模型中,最強(qiáng)的是Qwen-2.5-Omni(7B),但平均準(zhǔn)確率也僅為 56.7%,這說明 MMAR 的難度遠(yuǎn)超預(yù)期;
而閉源模型 Gemini 2.0 Flash 直接飆到了65.6%,甩開其他選手一大截;
更夸張的是:大部分開源模型的表現(xiàn),幾乎跟瞎猜差不多。
這說明了什么?
說明當(dāng)前大多數(shù)開源模型,在面對復(fù)雜音頻推理任務(wù)時,還遠(yuǎn)遠(yuǎn)沒達(dá)到實(shí)用水平。
更令人驚訝的是,在音樂相關(guān)的任務(wù)中,幾乎所有模型都 " 掉了鏈子 "。這說明當(dāng)前模型在識別旋律、節(jié)奏結(jié)構(gòu)、作曲風(fēng)格等深層次音頻信息方面仍存在巨大挑戰(zhàn)。
其次,具有顯式推理能力的模型始終優(yōu)于不具備顯式推理能力的模型。例如,Audio-Reasoner 的表現(xiàn)優(yōu)于 Qwen2-Audio 和 Qwen2-Audio-Instruct,而音頻摘要 + DeepSeek-R1 的表現(xiàn)優(yōu)于音頻摘要 + DeepSeek-V3。
研究團(tuán)隊(duì)還做了一個 " 靈魂拷問 " 實(shí)驗(yàn)——把輸入音頻換成噪聲。
結(jié)果發(fā)現(xiàn),模型性能都大幅下降,證明它們確實(shí)在 " 聽 " 音頻,而不是靠文本先驗(yàn)瞎猜。不過,Qwen-2.5-Omni 在噪聲輸入下依然略高于隨機(jī)猜測 ,暴露出潛在的語言先驗(yàn)偏差問題。
此外,研究人員測試了多種級聯(lián)模型組合(如音頻摘要 +LLM 推理)。
結(jié)果顯示,更換更強(qiáng)的音頻理解模型或推理模型都能帶來性能提升,說明感知能力和推理能力是相輔相成的。
總體來看,當(dāng)前大多數(shù)開源模型在面對 MMAR 這樣的深度音頻推理任務(wù)時,表現(xiàn)仍然不盡人意。
AI 到底哪里 " 聽不懂 "?
為了搞清楚模型失敗的原因,研究人員對提供思維鏈的 Audio-Reasoner 模型的錯誤進(jìn)行了分類,發(fā)現(xiàn)主要有以下幾類:
錯誤類型 | 占比 | 舉例說明 |
感知錯誤(Perceptual Errors) | 37% | 分不清是鋼琴還是吉他、聽不出是雨聲還是鼓聲 |
推理錯誤(Reasoning Errors) | 20% | 推理鏈條斷裂、邏輯跳躍失誤 |
知識錯誤(Knowledge Gaps) | 9% | 缺乏對某種音樂流派或文化背景的理解 |
其他錯誤(Others) | 34% | 包括生成崩潰、指令誤解、最終答案與推理結(jié)果不一致等 |
也就是說,現(xiàn)在的 AI 不僅 " 耳朵不好使 "," 腦子也不太靈光 "。
總結(jié)與展望
通過 MMAR 的測試可得以下幾個關(guān)鍵結(jié)論:
當(dāng)前開源音頻大模型在音頻推理上表現(xiàn)不佳,亟需數(shù)據(jù)與算法協(xié)同創(chuàng)新;
模型是否具備推理能力,直接影響性能表現(xiàn);
閉源模型能力遠(yuǎn)遠(yuǎn)超過開源模型,開源社區(qū)需努力追趕;
近期的音視頻全模態(tài)大模型的音頻能力高于之前的音頻大模型。
在這個開創(chuàng)性項(xiàng)目中,各參與機(jī)構(gòu)發(fā)揮了獨(dú)特的優(yōu)勢和作用。來自香港科技大學(xué)和倫敦瑪麗皇后大學(xué)的音樂科技工作者對專業(yè)的音樂題目進(jìn)行收集和標(biāo)注;2077AI 的研究員提供了數(shù)據(jù)處理與標(biāo)注平臺銜接的重要保障。此外,整數(shù)智能數(shù)據(jù)工程平臺提供了專業(yè)的支持,平臺的多輪審核機(jī)制和協(xié)同標(biāo)注功能為數(shù)據(jù)質(zhì)量提供了強(qiáng)有力的保障。
研究人員希望,隨著更多研究者加入這一領(lǐng)域,人們在未來會看到真正 " 聽得懂 " 的 AI:不僅能聽清你在說什么,還能聽出你在想什么。
文章 : https://arxiv.org/abs/2505.13032
代碼 ( GitHub ) :https://github.com/ddlBoJack/MMAR
數(shù)據(jù)集 ( HuggingFace ) :https://huggingface.co/datasets/BoJack/MMAR
一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評論區(qū)留下你的想法!
— 完 —
點(diǎn)亮星標(biāo)
科技前沿進(jìn)展每日見