當(dāng)前智能體(agent)基準(zhǔn)測試確實(shí)遠(yuǎn)未達(dá)到“可靠”狀態(tài),而且問題比大多數(shù)人想象的更嚴(yán)重。
問題現(xiàn)狀:現(xiàn)有基準(zhǔn)測試的“系統(tǒng)性失效”
什么都不做也能得分
在 τ-bench(一個航班任務(wù)基準(zhǔn))中,一個完全不執(zhí)行任何操作的智能體竟被判為38%準(zhǔn)確率;WebArena 中,智能體給出的錯誤時(shí)間被誤判為正確。
誤判率高達(dá)100%
一項(xiàng)由 MIT、斯坦福、伯克利等 10 余家機(jī)構(gòu)聯(lián)合完成的研究發(fā)現(xiàn):
在 10 個主流智能體基準(zhǔn)中,有 8 個存在嚴(yán)重失效模式,部分任務(wù)對智能體能力的誤判率可達(dá)100% 。
任務(wù)設(shè)計(jì)漏洞百出
缺乏標(biāo)準(zhǔn)答案(如網(wǎng)頁導(dǎo)航、家具組裝);
評估邏輯可被“投機(jī)取巧”繞過;
多輪、多智能體協(xié)作場景幾乎未被有效覆蓋。
解決方向:如何構(gòu)建“可信的智能體基準(zhǔn)”
任務(wù)設(shè)計(jì)必須“防刷”
研究者提出一份包含 43 項(xiàng)檢查清單(ABC),用于確保任務(wù)和評估邏輯無法被輕易繞過。
引入“可靠性三軸評估”
時(shí)間維度:訓(xùn)練過程中的穩(wěn)定性;
運(yùn)行維度:跨隨機(jī)種子的一致性;
回放維度:固定策略在環(huán)境擾動下的魯棒性。
多維度綜合評估框架
如 A2Perf 提出的四類指標(biāo):
數(shù)據(jù)成本(是否依賴專家演示)
應(yīng)用性能(任務(wù)完成質(zhì)量)
系統(tǒng)性能(能耗、延遲)
可靠性(跨場景一致性)
動態(tài)評估機(jī)制
不再用靜態(tài)數(shù)據(jù)集,而是引入多輪交互、多智能體協(xié)作、實(shí)時(shí)人類反饋等動態(tài)場景。
一句話總結(jié)
當(dāng)前智能體基準(zhǔn)測試“考卷”出了問題,導(dǎo)致“考生”分?jǐn)?shù)虛高、能力誤判,亟需從任務(wù)設(shè)計(jì)、評估邏輯、可靠性指標(biāo)和系統(tǒng)成本四方面重構(gòu)評估體系,否則我們永遠(yuǎn)無法真正知道一個智能體在現(xiàn)實(shí)世界中是否“能用”。
Tags:智能體基準(zhǔn)測試
