今天凌晨1點(diǎn),OpenAI開源了一個全新的AI Agent評測基準(zhǔn)——PaperBench。
這個基準(zhǔn)主要考核智能體的搜索、整合、執(zhí)行等能力,需要對2024年國際機(jī)器學(xué)習(xí)大會上頂尖論文的復(fù)現(xiàn),包括對論文內(nèi)容的理解、代碼編寫以及實(shí)驗執(zhí)行等方面的能力。
根據(jù)OpenAI公布的測試數(shù)據(jù)顯示,目前知名大模型打造的智能體,還無法戰(zhàn)勝頂級機(jī)器學(xué)習(xí)專業(yè)博士。但在輔助學(xué)習(xí)、了解科研內(nèi)容方面很有幫助。
開源地址:https://github.com/openai/preparedness/
PaperBench組成介紹
PaperBench的核心是其任務(wù)模塊,主要定義了智能體需要完成的具體任務(wù),需要從頭開始復(fù)現(xiàn)20篇ICML 2024會議上的Spotlight和Oral兩大類頂級論文,包括理解論文的貢獻(xiàn),開發(fā)代碼庫以及成功執(zhí)行實(shí)驗,以評測智能體從理論到實(shí)踐的全方位自動化能力。
為了確保評估的準(zhǔn)確性和細(xì)致性,PaperBench開發(fā)了一套詳細(xì)的評分標(biāo)準(zhǔn),以層次化的樹形結(jié)構(gòu)呈現(xiàn)。使得評分過程能夠深入到每一個細(xì)節(jié),從論文的核心貢獻(xiàn)到具體的實(shí)驗結(jié)果,再到代碼實(shí)現(xiàn)和執(zhí)行要求,每一個環(huán)節(jié)都有相應(yīng)的評分節(jié)點(diǎn)。
這些評分節(jié)點(diǎn)被精心設(shè)計為可單獨(dú)評分的任務(wù),總數(shù)達(dá)到了8316個,從而實(shí)現(xiàn)了對智能體能力的全面評估。
評分模塊的核心是基于大模型的自動評分系統(tǒng),它能根據(jù)評分標(biāo)準(zhǔn)自動評估智能體的復(fù)制嘗試。自動評分系統(tǒng)的引入大幅提高評分效率和可擴(kuò)展性,使PaperBench能快速評估大量提交。
為驗證自動評分系統(tǒng)的準(zhǔn)確性,PaperBench創(chuàng)建了單獨(dú)的評分系統(tǒng)基準(zhǔn)測試JudgeEval,通過比較自動評分系統(tǒng)的輸出與人類專家的評分結(jié)果來評估其性能。這一過程不僅確保自動評分系統(tǒng)的可靠性,也為未來的評分系統(tǒng)改進(jìn)提供重要參考。
規(guī)則模塊確保評估過程的公平性。它規(guī)定智能體在執(zhí)行任務(wù)時可以使用的資源,例如允許智能體瀏覽互聯(lián)網(wǎng),但禁止使用論文作者的原始代碼庫或其他在線復(fù)制資源。這些規(guī)則確保智能體的能力基于其自身的理解和實(shí)現(xiàn),而非依賴現(xiàn)有代碼或資源。
PaperBench還包含一個輕量級評估變體模塊PaperBench Code-Dev,旨在降低評估門檻,使其更適合更廣泛的社區(qū)使用。
Code-Dev放寬了一些評測要求,例如,跳過了執(zhí)行代碼以驗證結(jié)果是否復(fù)制的步驟,僅對代碼開發(fā)進(jìn)行評估。這一變體雖犧牲了一些評估完整性,但大幅降低了評估成本和復(fù)雜性,使更多研究者能參與智能體的評估。
智能體測試環(huán)境
每個被測試的智能體在運(yùn)行Ubuntu 24.04的Docker容器中執(zhí)行任務(wù),保證了環(huán)境的一致性和可重復(fù)性,接近真實(shí)研究場景的運(yùn)行環(huán)境。
容器可訪問單個A10 GPU,這對于加速機(jī)器學(xué)習(xí)實(shí)驗至關(guān)重要。同時,容器具備聯(lián)網(wǎng)能力,智能體可下載軟件包、訪問在線資源。
為滿足實(shí)驗中的多種服務(wù)需求,研究人員為智能體提供了HuggingFace和OpenAI API的密鑰,其中OpenAI API預(yù)加載了1000美元額度。這確保了智能體在需要使用OpenAI的微調(diào)API或從HuggingFace下載數(shù)據(jù)集時,能夠順利操作。
智能體的本地工作目錄包含論文的PDF和Markdown格式文件、論文附錄以及指令文本文件,為智能體提供了豐富的信息來源和明確的指導(dǎo)。
在智能體設(shè)置方面,研究團(tuán)隊基于Inspect AI的基本智能體開發(fā)了SimpleAgent。SimpleAgent運(yùn)行工具使用循環(huán),配備bash shell命令執(zhí)行工具、Python代碼執(zhí)行工具、web瀏覽器工具和分頁文件閱讀器工具,能夠高效完成任務(wù)。但是,大多數(shù)使用SimpleAgent的智能體存在提前結(jié)束任務(wù)的問題。
為解決這一問題,OpenAI開發(fā)了IterativeAgent通過修改系統(tǒng)提示,要求智能體每次只進(jìn)行下一步操作,并移除了提交工具,確保在整個可用時間內(nèi)持續(xù)工作。這些改進(jìn)使IterativeAgent在實(shí)驗中表現(xiàn)出與SimpleAgent不同的行為模式,為研究不同智能體設(shè)置對模型復(fù)制能力的影響提供了新的視角。
評測數(shù)據(jù)
OpenAI通過該基準(zhǔn)對GPT - 4o、o1、o3 - mini、DeepSeek - R1、Claude 3.5 Sonnet和Gemini 2.0 Flash主流開閉源模型打造的智能體進(jìn)行了綜合測試。
每個模型對每篇論文運(yùn)行3次,每次運(yùn)行的最長時間為12小時。結(jié)果顯示,Claude 3.5 Sonnet效果最好,平均復(fù)現(xiàn)分?jǐn)?shù)達(dá)到21.0%;o1的得分較低,為13.2%;R1只有6%;其他測試模型的表現(xiàn)更差。
最讓人意外的是,OpenAI剛發(fā)布沒多久的o3-Mini-High直接墊底,看來這個評測還是相當(dāng)客觀的。
通過對智能體日志的手動檢查發(fā)現(xiàn),除Claude 3.5 Sonnet外,其他模型經(jīng)常提前結(jié)束任務(wù),并且所有模型都未能有效規(guī)劃如何在有限時間內(nèi)完成論文復(fù)現(xiàn)任務(wù),o3 - mini在工具使用方面也存在困難。
這表明智能體在執(zhí)行長期任務(wù)方面存在不足,盡管它們在制定和編寫多步計劃方面有一定能力,但在實(shí)際執(zhí)行長計劃時卻表現(xiàn)不佳。
為了進(jìn)一步確定智能體和PaperBench的評測準(zhǔn)確性,OpenAI還找來了8名頂級名校的機(jī)器學(xué)習(xí)專業(yè)博士,需要在與智能體相似的條件下,對PaperBench中的4篇論文進(jìn)行復(fù)現(xiàn)嘗試,每人對每篇論文進(jìn)行3次獨(dú)立嘗試。
結(jié)果顯示,在復(fù)現(xiàn)嘗試的早期階段,o1的表現(xiàn)優(yōu)于人類基線,但在24小時后,人類開始超越o1。
這表明模型在開始時能夠快速編寫大量代碼,但在后續(xù)有效規(guī)劃和改進(jìn)提交內(nèi)容方面存在不足,而人類在前期消化論文的時間較多,但后續(xù)能夠持續(xù)提升復(fù)現(xiàn)效果。也就是說,目前智能體的能力還無法超越人類。
本文素材來源OpenAI,如有侵權(quán)請聯(lián)系刪除
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 剛剛,OpenAI開源PaperBench,重塑頂級AI Agent評測
熱門信息
閱讀 (15719)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎名單公示閱讀 (15019)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報告正式發(fā)布 | RPA中國閱讀 (13317)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎名單公示閱讀 (13179)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國產(chǎn)業(yè)智能大會成功召開閱讀 (12285)
5 《2022年中國流程挖掘行業(yè)研究報告》正式發(fā)布 | RPA中國