騰訊研究團隊開源了一款基于大語言模型的,用于手機端執(zhí)行復(fù)雜任務(wù)的多模態(tài)智能代理框架——AppAgent。
據(jù)悉,AppAgent的功能與AutoGPT等智能代理類似,不依賴于操作系統(tǒng)的后臺訪問,而是通過UI界面進行點擊、滑動等擬人化操作,與App進行交互操作。
例如,AppAgent可以幫助用戶自動填寫Gmail內(nèi)容,并發(fā)送郵件。所以,也可以看成手機端的智能RPA(機器人流程自動化)或智能“按鍵精靈”。
AppAgent功能展示
為驗證該框架的性能,研究人員在10個不同類別的應(yīng)用程序上測試了50項任務(wù),涵蓋社交媒體、郵件、地圖、購物等應(yīng)用,以及圖像編輯等復(fù)雜功能。
結(jié)果顯示, AppAgent適應(yīng)性強、學(xué)習(xí)和操作效率高,可以處理不同領(lǐng)域的APP任務(wù)。
開源地址:https://github.com/mnotgod96/AppAgent
論文地址: https://arxiv.org/abs/2312.13771
項目地址:https://appagent-official.github.io/
傳統(tǒng)的手機助手如Siri,主要是通過系統(tǒng)后端訪問和函數(shù)調(diào)用來實現(xiàn)自動化操作。這種方式有一個很大弊端,就是需要訪問用戶的隱私、敏感數(shù)據(jù),可能會出現(xiàn)很嚴重的數(shù)據(jù)安全問題。
而AppAgent采用了一種和RPA類似的方法,通過點擊、滑動等模擬方式來操作APP,無需訪問任何敏感數(shù)據(jù),同時加上了大語言模型的理解和學(xué)習(xí)能力,使其效果更加出色以及增強適配性。
多種學(xué)習(xí)模式
為了增強AppAgent的學(xué)習(xí)和適配能力,采用了自主探索和觀察人類示范兩種模式,也是AppAgent的核心模塊之一。
1)自主探索,在這個過程中,AppAgent與應(yīng)用程序進行交互,并嘗試執(zhí)行各種操作,例如,點擊按鈕、滑動屏幕等。
通過與應(yīng)用程序的交互,代理能夠觀察到不同的反饋和結(jié)果,并從中學(xué)習(xí)到如何正確地操作應(yīng)用程序。這種自主探索的學(xué)習(xí)方法使代理能夠逐步積累知識和經(jīng)驗,建立起一個關(guān)于應(yīng)用程序操作的知識庫。
2)觀察人類示范,AppAgent會觀察人類用戶在操作應(yīng)用程序時的準確行為。通過分析和理解人類的示范行為,代理可以學(xué)習(xí)到正確的應(yīng)用程序操作方式。
這種觀察人類示范的學(xué)習(xí)方法使代理能夠更快地學(xué)習(xí)和適應(yīng)新的應(yīng)用程序,因為它可以直接借鑒人類用戶的經(jīng)驗和技巧。也可以理解成大模型中的,人類反饋強化學(xué)習(xí)過程。(RLHF)
通過這兩種學(xué)習(xí)模式,AppAgent可以學(xué)習(xí)到應(yīng)用程序的界面結(jié)構(gòu)、功能和操作規(guī)則。這樣的學(xué)習(xí)方法使得代理能夠在不同的應(yīng)用程序之間執(zhí)行復(fù)雜任務(wù),并在真實世界的環(huán)境中展示出高效和熟練的操作能力。
視覺理解
這個模塊相當(dāng)于AppAgent的“眼睛”,主要用于接收和識別UI界面元素。首先根據(jù) XML 信息提取每個界面元素的唯一 ID 或自動生成 ID,然后在截圖中用透明數(shù)字對界面元素進行標注,可有效提高AppAgent操作應(yīng)用程序流程的準確性。
此外,視覺理解模塊還可以利用機器視覺,進行圖片對象和語義特征的提取,例如,識別圖片內(nèi)容、界面控件等,為后續(xù)的大腦、執(zhí)行提供支持。
決策和執(zhí)行模塊
執(zhí)行模塊相當(dāng)于AppAgent的“四肢”,定義了智能代理與界面交互時的基本操作動作,例如,點擊、滑動、長按等擬人化觸控操作。
執(zhí)行模塊還定義了“輸入文本”和“返回上級頁面”等輔助操作。這些操作與各應(yīng)用程序的界面屬性匹配,可以很好地完成用戶交互模擬,為整個框架提供了一致清晰地交互規(guī)范。
決策模塊相當(dāng)于AppAgent的“大腦”,在接收到任務(wù)指令后,會根據(jù)探索文檔中的知識庫進行任務(wù)分析,然后執(zhí)行。詳細流程如下:
1)觀察當(dāng)前界面元素和狀態(tài)
2)思考下一步應(yīng)采取的操作
3)執(zhí)行選擇的操作動作
4)總結(jié)并記錄本輪執(zhí)行結(jié)果
在這個迭代決策過程中,大腦模塊會充分利用前面兩種學(xué)習(xí)模式積累的經(jīng)驗,以保證智能代理執(zhí)行任務(wù)的高效性和準確性。
本文素材來源AppAgent論文,如有侵權(quán)請聯(lián)系刪除
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 騰訊開源AppAgent,手機的大模型智能代理
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進,第四屆ISIG中國產(chǎn)業(yè)智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報告》正式發(fā)布 | RPA中國