谷歌DeepMind的研究人員推出了一種面向3D環(huán)境的通用AI代理——SIMA。
SIMA無(wú)需訪問(wèn)游戲的源代碼,也不需要定制的API。只需要輸入圖像和用戶提供的簡(jiǎn)單自然語(yǔ)言文本指令,SIMA就能像人類(lèi)玩家一樣執(zhí)行走路、跑步、建造、打開(kāi)地圖等各種游戲中的操作。
為了測(cè)試、訓(xùn)練SIMA的性能,研究人員與8個(gè)游戲工作室合作,在《無(wú)人深空》、《模擬山羊3》、《Teardown》、《挖礦模擬器》等知名復(fù)雜3D游戲上進(jìn)行了綜合測(cè)試。
結(jié)果顯示,用戶只需要在游戲中提供簡(jiǎn)單的文本、圖像提示,SIMA就能執(zhí)行挖礦、開(kāi)飛船、制作裝備、打開(kāi)外骨骼、搜集任務(wù)、爬樓梯等600多種基本操作,每個(gè)動(dòng)作可以在大約10秒內(nèi)完成。
技術(shù)報(bào)告:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf
在游戲場(chǎng)景中測(cè)試AI代理是一個(gè)重要課題,與傳統(tǒng)的沙盒2D方法不同的是,SIMA選擇了操作、環(huán)境、視覺(jué)難度更高的3D游戲。
SIMA使用了大模型的訓(xùn)練方法,通過(guò)廣泛的數(shù)據(jù)分布來(lái)識(shí)別那些復(fù)雜的動(dòng)作,同時(shí)無(wú)需為每個(gè)新游戲設(shè)計(jì)特定的控制、觀察模塊,就能理解人類(lèi)的文本指令,并將其轉(zhuǎn)化為具體的行動(dòng)。
多種大模型組成的“人體”
從SIMA的總體架構(gòu)來(lái)看,由多種大模型組合而成像是在模仿人體。視覺(jué)感知模型充當(dāng)“眼睛”、大語(yǔ)言模型充當(dāng)“大腦”、建模規(guī)劃模型充當(dāng)“思維”、控制和執(zhí)行模型充當(dāng)“四肢”。
也就是說(shuō)SIMA在接收到指令后,會(huì)用人的方式去思考、規(guī)劃接收到的任務(wù),然后再去執(zhí)行。
視覺(jué)感知模型:視覺(jué)感知模塊負(fù)責(zé)處理AI代理的圖像觀察,并提取關(guān)鍵信息以輔助語(yǔ)言指令的理解和環(huán)境的交互。該模塊使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)等深度學(xué)習(xí)技術(shù)對(duì)輸入的圖像數(shù)據(jù)進(jìn)行處理和特征提取。
使得SIMA能夠識(shí)別和分析圖像中的物體、場(chǎng)景和空間位置等重要信息,以幫助AI代理更好地理解語(yǔ)言指令,并在虛擬世界中進(jìn)行準(zhǔn)確的交互和操作。
大語(yǔ)言模型:主要負(fù)責(zé)解析和理解輸入的自然語(yǔ)言指令。使用了NLP、詞嵌入、序列模型和注意力機(jī)制等技術(shù),將語(yǔ)言指令轉(zhuǎn)化為機(jī)器可理解的表示。
使得AI代理能夠準(zhǔn)確地理解和解釋指令中的動(dòng)作和目標(biāo),為后續(xù)的建模和規(guī)劃提供基礎(chǔ)。
建模規(guī)劃模型:通過(guò)強(qiáng)化學(xué)習(xí)和規(guī)劃算法,與環(huán)境的交互和反饋來(lái)學(xué)習(xí)最佳的行動(dòng)策略。AI代理通過(guò)不斷嘗試和優(yōu)化,逐漸掌握了在不同環(huán)境下執(zhí)行任務(wù)的能力。
可根據(jù)語(yǔ)言指令、視覺(jué)感知信息和當(dāng)前環(huán)境狀態(tài),生成有效的動(dòng)作序列,以實(shí)現(xiàn)任務(wù)的完成。
控制和執(zhí)行模型:主要負(fù)責(zé)將生成的動(dòng)作序列轉(zhuǎn)化為實(shí)際的動(dòng)作控制指令,并映射到鍵盤(pán)、鼠標(biāo)上,以驅(qū)動(dòng)AI代理在3D游戲中執(zhí)行任務(wù),例如,移動(dòng)、跳躍、奔跑、挖礦等,同時(shí)可根據(jù)環(huán)境的反饋進(jìn)行自適應(yīng)調(diào)整和優(yōu)化。
數(shù)據(jù)收集和預(yù)處理
數(shù)據(jù)收集和預(yù)處理是SIMA的核心模塊之一,主要獲取、準(zhǔn)備和處理用于訓(xùn)練和評(píng)估AI代理的數(shù)據(jù)。
研究人員從商業(yè)游戲等環(huán)境搜集了海量數(shù)據(jù),搜集完成后對(duì)數(shù)據(jù)進(jìn)行了清洗、轉(zhuǎn)換和標(biāo)準(zhǔn)化數(shù)據(jù)操作,方便后續(xù)的訓(xùn)練和分析。
數(shù)據(jù)清洗:對(duì)原始數(shù)據(jù)進(jìn)行去噪和異常值處理,可能會(huì)存在一些噪聲或異常數(shù)據(jù),例如,圖像中的視覺(jué)干擾或語(yǔ)言指令中的錯(cuò)誤字符。研究人員通過(guò)采用圖像去噪和文本糾錯(cuò)的方式,來(lái)消除這些干擾因素。
數(shù)據(jù)轉(zhuǎn)換:在進(jìn)行訓(xùn)練之前,需要將原始數(shù)據(jù)轉(zhuǎn)換為機(jī)器可處理的格式。圖像數(shù)據(jù),可以使用圖像處理技術(shù)進(jìn)行特征提取或縮放操作,以便于模型的訓(xùn)練和推理;
文本數(shù)據(jù),可以進(jìn)行詞匯化、分詞和編碼等處理,將其轉(zhuǎn)換為數(shù)值表示形式輸入到深度學(xué)習(xí)模型中。
數(shù)據(jù)標(biāo)準(zhǔn)化:為了確保數(shù)據(jù)的一致性和可比性,需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。包括對(duì)圖像進(jìn)行歸一化或標(biāo)準(zhǔn)化,以使其具有相似的亮度、對(duì)比度和顏色分布。對(duì)于文本數(shù)據(jù),可以進(jìn)行詞干化、停用詞移除和詞向量化等操作。
經(jīng)過(guò)一系列數(shù)據(jù)清洗、轉(zhuǎn)換、標(biāo)準(zhǔn)化后,可以幫助SIMA更好地去學(xué)習(xí)游戲中的物體、動(dòng)作、交互等,從而提升整體的動(dòng)作指令準(zhǔn)確率。
研究人員表示,未來(lái),會(huì)持續(xù)迭代SIMA的通用代理能力,希望可以在實(shí)際生活中幫助用戶做更多的事情。
本文素材來(lái)源谷歌SIMA論文,如有侵權(quán)請(qǐng)聯(lián)系刪除
未經(jīng)允許不得轉(zhuǎn)載:RPA中國(guó) | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國(guó)RPA生態(tài)發(fā)展 | 流 > 谷歌推出通用AI代理:能自動(dòng)執(zhí)行600多種動(dòng)作,游玩復(fù)雜3D游戲
熱門(mén)信息
閱讀 (14728)
1 2023第三屆中國(guó)RPA+AI開(kāi)發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (13753)
2 《Market Insight:中國(guó)RPA市場(chǎng)發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國(guó)閱讀 (13055)
3 「RPA中國(guó)杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國(guó)產(chǎn)業(yè)智能大會(huì)成功召開(kāi)閱讀 (11567)
5 《2022年中國(guó)流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國(guó)