東京大學(xué)的研究人員將GPT-4模型,集成在實(shí)體機(jī)器人Alter3中,可將文本、語言直接轉(zhuǎn)化成機(jī)器人動作,例如,做一個自拍動作;裝一個“鬼樣”;做一個搖滾音樂動作等,就連微笑、眨眼這樣的面部表情動作也沒問題。
在GPT-4的幫助下,Alter3建立了語言反饋系統(tǒng),可通過語言指令優(yōu)化機(jī)器人的運(yùn)動,而無需修改任何代碼,在傳統(tǒng)機(jī)器人領(lǐng)域是很難做不到。
Alter3接到指令后,做了一個搖滾動作
也就是說,Alter3突破了傳統(tǒng)的硬件編碼限制,可以實(shí)現(xiàn)知識存儲、動作優(yōu)化和0樣本學(xué)習(xí)等。在不需要為機(jī)器人的每個身體部位進(jìn)行編程的情況下,可自動生成新的動作序列,完成自我迭代。
簡單來說,可以把GPT-4看成是Alter3的“大腦”。大語言模型的海量知識的能力可以使Alter3,完成很多之前需要特定代碼才能完成的動作。怎么感覺有點(diǎn)像施瓦辛格的“終結(jié)者”呢?
論文地址:https://arxiv.org/abs/2312.06571
Alter3在裝一個“鬼樣”
Alter3簡單介紹
Alter3是Alter系列的第3代實(shí)體機(jī)器人,整體結(jié)構(gòu)采用前后分離式設(shè)計(jì)。主控制部分包含43個微調(diào)關(guān)節(jié)和馬達(dá),可實(shí)現(xiàn)細(xì)膩流暢的各部位動作控制。
Alter3采用了空氣驅(qū)動技術(shù)來控制每個關(guān)節(jié)來執(zhí)行指定運(yùn)動,刷新率為100—150毫秒。
相比電動馬達(dá),空氣驅(qū)動能保證動作流暢平穩(wěn),響應(yīng)更快速。同時也提高了可靠性和維修保養(yǎng)便利性。例如,當(dāng)馬達(dá)出問題時,只需更換單獨(dú)部件而不影響整體性能。
表情部分對應(yīng)人臉部位,包括眼睛、眉毛、嘴巴等,也由馬達(dá)驅(qū)動實(shí)現(xiàn)豐富的面部表情變化。面部組件可以單獨(dú)拆裝,實(shí)現(xiàn)靈活配置。
Alter3視覺系統(tǒng)采用4個高清攝像頭,分別安裝在頭部兩側(cè)和眼部內(nèi)部。頭部攝像頭主要用于人體姿態(tài)跟蹤和面部識別分析等任務(wù)。
Alter3在自拍
眼部內(nèi)置攝像頭可以模擬眼神等動作,為Alter3提供了與人類視覺系統(tǒng)等效的感知能力。
GPT-4在Alter3的作用
Alter3通過與GPT-4語言模型的結(jié)合,能夠根據(jù)給定的文本描述自主生成動作,同時GPT-4承擔(dān)了動作描述生成和代碼映射轉(zhuǎn)換兩大重要功能。
在第一階段, GPT-4能夠根據(jù)簡短的語言提示,產(chǎn)生豐富生動的動作描述:
1)GPT-4會描述出各種面部表情和身體語言;2)各動作應(yīng)獨(dú)立成段,流暢連貫;3)根據(jù)人體關(guān)節(jié)可行性給出具體的執(zhí)行細(xì)節(jié)。
GPT-4可以生成動作細(xì)節(jié)和豐富的情感表達(dá),為下一步代碼轉(zhuǎn)化提供了重要基礎(chǔ)。
在第二階段,GPT-4會將提示文本語言轉(zhuǎn)換為,控制Alter3機(jī)器人實(shí)際動作的Python代碼。
GPT-4采用類似寫論文的結(jié)構(gòu)性表達(dá),首先導(dǎo)入Alter3模塊,然后針對每個動作描述一步一步寫出設(shè)置各關(guān)節(jié)值的Python代碼。
例如,軸1值設(shè)為255,表示憤怒表情等。Alter3接收到轉(zhuǎn)換后的代碼后,可以執(zhí)行具體的動作。
簡單來說,Alter3借助了GPT-4強(qiáng)大的編程、轉(zhuǎn)換、理解、存儲等智能化能力,極大節(jié)省了開發(fā)時間和成本,同時將這些能力注入到Alter3中。
為了測試GPT-4在Alter3上發(fā)揮的能力,研究人員對9個不同機(jī)器人動作的視頻進(jìn)行了評估,每個視頻由100多名參與者按5分制給出評分。
結(jié)果顯示,GPT-4生成的動作視頻評分,顯著高于原生動作視頻,這說明GPT-4生成的動作能真實(shí)還原人體動作細(xì)節(jié)。
此外,研究人員通過反饋強(qiáng)化對Alter3生成的動作進(jìn)行微調(diào),達(dá)到了更流暢的效果。
同時,研究人員采取了模擬社會大腦理論中的多個代理人模式,讓Alter3與6種不同人格進(jìn)行對話,以增強(qiáng)其與人交流能力。
本文素材來源Alter3論文,如有侵權(quán)請聯(lián)系刪除
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 能做鬼臉、搖滾、自拍,聽懂你說的話!GPT-4驅(qū)動的實(shí)體機(jī)器人
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國產(chǎn)業(yè)智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國