今天凌晨,OpenAI發(fā)布了最新技術(shù)論文思維鏈(CoT)監(jiān)控,用來監(jiān)督AI Agent等AI系統(tǒng)使得它們的自主性更強。
有網(wǎng)友表示,針對生產(chǎn)環(huán)境中的AI Agent而言,這一點至關(guān)重要。幾個月來,我們一直在運行Mario和Erika兩款A(yù)I智能體,而黑箱問題確實存在。例如,當(dāng)Mario做出一個有問題的銷售決策時,我需要看到它的推理過程而不僅僅是輸出結(jié)果。
思維鏈可監(jiān)控性的重要意義是:調(diào)試智能體的故障;合規(guī)審計尤其是在金融、醫(yī)療領(lǐng)域與對AI決策持懷疑態(tài)度的利益相關(guān)者建立信任。
所以,OpenAI發(fā)布這個研究非常明智,隨著智能體的自主性越來越強,可解釋性將成為一項業(yè)務(wù)要求,而不僅僅是一個可有可無的功能。
思維鏈監(jiān)控似乎是讓人類能夠理解AI認(rèn)知過程的關(guān)鍵一步,尤其是如果它能成為智能體的標(biāo)準(zhǔn)配置的話。透明度與可解釋性相結(jié)合,就能產(chǎn)生信任。
思維鏈監(jiān)控不僅僅是一項技術(shù)升級,更是構(gòu)建安全且透明的AI的藍(lán)圖。隨著智能體不斷發(fā)展,我們需要能夠洞察它們的推理過程。很高興看到OpenAI在這一前沿領(lǐng)域處于領(lǐng)先地位。
為什么需要監(jiān)控CoT
在某些復(fù)雜的任務(wù)中,AI必須通過鏈?zhǔn)剿伎紒硗瓿赏评磉^程。這是因為這些任務(wù)需要大量的序列化推理步驟,而這些步驟必須通過鏈?zhǔn)剿伎紒韺崿F(xiàn)。
以Transformer架構(gòu)為例,這種架構(gòu)是目前大多數(shù)前沿AI模型的基礎(chǔ),它通過自回歸采樣逐步生成輸出。在Transformer架構(gòu)中,任何足夠長的序列化推理過程都必須通過鏈?zhǔn)剿伎紒硗瓿伞?/p>
當(dāng)AI需要完成復(fù)雜的任務(wù),如多步規(guī)劃或高級推理時,它必須利用鏈?zhǔn)剿伎甲鳛楣ぷ饔洃?。例如,用AI Agent解決一個復(fù)雜的數(shù)學(xué)問題或進行多步規(guī)劃時,它需要將中間結(jié)果存儲在鏈?zhǔn)剿伎贾?,以便后續(xù)步驟可以使用這些結(jié)果。這種必要性確保了在處理足夠復(fù)雜的任務(wù)時,AI的鏈?zhǔn)剿伎贾斜厝话渫评磉^程的一部分信息。換句話說,對于這些任務(wù),AI無法在不通過鏈?zhǔn)剿伎嫉那闆r下完成推理。
僅僅存在必要性并不足以保證鏈?zhǔn)剿伎嫉目杀O(jiān)控性。雖然鏈?zhǔn)剿伎贾邪评磉^程的信息,但這些信息能以一種人類難以理解的方式呈現(xiàn)。例如,AI可能會使用一些特殊的符號或編碼來表示其推理過程,而這些符號或編碼可能無法被人類直接解讀。因此,鏈?zhǔn)剿伎嫉目杀O(jiān)控性還依賴于AI是否以人類可理解的方式展示其推理過程。
即使對于不需要鏈?zhǔn)剿伎嫉娜蝿?wù),AI也可能傾向于通過自然語言展示其推理過程。這種傾向性雖然不如必要性那樣可靠,但在某些情況下仍然可以提供有用的信息。
在訓(xùn)練過程中,AI通常被優(yōu)化以產(chǎn)生自然語言輸出,這意味著它們可能會自然地展示其推理過程。例如,當(dāng)AI被訓(xùn)練以回答問題時,它會通過逐步展示其推理過程來生成答案。這種傾向性使得研究人員可以通過監(jiān)控鏈?zhǔn)剿伎紒慝@取AI的內(nèi)部信息。
有效CoT監(jiān)控方法
OpenAI在研究論文中分享了一些有效的CoT監(jiān)控方法,可以開發(fā)用于測試CoT可讀性的工具。例如,利用另一個大型語言模型來評估CoT的清晰度和連貫性;也可以進行潛在推理能力的評估,這將測試大型語言模型在不外化推理過程的情況下進行推理的能力。
還可以開發(fā)用于測量CoT因果相關(guān)性的方法,例如,通過擾動CoT并檢查其是否影響最終輸出來評估CoT的重要性。也可以進行端到端的監(jiān)控有效性評估,直接測量CoT監(jiān)控在檢測AI智能體行為異常方面的有效性。
需要注意的是在當(dāng)前的AI模型訓(xùn)練中,優(yōu)化目標(biāo)通常是讓模型產(chǎn)生正確的輸出,而不是優(yōu)化其推理過程。這種訓(xùn)練方式可能會導(dǎo)致模型的CoT與最終輸出之間的關(guān)系變得模糊,從而降低監(jiān)控的有效性。
例如,直接監(jiān)督CoT的訓(xùn)練方法可能會使模型的CoT更短、更符合邏輯,或者避免包含不當(dāng)內(nèi)容。雖然這些優(yōu)化目標(biāo)可能會提高模型的對齊性,但同時也可能會使CoT不再真實反映模型的決策過程。
因此,需要研究這些優(yōu)化壓力對CoT監(jiān)控的影響,以便在提高模型對齊性和保持CoT監(jiān)控有效性之間找到平衡。
此外,當(dāng)前的CoT監(jiān)控方法大多依賴于對模型輸出的直接分析,但這種方法可能無法捕捉到模型內(nèi)部的復(fù)雜推理過程。因此,需要開發(fā)更先進的監(jiān)控技術(shù),這些技術(shù)可以深入到模型的內(nèi)部結(jié)構(gòu),以更全面地理解模型的決策過程。
例如,可以開發(fā)基于推理模型的監(jiān)控器,這些監(jiān)控器可以利用模型內(nèi)部的推理過程來檢測潛在的惡意行為。此外,還可以開發(fā)允許監(jiān)控器在測試時進行計算的方法,例如通過讓監(jiān)控器向模型提問來獲取更多信息。這種方法不僅可以提高監(jiān)控的有效性,還可以增強監(jiān)控系統(tǒng)的魯棒性。
對抗性訓(xùn)練也是提高監(jiān)控系統(tǒng)魯棒性的一種有效方法。通過讓監(jiān)控系統(tǒng)與模型進行對抗,模型試圖隱藏其惡意行為,而監(jiān)控系統(tǒng)則試圖發(fā)現(xiàn)這些行為。通過這種方式,監(jiān)控系統(tǒng)可以不斷學(xué)習(xí)和改進,以更好地應(yīng)對模型的隱藏行為。
本文素材來源OpenAI,如有侵權(quán)請聯(lián)系刪除
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 剛剛,OpenAI發(fā)布CoT監(jiān)控,增強AI Agent自主能力
熱門信息
閱讀 (15824)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎名單公示閱讀 (15232)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報告正式發(fā)布 | RPA中國閱讀 (13363)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎名單公示閱讀 (13202)
4 與科技共贏,與產(chǎn)業(yè)共進,第四屆ISIG中國產(chǎn)業(yè)智能大會成功召開閱讀 (12547)
5 財務(wù)機器人 —— RPA的財務(wù)應(yīng)用