隨著ChatGPT等生成式AI產(chǎn)品朝著多模態(tài)發(fā)展,基礎(chǔ)模型的參數(shù)越來越高,想進(jìn)行權(quán)重調(diào)優(yōu)需要耗費(fèi)大量時(shí)間和AI算力。
為了提升模型的調(diào)優(yōu)效率,華盛頓大學(xué)和艾倫AI實(shí)驗(yàn)室的研究人員推出了全新方法——Proxy Tuning(代理調(diào)優(yōu))。
該調(diào)優(yōu)方法無需接觸模型的內(nèi)部權(quán)重,利用一個(gè)小型調(diào)整模型和一個(gè)未調(diào)整的對(duì)應(yīng)模型,通過對(duì)比它們的預(yù)測結(jié)果來引導(dǎo)基礎(chǔ)模型的預(yù)測。
再通過解碼時(shí)的引導(dǎo),基礎(chǔ)模型可以朝著調(diào)優(yōu)方向進(jìn)行微調(diào),同時(shí)保留了更大規(guī)模預(yù)訓(xùn)練的優(yōu)勢(shì)。
為了驗(yàn)證代理調(diào)優(yōu)的性能,研究人員對(duì)LlAMA-2的13B、70B原始模型進(jìn)行了微調(diào)。結(jié)果顯示,這兩個(gè)模型分別接近對(duì)應(yīng)的Chat模型的91.1%和88.1%的性能。
此外,在知識(shí)量大的TruthfulQA數(shù)據(jù)集測試中,代理調(diào)優(yōu)的真實(shí)性比直接調(diào)優(yōu)的模型還高,說明在解碼時(shí)更好地保留了訓(xùn)練知識(shí)。
論文地址:https://arxiv.org/abs/2401.08565
代理調(diào)優(yōu)的核心技術(shù)思想是,先調(diào)優(yōu)一個(gè)小的語言模型,然后用這個(gè)小型調(diào)優(yōu)模型指導(dǎo)大型黑箱語言模型,使其具備像調(diào)優(yōu)后的模型一樣行為、功能。
但不需要訪問其內(nèi)部權(quán)重,只需要其在輸出詞表上的預(yù)測分布。有趣的是,該技術(shù)與大模型中的“蒸餾”技術(shù)恰恰相反。
代理調(diào)優(yōu)的技術(shù)方法
首先,我們需要準(zhǔn)備一個(gè)小型的預(yù)訓(xùn)練語言模型M-,該模型與基礎(chǔ)模型M共享相同的詞匯表。M-可以是一個(gè)現(xiàn)成的模型,也可以是通過較小規(guī)模的預(yù)訓(xùn)練得到的模型。
接下來,我們使用訓(xùn)練數(shù)據(jù)對(duì)M-進(jìn)行調(diào)優(yōu),得到一個(gè)調(diào)優(yōu)后的模型M+。調(diào)優(yōu)可以使用各種技術(shù),例如,有監(jiān)督的微調(diào)或領(lǐng)域自適應(yīng)方法,具體取決于任務(wù)的需求。
詳細(xì)解碼流程
在解碼時(shí),對(duì)于給定的輸入,我們通過對(duì)基礎(chǔ)模型M的輸出預(yù)測分布和調(diào)優(yōu)模型M+的輸出預(yù)測分布之間的差異進(jìn)行操作,來引導(dǎo)基礎(chǔ)模型的預(yù)測。
使用基礎(chǔ)模型M對(duì)輸入進(jìn)行解碼,得到基礎(chǔ)模型的預(yù)測結(jié)果。這可以通過生成模型的輸出概率分布來實(shí)現(xiàn),通常使用一種解碼算法,例如,貪婪搜索或束搜索來生成最優(yōu)的輸出序列。
然后,使用調(diào)優(yōu)模型M+對(duì)相同的輸入進(jìn)行解碼,得到調(diào)優(yōu)模型的預(yù)測結(jié)果。
接下來,計(jì)算基礎(chǔ)模型的預(yù)測結(jié)果與調(diào)優(yōu)模型的預(yù)測結(jié)果之間的差異??梢允褂肒L散度或交叉熵方法,來度量兩個(gè)預(yù)測分布之間的差異。
最后,將預(yù)測差異應(yīng)用于基礎(chǔ)模型的預(yù)測結(jié)果,以引導(dǎo)基礎(chǔ)模型的預(yù)測朝向調(diào)優(yōu)模型的預(yù)測方向移動(dòng)。同時(shí)可以將預(yù)測差異添加到基礎(chǔ)模型的預(yù)測分布中,以調(diào)整每個(gè)詞的概率值。
本文素材來源Proxy Tuning論文,如有侵權(quán)請(qǐng)聯(lián)系刪除
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國RPA生態(tài)發(fā)展 | 流 > 更高效的大模型調(diào)優(yōu)方法,華盛頓大學(xué)推出“代理調(diào)優(yōu)”
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國產(chǎn)業(yè)智能大會(huì)成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國