隨著用戶需求的增多,GPT-4、Claude等模型在文本生成、理解、總結(jié)等方面的能力越來越優(yōu)秀。但推理的效率并不高,因為,多數(shù)主流模型采用的是“順序生成詞”方法,會導(dǎo)致GPU利用率很低并帶來高延遲。
為了解決這一難題,清華和微軟研究院開發(fā)了一種SoT(Skeleton-of-Thought,思維骨架)框架并開源了項目。SoT首先引導(dǎo)大語言模型生成答案的骨架,然后使用并行API調(diào)用或批量解碼來完成內(nèi)容每個骨架點的填充,可極大提升模型的推理效率。
為了驗證SoT的效果,研究人員在Vicuna-80和WizardLM兩個對話數(shù)據(jù)集上測試了12個模型,包括GPT-4、LLaMA、Claude等。
數(shù)據(jù)顯示,在SoT的幫助下,大多數(shù)模型的推理延遲減少了1.5—2.4倍。例如,在Vicuna-80數(shù)據(jù)集上,使LLaMA的33B參數(shù)量模型的推理延遲從43秒降低到16秒。除了效率的提升,研究人員發(fā)現(xiàn),SoT可以提高模型的回答質(zhì)量。
開源地址:https://github.com/imagination-research/sot/
論文地址:https://arxiv.org/abs/2307.15337
SoT的最大創(chuàng)新點在于,采用了一種擬人化的思考方式。通常,人類在回答某個問題時,會先根據(jù)某些原則和策略擬定思路框架,然后再擴充每個要點的細節(jié)。
例如,我們在制定公司發(fā)展戰(zhàn)略時,會先制定一個大的框架然后分模塊具體去執(zhí)行。
這種方法比一步一步的順序生成方法高效的多。所以,SoT的技術(shù)架構(gòu)也并不復(fù)雜主要由骨架生成和內(nèi)容填充兩大部分組成。
骨架生成
該模塊就是直接生成內(nèi)容的整體架構(gòu)。骨架生成模塊使用了特制的提示模板,指導(dǎo)語言模型直接輸出骨架。
提示模板明確要求語言模型用1.,2.,3.等序號的形式輸出3-10個要點,每個要點內(nèi)容保持在3-5個詞的長度。
同時提供了完整的任務(wù)描述,確保語言模型理解所要完成的工作,以及部分回答“1.”來讓語言模型遵循正確的格式繼續(xù)書寫。
由于語言模型生成的骨架回復(fù)大多符合預(yù)期的編號要點格式,因此,可以用正則表達式提取出要點及其內(nèi)容。
內(nèi)容補充
當(dāng)模型拿到骨架后,SoT會為每個編號要點并行地生成詳細內(nèi)容。內(nèi)容補充也使用特制的提示模板。
提示模板明確要求語言模型只關(guān)注擴展指定的要點,并用1-2句很短的話完成擴展。同時提供了原問題、已生成的完整骨架和要擴展的要點序號及內(nèi)容,確保語言模型理解上下文。
為了實現(xiàn)推理效率加速,SoT采用了批量解碼或并行API請求,使語言模型并行地擴展多個要點,大大縮短獲取最終回答所需的時間。
研究人員表示,SoT這種從內(nèi)容結(jié)構(gòu)優(yōu)化的方法,將比其他系統(tǒng)底層、架構(gòu)的方法簡單、高效的多。尤其是隨著內(nèi)容產(chǎn)出的高速增長,發(fā)揮的作用也會越發(fā)明顯。
但SoT也存在一些不足的地方,例如,當(dāng)邏輯推理需要前后步驟之間的相互依賴時,SoT會自動切換至順序生成模式。
本文素材來源SoT論文,如有侵權(quán)請聯(lián)系刪除
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 極大提升GPT-4等模型推理效率,微軟、清華開源全新框架
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進,第四屆ISIG中國產(chǎn)業(yè)智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報告》正式發(fā)布 | RPA中國