ChatGPT 的一聲號(hào)角吹響了2023年全球大語言模型的競(jìng)賽。
2023年初以來,來自工業(yè)界和研究機(jī)構(gòu)的各種大語言模型層出不窮,特別值得一提的是,中文大語言模型也如雨后春筍般,在過去的半年里不斷涌現(xiàn)。
與此同時(shí),和如何訓(xùn)練大語言模型相比,另一些核心的難題同時(shí)出現(xiàn)在學(xué)術(shù)界和產(chǎn)業(yè)界的面前:究竟應(yīng)該如何理解和評(píng)價(jià)中文大語言模型的能力?在中文和英文大模型的理解和評(píng)測(cè)上又應(yīng)該有什么聯(lián)系與區(qū)別?
帶著問題的思考,我們發(fā)現(xiàn),近期的一系列中文大模型的評(píng)測(cè)研究陸續(xù)呈現(xiàn),盡管極大地推進(jìn)了中文大語言模型理解,但仍然有一些關(guān)鍵的研究問題需要關(guān)注和討論。
想要準(zhǔn)確全面地理解和評(píng)測(cè)中文大語言模型,這些問題亟須解決:
-
評(píng)測(cè)數(shù)據(jù)與指標(biāo)的選擇需要更加全面。傳統(tǒng)的自動(dòng)評(píng)測(cè)工作往往基于數(shù)量有限的考試題或部分開源數(shù)據(jù)集,采用的評(píng)測(cè)指標(biāo)大多只關(guān)注廣義的準(zhǔn)確率。數(shù)據(jù)的選擇不夠豐富多樣,指標(biāo)上也忽視了魯棒性、公平性等在模型應(yīng)用中很重要的其他維度。而人工評(píng)測(cè)大模型因高昂的人力成本,在數(shù)據(jù)與指標(biāo)的選擇上更受制約。
-
不一致的評(píng)測(cè)過程容易損害評(píng)測(cè)結(jié)果的可比性。提示(prompt)模板、超參數(shù)、數(shù)據(jù)預(yù)處理等環(huán)節(jié)都會(huì)對(duì)模型最終的結(jié)果有直接影響。
-
難以避免的數(shù)據(jù)污染(data contamination)風(fēng)險(xiǎn)讓評(píng)測(cè)對(duì)比難上加難。隨著訓(xùn)練語料不斷擴(kuò)大,模型在訓(xùn)練過程中見過考試題和開源數(shù)據(jù)集的可能性也不斷升高。
針對(duì)這些挑戰(zhàn),有研究團(tuán)隊(duì)已經(jīng)給出了自己的探索與方案。
近日,EMNLP 2023的論文結(jié)果公布。來自香港中文大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)系的王歷偉助理教授研究團(tuán)隊(duì)的CLEVA: Chinese Language Models EVAluation Platform 被EMNLP 2023 System Demonstrations 錄取。
據(jù)CLEVA項(xiàng)目負(fù)責(zé)人王歷偉教授介紹,CLEVA是其帶領(lǐng)的港中文語言和視覺實(shí)驗(yàn)室(CUHK LaVi Lab)聯(lián)合上海人工智能實(shí)驗(yàn)室合作研究的全面的中文大語言模型評(píng)測(cè)方法。
值得一提的是,CLEVA目前已經(jīng)被全球前沿的英文大語言模型評(píng)測(cè)體系-斯坦福大學(xué)的HELM 評(píng)測(cè)體系認(rèn)可和接入!
目前,用戶已經(jīng)可以通過斯坦福的HELM評(píng)測(cè)平臺(tái)來調(diào)用和測(cè)試CLEVA的中文大模型評(píng)測(cè)。“能得到國(guó)際前沿大模型評(píng)測(cè)研究團(tuán)隊(duì)的認(rèn)可,是對(duì)我們研究工作的極大鼓勵(lì)。” LaVi實(shí)驗(yàn)室的同學(xué)自豪地說。
CLEVA:全面的中文評(píng)測(cè)
全面的大語言模型評(píng)測(cè)離不開海量的數(shù)據(jù)和完整的評(píng)測(cè)指標(biāo)。CLEVA目前覆蓋 31個(gè)任務(wù)(11個(gè)應(yīng)用評(píng)估+20個(gè)能力評(píng)測(cè)),囊括目前最多的來自84個(gè)數(shù)據(jù)集的370K個(gè)中文測(cè)試樣本。中文測(cè)試樣本數(shù)是過往同類工作最大值的四倍,讓大語言模型在不同任務(wù)上的能力都完整地呈現(xiàn)出來。
指標(biāo)上,CLEVA不僅關(guān)注過往評(píng)測(cè)中大家最在乎的準(zhǔn)確性(Accuracy),還借鑒了HELM在英文評(píng)測(cè)中的做法,針對(duì)中文評(píng)測(cè)設(shè)計(jì)了魯棒性(Robustness)、公平性(Fairness)、效率(Efficiency)、校準(zhǔn)與不確定性(Calibration and Uncertainty)、偏見與刻板印象(Bias and Stereotypes)和毒性(Toxicity)的指標(biāo)。另外,CLEVA還引入了多樣性(Diversity)和隱私性(Privacy)評(píng)測(cè),幫助人們做出綜合的判斷。這對(duì)大模型應(yīng)用至關(guān)重要。
標(biāo)準(zhǔn)的評(píng)測(cè)流程
在使用大模型時(shí),人們經(jīng)常發(fā)現(xiàn)大模型對(duì)提示等細(xì)節(jié)變化不夠魯棒。不同的提示模版會(huì)帶來較明顯的差異。過往的大模型評(píng)測(cè)很多只提供了評(píng)測(cè)數(shù)據(jù),并沒有提供或只提供了一兩個(gè)提示模版,而這直接導(dǎo)致不同工作得到的評(píng)測(cè)結(jié)果不直接可比。
CLEVA為每一個(gè)評(píng)測(cè)任務(wù)準(zhǔn)備了一組多個(gè)提示模版。所有模型用同樣一組提示模版進(jìn)行統(tǒng)一評(píng)測(cè),不僅可以更公平比較模型能力,還可以通過不同模版帶來的性能差異分析一個(gè)模型對(duì)提示模版的敏感程度,指導(dǎo)模型的下游應(yīng)用。
更可信的評(píng)測(cè)結(jié)果
隨著大模型訓(xùn)練用的語料越來越龐大,數(shù)據(jù)污染的風(fēng)險(xiǎn)也與日俱增。數(shù)據(jù)污染會(huì)使模型測(cè)試結(jié)果不可信,很難公平地體現(xiàn)出模型的能力。如何盡量減輕數(shù)據(jù)污染的問題,之前的中文評(píng)測(cè)工作還沒有針對(duì)這一問題給出充分的探索和方案。
CLEVA通過多種方法在評(píng)測(cè)開始之前就主動(dòng)降低數(shù)據(jù)污染帶來的風(fēng)險(xiǎn)。從源頭上,33.98%的測(cè)試數(shù)據(jù)是CLEVA新采集構(gòu)造的。更關(guān)鍵的是,CLEVA基于規(guī)模最大的中文測(cè)試數(shù)據(jù),在每輪評(píng)測(cè)時(shí)都會(huì)通過不重復(fù)采樣得到一個(gè)全新的測(cè)試集。每一輪測(cè)試集在經(jīng)過多種數(shù)據(jù)增強(qiáng)策略的調(diào)整后,才用來評(píng)測(cè)大模型,進(jìn)一步緩解數(shù)據(jù)污染的風(fēng)險(xiǎn)。
如何進(jìn)行CLEVA 評(píng)測(cè)?
CLEVA已經(jīng)評(píng)測(cè)了23個(gè)中文大模型,還會(huì)持續(xù)用更多的數(shù)據(jù)和指標(biāo),評(píng)測(cè)更多的模型。對(duì)大模型評(píng)測(cè)感興趣的研究團(tuán)隊(duì),可以通過CLEVA網(wǎng)站提交和對(duì)接評(píng)測(cè)后續(xù)的進(jìn)展。詳細(xì)的教程請(qǐng)參考CLEVA官方網(wǎng)頁或GitHub repo。
對(duì)于CLEVA已經(jīng)具有的評(píng)測(cè)需求,CLEVA還提供了清晰好用的網(wǎng)絡(luò)界面進(jìn)行操作。用戶可以用可交互的可視化工具,仔細(xì)對(duì)比不同模型在不同任務(wù)和評(píng)測(cè)指標(biāo)上的差異。在申請(qǐng)權(quán)限后,用戶可以讓自己感興趣的模型通過網(wǎng)絡(luò)接口跟CLEVA進(jìn)行交互,只需按幾次鼠標(biāo)即可開始一次全面評(píng)測(cè),十分便利。
“團(tuán)隊(duì)很努力地做了很久的CLEVA,不僅僅是研究上的理解加深,細(xì)節(jié)上也在不斷打磨,不斷優(yōu)化。在此過程中,非常感謝上海人工智能實(shí)驗(yàn)室的合作與支持。” CLEVA 團(tuán)隊(duì)在提起打造這個(gè)研究工作的時(shí)候,能感覺出來研究積累的力量。
大模型能力的認(rèn)知和評(píng)測(cè)需要學(xué)術(shù)界和工業(yè)界的共同關(guān)注
筆者也了解到,學(xué)術(shù)界和工業(yè)界對(duì)大模型能力評(píng)測(cè)關(guān)注的角度也有一些區(qū)別與聯(lián)系。
王歷偉教授,在2020年加入香港中文大學(xué)任助理教授之前,已經(jīng)在北美有數(shù)年的工業(yè)界工作經(jīng)驗(yàn)。他也曾作為商湯科技大語言模型“商量SenseChat”的技術(shù)總負(fù)責(zé)人,帶領(lǐng)團(tuán)隊(duì)于2023年4月,發(fā)布最早的國(guó)內(nèi)中文大語言模型的代表之一,“商量SenseChat”。
△王歷偉
當(dāng)他提起學(xué)術(shù)界和工業(yè)界關(guān)注大模型評(píng)測(cè)的角度的區(qū)別和聯(lián)系的時(shí)候,說道:“工業(yè)界的大模型會(huì)不僅僅關(guān)注模型的基本通用能力,還會(huì)關(guān)注大模型如何服務(wù)垂直場(chǎng)景和垂直產(chǎn)業(yè),所以評(píng)測(cè)能力會(huì)更加在場(chǎng)景中具象化;而學(xué)校或者研究機(jī)構(gòu)則更適合從基本的模型理解能力、認(rèn)知能力、通用智能等角度來理解和評(píng)測(cè)大模型。”
針對(duì)大模型評(píng)測(cè)領(lǐng)域的許多開放問題,王歷偉教授提到,短期內(nèi)他的港中文研究團(tuán)隊(duì)會(huì)持續(xù)關(guān)注的幾點(diǎn):
“第一,就是進(jìn)一步優(yōu)化解決數(shù)據(jù)污染的辦法。CLEVA 通過增加新數(shù)據(jù)和采樣的方式減少數(shù)據(jù)污染的可能。但是未來應(yīng)該可以通過新的數(shù)據(jù)生成范式來構(gòu)造更多的評(píng)測(cè)數(shù)據(jù)。”
“第二,就是目前評(píng)測(cè)工作還存在很多需要提高的方面,比如應(yīng)該如何定義推理(reasoning)?應(yīng)該如何評(píng)價(jià)推理的過程,而不僅僅是簡(jiǎn)單地看推理的結(jié)果?再比如,針對(duì)什么是智能的理解問題上,應(yīng)該如何跨學(xué)科地合作,來設(shè)計(jì)新的問題,來檢驗(yàn)大模型的智能。當(dāng)然還有很多方面,比如AI 安全問題,如何評(píng)價(jià)幻覺問題,等等。”
“第三,多模態(tài)場(chǎng)景下的涌現(xiàn)能力和純語言學(xué)習(xí)下有哪些不同?我們有十年左右的vision+language 研究經(jīng)驗(yàn)和積累。CUHK LaVi Lab在不斷加強(qiáng)大語言模型和多模態(tài)大模型的各個(gè)課題研究的同時(shí),也會(huì)不斷探索多模態(tài)場(chǎng)景下的大模型的能力認(rèn)知和評(píng)測(cè)。”
“對(duì)大模型能力認(rèn)知和評(píng)測(cè)的研究本身,也一定會(huì)幫助研究團(tuán)隊(duì)理解和加強(qiáng)持續(xù)提高大模型的能力。”
參考鏈接:
[1] CLEVA論文地址:
https://arxiv.org/abs/2308.04813
[2] CLEVA GitHub Repo:
https://github.com/LaVi-Lab/CLEVA
[3] CLEVA官方網(wǎng)頁:
http://www.lavicleva.com
[4] 斯坦福大學(xué)HELM官方網(wǎng)頁:
https://crfm.stanford.edu/helm/latest/
本文來源量子位,如有侵權(quán)請(qǐng)聯(lián)系刪除
未經(jīng)允許不得轉(zhuǎn)載:RPA中國(guó) | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國(guó)RPA生態(tài)發(fā)展 | 流 > 全面中文大語言模型評(píng)測(cè)來啦!香港中文大學(xué)最新研究
熱門信息
閱讀 (14728)
1 2023第三屆中國(guó)RPA+AI開發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (13753)
2 《Market Insight:中國(guó)RPA市場(chǎng)發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國(guó)閱讀 (13055)
3 「RPA中國(guó)杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國(guó)產(chǎn)業(yè)智能大會(huì)成功召開閱讀 (11567)
5 《2022年中國(guó)流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國(guó)