中國(guó)科學(xué)院、北大、中國(guó)科技大學(xué)、滑鐵盧大學(xué)、01.ai等10家機(jī)構(gòu)聯(lián)合推出了,專用于中文的高質(zhì)量指令調(diào)優(yōu)數(shù)據(jù)集——COIG-CQIA。
在大模型領(lǐng)域英語(yǔ)一直是訓(xùn)練數(shù)據(jù)最重要的語(yǔ)言,但由于中英文的結(jié)構(gòu)和文化差異,直接將英文數(shù)據(jù)集翻譯成中文并不理想。所以,為了填補(bǔ)高質(zhì)量中文數(shù)據(jù)集的空白,研究人員開(kāi)發(fā)出了COIG-CQIA數(shù)據(jù)集。
COIG-CQIA幾乎抓取了中文互聯(lián)網(wǎng)的論壇、網(wǎng)站、百度貼吧、問(wèn)答社區(qū)等高質(zhì)量數(shù)據(jù)集。用COIG-CQIA對(duì)Yi-6B、Yi-34B進(jìn)行指令調(diào)優(yōu),再用GPT4在BELLE-EVAL上評(píng)估在各種數(shù)據(jù)集上訓(xùn)練的大模型性能。
有趣的一幕出現(xiàn)了,“弱智貼吧”的數(shù)據(jù)質(zhì)量,居然大幅度超過(guò)知乎、豆瓣、是否等知名知識(shí)社區(qū),還真是大智若愚啊~
數(shù)據(jù)集地址:https://huggingface.co/datasets/m-a-p/COIG-CQIA
論文地址:https://arxiv.org/abs/2403.18058
為了驗(yàn)證“弱智貼吧”的數(shù)據(jù)質(zhì)量,「AIGC開(kāi)放社區(qū)」特意去實(shí)地考察了一下,果然名不虛傳有將近300萬(wàn)的“病友”,找?guī)讉€(gè)典型問(wèn)答給大家鑒賞一下。
- 變形金剛買(mǎi)保險(xiǎn),是買(mǎi)車(chē)險(xiǎn)還是人險(xiǎn)?
- 雷公電母放的是,直流電還是交流電?
- 禿頭的人洗頭,用洗頭膏還是洗面奶?
- 如果豬腎虛,那它的腰子還補(bǔ)嗎?
- 吃止痛藥去打架,算開(kāi)掛嗎?
- 鞋子買(mǎi)好了,怎么才能在冰箱里溜冰?
用這樣的數(shù)據(jù)去微調(diào)中文大模型,那還不得穩(wěn)超GPT-4立刻覺(jué)醒成為“病友”啊~
COIG-CQIA數(shù)據(jù)集介紹
研究人員從中文互聯(lián)網(wǎng)精心挑選了涵蓋通識(shí)百科、STEM、人文領(lǐng)域的22個(gè)高質(zhì)量數(shù)據(jù)源,包括問(wèn)答社區(qū)、百科網(wǎng)站、內(nèi)容創(chuàng)作平臺(tái)、考試題庫(kù)等種類。
社交媒體、論壇數(shù)據(jù)方面,研究人員從知乎、小紅書(shū)、豆瓣、是否等熱門(mén)中文社區(qū)精心甄選了高質(zhì)量問(wèn)答和長(zhǎng)文本內(nèi)容。
針對(duì)不同社區(qū)的特點(diǎn),分別采取了篩選高贊回答、評(píng)分過(guò)濾、人工審核等方式,確保所保留的數(shù)據(jù)貼合真實(shí)場(chǎng)景。
通識(shí)百科方面,從百科、維基解答等知名中文百科網(wǎng)站收集了廣泛的概念解釋和指導(dǎo)性文章,內(nèi)容涉及自然科學(xué)、人文社科等多個(gè)領(lǐng)域。再通過(guò)解析HTML并設(shè)計(jì)多種提示模板,將原始數(shù)據(jù)得以轉(zhuǎn)化為高質(zhì)量的指令-輸出對(duì)。
專業(yè)知識(shí)部分則從金融、電子、醫(yī)學(xué)、農(nóng)業(yè)等專業(yè)垂直網(wǎng)站采集了結(jié)構(gòu)化數(shù)據(jù),然后按照人工設(shè)計(jì)的提示模板構(gòu)造出專業(yè)性指令-輸出對(duì)。
此外,國(guó)內(nèi)中學(xué)生、研究生的歷年入學(xué)考試真題也被COIG-CQIA納入在數(shù)據(jù)集中,可顯著提升模型的邏輯推理和知識(shí)綜合能力。
在完成數(shù)據(jù)收集和分類整理后,研究人員對(duì)每一類數(shù)據(jù)進(jìn)行深度清洗、重構(gòu)和人工審查,以確保數(shù)據(jù)質(zhì)量、多樣性和對(duì)真實(shí)人機(jī)交互的貼合度。
包括格式規(guī)范、答案審查、無(wú)關(guān)內(nèi)容刪除等。最終,精心構(gòu)建了一個(gè)包含48,375條指令-輸出對(duì)的高質(zhì)量中文指令微調(diào)數(shù)據(jù)集。
為了測(cè)試數(shù)據(jù)集性能,用COIG-CQIA對(duì)Yi系列、Qwen-72B等國(guó)內(nèi)知名模型進(jìn)行了微調(diào),結(jié)果顯示,COIG-CQIA比現(xiàn)有開(kāi)源中文數(shù)據(jù)集對(duì)大模型的幫助更好。
什么是指令微調(diào)
指令微調(diào)是一種在大模型上進(jìn)行微調(diào)的方法,通過(guò)提供指令和輸出來(lái)指導(dǎo)模型更準(zhǔn)確地完成內(nèi)容輸出。
指令微調(diào)通過(guò)構(gòu)建專業(yè)的指令格式的實(shí)例,通常包含任務(wù)描述、輸入和輸出等,然后以有監(jiān)督的方式對(duì)大型語(yǔ)言模型進(jìn)行精細(xì)化微調(diào)。
簡(jiǎn)單來(lái)說(shuō),指令微調(diào)像是一種“媽媽教孩子”的方法,按照特定格式幫助大模型更好地學(xué)習(xí)、輸出擬人化內(nèi)容。
需要注意的是,指令微調(diào)和數(shù)據(jù)預(yù)訓(xùn)練是兩回事。預(yù)訓(xùn)練是大模型在大規(guī)模無(wú)監(jiān)督數(shù)據(jù)上進(jìn)行的基礎(chǔ)數(shù)據(jù)訓(xùn)練,其目的只是讓大模型學(xué)習(xí)通用知識(shí),不會(huì)針對(duì)任何特定領(lǐng)域進(jìn)行數(shù)據(jù)微調(diào)。
所以,高質(zhì)量的指令微調(diào)數(shù)據(jù)集對(duì)于大模型的擬人化輸出、內(nèi)容的精準(zhǔn)性非常重要。
本文素材來(lái)源COIG-CQIA論文,如有侵權(quán)請(qǐng)聯(lián)系刪除
未經(jīng)允許不得轉(zhuǎn)載:RPA中國(guó) | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國(guó)RPA生態(tài)發(fā)展 | 流 > “弱智貼吧”的數(shù)據(jù),居然是最強(qiáng)中文語(yǔ)料庫(kù)
熱門(mén)信息
閱讀 (14732)
1 2023第三屆中國(guó)RPA+AI開(kāi)發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (13754)
2 《Market Insight:中國(guó)RPA市場(chǎng)發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國(guó)閱讀 (13056)
3 「RPA中國(guó)杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國(guó)產(chǎn)業(yè)智能大會(huì)成功召開(kāi)閱讀 (11568)
5 《2022年中國(guó)流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國(guó)