無論是開源的LLaMA 2還是閉源的GPT系列模型,功能雖然很強(qiáng)大,但對(duì)語(yǔ)言的支持和擴(kuò)展比較差,例如,二者都是以英語(yǔ)為主的大模型。
為了提升大模型語(yǔ)言的多元化,慕尼黑大學(xué)、赫爾辛基大學(xué)等研究人員聯(lián)合開源了,目前支持語(yǔ)言最多的大模型之一MaLA-500。
MaLA-500以LLaMA 2為基礎(chǔ)模型,再用多語(yǔ)言數(shù)據(jù)庫(kù)Glot500-c進(jìn)行語(yǔ)言擴(kuò)展訓(xùn)練,支持語(yǔ)言達(dá)到了驚人的534種。
開源地址:https://huggingface.co/MaLA-LM/mala-500
論文地址:https://arxiv.org/abs/2401.13303
訓(xùn)練數(shù)據(jù)
研究人員選用了開源數(shù)據(jù)集Glot500-c對(duì)MaLA-500進(jìn)行了語(yǔ)言擴(kuò)展訓(xùn)練。該數(shù)據(jù)集包含了534種語(yǔ)言,涵蓋47種不同種族語(yǔ)言,數(shù)據(jù)量高達(dá)2萬億tokens。
研究人員表示,選擇Glot500-c數(shù)據(jù)集的原因在于,可以大幅擴(kuò)展現(xiàn)有語(yǔ)言模型的語(yǔ)言覆蓋范圍,并包含極其豐富的語(yǔ)言家族,這對(duì)于模型學(xué)習(xí)語(yǔ)言內(nèi)在的語(yǔ)法和語(yǔ)義規(guī)律幫助巨大。
此外,雖然一些高資源語(yǔ)言的比例相對(duì)較低,但Glot500-c的整體數(shù)據(jù)量對(duì)訓(xùn)練大規(guī)模語(yǔ)言模型而言足夠用。在后續(xù)的預(yù)處理中,又對(duì)語(yǔ)料數(shù)據(jù)集進(jìn)行了加權(quán)隨機(jī)采樣,以增加低資源語(yǔ)言在訓(xùn)練數(shù)據(jù)中的比例,讓模型更加聚焦特定語(yǔ)言。
基礎(chǔ)模型LLaMA 2
MaLA-500選擇了目前最知名的開源大語(yǔ)言模型之一LLaMA 2-7B作為基礎(chǔ)模型,并進(jìn)行了兩大技術(shù)點(diǎn)創(chuàng)新。
1)增強(qiáng)詞匯表,研究人員通過Glot500-c數(shù)據(jù)集,訓(xùn)練了一個(gè)多語(yǔ)言分詞器,將LLaMA 2的原英文詞匯表擴(kuò)展到了260萬,大幅增強(qiáng)了模型對(duì)非英語(yǔ)和低資源語(yǔ)言的適配能力。
2)模型增強(qiáng),使用了LoRA技術(shù)在LLaMA 2的基礎(chǔ)上進(jìn)行低秩適配。只訓(xùn)練適配矩陣而凍結(jié)基礎(chǔ)模型權(quán)重,可以高效地實(shí)現(xiàn)模型在新語(yǔ)言上的持續(xù)學(xué)習(xí)能力,同時(shí)保留模型原有的知識(shí)。
訓(xùn)練流程
訓(xùn)練方面,研究人員用了24張N卡A100 GPU進(jìn)行訓(xùn)練,并使用了包括Transformers、PEFT和DeepSpeed三個(gè)主流深度學(xué)習(xí)框架。
其中,DeepSpeed提供了分布式訓(xùn)練的支持,可以實(shí)現(xiàn)模型并行;PEFT實(shí)現(xiàn)了高效的模型微調(diào);Transformers提供了模型功能的實(shí)現(xiàn),例如,文本生成、提示詞理解等。
為了提升訓(xùn)練的高效性,MaLA-500還使用了各種顯存和計(jì)算優(yōu)化算法,如ZeRO冗余優(yōu)化器,可最大化利用GPU算力資源;以及混合精度訓(xùn)練的bfloat16數(shù)格式加速訓(xùn)練流程。
此外,研究人員還對(duì)模型參數(shù)進(jìn)行了大量?jī)?yōu)化,使用了學(xué)習(xí)率為2e-4的常規(guī)SGD訓(xùn)練,并使用了0.01的L2權(quán)重衰減以防止模型過大,出現(xiàn)過擬合、內(nèi)容輸出不穩(wěn)定等情況。
為了測(cè)試MaLA-500的性能,研究人員在SIB-200等數(shù)據(jù)集上進(jìn)行了綜合實(shí)驗(yàn)。
結(jié)果顯示,相比原始LLaMA 2模型,MaLA-500在主題分類等評(píng)測(cè)任務(wù)上的準(zhǔn)確率提高了12.16%,這說明MaLA-500的多語(yǔ)言優(yōu)于,現(xiàn)有的眾多開源大語(yǔ)言模型。
本文素材來源MaLA-500論文,如有侵權(quán)請(qǐng)聯(lián)系刪除
未經(jīng)允許不得轉(zhuǎn)載:RPA中國(guó) | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國(guó)RPA生態(tài)發(fā)展 | 流 > 支持534種語(yǔ)言,開源大語(yǔ)言模型MaLA-500
熱門信息
閱讀 (14728)
1 2023第三屆中國(guó)RPA+AI開發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (13753)
2 《Market Insight:中國(guó)RPA市場(chǎng)發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國(guó)閱讀 (13055)
3 「RPA中國(guó)杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國(guó)產(chǎn)業(yè)智能大會(huì)成功召開閱讀 (11567)
5 《2022年中國(guó)流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國(guó)