3月29日,知名AI研究實驗室AI21在官網(wǎng)開源了,首個基于SSM-Transformer混合架構的商業(yè)大模型——Jamba。
目前,ChatGPT、Stable Difusion 、Lyria等產(chǎn)品使用的皆是Transformer架構,雖然在捕捉序列內長距離依賴關系、泛化能力、特征提取等方面非常優(yōu)秀,但在處理長序列、訓練大參數(shù)模型時存在AI算力消耗大、過擬合、內存占用大等缺點。
Jamba則是在傳統(tǒng)的Transformer架構之上,加入了結構化狀態(tài)空間模型(SSM) 技術,結合二者的優(yōu)點來極大提升其性能。例如,Jamba的吞吐量是同類知名開源模型Mixtral 8x7B的3倍;也是同類模型中極少數(shù)能在單個GPU上容納高達140K上下文的模型。
這也就是說,那些沒有龐大GPU集群的小企業(yè)和個人開發(fā)者,通過Jamba也能開發(fā)出高性能、低消耗的生成式AI產(chǎn)品。
huggingface地址:https://huggingface.co/ai21labs/Jamba-v0.1
也可通過英偉達平臺使用:https://developer.nvidia.com/blog/nvidia-nim-offers-optimized-inference-microservices-for-deploying-ai-models-at-scale/
Jamba架構簡單介紹
Jamba加入的SSM技術是借鑒了2023年12月1日,由卡內基梅隆大學Albert Gu和普林斯頓大學Tri Dao提出的論文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》。
論文地址:https://arxiv.org/abs/2312.00752
Mamba的核心技術是使用“選擇性狀態(tài)空間”來進行序列推理,我們可以把狀態(tài)空間看作是一個庫房。
在建模過程中,Mamba可以根據(jù)用戶輸入的具體情況,有選擇性地去庫房里拿東西或者忽略,這種靈活性使得它能夠更好地處理離散型數(shù)據(jù)。
例如,Mamba可以根據(jù)當前的文本輸入數(shù)據(jù),有選擇地過濾掉不相關的信息,并且能夠長時間地記住與當前任務相關的信息。
與傳統(tǒng)的序列模型不同的是,Mamba不需要使用復雜的自注意力機制或者MLP塊(多層感知器)。主要通過選擇性狀態(tài)空間和MLP塊的協(xié)同工作,實現(xiàn)了高效的推理過程,并且在處理長序列數(shù)據(jù)時非常高效,可以輕松處理100萬tokens數(shù)據(jù)。
但引入選擇性機制后,狀態(tài)空間模型不再滿足時間不變性,所以,無法直接用高效的卷積來計算,Mamba設計了一種“硬件并行算法”。
該掃描算法使用了GPU并行加速,充分利用了GPU內存層次結構,控制狀態(tài)張量的具體化過程,只在更高帶寬的內存層(如SMX寄存器)上暫存狀態(tài),避免了低效的全局內存訪問。這使得模型可以更好地利用GPU效率,不會出現(xiàn)浪費的情況。
Jamba則在Mamba的基礎之上進行了創(chuàng)新,采用了分塊分層的方法成功融合了SSM和Transformer架構:每個Jamba 模塊都包含一個注意力層或一個 Mamba 層,然后是一個多層感知器,總體比例為每八個層中有一個 Transformer 層。
這樣可以在保持模型推理性能的前提下,極大的降低了AI算力同時提升吞吐量。例如,與同類的開源模型Mixtral 8x7B相比,Jamba的吞吐量是其3倍。
此外,Jamba還是一個專家混合模型(MoE),520億參數(shù)中的120億參數(shù)長期處于激活狀態(tài),并對所有MoE層的專家進行了大幅度優(yōu)化,減輕了推理時內存占用大的問題。
AI21介紹
公開資料顯示,AI21 Labs創(chuàng)立于2017年,總部位于特拉維夫和紐約。由Yoav Shoham、Ori Goshen和Amnon Shashua三人聯(lián)合創(chuàng)立。其中Yoav是一位連續(xù)創(chuàng)業(yè)者,曾將兩家企業(yè)出售給谷歌并擔任斯坦福大學名譽教授;
Ori是希伯來大學的副教授,曾參與多個NLP項目并發(fā)表了幾十篇學術論文;Amnon是希伯來大學的教授,同時是知名自動駕駛公司Mobileye的聯(lián)合創(chuàng)始人兼CEO。
僅2023年,AI21一共融資了2.08億美元,目前總融資額度3.26億美元。
產(chǎn)品方面,AI21 Labs在2023年3月推出了大語言模型Jurassic-2,包含Large、Grande和Jumbo三種模型。
Jurassic-2除了在文本生成、API延遲、語言支持等全面增強之外,還開放了指令微調、數(shù)據(jù)微調,幫助企業(yè)、個人開發(fā)者打造量身定制的ChatGPT助手。
Jurassic-2特定微調的類型共包括語義搜索,了解查詢的意圖和上下文含義,并從文檔中檢索相關的文本片段;上下文問答,僅根據(jù)特定上下文提供答案,也可以從文檔庫中自動檢索等。
目前,耐克、Zoom、沃爾瑪、三星、阿迪達斯、airbnb等知名企業(yè)在使用AI21的大模型產(chǎn)品。
本文素材來源Jamba官網(wǎng),如有侵權請聯(lián)系刪除
未經(jīng)允許不得轉載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 首個基于SSM-Transformer混合架構,開源商業(yè)大模型Jamba
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進,第四屆ISIG中國產(chǎn)業(yè)智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報告》正式發(fā)布 | RPA中國