日本熟女亚洲欧美,国产刚刚发育被强J在线播放,AV无码专区第一页

3月29日，知名AI研究實驗室AI21在官網(wǎng)開源了，首個基于SSM-Transformer混合架構的商業(yè)大模型——Jamba。

目前，ChatGPT、Stable Difusion 、Lyria等產(chǎn)品使用的皆是Transformer架構，雖然在捕捉序列內長距離依賴關系、泛化能力、特征提取等方面非常優(yōu)秀，但在處理長序列、訓練大參數(shù)模型時存在AI算力消耗大、過擬合、內存占用大等缺點。

Jamba則是在傳統(tǒng)的Transformer架構之上，加入了結構化狀態(tài)空間模型(SSM) 技術，結合二者的優(yōu)點來極大提升其性能。例如，Jamba的吞吐量是同類知名開源模型Mixtral 8x7B的3倍；也是同類模型中極少數(shù)能在單個GPU上容納高達140K上下文的模型。

這也就是說，那些沒有龐大GPU集群的小企業(yè)和個人開發(fā)者，通過Jamba也能開發(fā)出高性能、低消耗的生成式AI產(chǎn)品。

huggingface地址：https://huggingface.co/ai21labs/Jamba-v0.1

也可通過英偉達平臺使用：https://developer.nvidia.com/blog/nvidia-nim-offers-optimized-inference-microservices-for-deploying-ai-models-at-scale/

Jamba架構簡單介紹

Jamba加入的SSM技術是借鑒了2023年12月1日，由卡內基梅隆大學Albert Gu和普林斯頓大學Tri Dao提出的論文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》。

論文地址：https://arxiv.org/abs/2312.00752

Mamba的核心技術是使用“選擇性狀態(tài)空間”來進行序列推理，我們可以把狀態(tài)空間看作是一個庫房。

在建模過程中，Mamba可以根據(jù)用戶輸入的具體情況，有選擇性地去庫房里拿東西或者忽略，這種靈活性使得它能夠更好地處理離散型數(shù)據(jù)。

例如，Mamba可以根據(jù)當前的文本輸入數(shù)據(jù)，有選擇地過濾掉不相關的信息，并且能夠長時間地記住與當前任務相關的信息。

與傳統(tǒng)的序列模型不同的是，Mamba不需要使用復雜的自注意力機制或者MLP塊（多層感知器）。主要通過選擇性狀態(tài)空間和MLP塊的協(xié)同工作，實現(xiàn)了高效的推理過程，并且在處理長序列數(shù)據(jù)時非常高效，可以輕松處理100萬tokens數(shù)據(jù)。

但引入選擇性機制后,狀態(tài)空間模型不再滿足時間不變性,所以，無法直接用高效的卷積來計算，Mamba設計了一種“硬件并行算法”。

該掃描算法使用了GPU并行加速,充分利用了GPU內存層次結構，控制狀態(tài)張量的具體化過程,只在更高帶寬的內存層(如SMX寄存器)上暫存狀態(tài),避免了低效的全局內存訪問。這使得模型可以更好地利用GPU效率，不會出現(xiàn)浪費的情況。

Jamba則在Mamba的基礎之上進行了創(chuàng)新，采用了分塊分層的方法成功融合了SSM和Transformer架構：每個Jamba 模塊都包含一個注意力層或一個 Mamba 層，然后是一個多層感知器，總體比例為每八個層中有一個 Transformer 層。

這樣可以在保持模型推理性能的前提下，極大的降低了AI算力同時提升吞吐量。例如，與同類的開源模型Mixtral 8x7B相比，Jamba的吞吐量是其3倍。

此外，Jamba還是一個專家混合模型（MoE），520億參數(shù)中的120億參數(shù)長期處于激活狀態(tài)，并對所有MoE層的專家進行了大幅度優(yōu)化，減輕了推理時內存占用大的問題。

AI21介紹

公開資料顯示，AI21 Labs創(chuàng)立于2017年，總部位于特拉維夫和紐約。由Yoav Shoham、Ori Goshen和Amnon Shashua三人聯(lián)合創(chuàng)立。其中Yoav是一位連續(xù)創(chuàng)業(yè)者，曾將兩家企業(yè)出售給谷歌并擔任斯坦福大學名譽教授；

Ori是希伯來大學的副教授，曾參與多個NLP項目并發(fā)表了幾十篇學術論文；Amnon是希伯來大學的教授，同時是知名自動駕駛公司Mobileye的聯(lián)合創(chuàng)始人兼CEO。