7月17日,法國著名開源大模型平臺(tái)Mistral.ai在官網(wǎng)開源了,基于Mamba架構(gòu)的純代碼模型——Codestral Mamba。
根據(jù)測試數(shù)據(jù)顯示,Codestral Mamba只有70億參數(shù),但性能卻是Meta開源的知名代碼模型CodeLlam 7B的兩倍,成為同類最強(qiáng)代碼模型之一。
開源地址:https://huggingface.co/mistralai/mamba-codestral-7B-v0.1
此外,Codestral Mamba支持256k上下文窗口可商業(yè)化,其架構(gòu)使用的是目前比較流程的Mamba。
Mamba架構(gòu)的核心優(yōu)勢在于其線性時(shí)間推理能力,這意味著能在處理序列數(shù)據(jù)時(shí),無論序列長度如何增長,推理時(shí)間都能保持線性增長,而非指數(shù)級的膨脹。
這一點(diǎn)與傳統(tǒng)的Transformer架構(gòu)形成了鮮明對比,它在處理長序列時(shí),由于自注意力機(jī)制的計(jì)算復(fù)雜度,會(huì)面臨計(jì)算成本隨序列長度增加而急劇上升的問題。Mamba架構(gòu)的這一特性使得它在處理大規(guī)模數(shù)據(jù)集和長序列時(shí)更加高效,為實(shí)時(shí)交互和大規(guī)模數(shù)據(jù)處理提供了可能
在計(jì)算效率上,Mamba通過改進(jìn)的注意力機(jī)制,減少了處理序列數(shù)據(jù)所需的計(jì)算量。這種機(jī)制不僅加快了數(shù)據(jù)處理速度,而且提高了數(shù)據(jù)訪問的效率。
Mamba在內(nèi)存使用上進(jìn)行了優(yōu)化,這對于移動(dòng)設(shè)備和邊緣計(jì)算等資源受限的場景尤為重要,確保了即使在硬件條件有限的情況下,模型也能順暢運(yùn)行。
Mamba架構(gòu)的另一個(gè)顯著優(yōu)勢是其出色的可擴(kuò)展性,允許模型更容易地?cái)U(kuò)展到更大的尺寸,而不會(huì)犧牲性能。這一點(diǎn)對于那些需要處理更復(fù)雜任務(wù)和更大模型的應(yīng)用來說,是一個(gè)巨大的吸引力。
所以,Mamba架構(gòu)不僅能夠加快模型的訓(xùn)練速度,減少迭代和實(shí)驗(yàn)的時(shí)間,還能在推理時(shí)提供更低的延遲,這對于需要實(shí)時(shí)響應(yīng)的應(yīng)用場景至關(guān)重要。
此外,Mamba架構(gòu)在保持或提高模型性能的同時(shí),減少了所需的計(jì)算資源,這對于中小型企業(yè)、個(gè)人開發(fā)者來說幫助非常大,同時(shí)可以在更小的硬件上運(yùn)行。
Mistral.ai還建議開發(fā)者在使用Codestral Mamba時(shí)與其之前開源的mistral-inference搭配一起使用效果更好。
mistral-inference開源地址:https://github.com/mistralai/mistral-inference
本文素材來源Mistral.ai官網(wǎng),如有侵權(quán)請聯(lián)系刪除
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國RPA生態(tài)發(fā)展 | 流 > 可商用、性能超強(qiáng)!新開源Mamba架構(gòu)純代碼模型
熱門信息
閱讀 (15088)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (14227)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國閱讀 (13147)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (13054)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國產(chǎn)業(yè)智能大會(huì)成功召開閱讀 (11885)
5 《2022年中國流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國