今早9點(diǎn)30,國(guó)內(nèi)著名開(kāi)源大模型平臺(tái)DeepSeek開(kāi)啟了本周連續(xù)5天技術(shù)分享的第1天,開(kāi)源了針對(duì)HopperGPU優(yōu)化的高效MLA解碼內(nèi)核——FlashMLA。
剛在Github發(fā)布瞬間就破了1000顆星,DeepSeek現(xiàn)在就是國(guó)內(nèi)外大模型開(kāi)源界的頂流。
開(kāi)源地址:https://github.com/deepseek-ai/FlashMLA
網(wǎng)友表示,第一天就這么勁爆的嘛,真是太棒了,恭喜你們完成了如此令人印象深刻的工作和細(xì)節(jié)。
DeepSeek的FlashMLA快得簡(jiǎn)直像是在Hopper GPU上表演單口相聲——3000 GB/s 和 580 TFLOPS,哇,接下來(lái)是什么,是和你的烤面包機(jī)進(jìn)行實(shí)時(shí)對(duì)話,還是在早餐前實(shí)現(xiàn)完全的AGI?
太棒的 CUDA 內(nèi)核了!請(qǐng)繼續(xù)保持出色的工作!
「AIGC開(kāi)放社區(qū)」為大家簡(jiǎn)單解讀一下FlashMLA吧,這是一種專門(mén)針對(duì)Hopper GPU優(yōu)化的內(nèi)核,用于加速多頭注意力解碼過(guò)程。
在自然語(yǔ)言處理任務(wù)中,輸入序列的長(zhǎng)度往往是不定的,而FlashMLA針對(duì)這種情況進(jìn)行了專門(mén)的優(yōu)化。這種優(yōu)化可以減少不必要的計(jì)算資源浪費(fèi),從而提高整體效率。
此外,F(xiàn)lashMLA還支持BF16,這是一種降低了精度但不會(huì)顯著影響結(jié)果的浮點(diǎn)數(shù)格式。支持BF16不僅可以加速計(jì)算過(guò)程,還能節(jié)省存儲(chǔ)空間和帶寬,對(duì)于大規(guī)模深度學(xué)習(xí)任務(wù)來(lái)說(shuō)尤為重要。
FlashMLA還采用了分頁(yè)KV緩存技術(shù),通過(guò)將鍵值對(duì)緩存分頁(yè)化(塊大小為64),能夠更智能地利用內(nèi)存,并加快檢索速度,進(jìn)而提高上下文管理的效率。這種緩存機(jī)制在處理大規(guī)模數(shù)據(jù)時(shí)尤其有效,能夠顯著提升系統(tǒng)的整體性能。
在H800 GPU上,F(xiàn)lashMLA展現(xiàn)了卓越的性能指標(biāo)。它達(dá)到了3000 GB/s的內(nèi)存帶寬,內(nèi)核能夠高效地進(jìn)行內(nèi)存?zhèn)鬏?,從而減少內(nèi)存瓶頸對(duì)性能的影響。
同時(shí),F(xiàn)lashMLA還實(shí)現(xiàn)了580 TFLOPS的計(jì)算性能,在處理高數(shù)據(jù)吞吐量和計(jì)算密集型任務(wù)時(shí)表現(xiàn)非常出色。
本文素材來(lái)源DeepSeek,如有侵權(quán)請(qǐng)聯(lián)系刪除
未經(jīng)允許不得轉(zhuǎn)載:RPA中國(guó) | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國(guó)RPA生態(tài)發(fā)展 | 流 > 剛剛,DeepSeek開(kāi)源FlashMLA,瞬間破1000顆星
熱門(mén)信息
閱讀 (15655)
1 2023第三屆中國(guó)RPA+AI開(kāi)發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (14934)
2 《Market Insight:中國(guó)RPA市場(chǎng)發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國(guó)閱讀 (13294)
3 「RPA中國(guó)杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (13163)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國(guó)產(chǎn)業(yè)智能大會(huì)成功召開(kāi)閱讀 (12253)
5 《2022年中國(guó)流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國(guó)