昨天,百度發(fā)布了兩款大模型文心4.5和X1,已全部上線并且免費(fèi)使用。
文心4.5是一款多模態(tài)模型,能對(duì)文字、圖片、視頻、音頻等內(nèi)容進(jìn)行綜合解讀。例如,給一個(gè)視頻,讓其對(duì)內(nèi)容識(shí)別然后再寫一份深度分析(非常不錯(cuò)可以解讀英文)。能力大幅度超過OpenAI的GPT-4o。
X1和DeepSeek-R1一樣具備深度思考能力,能對(duì)提出的問題進(jìn)行理解、規(guī)劃、反思、進(jìn)化能力,同樣支持多模態(tài)。
此外,X1也是首個(gè)能自動(dòng)調(diào)用高級(jí)搜索、文檔問答、AI繪圖、代碼解釋器、網(wǎng)頁鏈接讀取、TreeMind樹圖、百度學(xué)術(shù)檢索、商業(yè)信息查詢等眾多特色工具。所以,X1更像是一個(gè)推理能力超強(qiáng)的智能體。
體驗(yàn)地址:https://yiyan.baidu.com/X1
文心4.5和X1案例展示
其實(shí)多模態(tài)理解已經(jīng)成為國內(nèi)外大模型的標(biāo)配,但能直接高效準(zhǔn)確解讀視頻的模型并不多。而文心4.5就具備這種特殊能力。
這里就用今天咱們二條發(fā)布的,美國陸軍收到首個(gè)AI模型驅(qū)動(dòng)的軍事情報(bào)戰(zhàn)車TITAN宣傳視頻做解讀案例。
因?yàn)檫@是剛出的視頻,大概率不在預(yù)訓(xùn)練模型的數(shù)據(jù)范圍內(nèi),能很好地考驗(yàn)文心4.5基于多模態(tài)的理解能力,對(duì)全新未知內(nèi)容的分析水平。
需要注意的是,上傳的視頻不能超過20M,支持Mp4、MOV、MKV等常規(guī)格式。
上傳完視頻后,提問,這是一個(gè)什么視頻?大約用了不到1分鐘,解讀效率還是相當(dāng)高的。
文心4.5給出了完整TITAN答案,解讀基本上是正確的,可以比肩谷歌的NoteGPT。這個(gè)功能對(duì)于需要快速了解國外學(xué)術(shù)介紹、娛樂影視的人來說很有幫助。如果視頻太大,記得可以先壓縮之后再上傳。
音頻解讀一樣準(zhǔn)確高效,一次可以上傳10個(gè)音頻,單個(gè)最大別超過10M,支持mp3、m4a、wav等常規(guī)格式,有興趣的小伙伴可以體驗(yàn)一下。
再體驗(yàn)一下X1,其特殊能力就是能自動(dòng)調(diào)用多種其他工具。
例如,讓X1自動(dòng)解讀一下電影《肖申克救贖》的海報(bào),直接提問“這是一張什么圖片?”
X1開啟了深度思考模式,我們可以清楚看到它自動(dòng)調(diào)用了圖片理解工具,幫它來解讀這張圖片。
在得到結(jié)果后,總結(jié)出了圖片的主題秒速、背景與色調(diào)、風(fēng)格設(shè)計(jì)等主要框架,最后進(jìn)行了完整的輸出。
我們接著提問,根據(jù)這個(gè)電影寫一份200字的影評(píng)。文本風(fēng)格歡快一些,最好帶點(diǎn)網(wǎng)絡(luò)梗。
這次X1沒有調(diào)用別的工具,因?yàn)橹皇呛?jiǎn)單的文本生成,但也會(huì)梳理一下輸出邏輯,包括影評(píng)基調(diào)、加入網(wǎng)絡(luò)梗、內(nèi)容點(diǎn)評(píng)等。
最后輸出的結(jié)果如下:
《肖申克的救贖》yyds!這部片子簡(jiǎn)直是"監(jiān)獄版《越獄》"的鼻祖,蒂姆·羅賓斯演的安迪簡(jiǎn)直是個(gè)"神級(jí)挖坑王",用一把小鶴嘴鋤挖出自由之路,看得人熱血沸騰!
摩根·弗里曼的旁白更是"金句制造機(jī)","希望是好事,也許是人間至善"這句話,我直接原地emo轉(zhuǎn)雞血!影片節(jié)奏就像"德芙巧克力,縱享絲滑",看完感覺心靈都被"越獄"了!姐妹們,答應(yīng)我,沒看過的一定要沖,這片子保熟!
感覺寫的還行,有小紅書那味兒了吧??梢栽谶@個(gè)基礎(chǔ)之上改一改就能直接出文案了。
至于價(jià)格方面,個(gè)人用戶是免費(fèi)使用這兩款大模型;企業(yè)開發(fā)者在百度智能云千帆大模型平臺(tái),現(xiàn)在能直接使用文心4.5 API,輸入價(jià)格低至0.004元/千tokens,輸出價(jià)格低至0.016元/千tokens;
X1也即將在千帆平臺(tái)上線,輸入價(jià)格低至0.002元/千tokens,輸出價(jià)格低至0.008元/千tokens。
文心4.5和X1架構(gòu)簡(jiǎn)單介紹
根據(jù)百度官方介紹,文心4.5主要使用了FlashMask動(dòng)態(tài)注意力掩碼、多模態(tài)異構(gòu)專家擴(kuò)展、時(shí)空維度表征壓縮技術(shù)等多種創(chuàng)新技術(shù),使其在多模態(tài)的理解和生成方面得到了質(zhì)的飛躍。
傳統(tǒng)的注意力掩碼計(jì)算在處理長序列時(shí)往往面臨效率瓶頸,而FlashMask通過動(dòng)態(tài)調(diào)整注意力掩碼的方式,能夠加速計(jì)算過程。使得模型在處理長文本或長序列數(shù)據(jù)時(shí)表現(xiàn)更加出色。還能優(yōu)化多輪交互場(chǎng)景下的性能,這對(duì)于需要連續(xù)對(duì)話或長文本生成的應(yīng)用場(chǎng)景具有重要意義。
多模態(tài)異構(gòu)專家擴(kuò)展技術(shù)主要解決不同模態(tài)之間的梯度不均衡難題。在多模態(tài)模型中,圖像、文本、音頻等不同模態(tài)的數(shù)據(jù)特性差異很大,導(dǎo)致它們?cè)谟?xùn)練過程中梯度更新速度不一致,進(jìn)而影響模型的整體性能。
通過構(gòu)建模態(tài)異構(gòu)專家,為每種模態(tài)設(shè)計(jì)專門的處理模塊,并結(jié)合自適應(yīng)模態(tài)感知損失函數(shù),該技術(shù)能夠動(dòng)態(tài)調(diào)整各模態(tài)的權(quán)重,從而平衡梯度更新,提升多模態(tài)融合的效果。
時(shí)空維度表征壓縮技術(shù)針對(duì)的是多模態(tài)數(shù)據(jù)中的圖片和視頻語義表征。在多模態(tài)訓(xùn)練中,圖片和視頻的語義信息往往需要大量的計(jì)算資源來處理,尤其是長視頻數(shù)據(jù)。
通過在時(shí)空維度對(duì)這些語義表征進(jìn)行高效壓縮,大幅減少了計(jì)算量,提升了多模態(tài)數(shù)據(jù)的訓(xùn)練效率。同時(shí),還增強(qiáng)了模型從長視頻中提取世界知識(shí)的能力,這對(duì)于提升模型對(duì)復(fù)雜場(chǎng)景的理解和生成能力至關(guān)重要。
根據(jù)測(cè)試數(shù)據(jù)顯示,文心4.5的原生多模態(tài)能力,在CCBench、OCRBench、MMMU、MathVista等主流基準(zhǔn)測(cè)試中,大幅度超過了OpenAI發(fā)布的GPT-4o。
X1的深度思考能力則應(yīng)用了基于思維鏈和行動(dòng)鏈的端到端訓(xùn)練,將輸入直接映射到輸出的訓(xùn)練方式,避免了傳統(tǒng)多階段訓(xùn)練中可能出現(xiàn)的信息丟失和誤差累積問題。
在深度搜索場(chǎng)景中,模型不僅需要考慮搜索結(jié)果的相關(guān)性,還需要理解用戶的搜索意圖,通過思維鏈的構(gòu)建,將用戶的意圖分解為一系列的邏輯步驟,然后通過行動(dòng)鏈將這些步驟轉(zhuǎn)化為具體的搜索行為。
例如,當(dāng)用戶輸入一個(gè)復(fù)雜的查詢請(qǐng)求時(shí),模型首先通過思維鏈理解用戶可能需要的信息類型、范圍和優(yōu)先級(jí),然后通過行動(dòng)鏈調(diào)用不同的搜索工具或算法,逐步細(xì)化搜索結(jié)果,最終提供最符合用戶需求的答案。這種端到端的訓(xùn)練方式能夠根據(jù)最終的結(jié)果反饋,直接調(diào)整模型的參數(shù),從而顯著提升訓(xùn)練效果。
百度表示,未來會(huì)開源文心4.5大模型。
本文素材來源百度、文心一言,如有侵權(quán)請(qǐng)聯(lián)系刪除
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國RPA生態(tài)發(fā)展 | 流 > 免費(fèi)使用!百度重磅發(fā)布文心4.5、X1,視頻解讀+深度思考
熱門信息
閱讀 (15697)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (14991)
2 《Market Insight:中國RPA市場(chǎng)發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國閱讀 (13311)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (13173)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國產(chǎn)業(yè)智能大會(huì)成功召開閱讀 (12274)
5 《2022年中國流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國