2020av在线视频,JAVA性无码HD中

昨天，百度發(fā)布了兩款大模型文心4.5和X1，已全部上線并且免費(fèi)使用。

文心4.5是一款多模態(tài)模型，能對(duì)文字、圖片、視頻、音頻等內(nèi)容進(jìn)行綜合解讀。例如，給一個(gè)視頻，讓其對(duì)內(nèi)容識(shí)別然后再寫一份深度分析（非常不錯(cuò)可以解讀英文）。能力大幅度超過OpenAI的GPT-4o。

X1和DeepSeek-R1一樣具備深度思考能力，能對(duì)提出的問題進(jìn)行理解、規(guī)劃、反思、進(jìn)化能力，同樣支持多模態(tài)。

此外，X1也是首個(gè)能自動(dòng)調(diào)用高級(jí)搜索、文檔問答、AI繪圖、代碼解釋器、網(wǎng)頁鏈接讀取、TreeMind樹圖、百度學(xué)術(shù)檢索、商業(yè)信息查詢等眾多特色工具。所以，X1更像是一個(gè)推理能力超強(qiáng)的智能體。

體驗(yàn)地址：https://yiyan.baidu.com/X1

文心4.5和X1案例展示

其實(shí)多模態(tài)理解已經(jīng)成為國內(nèi)外大模型的標(biāo)配，但能直接高效準(zhǔn)確解讀視頻的模型并不多。而文心4.5就具備這種特殊能力。

這里就用今天咱們二條發(fā)布的，美國陸軍收到首個(gè)AI模型驅(qū)動(dòng)的軍事情報(bào)戰(zhàn)車TITAN宣傳視頻做解讀案例。

因?yàn)檫@是剛出的視頻，大概率不在預(yù)訓(xùn)練模型的數(shù)據(jù)范圍內(nèi)，能很好地考驗(yàn)文心4.5基于多模態(tài)的理解能力，對(duì)全新未知內(nèi)容的分析水平。

需要注意的是，上傳的視頻不能超過20M，支持Mp4、MOV、MKV等常規(guī)格式。

上傳完視頻后，提問，這是一個(gè)什么視頻？大約用了不到1分鐘，解讀效率還是相當(dāng)高的。

文心4.5給出了完整TITAN答案，解讀基本上是正確的，可以比肩谷歌的NoteGPT。這個(gè)功能對(duì)于需要快速了解國外學(xué)術(shù)介紹、娛樂影視的人來說很有幫助。如果視頻太大，記得可以先壓縮之后再上傳。

音頻解讀一樣準(zhǔn)確高效，一次可以上傳10個(gè)音頻，單個(gè)最大別超過10M，支持mp3、m4a、wav等常規(guī)格式，有興趣的小伙伴可以體驗(yàn)一下。

再體驗(yàn)一下X1，其特殊能力就是能自動(dòng)調(diào)用多種其他工具。

例如，讓X1自動(dòng)解讀一下電影《肖申克救贖》的海報(bào)，直接提問“這是一張什么圖片？”

X1開啟了深度思考模式，我們可以清楚看到它自動(dòng)調(diào)用了圖片理解工具，幫它來解讀這張圖片。

在得到結(jié)果后，總結(jié)出了圖片的主題秒速、背景與色調(diào)、風(fēng)格設(shè)計(jì)等主要框架，最后進(jìn)行了完整的輸出。

我們接著提問，根據(jù)這個(gè)電影寫一份200字的影評(píng)。文本風(fēng)格歡快一些，最好帶點(diǎn)網(wǎng)絡(luò)梗。

這次X1沒有調(diào)用別的工具，因?yàn)橹皇呛?jiǎn)單的文本生成，但也會(huì)梳理一下輸出邏輯，包括影評(píng)基調(diào)、加入網(wǎng)絡(luò)梗、內(nèi)容點(diǎn)評(píng)等。

最后輸出的結(jié)果如下：

《肖申克的救贖》yyds！這部片子簡(jiǎn)直是"監(jiān)獄版《越獄》"的鼻祖，蒂姆·羅賓斯演的安迪簡(jiǎn)直是個(gè)"神級(jí)挖坑王"，用一把小鶴嘴鋤挖出自由之路，看得人熱血沸騰！

摩根·弗里曼的旁白更是"金句制造機(jī)"，"希望是好事，也許是人間至善"這句話，我直接原地emo轉(zhuǎn)雞血！影片節(jié)奏就像"德芙巧克力，縱享絲滑"，看完感覺心靈都被"越獄"了！姐妹們，答應(yīng)我，沒看過的一定要沖，這片子保熟！

感覺寫的還行，有小紅書那味兒了吧?？梢栽谶@個(gè)基礎(chǔ)之上改一改就能直接出文案了。

至于價(jià)格方面，個(gè)人用戶是免費(fèi)使用這兩款大模型；企業(yè)開發(fā)者在百度智能云千帆大模型平臺(tái)，現(xiàn)在能直接使用文心4.5 API，輸入價(jià)格低至0.004元/千tokens，輸出價(jià)格低至0.016元/千tokens；

X1也即將在千帆平臺(tái)上線，輸入價(jià)格低至0.002元/千tokens，輸出價(jià)格低至0.008元/千tokens。

文心4.5和X1架構(gòu)簡(jiǎn)單介紹

根據(jù)百度官方介紹，文心4.5主要使用了FlashMask動(dòng)態(tài)注意力掩碼、多模態(tài)異構(gòu)專家擴(kuò)展、時(shí)空維度表征壓縮技術(shù)等多種創(chuàng)新技術(shù)，使其在多模態(tài)的理解和生成方面得到了質(zhì)的飛躍。

傳統(tǒng)的注意力掩碼計(jì)算在處理長序列時(shí)往往面臨效率瓶頸，而FlashMask通過動(dòng)態(tài)調(diào)整注意力掩碼的方式，能夠加速計(jì)算過程。使得模型在處理長文本或長序列數(shù)據(jù)時(shí)表現(xiàn)更加出色。還能優(yōu)化多輪交互場(chǎng)景下的性能，這對(duì)于需要連續(xù)對(duì)話或長文本生成的應(yīng)用場(chǎng)景具有重要意義。

多模態(tài)異構(gòu)專家擴(kuò)展技術(shù)主要解決不同模態(tài)之間的梯度不均衡難題。在多模態(tài)模型中，圖像、文本、音頻等不同模態(tài)的數(shù)據(jù)特性差異很大，導(dǎo)致它們?cè)谟?xùn)練過程中梯度更新速度不一致，進(jìn)而影響模型的整體性能。

通過構(gòu)建模態(tài)異構(gòu)專家，為每種模態(tài)設(shè)計(jì)專門的處理模塊，并結(jié)合自適應(yīng)模態(tài)感知損失函數(shù)，該技術(shù)能夠動(dòng)態(tài)調(diào)整各模態(tài)的權(quán)重，從而平衡梯度更新，提升多模態(tài)融合的效果。

時(shí)空維度表征壓縮技術(shù)針對(duì)的是多模態(tài)數(shù)據(jù)中的圖片和視頻語義表征。在多模態(tài)訓(xùn)練中，圖片和視頻的語義信息往往需要大量的計(jì)算資源來處理，尤其是長視頻數(shù)據(jù)。

通過在時(shí)空維度對(duì)這些語義表征進(jìn)行高效壓縮，大幅減少了計(jì)算量，提升了多模態(tài)數(shù)據(jù)的訓(xùn)練效率。同時(shí)，還增強(qiáng)了模型從長視頻中提取世界知識(shí)的能力，這對(duì)于提升模型對(duì)復(fù)雜場(chǎng)景的理解和生成能力至關(guān)重要。

根據(jù)測(cè)試數(shù)據(jù)顯示，文心4.5的原生多模態(tài)能力，在CCBench、OCRBench、MMMU、MathVista等主流基準(zhǔn)測(cè)試中，大幅度超過了OpenAI發(fā)布的GPT-4o。

X1的深度思考能力則應(yīng)用了基于思維鏈和行動(dòng)鏈的端到端訓(xùn)練，將輸入直接映射到輸出的訓(xùn)練方式，避免了傳統(tǒng)多階段訓(xùn)練中可能出現(xiàn)的信息丟失和誤差累積問題。

在深度搜索場(chǎng)景中，模型不僅需要考慮搜索結(jié)果的相關(guān)性，還需要理解用戶的搜索意圖，通過思維鏈的構(gòu)建，將用戶的意圖分解為一系列的邏輯步驟，然后通過行動(dòng)鏈將這些步驟轉(zhuǎn)化為具體的搜索行為。

例如，當(dāng)用戶輸入一個(gè)復(fù)雜的查詢請(qǐng)求時(shí)，模型首先通過思維鏈理解用戶可能需要的信息類型、范圍和優(yōu)先級(jí)，然后通過行動(dòng)鏈調(diào)用不同的搜索工具或算法，逐步細(xì)化搜索結(jié)果，最終提供最符合用戶需求的答案。這種端到端的訓(xùn)練方式能夠根據(jù)最終的結(jié)果反饋，直接調(diào)整模型的參數(shù)，從而顯著提升訓(xùn)練效果。

百度表示，未來會(huì)開源文心4.5大模型。

本文素材來源百度、文心一言，如有侵權(quán)請(qǐng)聯(lián)系刪除

繼續(xù)閱讀：