7月28日晚,智譜悄無聲息的開源了新一代旗艦模型 GLM-4.5,發(fā)布僅10小時,便引發(fā)全球媒體高度聚焦。
CNBC、路透社、Bloomberg等海外重量級媒體第一時間跟進報道。CNBC在報道中指出:“中國企業(yè)正在研發(fā)的人工智能模型不僅智能化水平提升,使用成本也持續(xù)降低,這與深度求索(DeepSeek)當年震動市場的突破核心優(yōu)勢相呼應。”
目前,GLM-4.5模型已經(jīng)登頂國際開源社區(qū)Hugging-Face榜單全球第一。
智譜此次發(fā)布GLM-4.5 系列(355B 以及 106B) 兩個參數(shù)版本,源碼和權(quán)重全部開源,采用極為寬松的MIT License協(xié)議。
GLM家族并非首次引發(fā)關(guān)注,之前的GLM-130B、ChatGLM3系列都因為是首個突破和首個開源,曾在開源圈掀起過波瀾。這次模型亮點在于:
- 首款原生融合模型:這是其最大亮點之一。GLM-4.5首次在單個模型中實現(xiàn)了將推理、編碼和智能體能力原生融合。正如技術(shù)博客所闡釋,大語言模型的終極目標是在廣泛領(lǐng)域達到人類認知水平,但現(xiàn)有模型往往各有所長(編程、數(shù)學、推理),卻難以成為真正的“全優(yōu)生”。GLM-4.5 正是朝著統(tǒng)一各種能力這一目標邁進,力證大模型的下一個范式,必然是深度整合多維度能力于一體。
- 更高的參數(shù)效率:GLM-4.5的參數(shù)量僅為一些主流模型的一半甚至三分之一,但在多項標準基準測試中表現(xiàn)更為出色。特別是在衡量模型代碼能力的權(quán)威榜單 SWE-bench Verified 上,GLM-4.5 系列位于性能/參數(shù)比的帕累托前沿——這意味著在同等參數(shù)規(guī)模下,它實現(xiàn)了當前已知的最佳性能。
下面咱們就詳細看下GLM-4.5模型在性能、代碼能力、推理表現(xiàn)這些硬實力上的實測表現(xiàn)~
這次發(fā)布的兩個版本的GLM-4.5模型:
- GLM-4.5:總參數(shù)355B,激活參數(shù)32B
- GLM-4.5-Air:總參數(shù)106B,激活參數(shù)12B
它們都采用了混合專家結(jié)構(gòu)(MoE),這個架構(gòu)說白了就是“每次推理只激活部分參數(shù)”,在保證多樣能力的同時大大降低了計算消耗。
模型支持兩種核心模式切換:
- Non-thinking 模式:輕量任務用這個,效率高、響應快、節(jié)省開銷。
- Thinking 模式:推理、鏈式思考、代碼補全、Agent執(zhí)行鏈條,用這個火力全開。
52個Agent 軌跡:
https://huggingface.co/datasets/zai-org/CC-Bench-trajectories
實測體驗:模型原生融合ARC(Agentic/Reasoning/Coding)能力,分分鐘手搓Agent
說實話,小編原本對這個模型的預期,還停留在“跑跑測試題”這種層面。
但當我真正上手試了之后,我必須承認,它確實不止是“跑得好”。
GLM-4.5其原生架構(gòu)設計使其成為真正意義上的“Agent基座模型”:
- 推理能力(Reasoning):覆蓋數(shù)學、符號邏輯、多輪對話邏輯鏈條等多個評測維度;
- 代碼能力(Coding):廣泛適用于數(shù)據(jù)處理、日志分析、工具開發(fā)、前端交互、算法原型等復雜場景;
- Agentic能力:具備任務自主拆解 + 工具調(diào)用 + 多輪完成任務的原生能力,無需外掛流程控制器。
這意味著,GLM-4.5并非“能Agent”的模型,而是“為Agent而生”的模型。
這里官方也放出了一些關(guān)于Agentic任務的評測技術(shù)細節(jié)報告
GLM-4.5 是對 Agentic 任務專門優(yōu)化的基礎模型,支持 128k 的上下文長度和原生函數(shù)調(diào)用能力。在 -bench 和 BFCL-v3(伯克利函數(shù)調(diào)用排行榜 v3)上對兩款模型的 agentic 能力進行評估,GLM-4.5 的性能與 Claude-4-Sonnet 相當。
網(wǎng)頁瀏覽是一種需要復雜推理和多輪工具使用的流行 Agentic 應用。技術(shù)團隊在 BrowseComp 基準上評估了 GLM-4.5,在訪問網(wǎng)頁瀏覽工具的情況下,GLM-4.5 能夠正確回答 26.4% 的問題,優(yōu)于 Claude-4-Opus(18.8%),接近 o4-mini-high(28.0%)。
注:BrowseComp 是一個具有挑戰(zhàn)性的網(wǎng)頁瀏覽基準,包含需要簡短回答的復雜問題。
下圖顯示了 GLM-4.5 在 BrowseComp 上的測試時擴展精度。
模型原生 Agent 場景跑通,從生成文本到生成產(chǎn)品
小編嘗試了以下幾種使用方式實測了多個「模型原生可落地Agent場景」,覆蓋從文本工具、搜索型應用,到交互式網(wǎng)頁與多人游戲,驗證GLM-4.5的真實可部署性與連貫性,一口氣構(gòu)建了5個專業(yè)的應用,已經(jīng)沉寂多年的開發(fā)能力突然以另一種形式覺醒,我又覺得我行了!
基于three.js構(gòu)建的3D地球可視化模擬生成器
AI驅(qū)動的企業(yè)流程自動化工具(在線體驗:https://k0nag61vkf50-deploy.space.z.ai/)
多Agent協(xié)同的像素風格貪吃蛇游戲(在線體驗:https://r0qat65a8yz1-deploy.space.z.ai/)
幫我生成一個游戲應用貪吃蛇,風格是像素風格,玩家可以驅(qū)動游戲內(nèi)的小蛇,同時游戲內(nèi)可隨機出現(xiàn)不同其它的玩家,以及實物。并且右上角有當前對局的得分榜單。使用Agent幫我模擬其它的玩家。
GLM-4.5模型原生生成PPT
經(jīng)常做PPT的小伙伴可能知道,做一套好看實用的PPT有多么麻煩,搜索信息、貼內(nèi)容、正確配圖,確保信息準確、審美在線、字體配色,最終代碼生成PPT...
使用高大上的配色和奢侈品風格,生成一個關(guān)于愛馬仕品牌介紹的PPT
實測GLM-4.5生成PPT,總耗時4分26秒,嗯,很快,而且比我做的好看多了...
這些能力已不止于“文本生成”,而是完成了從自然語言 → 工具控制 → 應用部署的全流程閉環(huán)。突然想起昨天剛剛開源的Coze,此刻會不會也開始沉思,Agent工作流是否只是大模型過渡期的產(chǎn)物,可能盡頭依然ALL IN CHAT!!
下方是官方的一些demo參考,小伙伴可以直接打開體驗:
一個真的能搜的搜索引擎
提示詞:做一個Google搜索網(wǎng)站。
Z.ai版本“谷歌搜索”體驗地址:https://n0x9f6733jm1-deploy.space.z.ai
一個真的能點贊的文字版抖音
提示詞:做一個文字版抖音 , 允許上下切換, 需要支持發(fā)帖、 點贊、 評論的功能。
Z.ai版本“文字抖音”體驗地址:https://t0mau6dg2nv0-deploy.space.z.ai
GLM-4.5不僅擅長處理復雜代碼,同時也具有優(yōu)秀的數(shù)據(jù)精準處理、交互動畫設計能力。以下是GLM-4.5制作的一個3D 交互式地球網(wǎng)頁,用戶可以點擊地點查看詳情,并伴有平滑的縮放動畫。
提示詞:Build a webpage using Three.js and JavaScript that creates a 3D world displaying places I've visited, based on an array. Clicking markers on the 3D globe will animate a zoom effect and open detailed trip information with photos.
推理之上,是智能體:GLM-4.5的Agent原生性值得重視
現(xiàn)在市面上的大部分LLM,其實還是以“增強問答系統(tǒng)”為核心思路,即便加了插件、記憶系統(tǒng)、函數(shù)調(diào)用,也還是“在模型外面堆功能”。
這包括但不限于:
- 模型對話中長期記憶、目標一致性保持
- 模型對于任務目標、動機、過程的自我規(guī)劃能力
- 模型原生支持多輪鏈式思考與動作執(zhí)行能力
但GLM-4.5開始做的,是在模型訓練過程中就讓模型具備智能體行為的能力。GLM-4.5 和 GLM-4.5-Air 使用了相似的訓練流程:首先在 15 萬億令牌的通用數(shù)據(jù)上進行了預訓練。然后在代碼、推理、智能體等領(lǐng)域的數(shù)據(jù)上進行了針對性訓練,最后通過強化學習進一步增強了模型的推理、代碼與智能體能力。
GLM-4.5可以理解是具備實戰(zhàn)能力的“多步任務執(zhí)行者”,在未來 AI 工作助手、多任務智能客服、財務分析等場景中具備天然優(yōu)勢。
這也是為什么它能在TAU-Bench、BrowseComp這種原本只適合專用Agent系統(tǒng)的任務中跑出好成績——它是“原生具備智能體能力”的。
原生Agent覺醒時刻,一鍵上線不用復雜工作流
當看到GLM-4.5自動拆解這個需求時,不需要Manus,不需要Flowith,更不需要搶各種邀請碼!小編知道智能體賽道要變天了:
為了測試模擬真實開發(fā)工作流,小編特意選了一個針對以往多Agent智能體協(xié)同開發(fā)才能實現(xiàn)的多任務的復雜開發(fā)需求,讓它開發(fā)一個自動分析上市公司財報并支持財報分析、下載報告、甚至增加用戶自然語言對話返回財報分析結(jié)果的復雜多功能的網(wǎng)站。
以下是一次完整的one-shot prompt:
- 幫我開發(fā)一個自動分析上市公司財報的網(wǎng)站,以下是具體的流程:1、用戶輸入一個上市公司名稱或者股票代碼(支持中國的A股或者美股公司),2、可以選擇什么時間段的財報,或者默認是最新的財報。3、根據(jù)用戶的輸入自動抓取這個公司的財報。4、調(diào)用大模型能力分析財報,5、生成財報分析報告,財務報告可在線瀏覽,也支持自動成圖文并茂的ppt報告,可供用戶下載。提供下載地址 6、用戶可進行對話,大模型根據(jù)用戶輸入自動尋找財報內(nèi)的內(nèi)容,并輸出對應的圖表。
然后GLM-4.5開始了它的思考和動作,創(chuàng)建了一個基本的Next.js項目結(jié)構(gòu),并使用TodoWrite來規(guī)劃整個項目的開發(fā)步驟:
- 創(chuàng)建項目基礎結(jié)構(gòu)和路由
- 設計并實現(xiàn)主頁面UI(搜索框、時間選擇等)
- 實現(xiàn)財報數(shù)據(jù)抓取API(支持A股和美股)
- 實現(xiàn)財報分析API(調(diào)用大模型)
- 創(chuàng)建財報分析報告展示頁面
- 實現(xiàn)PPT報告生成功能
- 實現(xiàn)對話功能和圖表生成
- 優(yōu)化UI/UX和響應式設計
后續(xù)就是根據(jù)每一個細分的目標進行思考、拆分、執(zhí)行。如果后邊有對前邊共用的文件有修改,它會自動找到對應的代碼文件以及對應的位置更新。
最后完成整個代碼構(gòu)建后,它還會回顧并檢查整體的代碼質(zhì)量,檢查開發(fā)日志,并且做一些用戶體驗優(yōu)化,代碼開發(fā)這么細心負責,這讓人類開發(fā)者情何以堪...
一次運行成功!輸入阿里巴巴,直接把財報分析內(nèi)容展示了出來!
最終整個項目完成之后,GLM-4.5會在服務器端命令行啟動項目,整個窗口會分成左右兩大窗口,左側(cè)是與大模型交互以及動態(tài)輸出日志交互信息,右側(cè)就是實際運行起來的網(wǎng)站預覽。如果對生成的功能或者UI不滿意,或者運行過程有出現(xiàn)錯誤問題,可以隨時在左側(cè)交互框中告訴它,非常方便和易用!
它還會貼心的把整個項目的功能點、技術(shù)架構(gòu)、使用指南都整理成文字信息告訴你,后續(xù)小編又讓它增加了原始報告下載、投資建議功能,基本一次就可以完成功能更新。
以下是從輸入到完成整個項目構(gòu)建的視頻,全程自動化構(gòu)建,最終總耗時約5分17秒:
后邊在點擊深度分析中的下載報告按鈕會報錯,小編直接左側(cè)交互框告訴他錯誤信息:error proxying request: net/http: timeout awaiting response headers ,請修復。等待1分鐘左右,功能順利修復完成。
對于構(gòu)建完成的項目,GLM-4.5支持在線部署和下載源碼的功能。
現(xiàn)在,人人都可以是一個全棧開發(fā)者!就像左下角那個“全棧開發(fā)”按鈕在告訴你的事情:不用再管什么瀑布流開發(fā),不用再有產(chǎn)品經(jīng)理、前端開發(fā)、后端開發(fā)、數(shù)據(jù)DBA...產(chǎn)品經(jīng)理與開發(fā)也不用再天天吵架了,你只需要關(guān)注需求本身,有什么想法直接告訴GLM-4.5,一鍵上線不用復雜工作流,你只需要喝著咖啡等待!
隨后,小編又順手做了一個AI營銷的網(wǎng)站,幾分鐘之后,我感覺明天可以匯報老板,公司可以再開設一條AI營銷的業(yè)務線了...升職加薪指日可待!!
你現(xiàn)在就可以去 Z.AI 做一個專屬的AI營銷網(wǎng)站:
- 幫我開發(fā)一個AI營銷的網(wǎng)站,以下是具體的流程和功能描述:1、文案寫作功能,根據(jù)指定的文案風格或者預制的一些文案風格進行生成文案。2、文案風格改寫功能,輸入給定的文案,選擇不同風格進行改寫。3、風格圖片生成:根據(jù)用戶輸入的自動生成不同風格的圖片。4、文案錯字和修改建議功能。5、根據(jù)給定的文案,自動生成視頻腳本
你可以理解為,它不是“加了Agent功能的大模型”,而是“為Agent而設計的大模型”。
模型免費,API超便宜,生成速度超級快
- API調(diào)用價格:
- 輸入:0.8 元 / 百萬Tokens
- 輸出:2 元 / 百萬Tokens
- 響應速度:
- 高速版本實測超過 100 Tokens / 秒,支持低延遲、高并發(fā)的實際部署需求,兼顧成本效益與交互體驗。
- Thinking 模式稍慢但更精準,適合高復雜任務
現(xiàn)在智譜僅需 50 元即可包月爽用 GLM-4.5,調(diào)用量上不封頂!這樣的價格,性價比直接拉滿!!小伙伴千萬別錯過這難得的薅羊毛機會~
從性能、參數(shù)、結(jié)構(gòu)、生態(tài),到開源方式、使用門檻、場景適配,GLM-4.5幾乎把目前一個通用大模型應該具備的一切全拉滿了。
更難得的是,它不是閉門造車,而是明確要“向開發(fā)者開放、向產(chǎn)業(yè)落地”的。
它是在思考、推理、規(guī)劃、執(zhí)行能力上,開始向下一代 AI 操作系統(tǒng)靠攏。
國產(chǎn)大模型的路,不能只是對齊,更要超越。
GLM-4.5,給了我們一個全新的起點。
下一篇文章,我們來聊聊:這個模型背后到底是怎么訓練出來的?又或者——智譜到底在下哪盤大棋?
我們,下次見。
附錄:你現(xiàn)在就可以體驗 GLM-4.5
GitHub/Hugging Face/ ModelScope /API平臺全面同步
- Hugging Face(模型倉庫):https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b
- ModelScope(模型倉庫):https://modelscope.cn/collections/GLM-45-b8693e2a08984f
- Github 倉庫:https://github.com/zai-org/GLM-4.5
- BigModel.cn (API接入,一鍵兼容Claude Code 框架):https://docs.bigmodel.cn/cn/guide/develop/claude
- chatglm.cn (在線使用滿血版):https://chatglm.cn
- Z.ai (在線使用滿血版):https://chat.z.ai/
- Claude code集成:https://docs.z.ai/scenario-example/develop-tools/claude
- 支持 Claude Code、Roo Code 等代碼智能體中接入使用
注:MIT License開源協(xié)議
- 允許自由使用:任何人可將遵循 MIT 協(xié)議的軟件用于商業(yè)、非商業(yè)等任何場景,無需支付費用。
- 修改與分發(fā)自由:允許修改軟件源代碼,也可將修改后的版本以開源或閉源形式分發(fā)。
- 低約束:只需在軟件副本或相關(guān)文檔中保留原作者的版權(quán)聲明和許可聲明,無需公開修改后的源代碼。
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 海外炸場的開源狠角色,MoE + 原生智能體,國產(chǎn)最強實錘?
熱門信息
閱讀 (15846)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎名單公示閱讀 (15261)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報告正式發(fā)布 | RPA中國閱讀 (13376)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎名單公示閱讀 (13206)
4 與科技共贏,與產(chǎn)業(yè)共進,第四屆ISIG中國產(chǎn)業(yè)智能大會成功召開閱讀 (12635)
5 財務機器人 —— RPA的財務應用