大型語言模型在內(nèi)容生成、邏輯推理等方面展示了強(qiáng)大的能力,但在處理專業(yè)幾何數(shù)學(xué)難題時效果不佳。
這是因為,與文本數(shù)學(xué)題相比,幾何空間數(shù)學(xué)題對模型的視覺理解和邏輯思維能力更高要求。目前,多模態(tài)大語言模型仍無法準(zhǔn)確解析幾何圖形中的基本要素及其關(guān)系。
為了解決這一難題,華為諾亞方舟實驗室、香港大學(xué)、香港科技大學(xué)聯(lián)合開源了專業(yè)幾何數(shù)學(xué)模型G-LLaVA。
為了測試G-LLaVA的性能,研究人員在知名數(shù)學(xué)測試平臺 MathVista上,與其他大模型進(jìn)行了深度評估。結(jié)果顯示,G-LLaVA的性能超過了GPT-4-V、LLaVA1.5、MiniGPT-4等模型。
開源地址:https://github.com/pipilurj/G-LLaVA
論文地址:https://arxiv.org/abs/2312.11370
整體架構(gòu)
G-LLaVA的整體架構(gòu)主要包含大語言模型、圖像編碼器和投影層三大模塊。
1)大語言模型使用的是LlAMA模型,用于理解和生成文字序列。相比通用模型,G-LLaVA的語言模型通過幾何數(shù)據(jù)獲得了數(shù)學(xué)和視覺領(lǐng)域的適配。
2)圖像編碼器利用預(yù)訓(xùn)練的視覺ViT等,進(jìn)行特征提取和圖像理解,可將輸入的幾何圖像和問題轉(zhuǎn)化為向量表示并生成答案。
3)投影層是一個線性層,作用是將圖像編碼器輸出的視覺特征投影和映射到語言模型的嵌入空間中。這實現(xiàn)了不同模態(tài)特征的對齊融合,讓大語言模型可以識別幾何圖像的關(guān)鍵所在。
訓(xùn)練方法
G-LLaVA使用的是雙階段漸進(jìn)式訓(xùn)練方法:幾何視覺語言對齊,這一階段專注于增強(qiáng)模型對幾何圖像的理解,令其準(zhǔn)確解釋幾何圖形基本要素。
構(gòu)建的對齊數(shù)據(jù)集包含圖像描述和判斷對比問答。只優(yōu)化投影層參數(shù)進(jìn)行對齊訓(xùn)練。
幾何指令調(diào)優(yōu),在調(diào)整階段,利用變量建模、數(shù)據(jù)增強(qiáng)等策略生成大規(guī)模幾何問題解答數(shù)據(jù)。通過解題過程的復(fù)現(xiàn),提高G-LLaVA的數(shù)學(xué)建模建、關(guān)系、符號推理的能力。調(diào)優(yōu)后的模型可接收幾何圖像和自然文本提示并輸出內(nèi)容。
構(gòu)建Geo170K數(shù)據(jù)集
G-LLaVA能具備強(qiáng)大的幾何理解能力,這個Geo170K數(shù)據(jù)集是關(guān)鍵。
Geo170K的數(shù)據(jù)來源包括多個已有的開源幾何QA數(shù)據(jù)集,例如,Geometry3K、GeoQA和GeoQA+。
這些數(shù)據(jù)集提供了豐富的幾何圖像樣例和部分注釋, Geo170K的總規(guī)模超過17萬條。
包含約6萬張幾何圖像及匹配描述,和11萬多個問題-解答語言配對。這遠(yuǎn)超過此前最大的圖形問答集GeoQA+。數(shù)據(jù)分布覆蓋了基本幾何要素的判定、定量關(guān)系的符號推理等多個方面。
為了評估G-LLaVA的性能,研究人員在MathVista等測試平臺進(jìn)行了一系列實驗,與其他現(xiàn)有的知名大語言模型進(jìn)行了比較。
實驗結(jié)果顯示,G-LLaVA與GPT-4-V和其他MLLMs相比,G-LLaVA的性能超過了GPT-4-V、LLaVA1.5、MiniGPT-4等模型。顯著提高了幾何難題的解決準(zhǔn)確率和效率。
這表明通過引入對齊的多模態(tài)數(shù)據(jù)集,可以有效地提升大語言模型在處理幾何問題時的能力。
此外,研究人員還對G-LLaVA模型進(jìn)行了進(jìn)一步的分析,以探索其在各個幾何問題類型上的性能差異。
實驗結(jié)果顯示,G-LLaVA模型在處理點(diǎn)、線、角等基本幾何元素的問題時表現(xiàn)仍然出色。
本文素材來源G-LLaVA論文,如有侵權(quán)請聯(lián)系刪除
END
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 性能優(yōu)于GPT4-V,華為、港大開源幾何數(shù)學(xué)模型G-LLaVA
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國產(chǎn)業(yè)智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報告》正式發(fā)布 | RPA中國