jK白丝喷水视频,h高清亚洲无码,亚洲av第一页国产精品,亚洲毛片视频,成AV人在线播放,又爽又高潮的免费视频,精品亚洲成a人在线观看青青,色婷婷丁香啪,纯肉无遮掩3d动漫在线观看,中文字幕区一区二无码

當(dāng)前位置：首頁 > RPA最新資訊 > AI視角 > 性能優(yōu)于GPT4-V，華為、港大開源幾何數(shù)學(xué)模型G-LLaVA

性能優(yōu)于GPT4-V，華為、港大開源幾何數(shù)學(xué)模型G-LLaVA

suntingting 發(fā)布于 2024-01-04 16:53:17
分類：AI視角
來源：
閱讀()
評論()

大型語言模型在內(nèi)容生成、邏輯推理等方面展示了強(qiáng)大的能力，但在處理專業(yè)幾何數(shù)學(xué)難題時效果不佳。

這是因為，與文本數(shù)學(xué)題相比，幾何空間數(shù)學(xué)題對模型的視覺理解和邏輯思維能力更高要求。目前，多模態(tài)大語言模型仍無法準(zhǔn)確解析幾何圖形中的基本要素及其關(guān)系。

為了解決這一難題，華為諾亞方舟實驗室、香港大學(xué)、香港科技大學(xué)聯(lián)合開源了專業(yè)幾何數(shù)學(xué)模型G-LLaVA。

為了測試G-LLaVA的性能，研究人員在知名數(shù)學(xué)測試平臺 MathVista上，與其他大模型進(jìn)行了深度評估。結(jié)果顯示，G-LLaVA的性能超過了GPT-4-V、LLaVA1.5、MiniGPT-4等模型。

開源地址：https://github.com/pipilurj/G-LLaVA

論文地址：https://arxiv.org/abs/2312.11370

整體架構(gòu)

G-LLaVA的整體架構(gòu)主要包含大語言模型、圖像編碼器和投影層三大模塊。

1）大語言模型使用的是LlAMA模型,用于理解和生成文字序列。相比通用模型,G-LLaVA的語言模型通過幾何數(shù)據(jù)獲得了數(shù)學(xué)和視覺領(lǐng)域的適配。

2）圖像編碼器利用預(yù)訓(xùn)練的視覺ViT等，進(jìn)行特征提取和圖像理解，可將輸入的幾何圖像和問題轉(zhuǎn)化為向量表示并生成答案。

3）投影層是一個線性層,作用是將圖像編碼器輸出的視覺特征投影和映射到語言模型的嵌入空間中。這實現(xiàn)了不同模態(tài)特征的對齊融合，讓大語言模型可以識別幾何圖像的關(guān)鍵所在。

訓(xùn)練方法

G-LLaVA使用的是雙階段漸進(jìn)式訓(xùn)練方法：幾何視覺語言對齊，這一階段專注于增強(qiáng)模型對幾何圖像的理解,令其準(zhǔn)確解釋幾何圖形基本要素。

構(gòu)建的對齊數(shù)據(jù)集包含圖像描述和判斷對比問答。只優(yōu)化投影層參數(shù)進(jìn)行對齊訓(xùn)練。

幾何指令調(diào)優(yōu)，在調(diào)整階段，利用變量建模、數(shù)據(jù)增強(qiáng)等策略生成大規(guī)模幾何問題解答數(shù)據(jù)。通過解題過程的復(fù)現(xiàn),提高G-LLaVA的數(shù)學(xué)建模建、關(guān)系、符號推理的能力。調(diào)優(yōu)后的模型可接收幾何圖像和自然文本提示并輸出內(nèi)容。

構(gòu)建Geo170K數(shù)據(jù)集

G-LLaVA能具備強(qiáng)大的幾何理解能力，這個Geo170K數(shù)據(jù)集是關(guān)鍵。

Geo170K的數(shù)據(jù)來源包括多個已有的開源幾何QA數(shù)據(jù)集,例如，Geometry3K、GeoQA和GeoQA+。

這些數(shù)據(jù)集提供了豐富的幾何圖像樣例和部分注釋, Geo170K的總規(guī)模超過17萬條。

包含約6萬張幾何圖像及匹配描述,和11萬多個問題-解答語言配對。這遠(yuǎn)超過此前最大的圖形問答集GeoQA+。數(shù)據(jù)分布覆蓋了基本幾何要素的判定、定量關(guān)系的符號推理等多個方面。