DALL-E 3、Midjourney、Stable Diffusion等模型展現(xiàn)出了強大的創(chuàng)造能力,通過文本便能生成素描、朋克、3D、二次元等多種類型的高質(zhì)量圖片,但在生成科學(xué)圖表(柱狀、直方、箱線、樹狀等)方面卻略顯不足。
這是因為模型在生成圖表時會遺漏重要的對象,生成錯誤的對象關(guān)系箭頭,以及產(chǎn)生不可讀的文本標(biāo)簽,缺乏對對象的精細布局控制。尤其是當(dāng)多個對象存在復(fù)雜的箭頭或線段關(guān)系時,無法渲染清晰可讀的文本,而這兩點對于圖表生成至關(guān)重要。
為了解決這兩大難題,北卡羅來納大學(xué)提出了DiagrammerGPT框架。首先,使用GPT-4充當(dāng)“規(guī)劃師”,根據(jù)文本描述生成圖表的布局規(guī)劃信息。
規(guī)劃信息包含實體(對象和文本標(biāo)簽)、實體之間的關(guān)系(箭頭、線段等)以及實體的布局信息(邊界框坐標(biāo))。然后再用GPT-4充當(dāng)“審計師”來審核整個規(guī)劃計劃,進行圖表細節(jié)優(yōu)化。
在圖表生成階段,通過DiagramGLIGEN擴散模型能夠根據(jù)圖表規(guī)劃生成精準圖表,并用Pillow庫對文本標(biāo)簽進行渲染提升精準度。
根據(jù)測試數(shù)據(jù)顯示,在多個量化指標(biāo)上,DiagrammerGPT 顯著優(yōu)于Stable Diffusion、VPGen 和 AutomaTikZ等模型生成的圖表。
在圖表與文本相關(guān)性和對象關(guān)系的準確性評估方面,DiagrammerGPT分別取得36%和48%的優(yōu)于基準模型的評分。該研究對于文本生成高精準圖表模型來說,有著重大突破。
開源地址:https://github.com/aszala/DiagrammerGPT
論文地址:https://arxiv.org/abs/2310.12128
圖表規(guī)劃
DiagrammerGPT框架的最大創(chuàng)新在于,利用GPT-4的強大自然語言處理能力指導(dǎo)圖表布局生成。為了生成更準確的規(guī)劃,還設(shè)計了閉環(huán)反饋機制。
一個GPT-4 充當(dāng)“規(guī)劃師”生成初始規(guī)劃,另一個 GPT-4 充當(dāng)“審計師”,評估規(guī)劃的準確性并提供反饋。而規(guī)劃師可以根據(jù)反饋調(diào)整規(guī)劃布局。
1)初始圖表規(guī)劃生成
研究人員對GPT-4通過10個語境學(xué)習(xí)樣例進行了訓(xùn)練,每個樣例都包含完整的圖表文本描述、實體、關(guān)系和布局信息。規(guī)劃包含3個要素:
實體:對象和文本標(biāo)簽的列表。對象指圖表中的圖像元素,文本標(biāo)簽指對象的文字說明。
關(guān)系:實體之間的關(guān)系,比如箭頭連接、線段連接、文本標(biāo)簽標(biāo)注對象等。
布局:所有實體的邊界框坐標(biāo)信息,[x,y,w,h]格式。
2)規(guī)劃優(yōu)化
為進一步提高規(guī)劃質(zhì)量,提出了規(guī)劃師、審計師的閉環(huán)反饋機制進行迭代優(yōu)化。其中GPT-4充當(dāng)規(guī)劃師,另一個GPT-4充當(dāng)審計師。審計師會檢查規(guī)劃與文本描述是否匹配,提供反饋意見;規(guī)劃師根據(jù)反饋更新規(guī)劃。
其中,審計師GPT-4也是通過特定語境學(xué)習(xí)進行訓(xùn)練的,以提供有效的反饋意見。兩者訓(xùn)練使用不同的語境學(xué)習(xí)樣本。
圖表生成
研究人員通過Diagram GLIGEN擴散模型用于圖表生成,并加入了門控自注意力層,可以利用圖表規(guī)劃的布局信息指導(dǎo)圖像生成。
與原始的GLIGEN模型只處理物體不同,DiagramGLIGEN可同時處理文本標(biāo)簽和箭頭關(guān)系作為布局輸入。DiagramGLIGEN在AI2D-Caption數(shù)據(jù)集上進行了訓(xùn)練,使其能生成特定領(lǐng)域的科學(xué)圖表。
但由于擴散模型本身文本渲染效果不佳,無法輸出清晰可讀的文本,研究人員使用Pillow庫顯式渲染文本標(biāo)簽,提升文本的清晰度。
訓(xùn)練、評估數(shù)據(jù)集
研究人員基于AI2D科學(xué)圖表數(shù)據(jù)集構(gòu)建了AI2D-Caption數(shù)據(jù)集,用于文本到圖表生成的訓(xùn)練和數(shù)據(jù)測試。AI2D包含約4900張科學(xué)圖表圖像,涵蓋天文、生物、工程等領(lǐng)域。
其中選取了105張圖表,使用大語言模型為每個圖表生成詳細的圖像標(biāo)題和對象描述。其中30張作為語言模型的語境學(xué)習(xí)樣本,75張作為測試集。
相比原始AI2D只有簡單的標(biāo)題,AI2D-Caption提供了更豐富的文本描述,包括完整的圖表標(biāo)題和每個對象的詳情。
多個基準測試數(shù)據(jù)顯示,在VPEval上,DiagrammerGPT的對象、數(shù)量、關(guān)系和文本渲染準確性均明顯優(yōu)于基準模型,從多個方面證明了其生成圖表的高質(zhì)量。
在圖像字幕上,DiagrammerGPT生成的圖表能產(chǎn)生更相關(guān)的標(biāo)題,標(biāo)題與真值更加接近。在CLIPScore上,DiagrammerGPT的圖像-文本和圖像-圖像相似度更高,更接近真值圖表和標(biāo)題。還進行了人類評估,多數(shù)人表示,更喜歡DiagrammerGPT生成的圖表。
本文素材來源北卡羅來納大學(xué)論文,如有侵權(quán)請聯(lián)系刪除
END
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > GPT-4充當(dāng)“規(guī)劃師、審計師”,顛覆性雙層文生圖表模型
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進,第四屆ISIG中國產(chǎn)業(yè)智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報告》正式發(fā)布 | RPA中國