jK白丝喷水视频,h高清亚洲无码,亚洲av第一页国产精品,亚洲毛片视频,成AV人在线播放,又爽又高潮的免费视频,精品亚洲成a人在线观看青青,色婷婷丁香啪,纯肉无遮掩3d动漫在线观看,中文字幕区一区二无码

當(dāng)前位置：首頁 > RPA最新資訊 > AI視角 > 微軟等開源評(píng)估ChatGPT、Phi、Llma等，統(tǒng)一測(cè)試平臺(tái)

微軟等開源評(píng)估ChatGPT、Phi、Llma等，統(tǒng)一測(cè)試平臺(tái)

suntingting 發(fā)布于 2024-01-12 15:26:08
分類：AI視角
來源：
閱讀()
評(píng)論()

微軟亞洲研究院、中國科學(xué)院自動(dòng)化研究所、中國科學(xué)技術(shù)大學(xué)和卡內(nèi)基梅隆大學(xué)聯(lián)合開源了，用于評(píng)估、分析大語言模型的統(tǒng)一測(cè)試平臺(tái)——PromptBench。

Prompt Bench支持目前主流的開源、閉源大語言模型，例如，ChatGPT、GPT-4、Phi、Llma1/2、Gemini、Baichuan、Yi 等。

PromptBench內(nèi)置了豐富的評(píng)估工具，包括提示構(gòu)建、提示工程、數(shù)據(jù)集和模型、對(duì)抗性提示攻擊、性能評(píng)測(cè)等。用戶可以根據(jù)實(shí)際開發(fā)情況靈活配置，非常簡單高效。

開源地址：https://github.com/microsoft/promptbench

論文地址：https://arxiv.org/abs/2312.07910

對(duì)大型語言模型進(jìn)行評(píng)估、分析是理解其真實(shí)輸出、減少潛在風(fēng)險(xiǎn)的重要開發(fā)環(huán)節(jié)。

研究人員表示，目前多數(shù)大型語言模型對(duì)文本提示非常敏感，容易受到對(duì)抗性提示攻擊，同時(shí)易受到數(shù)據(jù)污染的影響，這給安全和隱私帶來了巨大挑戰(zhàn)。

雖然有很多類似lm-eval-harness的評(píng)估框架，但其評(píng)估模塊和功能較少，無法滿足飛速發(fā)展的大語言模型領(lǐng)域。

所以，微軟等研究人員希望開發(fā)一個(gè)統(tǒng)一的評(píng)估平臺(tái)，幫助開發(fā)者提升測(cè)試效率，同時(shí)減少大模型的非法內(nèi)容輸出。

PromptBench簡單介紹

PromptBench可以從多個(gè)維度對(duì)大語言模型進(jìn)行評(píng)估，涵蓋多個(gè)任務(wù)、評(píng)估協(xié)議、對(duì)抗性提示攻擊和提示工程技術(shù)、數(shù)據(jù)集等。

評(píng)估協(xié)議是PromptBench的核心模塊之一，主要定義了評(píng)估大語言模型性能的方法和流程。

PromptBench支持多種評(píng)估協(xié)議，包括靜態(tài)評(píng)估和動(dòng)態(tài)評(píng)估。靜態(tài)評(píng)估是，通過提供預(yù)定義的提示來測(cè)試大語言模型的性能；

動(dòng)態(tài)評(píng)估，則允許在交互過程中動(dòng)態(tài)生成和修改提示。這種靈活性使研究人員能夠更全面地評(píng)估大語言模型的能力和魯棒性。

對(duì)抗性提示攻擊，是評(píng)估大語言模型安全性的重要方法之一。PromptBench提供了多種對(duì)抗性提示攻擊的測(cè)試方法，包括，字符級(jí)修改、詞級(jí)替換、句級(jí)添加和語義級(jí)改寫等攻擊。有效模擬了提示使用中可能遇到的各類偏差情況,檢驗(yàn)了模型的攻擊魯棒性。

數(shù)據(jù)集是評(píng)估大語言模型性能的關(guān)鍵部分。PromptBench提供了20多個(gè)公開的評(píng)估數(shù)據(jù)集，涵蓋了文本分類、語法糾錯(cuò)、句子相似度判定、自然語言推理、多任務(wù)問答、閱讀理解、翻譯、數(shù)學(xué)推理、邏輯推理等，可以充分測(cè)試大語言模型在不同場景下的表現(xiàn)和能力。

支持哪些大語言模型

PromptBench支持目前市面上主流的開源、閉源大語言模型，包括Flan-T5-large、Dolly系列、Cerebras-13B 、Llama系列、Vicuna 、GPT-NEOX；

Flan-UL2、Phi 、PaLM 2、ChatGPT、GPT-4、Gemini、Mistral、Mixtral、Baichuan、Yi等。