日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 元宇宙 > AI

谷歌發(fā)布開源 LMEval 框架:打破 AI 模型比較壁壘,降低評(píng)測(cè)成本和時(shí)間

來源: 責(zé)編: 時(shí)間:2025-05-29 09:06:02 24觀看
導(dǎo)讀 5 月 27 日消息,科技媒體 The Decoder 昨日(5 月 26 日)發(fā)布博文,報(bào)道稱谷歌推出開源框架 LMEval,為大語言模型和多模態(tài)模型提供標(biāo)準(zhǔn)化的評(píng)測(cè)工具。評(píng)測(cè)新型 AI 模型一直是個(gè)難題。不同供應(yīng)商使用各自的 API、數(shù)據(jù)

5 月 27 日消息,科技媒體 The Decoder 昨日(5 月 26 日)發(fā)布博文,報(bào)道稱谷歌推出開源框架 LMEval,為大語言模型和多模態(tài)模型提供標(biāo)準(zhǔn)化的評(píng)測(cè)工具。s4y28資訊網(wǎng)——每日最新資訊28at.com

評(píng)測(cè)新型 AI 模型一直是個(gè)難題。不同供應(yīng)商使用各自的 API、數(shù)據(jù)格式和基準(zhǔn)設(shè)置,導(dǎo)致跨模型比較耗時(shí)且復(fù)雜。s4y28資訊網(wǎng)——每日最新資訊28at.com

s4y28資訊網(wǎng)——每日最新資訊28at.com

而谷歌最新推出的 LMEval 開源框架直擊這一痛點(diǎn),研究人員和開發(fā)者只需設(shè)置一次基準(zhǔn),就能展開標(biāo)準(zhǔn)化的評(píng)測(cè)流程,大幅簡(jiǎn)化了評(píng)測(cè)工作,節(jié)省了時(shí)間和資源。s4y28資訊網(wǎng)——每日最新資訊28at.com

LMEval 還通過 LiteLLM 框架抹平了 Google、OpenAI、Anthropic、Ollama 和 Hugging Face 等平臺(tái)之間的接口差異,確保測(cè)試跨平臺(tái)無縫運(yùn)行。s4y28資訊網(wǎng)——每日最新資訊28at.com

LMEval 不僅支持文本評(píng)測(cè),還涵蓋圖像和代碼等領(lǐng)域的基準(zhǔn)測(cè)試,且新輸入格式可輕松擴(kuò)展,框架支持是非題、多選題和自由文本生成等多種評(píng)估類型。同時(shí),該框架能識(shí)別模型采用的“規(guī)避策略”,即故意給出模糊回答以避免生成有風(fēng)險(xiǎn)內(nèi)容。s4y28資訊網(wǎng)——每日最新資訊28at.com

Google 還引入了 Giskard 安全評(píng)分,展示模型規(guī)避有害內(nèi)容的表現(xiàn),百分比越高代表安全性越強(qiáng)。測(cè)試結(jié)果存儲(chǔ)在自加密的 SQLite 數(shù)據(jù)庫(kù)中,確保數(shù)據(jù)本地化且不會(huì)被搜索引擎索引,兼顧了隱私與便捷。s4y28資訊網(wǎng)——每日最新資訊28at.com

LMEval 具備增量評(píng)估功能,無需在新增模型或問題時(shí)重新運(yùn)行整個(gè)測(cè)試,僅執(zhí)行必要的新增測(cè)試即可,并采用多線程引擎并行處理多項(xiàng)計(jì)算,有效降低了計(jì)算成本和時(shí)間消耗。s4y28資訊網(wǎng)——每日最新資訊28at.com

谷歌還開發(fā)了 LMEvalboard 可視化工具,通過雷達(dá)圖展示模型在不同類別中的表現(xiàn)。用戶可深入查看具體任務(wù),精準(zhǔn)定位模型錯(cuò)誤,并直接比較多個(gè)模型在特定問題上的差異,圖形化展示一目了然。s4y28資訊網(wǎng)——每日最新資訊28at.com

s4y28資訊網(wǎng)——每日最新資訊28at.com

s4y28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-13257-0.html谷歌發(fā)布開源 LMEval 框架:打破 AI 模型比較壁壘,降低評(píng)測(cè)成本和時(shí)間

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: OpenAI 首款 AI 硬件被曝 2026 年登場(chǎng),ChatGPT 全面融入用戶生活

下一篇: 更新:OpenAI 宣布阿聯(lián)酋全境接入 ChatGPT AI

標(biāo)簽:
  • 熱門焦點(diǎn)
  • 元宇宙終究沒火過兩年

    來源:傳播體操在ChatGPT快速破圈的同時(shí),元宇宙的熱度卻一瀉千里。雖然互聯(lián)網(wǎng)大廠們都沒有否認(rèn)元宇宙的長(zhǎng)期想象力,但在行動(dòng)上卻都紛紛表示了對(duì)元宇宙短期前景的悲觀。號(hào)稱改變
  • 《蜘蛛俠》火了,超級(jí)英雄就該這么演

    燃次元(ID:chaintruth)原創(chuàng)作者 | 陶 淘編輯 | 曹 拿下豆瓣8.8分、IMDB 9.1的高分,6月2日在全球同步上映的《蜘蛛俠:縱橫宇宙》(以下簡(jiǎn)稱《蜘蛛俠》),上映不足一周,便在國(guó)內(nèi)“
  • 字節(jié)跳動(dòng),剛剛投了一位虛擬女生

    今年第一筆虛擬人融資出爐了。投資界獲悉,杭州李未可科技有限公司顯示發(fā)生股東變更,新增字節(jié)跳動(dòng)關(guān)聯(lián)公司北京量子躍動(dòng)科技有限公司。今天公司方面正式確認(rèn),本輪
  • 比特幣的價(jià)格越高,使用價(jià)值越大

    隔夜比特幣還是在精準(zhǔn)地橫盤在42k上方。空頭昨日試圖發(fā)起一波小的攻勢(shì),但是晚上就被多頭掰了回來。以太坊的鏈上gas price降到了60 gwei以下,彰顯著市場(chǎng)活躍度的
  • Terra鏈上TVL躍升至第二

    據(jù)DefiLlama數(shù)據(jù)顯示,當(dāng)前,Terra鏈上應(yīng)用鎖倉(cāng)的加密資產(chǎn)價(jià)值(TVL)為172.1億美元,在公鏈板塊中已躍升至第二,超越了幣安智能鏈TVL的118億美元,TVL排名居首的仍為以太
  • 元宇宙平臺(tái)會(huì)是上世紀(jì)末的互聯(lián)網(wǎng)嗎?

    “元宇宙”火了好幾個(gè)月,互聯(lián)網(wǎng)大廠忙于布局,資本市場(chǎng)熱烈追捧。然而很多人還是看不明白,更多的人覺得這是一場(chǎng)泡沫,一場(chǎng)騙局。一開始接觸這個(gè)怪里怪氣的名詞,感覺
  • NFT高玩必備:NFT分析工具大盤點(diǎn)

    NFT市場(chǎng)的火熱讓越來越多的投資者投身其中,但當(dāng)前的 NFT 生態(tài)系統(tǒng)存在幾個(gè)問題卻困擾了大多數(shù)人,如難以準(zhǔn)確評(píng)估 NFT 項(xiàng)目的資產(chǎn)價(jià)格、缺乏 NFT 市場(chǎng)動(dòng)態(tài)信息、
  • 多位全國(guó)政協(xié)委員提交元宇宙提案,國(guó)金證券稱元宇宙仍處初期投資階段

    財(cái)聯(lián)社|區(qū)塊鏈日?qǐng)?bào)2日訊 今日《元宇宙新鮮事》有:全國(guó)政協(xié)委員劉偉建議出臺(tái)“元宇宙中國(guó)”的頂層設(shè)計(jì)方案;國(guó)金證券稱元宇宙仍處初期投資龐大獲利不易階段;阿聯(lián)酋
  • PayPal CEO 的加密語錄:加密貨幣將重新定義金融世界

    PayPal 近年來一直是加密行業(yè)的倡導(dǎo)者。這個(gè)本身擁有超過 3.5 億名活躍用戶的支付巨頭,已經(jīng)允許美國(guó)和英國(guó)的用戶交易或持有比特幣(BTC)、以太坊(ETH)、比特現(xiàn)金(BCH
Top 主站蜘蛛池模板: 临洮县| 秦安县| 和顺县| 曲麻莱县| 三明市| 安徽省| 江门市| 怀化市| 屯门区| 达州市| 增城市| 轮台县| 兰州市| 舞钢市| 定西市| 晋江市| 屯留县| 津市市| 凌源市| 哈尔滨市| 桃园县| 普安县| 崇义县| 科技| 边坝县| 锦州市| 维西| 平阴县| 巴马| 武义县| 长岛县| 乐都县| 沽源县| 衡水市| 中山市| 高密市| 湖口县| 呼玛县| 永平县| 凉城县| 西安市|