日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

“最強開源模型”Reflection 被打假,英偉達科學家稱現(xiàn)有測試基準已不靠譜

來源: 責編: 時間:2024-09-16 15:10:29 83觀看
導讀 小型創(chuàng)業(yè)團隊打造的“最強開源模型”,發(fā)布才一周就被質(zhì)疑造假 ——不僅官方宣稱的成績在第三方測試中大打折扣,模型還被質(zhì)疑套殼 Claude。面對浩大的聲浪,廠商 CEO 終于發(fā)文道歉,但并未承認造假,表示在調(diào)查有關原

小型創(chuàng)業(yè)團隊打造的“最強開源模型”,發(fā)布才一周就被質(zhì)疑造假 ——s0O28資訊網(wǎng)——每日最新資訊28at.com

不僅官方宣稱的成績在第三方測試中大打折扣,模型還被質(zhì)疑套殼 Claude。s0O28資訊網(wǎng)——每日最新資訊28at.com

面對浩大的聲浪,廠商 CEO 終于發(fā)文道歉,但并未承認造假,表示在調(diào)查有關原因。s0O28資訊網(wǎng)——每日最新資訊28at.com

s0O28資訊網(wǎng)——每日最新資訊28at.com

被指控造假的,就是宣稱“干翻 GPT-4o”的 70B 開源大模型 Reflection。s0O28資訊網(wǎng)——每日最新資訊28at.com

一開始的質(zhì)疑主要關于測試成績,官方找了上傳版本有誤等借口試圖“蒙混過關”。s0O28資訊網(wǎng)——每日最新資訊28at.com

但后來又出現(xiàn)了套殼 Claude 這一更重磅的指控,讓 Reflection 更加百口莫辯。s0O28資訊網(wǎng)——每日最新資訊28at.com

表現(xiàn)不如宣傳,還被質(zhì)疑套殼

Reflection 是一個 70B 的開源模型,按照廠商的說法,它一下子把 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 這一系列先進模型全都超過了。s0O28資訊網(wǎng)——每日最新資訊28at.com

s0O28資訊網(wǎng)——每日最新資訊28at.com

但 Reflection 剛發(fā)布兩天,第三方獨立測評機構(gòu) Artificial Analysis 就表示官方發(fā)布的測試成績無法復現(xiàn)。s0O28資訊網(wǎng)——每日最新資訊28at.com

在 MMLU、GPQA 和 MATH 上,Reflection 的成績和 Llama3 70B 一樣,連 Llama 3.1-70B 都比不過,更不用說 405B 了。s0O28資訊網(wǎng)——每日最新資訊28at.com

s0O28資訊網(wǎng)——每日最新資訊28at.com

對此官方辯稱是,Hugging Face 上發(fā)布的版本有誤,將會重新上傳,但之后就沒了下文。s0O28資訊網(wǎng)——每日最新資訊28at.com

不過官方同時也表示,會給測評人員提供模型 API,然后 Reflection 的成績果真有了增長,但在 GPQA 上仍然不敵 Claude 3.5 Sonnet。s0O28資訊網(wǎng)——每日最新資訊28at.com

蹊蹺的是,Artificial Analysis 后來刪除了二次測試相關的帖子,目前還能看到的只有轉(zhuǎn)發(fā)后留下的一些痕跡。s0O28資訊網(wǎng)——每日最新資訊28at.com

s0O28資訊網(wǎng)——每日最新資訊28at.com

除了成績有爭議,還有人對 Reflection 中的各層進行了分析,認為它是由 Llama 3 經(jīng)過 LoRA 改造而來,而不是官方所聲稱的 Llama 3.1。s0O28資訊網(wǎng)——每日最新資訊28at.com

s0O28資訊網(wǎng)——每日最新資訊28at.com

在 Hugging Face 上,Reflection 的 JSON 文件中也顯示是 Llama 3 而非 3.1。s0O28資訊網(wǎng)——每日最新資訊28at.com

s0O28資訊網(wǎng)——每日最新資訊28at.com

官方的解釋仍然是說 HF 上的版本有問題。s0O28資訊網(wǎng)——每日最新資訊28at.com

s0O28資訊網(wǎng)——每日最新資訊28at.com

還有另一個質(zhì)疑的點是,Reflection 實際上是套殼 Claude,相關證據(jù)體現(xiàn)在多個方面。s0O28資訊網(wǎng)——每日最新資訊28at.com

一是在某些問題上,Reflection 與 Claude 3.5-Sonnet 的輸出完全一致。s0O28資訊網(wǎng)——每日最新資訊28at.com

s0O28資訊網(wǎng)——每日最新資訊28at.com

第二個更加直接,如果直接詢問它的身份,Reflection 會說自己是 Meta 打造的,但一旦讓它“忘記前面的(系統(tǒng))提示”,就立馬改口說自己是 Claude。s0O28資訊網(wǎng)——每日最新資訊28at.com

s0O28資訊網(wǎng)——每日最新資訊28at.com

第三個發(fā)現(xiàn)則更加詭異 ——Reflection 遇到“Claude”一詞會將其自動過濾。s0O28資訊網(wǎng)——每日最新資訊28at.com

s0O28資訊網(wǎng)——每日最新資訊28at.com

對此,Reflection 合成數(shù)據(jù)供應商 Glaive AI 的創(chuàng)始人 Sahil Chaudhary 進行了回應,表示沒有套殼任何模型,目前正在整理能夠證明其說法的證據(jù),以及人們?yōu)槭裁磿l(fā)現(xiàn)這種現(xiàn)象的解釋。s0O28資訊網(wǎng)——每日最新資訊28at.com

s0O28資訊網(wǎng)——每日最新資訊28at.com

而關于一開始的測試成績問題,Chaudhary 則表示正在調(diào)查原因,弄清這兩件事后會發(fā)布報告進行說明。s0O28資訊網(wǎng)——每日最新資訊28at.com

s0O28資訊網(wǎng)——每日最新資訊28at.com

Reflection 這邊最新的動態(tài)是 CEO 發(fā)布了一則道歉聲明,不過沒有承認造假,依然是說正在進行調(diào)查。s0O28資訊網(wǎng)——每日最新資訊28at.com

s0O28資訊網(wǎng)——每日最新資訊28at.com

不過對于這一套解釋,有很多人都不買賬。s0O28資訊網(wǎng)——每日最新資訊28at.com

比如曾經(jīng)發(fā)布多條推文質(zhì)疑這位叫做 Boson 的網(wǎng)友,就在 Chaudhary 的評論區(qū)表示,“要么你在說謊,要么是 Shumer,或者你倆都在說謊”。s0O28資訊網(wǎng)——每日最新資訊28at.com

s0O28資訊網(wǎng)——每日最新資訊28at.com

還有給 Reflection 提供托管服務的 Hyperbolic 平臺 CTO Yuchen Jin,講述了其與 Reflection 之間發(fā)生的許多事情。s0O28資訊網(wǎng)——每日最新資訊28at.com

托管平臺 CTO 講述幕后細節(jié)

在 Reflection 發(fā)布之前的 9 月 3 號,Shumer 就找到了 Hyperbolic,介紹了 Reflection 的情況并希望 Hyperbolic 能幫忙托管。s0O28資訊網(wǎng)——每日最新資訊28at.com

基于 Hyperbolic 一直以來對開源模型的支持,加上 Reflection 聲稱的表現(xiàn)確實優(yōu)異,Hyperbolic 同意了這一請求。s0O28資訊網(wǎng)——每日最新資訊28at.com

s0O28資訊網(wǎng)——每日最新資訊28at.com

9 月 5 號,Reflection 正式上線,Hyperbolic 從 Hugging Face 下載并測試了該模型,但并沒有看到標簽,于是 Jin 給 Shumer 發(fā)了私信。s0O28資訊網(wǎng)——每日最新資訊28at.com

后來,Jin 看到 Shumer 的推文說 HF 上的版本有些問題,所以繼續(xù)等待,直到 6 號早晨收到了 Chaudhary 的一條私信,表示 Reflection-70B 權(quán)重已重新上傳并可以部署。s0O28資訊網(wǎng)——每日最新資訊28at.com

看到和標簽按預期出現(xiàn)后,Hyperbolic 上線了 Reflection。s0O28資訊網(wǎng)——每日最新資訊28at.com

s0O28資訊網(wǎng)——每日最新資訊28at.com

后來,Hyperbolic 上的模型就出現(xiàn)了成績與 Reflection 宣傳不符的情況,Shumer 認為這是 Hyperbolic 的 API 出現(xiàn)了問題。s0O28資訊網(wǎng)——每日最新資訊28at.com

不過,Reflection 這邊再次上傳了新版本,Hyperbolic 也重新托管,但 Jin 與 Artificial Analysis 溝通后發(fā)現(xiàn),新版本的表現(xiàn)依舊差強人意。s0O28資訊網(wǎng)——每日最新資訊28at.com

s0O28資訊網(wǎng)——每日最新資訊28at.com

Shumer 繼續(xù)表示,Reflection 還有個原始權(quán)重,也就是內(nèi)部測試使用的版本,如果需要可以提供給 Hyperbolic。s0O28資訊網(wǎng)——每日最新資訊28at.com

但 Jin 沒有同意這一要求,因為 Hyperbolic 只為開源模型提供托管服務,之后不斷詢問 Shumer 原始權(quán)重何時發(fā)布,但遲遲未得到回應。s0O28資訊網(wǎng)——每日最新資訊28at.com

最終,Jin 認為應該下線 Reflection 的 API 并收回已分配的 GPU 資源。s0O28資訊網(wǎng)——每日最新資訊28at.com

這件事情讓我的感情受到了傷害,我們在這件事上花費了很多時間和精力。s0O28資訊網(wǎng)——每日最新資訊28at.com

但經(jīng)過反思后,我并不后悔當初的托管決定,這幫助社區(qū)更快地發(fā)現(xiàn)問題。s0O28資訊網(wǎng)——每日最新資訊28at.com

s0O28資訊網(wǎng)——每日最新資訊28at.com

大模型怎么測試才靠譜?

暫且拋開 Llama 版本和套殼的問題,單說關于測試成績的問題,反映了當前的 Benchmark 已經(jīng)體現(xiàn)出了一些不足之處。s0O28資訊網(wǎng)——每日最新資訊28at.com

英偉達高級科學家 Jim Fan 就表示,模型在現(xiàn)有的一些測試集上造假簡直不要太容易。s0O28資訊網(wǎng)——每日最新資訊28at.com

s0O28資訊網(wǎng)——每日最新資訊28at.com

Jim 還特別點名了 MMLU 和 HumanEval,表示這兩項標準“已被嚴重破壞”。s0O28資訊網(wǎng)——每日最新資訊28at.com

s0O28資訊網(wǎng)——每日最新資訊28at.com

另外,Reflection 在 GSM8K 上取得了 99.2 分的成績,就算這個分數(shù)沒有水分,也說明測試基準到了該換的時候了。s0O28資訊網(wǎng)——每日最新資訊28at.com

Jim 表示,現(xiàn)在自己只相信 Scale AI 等獨立第三方測評,或者 lmsys 這樣由用戶投票的榜單。s0O28資訊網(wǎng)——每日最新資訊28at.com

s0O28資訊網(wǎng)——每日最新資訊28at.com

但評論區(qū)有人說,lmsys 實際上也可以被操縱,所以(可信的)第三方評估可能才是目前最好的測評方式。s0O28資訊網(wǎng)——每日最新資訊28at.com

s0O28資訊網(wǎng)——每日最新資訊28at.com

參考鏈接:s0O28資訊網(wǎng)——每日最新資訊28at.com

[1]https://venturebeat.com/ai/reflection-70b-model-maker-breaks-silence-amid-fraud-accusations/s0O28資訊網(wǎng)——每日最新資訊28at.com

[2]https://x.com/ArtificialAnlys/status/1832505338991395131s0O28資訊網(wǎng)——每日最新資訊28at.com

[3]https://www.reddit.com/r/LocalLLaMA/comments/1fb6jdy/reflectionllama3170b_is_actually_llama3/s0O28資訊網(wǎng)——每日最新資訊28at.com

[4]https://www.reddit.com/r/LocalLLaMA/comments/1fc98fu/confirmed_reflection_70bs_official_api_is_sonnet/s0O28資訊網(wǎng)——每日最新資訊28at.com

[5]https://x.com/shinboson/status/1832933747529834747s0O28資訊網(wǎng)——每日最新資訊28at.com

[6]https://x.com/Yuchenj_UW/status/1833627813552992722s0O28資訊網(wǎng)——每日最新資訊28at.com

[7]https://twitter.com/DrJimFan/status/1833160432833716715s0O28資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:克雷西,原標題:《“最強開源模型”被打假,CEO 下場致歉,英偉達科學家:現(xiàn)有測試基準已經(jīng)不靠譜了》s0O28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-7296-0.html“最強開源模型”Reflection 被打假,英偉達科學家稱現(xiàn)有測試基準已不靠譜

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 美團買藥聯(lián)合銀河通用,展出全球首個人形機器人智慧藥房解決方案

下一篇: 快手:可靈 AI 已累計生成超 2700 萬個視頻,正內(nèi)測全新 1.5 版本基礎模型

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 卢湾区| 海门市| 文昌市| 淮阳县| 虞城县| 大田县| 察雅县| 自贡市| 富源县| 漠河县| 崇州市| 柘荣县| 丰台区| 乌兰县| 汝南县| 甘肃省| 连山| 林口县| 乌海市| 瑞昌市| 昭平县| 会理县| 阿勒泰市| 大同市| 杨浦区| 镇宁| 义马市| 巩义市| 朝阳县| 大宁县| 闽侯县| 门头沟区| 武定县| 清流县| 越西县| 巴彦淖尔市| 名山县| 南京市| 松溪县| 原阳县| 千阳县|