日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 科技  > 網(wǎng)絡(luò)

GPT-4不會圖形推理嗎 “放水”后準(zhǔn)確率依然只有33%

來源: 責(zé)編: 時間:2023-11-21 17:12:39 273觀看
導(dǎo)讀 GPT-4的圖形推理能力,竟然連人類的一半都不到?美國圣塔菲研究所的一項研究顯示,GPT-4做圖形推理題的準(zhǔn)確率僅有33%。而具有多模態(tài)能力的GPT-4v表現(xiàn)更糟糕,只能做對25%的題目。△虛線表示16項任務(wù)的平均表現(xiàn)這項

GPT-4的圖形推理能力,竟然連人類的一半都不到?W4j28資訊網(wǎng)——每日最新資訊28at.com

美國圣塔菲研究所的一項研究顯示,GPT-4做圖形推理題的準(zhǔn)確率僅有33%。W4j28資訊網(wǎng)——每日最新資訊28at.com

而具有多模態(tài)能力的GPT-4v表現(xiàn)更糟糕,只能做對25%的題目。W4j28資訊網(wǎng)——每日最新資訊28at.com

GPT-4不會圖形推理嗎 “放水”后準(zhǔn)確率依然只有33%W4j28資訊網(wǎng)——每日最新資訊28at.com

△虛線表示16項任務(wù)的平均表現(xiàn)W4j28資訊網(wǎng)——每日最新資訊28at.com

這項實(shí)驗(yàn)結(jié)果發(fā)表后,迅速在YC上引發(fā)了廣泛熱議。W4j28資訊網(wǎng)——每日最新資訊28at.com

贊同這項結(jié)果的網(wǎng)友表示,GPT確實(shí)不擅長抽象圖形處理,“位置”“旋轉(zhuǎn)”等概念理解起來更加困難。W4j28資訊網(wǎng)——每日最新資訊28at.com

GPT-4不會圖形推理嗎 “放水”后準(zhǔn)確率依然只有33%W4j28資訊網(wǎng)——每日最新資訊28at.com

但另一邊,不少網(wǎng)友對這個結(jié)論也有所質(zhì)疑,簡單說就是:W4j28資訊網(wǎng)——每日最新資訊28at.com

不能說是錯的,但說完全正確也無法讓人信服。W4j28資訊網(wǎng)——每日最新資訊28at.com

GPT-4不會圖形推理嗎 “放水”后準(zhǔn)確率依然只有33%W4j28資訊網(wǎng)——每日最新資訊28at.com

至于具體的原因,我們繼續(xù)往下看。W4j28資訊網(wǎng)——每日最新資訊28at.com

GPT-4準(zhǔn)確率僅33%W4j28資訊網(wǎng)——每日最新資訊28at.com

為了評估人類和GPT-4在這些圖形題上的表現(xiàn),研究者使用了自家機(jī)構(gòu)于今年5月推出的ConceptARC數(shù)據(jù)集。W4j28資訊網(wǎng)——每日最新資訊28at.com

ConceptARC中一共包括16個子類的圖形推理題,每類30道,一共480道題目。W4j28資訊網(wǎng)——每日最新資訊28at.com

GPT-4不會圖形推理嗎 “放水”后準(zhǔn)確率依然只有33%W4j28資訊網(wǎng)——每日最新資訊28at.com

這16個子類涵蓋了位置關(guān)系、形狀、操作、比較等多個方面的內(nèi)容。W4j28資訊網(wǎng)——每日最新資訊28at.com

具體而言,這些題目都是由一個個像素塊組成的,人類和GPT需要根據(jù)給定的示例尋找出規(guī)律,分析出圖像經(jīng)過相同方式處理后的結(jié)果。W4j28資訊網(wǎng)——每日最新資訊28at.com

作者在論文中具體展示了這16個子類的例題,每類各一道。W4j28資訊網(wǎng)——每日最新資訊28at.com

GPT-4不會圖形推理嗎 “放水”后準(zhǔn)確率依然只有33%W4j28資訊網(wǎng)——每日最新資訊28at.com

GPT-4不會圖形推理嗎 “放水”后準(zhǔn)確率依然只有33%W4j28資訊網(wǎng)——每日最新資訊28at.com

GPT-4不會圖形推理嗎 “放水”后準(zhǔn)確率依然只有33%W4j28資訊網(wǎng)——每日最新資訊28at.com

結(jié)果451名人類受試者平均正確率,在各子項中均不低于83%,16項任務(wù)再做平均,則達(dá)到了91%。W4j28資訊網(wǎng)——每日最新資訊28at.com

而GPT-4(單樣本)在“放水”到一道題可以試三次(有一次對就算對)的情況下,準(zhǔn)確率高不超過60%,平均值只有33%。W4j28資訊網(wǎng)——每日最新資訊28at.com

GPT-4不會圖形推理嗎 “放水”后準(zhǔn)確率依然只有33%W4j28資訊網(wǎng)——每日最新資訊28at.com

早些時候,這項實(shí)驗(yàn)涉及的ConceptARC Benchmark的作者也做過類似的實(shí)驗(yàn),不過在GPT-4中進(jìn)行的是零樣本測試,結(jié)果16項任務(wù)的平均準(zhǔn)確率只有19%。W4j28資訊網(wǎng)——每日最新資訊28at.com

GPT-4不會圖形推理嗎 “放水”后準(zhǔn)確率依然只有33%W4j28資訊網(wǎng)——每日最新資訊28at.com

而多模態(tài)的GPT-4v,準(zhǔn)確率反而更低,在一個48道題組成的小規(guī)模ConceptARC數(shù)據(jù)集中,零樣本和單樣本測試的準(zhǔn)確率分別只有25%和23%W4j28資訊網(wǎng)——每日最新資訊28at.com

GPT-4不會圖形推理嗎 “放水”后準(zhǔn)確率依然只有33%W4j28資訊網(wǎng)——每日最新資訊28at.com

而研究者在進(jìn)一步分析了錯誤答案后,發(fā)現(xiàn)人類的有些錯誤看上去很可能是“粗心導(dǎo)致”,而GPT則是完全沒有理解題目中的規(guī)律。W4j28資訊網(wǎng)——每日最新資訊28at.com

GPT-4不會圖形推理嗎 “放水”后準(zhǔn)確率依然只有33%W4j28資訊網(wǎng)——每日最新資訊28at.com

針對這些數(shù)據(jù),網(wǎng)友們普遍沒什么疑問,但讓這個實(shí)驗(yàn)備受質(zhì)疑的,是招募到的受試人群和給GPT的輸入方式。W4j28資訊網(wǎng)——每日最新資訊28at.com

受試者選擇方式遭質(zhì)疑W4j28資訊網(wǎng)——每日最新資訊28at.com

一開始,研究者在亞馬遜的一個眾包平臺上招募受試者。W4j28資訊網(wǎng)——每日最新資訊28at.com

研究者從數(shù)據(jù)集中抽取了一些簡單題目作為入門測試,受試者需要答對隨機(jī)3道題目中的至少兩道才能進(jìn)入正式測試。W4j28資訊網(wǎng)——每日最新資訊28at.com

結(jié)果研究人員發(fā)現(xiàn),入門測試的結(jié)果顯示,有人只是想拿錢,但根本不按要求做題。W4j28資訊網(wǎng)——每日最新資訊28at.com

迫不得已,研究者將參加測試的門檻上調(diào)到了在平臺上完成過不少于2000個任務(wù),且通過率要達(dá)到99%。W4j28資訊網(wǎng)——每日最新資訊28at.com

不過,雖然作者用通過率篩人,但是在具體能力上,除了需要受試者會英語,對圖形等其他專業(yè)能力“沒有特殊要求”。W4j28資訊網(wǎng)——每日最新資訊28at.com

而為了數(shù)據(jù)的多樣化,研究者在實(shí)驗(yàn)后期又將招募工作轉(zhuǎn)到了另一個眾包平臺,終 一共有415名受試者參與了實(shí)驗(yàn)。W4j28資訊網(wǎng)——每日最新資訊28at.com

盡管如此,還是有人質(zhì)疑實(shí)驗(yàn)中的樣本“不夠隨機(jī)”。W4j28資訊網(wǎng)——每日最新資訊28at.com

GPT-4不會圖形推理嗎 “放水”后準(zhǔn)確率依然只有33%W4j28資訊網(wǎng)——每日最新資訊28at.com

還有網(wǎng)友指出,研究者用來招募受試者的亞馬遜眾包平臺上,有大模型在冒充人類。W4j28資訊網(wǎng)——每日最新資訊28at.com

GPT-4不會圖形推理嗎 “放水”后準(zhǔn)確率依然只有33%W4j28資訊網(wǎng)——每日最新資訊28at.com

再來看GPT這邊的操作,多模態(tài)版本比較簡單,直接傳圖然后用這樣的提示詞就可以了:W4j28資訊網(wǎng)——每日最新資訊28at.com

GPT-4不會圖形推理嗎 “放水”后準(zhǔn)確率依然只有33%W4j28資訊網(wǎng)——每日最新資訊28at.com

零樣本測試中,則只要去掉相應(yīng)的EXAMPLE部分。W4j28資訊網(wǎng)——每日最新資訊28at.com

但對于不帶多模態(tài)的純文本版GPT-4(0613),則需要把圖像轉(zhuǎn)化為格點(diǎn),用數(shù)字來代替顏色。W4j28資訊網(wǎng)——每日最新資訊28at.com

GPT-4不會圖形推理嗎 “放水”后準(zhǔn)確率依然只有33%W4j28資訊網(wǎng)——每日最新資訊28at.com

針對這種操作,就有人表示不認(rèn)同了:W4j28資訊網(wǎng)——每日最新資訊28at.com

把圖像轉(zhuǎn)換成數(shù)字矩陣后,概念完全變了,就算是人類,看著用數(shù)字表示的“圖形”,可能也無法理解W4j28資訊網(wǎng)——每日最新資訊28at.com

GPT-4不會圖形推理嗎 “放水”后準(zhǔn)確率依然只有33%W4j28資訊網(wǎng)——每日最新資訊28at.com

One More ThingW4j28資訊網(wǎng)——每日最新資訊28at.com

無獨(dú)有偶,斯坦福的華人博士生Joy Hsu也用幾何數(shù)據(jù)集測試了GPT-4v對圖形的理解能力。W4j28資訊網(wǎng)——每日最新資訊28at.com

這個數(shù)據(jù)集發(fā)表于去年,目的是測試大模型對歐氏幾何的理解,GPT-4v開放后,Hsu又用這套數(shù)據(jù)集給它測試了一遍。W4j28資訊網(wǎng)——每日最新資訊28at.com

結(jié)果發(fā)現(xiàn),GPT-4v對圖形的理解方式,似乎“和人類完全不同”。W4j28資訊網(wǎng)——每日最新資訊28at.com

GPT-4不會圖形推理嗎 “放水”后準(zhǔn)確率依然只有33%W4j28資訊網(wǎng)——每日最新資訊28at.com

數(shù)據(jù)上,GPT-4v對這些幾何問題的回答也明顯不如人類。W4j28資訊網(wǎng)——每日最新資訊28at.com

GPT-4不會圖形推理嗎 “放水”后準(zhǔn)確率依然只有33%W4j28資訊網(wǎng)——每日最新資訊28at.com

GPT-4不會圖形推理嗎 “放水”后準(zhǔn)確率依然只有33%W4j28資訊網(wǎng)——每日最新資訊28at.com


文章出處:量子位

本文鏈接:http://www.www897cc.com/showinfo-17-32409-0.htmlGPT-4不會圖形推理嗎 “放水”后準(zhǔn)確率依然只有33%

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 公告稱不會跑路的“電視家”App:公眾號已改名 背后公司經(jīng)營異常

下一篇: Sam Altman肯定去微軟嗎 OpenAI會去哪

標(biāo)簽:
  • 熱門焦點(diǎn)
  • K60至尊版剛預(yù)熱 一加Ace2 Pro正面硬剛

    Redmi這邊剛?cè)缁鹑巛钡男麄髁薑60 Ultra的各種技術(shù)和硬件配置,作為競品的一加也坐不住了。一加中國區(qū)總裁李杰發(fā)布了兩條微博,表示在自家的一加Ace2上早就已經(jīng)采用了和PixelWo
  • Flowable工作流引擎的科普與實(shí)踐

    一.引言當(dāng)我們在日常工作和業(yè)務(wù)中需要進(jìn)行各種審批流程時,可能會面臨一系列技術(shù)和業(yè)務(wù)上的挑戰(zhàn)。手動處理這些審批流程可能會導(dǎo)致開發(fā)成本的增加以及業(yè)務(wù)復(fù)雜度的上升。在這
  • 三言兩語說透柯里化和反柯里化

    JavaScript中的柯里化(Currying)和反柯里化(Uncurrying)是兩種很有用的技術(shù),可以幫助我們寫出更加優(yōu)雅、泛用的函數(shù)。本文將首先介紹柯里化和反柯里化的概念、實(shí)現(xiàn)原理和應(yīng)用
  • 一篇文章帶你了解 CSS 屬性選擇器

    屬性選擇器對帶有指定屬性的 HTML 元素設(shè)置樣式。可以為擁有指定屬性的 HTML 元素設(shè)置樣式,而不僅限于 class 和 id 屬性。一、了解屬性選擇器CSS屬性選擇器提供了一種簡單而
  • 一個注解實(shí)現(xiàn)接口冪等,這樣才優(yōu)雅!

    場景碼猿慢病云管理系統(tǒng)中其實(shí)高并發(fā)的場景不是很多,沒有必要每個接口都去考慮并發(fā)高的場景,比如添加住院患者的這個接口,具體的業(yè)務(wù)代碼就不貼了,業(yè)務(wù)偽代碼如下:圖片上述代碼有
  • 簽約井川里予、何丹彤,單視頻點(diǎn)贊近千萬,MCN黑馬永恒文希快速崛起!

    來源:視聽觀察永恒文希傳媒作為一家MCN公司,說起它的名字來,可能大家會覺得有點(diǎn)兒陌生,但是說出來下面一串的名字之后,或許大家就會感到震驚,原來這么多網(wǎng)紅,都簽約這家公司了。根
  • 認(rèn)真聊聊東方甄選:如何告別低垂的果實(shí)

    來源:山核桃作者:財經(jīng)無忌爆火一年后,俞敏洪和他的東方甄選依舊是頗受外界關(guān)心的“網(wǎng)紅”。7月5日至9日,為期5天的東方甄選“甘肅行”首次在自有App內(nèi)直播,
  • 華為發(fā)布HarmonyOS 4:更好玩、更流暢、更安全

    在8月4日的華為開發(fā)者大會2023(HDC.Together)大會上,HarmonyOS 4正式發(fā)布。自2019年發(fā)布以來,HarmonyOS一直以用戶為中心,經(jīng)歷四年多的發(fā)展HarmonyOS已
  • Windows 11發(fā)布,微軟一改往常對老機(jī)型開放的態(tài)度

    距離 Windows 11 發(fā)布已經(jīng)過去一周,在過去一周里,很多數(shù)碼愛好者圍繞其對 Android 應(yīng)用的支持、對老機(jī)型的升級問題展開了激烈討論。與以往不同的是,在這次大
Top 主站蜘蛛池模板: 射洪县| 都昌县| 沅陵县| 金沙县| 太康县| 大关县| 湘潭县| 汉沽区| 景德镇市| 彰化县| 五台县| 石柱| 长春市| 墨竹工卡县| 安龙县| 恩平市| 阳城县| 山阳县| 旺苍县| 柏乡县| 商南县| 新营市| 金川县| 正定县| 通河县| 乐清市| 南召县| 虞城县| 东山县| 武乡县| 咸阳市| 屏南县| 开封市| 南靖县| 梅州市| 西乌| 中西区| 新野县| 醴陵市| 蒙自县| 土默特右旗|