當前位置：首頁 > 元宇宙 > AI

谷歌 Gemini 大逆轉？斯坦福 Meta 華人證明其推理性能強于 GPT-3.5

來源：責編：時間：2024-01-08 09:13:36 310觀看

導讀新智元報道編輯：編輯部【新智元導讀】谷歌放出的 Gemini，在對標 GPT 的道路上似乎一直處于劣勢，Gemini 真的比 GPT-4 弱嗎？最近，斯坦福和 Meta 的學者發文為 Gemini 正名。Gemini 的推理能力，真的比 GPT-4 弱嗎？此前

新智元報道

編輯：編輯部

【新智元導讀】谷歌放出的 Gemini，在對標 GPT 的道路上似乎一直處于劣勢，Gemini 真的比 GPT-4 弱嗎？最近，斯坦福和 Meta 的學者發文為 Gemini 正名。

Gemini 的推理能力，真的比 GPT-4 弱嗎？

此前，谷歌憋出的重磅復仇神器 Gemini Pro，被發現在常識推理任務中落后于 OpenAI 的 GPT 模型。

之后又有 CMU 發布的論文和實驗，證明 Gemini Pro 的很多能力都略微落后于 GPT-3.5 Turbo。

不過最近，斯坦福和 Meta 的學者為 Gemini 洗清了這一「冤屈」。

他們發現，這種基于有限數據集（HellaSWAG）的評估，并不能完全捕捉到 Gemini 真正的常識推理潛力。

論文地址：https://arxiv.org/ abs / 2312.17661

而在新測試集中，Gemini 的推理能力比之前強很多！

Gemini 的真正潛力

斯坦福和 Meta 的研究人員表示，以前的基于有限數據集的評估，對于 Gemini 不夠公平。

這次，研究人員設計了需要跨模態整合常識知識的任務，以對 Gemini 在復雜推理任務中的表現進行徹底的評估。

研究人員對 12 個常識推理數據集進行了全面分析，從一般任務到特定領域的任務。

在其中的 4 個 LLM 實驗和 2 個 MLLM 實驗中，研究者證明了 Gemini 具有目前相當強的常識推理能力。

研究者對于當前流行的四大模型 ——Llama 2-70b、Gemini Pro、GPT-3.5 Turbo 和 GPT-4 Turbo 進行了評估，

他們發現，總體而言，Gemini Pro 的性能和 GPT-3.5 Pro 相當，準確性上落后于 GPT-4 Turbo。

實驗

數據集

實驗中采用了 12 個與不同類型的常識推理相關的數據集，包括 11 個基于語言的數據集和一個多模態數據集。

基于語言的數據集包括三大類常識推理問題：

1.一般推理和情境推理：CommonsenseQA，側重于一般常識知識；Cosmos QA，強調語境理解敘事；αNLI，引入演繹推理，包括推斷最合理的解釋；HellaSWAG，以上下文事件序列的推理為中心。

2.專業推理和知識推理：TRAM，測試關于時間的推理；NumerSense，側重于數值理解；PIQA，評估物理相互作用知識；QASC，處理與科學相關的推理；RiddleSense，通過謎語挑戰創造性思維。

3.社會和道德推理：Social IQa，測試對社會互動的理解；ETHICS，評估道德和倫理推理。

對于多模態數據集（視覺和語言），這里選擇 VCR，一個用于認知水平視覺理解的大規模數據集。

對于包含多個任務的 TRAM 和 ETHICS 等數據集，研究人員提取了實驗的常識推理部分。

實驗中采用準確性作為所有數據集的性能指標。下表給出了數據集的概述以及示例問題。

模型

采用最流行的四個大模型：開源的 Llama-2-70b-chat 和閉源的 Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo。

每個模型都使用相應的 API 密鑰進行訪問：通過 Google Vertex AI 訪問 Gemini，通過 OpenAI API 訪問 GPT，通過 DeepInfra 訪問 Llama2。

對于多模態數據集，實驗中考慮了 GPT-4V（API 中的 gpt-4-vision-preview）和 Gemini Pro Vision（API 中的 gemini-pro-vision）。

考慮到 API 成本和速率的限制，研究人員從每個基于語言的數據集的驗證集中隨機選擇了 200 個示例，從 VCR 數據集的驗證集中隨機選擇了 50 個示例。

對于所有評估，在模型響應生成期間采用貪婪解碼（即溫度 = 0）。

提示

在評估基于語言的數據集時，研究人員采用了兩種提示設置：零樣本標準提示（SP），旨在衡量模型在語言環境中的固有常識能力，以及少樣本思維鏈（CoT）提示，用于觀察模型性能的潛在增強。

對于多模態數據集，利用零樣本標準提示，來評估 MLLM 的端到端視覺常識推理能力。

結果

整體的性能比較結果如下表所示：

從模型的角度來看，GPT-4 Turbo 的平均表現最好。在零樣本學習中，它比第二名的 Gemini Pro 高出 7.3%，在少樣本學習中優勢更大（9.0%）。

而 Gemini Pro 的平均準確率略高于 GPT-3.5 Turbo（0-shot，SP 下高 1.3%，k-shot，CoT 下高 1.5%）。

關于提示方法，CoT 提高了所有數據集的性能，在 CommonsenseQA、TRAM 和 Social IQa 等數據集中有明顯的收益。

下表是在多模態 VCR 數據集上的性能比較：

VCR 的三個子任務分別為：Q → A，根據視覺上下文生成問題的答案；QA → R，要求模型為給定的答案提供基本原理；Q → AR，既要回答問題，又要用適當的理由來證明回答的合理性。

將 11 個基于語言的數據集分為三組，在圖 1 中展示了每組中每種設置的性能。

研究結果表明，GPT-4 Turbo 在所有類別的性能方面始終領先。

Gemini Pro 和 GPT-3.5 Turbo 的性能相當；不過，Gemini Pro 在三個類別中的兩個類別中，略勝于 GPT-3.5 Turbo。

總體而言，所有模型在處理社會和道德推理數據集方面，都表現出強大的能力。

然而，它們在一般推理和語境推理任務上的表現，存在顯著差異。

這也表明，它們對更廣泛的常識原則，及其在不同背景下的應用理解，存在潛在差距。

而在專業和知識推理類別，特別是在時間和基于謎語的挑戰領域，模型在處理復雜時間序列、破譯謎語所需的抽象和創造性思維能力上，都表現出了缺陷。

關于多模態數據集，圖 2 詳細介紹了 GPT-4V 和 GeminiPro Vision 在不同問題類型上的性能比較。

我們可以看到，在最后一個關于時間類別的問題上，GeminiPro Vision 實現了反超。

MLLM 的推理正當性

為了評估 MLLM 的推理能力，尤其是不僅提供正確答案，還能就常識問題提供合理且基于上下文推理的能力，研究者采用了系統抽樣方法。

對于評估四個 LLM 的 11 個基于語言的數據集，研究者隨機選擇了 30 個回答正確的問題，和 30 個回答錯誤的問題。

如果數據集提供的錯誤答案少于 30 個，研究者就會包含進所有可用的錯誤答案，以確保分析的全面性。

選擇這些問題后，他們會讓每個模型解釋：「問題答案背后的基本原理是什么?」然后手動檢查模型提供的推理過程，并根據其邏輯合理性和與問題的相關性被判為 True 或 False。

圖 3 顯示，GPT-4 Turbo 在正確和錯誤的答案上，都顯示出先進的推理機制，即使最終答案不準確，它也有保持邏輯連貫的能力。

另外，Gemini Pro 也表現出了值得稱贊的推理能力，提供了全面的常識推理方法。

下圖展示了 Gemini Pro 和 GPT-3.5 的兩個真實示例，展現了正確答案和正確理由，以及錯誤答案和錯誤理由的情況。

示例問題來自 QASC 數據集，紅色粗體為正確答案。在上圖中，Gemini Pro 表現出有條不紊的推理，仔細考慮所有選項以得出最合乎邏輯的結論。

相反，由于 GPT-3.5 Turbo 對非常規邏輯的傾向，導致了富有想象力但不正確的答案。

這表明不同模型應對常識推理任務的不同策略，有自己的獨特能力和局限性。

Gemini Pro 的常識推理能力一般常識（CommonsenseQA)

在使用 CommonsenseQA 數據集的一般常識評估中，有這樣一道示例問題：「當你是陌生人時，人們會怎樣?」

A.火車 B.奇怪 C.人類 D.愚蠢 E.危險

Gemini Pro 選擇了 B。

它的推理過程也值得注意：它認識到，雖然所有選項都和「陌生人」的概念相關，但只有「奇怪」準確概括了問題的中立和開放性本質。

這個選擇，凸顯出了 Gemini Pro 解釋和應用一般常識知識的能力。

時間（TRAM）

TRAM 數據集的時間常識評估中的示例問題：「他還承諾會來找他。」

他需要多長時間才能「來到他身邊」？

A.100 年 B.一分鐘內 C.幾個小時

由于缺乏足夠的背景信息，特別是關于所涉及的身份和「來到」的含義，Gemini Pro 無法提供明確的答案。

這說明了，模型需要依賴特定的上下文信息，來做出準確的時間判斷。

在現實世界的信息傳播中，模糊或不完整的信息，也會造成這種局限性。

社交 (Social IQa)

在使用 Social IQa 數據集評估 GeminiPro 在社會常識推理方面的表現時，出現了一個有趣的場景: 人們一直欺負在 Sasha，Sasha 報復了回去，接下來人們會做什么？

A.按 Sasha 說的去做 B.報仇 C.逃離 Sasha

正確答案是 C，但 Gemini Pro 的選擇卻顯得很有洞察力。

它選擇了 B，理由是 Sasha 的行動很可能點燃了人們復仇的欲望。

這一回應表明，Gemini Pro 對于社會動態和情感動機有了細致入微的理解。

Visual（VCR）

在 VCR 數據集中，研究者分析了 Gemini Pro Vision 對涉及人身安全和潛在危險場景的響應。

如果此時 4 號推了 3 號，會發生什么？

Gemini Pro Vision 回答：3 號會掉下懸崖，危及生命。

這個結果表明，Gemini Pro Vision 已經能夠做出視覺常識推理，分析視覺場景并預測這些場景中動作的潛在后果。

這表明模型已經掌握了空間關系和物理后果，具備了類似人類認知的復雜視覺信息能力。

作者介紹

Yuqing Wang 目前是斯坦福大學的博士后研究員。

此前，她在明尼蘇達大學獲得學士學位，在加利福尼亞大學圣芭芭拉分校獲得博士學位。

Yun Zhao 目前是 Meta 的研究員，研究方向是機器學習（包括深度學習與強化學習）的應用、人工智能與數據挖掘。

此前，他在清華大學獲得碩士學位，并且同樣在加利福尼亞大學圣芭芭拉分校獲得博士學位。

參考資料：

https://arxiv.org/abs/2312.17661

本文來自微信公眾號：新智元（ID：AI_era）

本文鏈接：http://www.www897cc.com/showinfo-45-3142-0.html谷歌 Gemini 大逆轉？斯坦福 Meta 華人證明其推理性能強于 GPT-3.5

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：微軟移動端 Edge 瀏覽器名稱變更，加入“AI”字樣

下一篇： “稚暉君”出走華為創業項目新進展：“北大-智元機器人聯合實驗室”成立

標簽：

熱門焦點

韓國主權基金增加對硅谷初創公司投資押注元宇宙和人工智能

韓國投資公司(KIC)CEO Seoungho Jin預計，該公司在舊金山的辦事處今年將擴招人手，探索在硅谷投資科技、健康和綠色項目。規模高達2000億美元的韓國主權財富基金—
網易音樂、理想申請元宇宙商標被駁回，“啫喱”暫停新用戶進入

【《原神》開發商米哈游宣布創立元宇宙品牌】《原神》開發商米哈游宣布推出元宇宙品牌 HoYoverse，旨在通過各種娛樂服務為全球玩家創造并提供沉浸式虛擬世界體
江西將探索成立元宇宙聯盟，韓國將加強對NFT和元宇宙的監管

《元宇宙新鮮事》有：江西將探索成立元宇宙聯盟，支持南昌規劃建設元宇宙試驗區；韓國金融監督局將加強對NFT和元宇宙的監管；任天堂社長表示暫時不打算加入元宇宙。【
百度元宇宙希壤是什么？（附下載）

百度元宇宙希壤是什么，最近很多人關注。還有很多人問希壤怎么下載、百度希壤怎么進入？今天小編帶你來全面了解一下。“希壤”是百度于2021年12月27日于百度AI開
從NFT頂級公鏈到Web3.0基礎設施：帶你了解不一樣的Flow

對于大部分年輕人來說，剛剛過去的春節有一個詞語突然成為了品牌宣傳的流行語，作為從NFT中衍生出來的“數字藏品”一時間獲得了不少品牌青睞，他們紛紛推出自己的數
NFT盜竊案：為什么NFT市場被盜竊和黑客所困擾？

Block-806NFT的增長值得關注。許多人愿意為數字藝術支付數百萬美元，世界正在走向數字化。報告顯示，NFT市場和NFT收藏從2020年的1.06億美元增加到了2021年的442億
以用戶為中心，Web3和區塊鏈如何將用戶放在首位

競爭優勢正在改變競爭優勢是每個企業都在努力爭取的，由谷歌、Facebook和Netflix等大型科技公司主導的市場中，兩大重要類別的競爭優勢十分突出。第一個競爭優勢來
就業年齡歧視如何解決？來Web3看看

上周，我突然想到我的第一份工作實際上是在為一家失敗的航空公司制定破產退出計劃，那年我們的協議實習生剛出生。在一陣恐慌后，我又花了一點時間反思我這個擁有近1
超級賬本Julian Gordon：聯盟鏈與公鏈的競爭不是非此即彼

在2021年《福布斯》區塊鏈50強榜單中，29家企業使用Hyperledger超級賬本技術，占比近60%。同年，研究機構Blockdata發布了的調查報告顯示，訪問Top100上市公司中，有 81

猜你喜歡

SQL Error: select * from ***_ecms_news13 where id in(173,257,163,43,222,) limit 6

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

谷歌 Gemini 大逆轉？斯坦福 Meta 華人證明其推理性能強于 GPT-3.5

韓國主權基金增加對硅谷初創公司投資押注元宇宙和人工智能

網易音樂、理想申請元宇宙商標被駁回，“啫喱”暫停新用戶進入

江西將探索成立元宇宙聯盟，韓國將加強對NFT和元宇宙的監管

百度元宇宙希壤是什么？（附下載）

從NFT頂級公鏈到Web3.0基礎設施：帶你了解不一樣的Flow

NFT盜竊案：為什么NFT市場被盜竊和黑客所困擾？

以用戶為中心，Web3和區塊鏈如何將用戶放在首位

就業年齡歧視如何解決？來Web3看看

超級賬本Julian Gordon：聯盟鏈與公鏈的競爭不是非此即彼

最新推薦

元宇宙的文旅賽道，還能如何發力？

風口已至，多領域平臺融入社交元素！

字節、騰訊、網易鏖戰元宇宙背后，大廠究竟在爭奪什么？

冰墩墩的NFT暴漲千倍？真相則是價格暴跌、成交遇冷

Meta正在研發元宇宙語音助手；廣東省462家企業申請元宇宙商標

小眾有趣NFT藝術作品欣賞（1）

猜你喜歡

熱門推薦

相關資訊