日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

谷歌 Gemini 大逆轉?斯坦福 Meta 華人證明其推理性能強于 GPT-3.5

來源: 責編: 時間:2024-01-08 09:13:36 286觀看
導讀 新智元報道編輯:編輯部【新智元導讀】谷歌放出的 Gemini,在對標 GPT 的道路上似乎一直處于劣勢,Gemini 真的比 GPT-4 弱嗎?最近,斯坦福和 Meta 的學者發文為 Gemini 正名。Gemini 的推理能力,真的比 GPT-4 弱嗎?此前

rej28資訊網——每日最新資訊28at.com

新智元報道rej28資訊網——每日最新資訊28at.com

編輯:編輯部rej28資訊網——每日最新資訊28at.com

【新智元導讀】谷歌放出的 Gemini,在對標 GPT 的道路上似乎一直處于劣勢,Gemini 真的比 GPT-4 弱嗎?最近,斯坦福和 Meta 的學者發文為 Gemini 正名。rej28資訊網——每日最新資訊28at.com

Gemini 的推理能力,真的比 GPT-4 弱嗎?rej28資訊網——每日最新資訊28at.com

此前,谷歌憋出的重磅復仇神器 Gemini Pro,被發現在常識推理任務中落后于 OpenAI 的 GPT 模型。rej28資訊網——每日最新資訊28at.com

之后又有 CMU 發布的論文和實驗,證明 Gemini Pro 的很多能力都略微落后于 GPT-3.5 Turbo。rej28資訊網——每日最新資訊28at.com

不過最近,斯坦福和 Meta 的學者為 Gemini 洗清了這一「冤屈」。rej28資訊網——每日最新資訊28at.com

他們發現,這種基于有限數據集(HellaSWAG)的評估,并不能完全捕捉到 Gemini 真正的常識推理潛力。rej28資訊網——每日最新資訊28at.com

rej28資訊網——每日最新資訊28at.com

論文地址:https://arxiv.org/ abs / 2312.17661

而在新測試集中,Gemini 的推理能力比之前強很多!rej28資訊網——每日最新資訊28at.com

Gemini 的真正潛力

斯坦福和 Meta 的研究人員表示,以前的基于有限數據集的評估,對于 Gemini 不夠公平。rej28資訊網——每日最新資訊28at.com

這次,研究人員設計了需要跨模態整合常識知識的任務,以對 Gemini 在復雜推理任務中的表現進行徹底的評估。rej28資訊網——每日最新資訊28at.com

研究人員對 12 個常識推理數據集進行了全面分析,從一般任務到特定領域的任務。rej28資訊網——每日最新資訊28at.com

在其中的 4 個 LLM 實驗和 2 個 MLLM 實驗中,研究者證明了 Gemini 具有目前相當強的常識推理能力。rej28資訊網——每日最新資訊28at.com

研究者對于當前流行的四大模型 ——Llama 2-70b、Gemini Pro、GPT-3.5 Turbo 和 GPT-4 Turbo 進行了評估,rej28資訊網——每日最新資訊28at.com

他們發現,總體而言,Gemini Pro 的性能和 GPT-3.5 Pro 相當,準確性上落后于 GPT-4 Turbo。rej28資訊網——每日最新資訊28at.com

實驗

數據集rej28資訊網——每日最新資訊28at.com

實驗中采用了 12 個與不同類型的常識推理相關的數據集,包括 11 個基于語言的數據集和一個多模態數據集。rej28資訊網——每日最新資訊28at.com

基于語言的數據集包括三大類常識推理問題:rej28資訊網——每日最新資訊28at.com

1.一般推理和情境推理:CommonsenseQA,側重于一般常識知識;Cosmos QA,強調語境理解敘事;αNLI,引入演繹推理,包括推斷最合理的解釋;HellaSWAG,以上下文事件序列的推理為中心。rej28資訊網——每日最新資訊28at.com

2.專業推理和知識推理:TRAM,測試關于時間的推理;NumerSense,側重于數值理解;PIQA,評估物理相互作用知識;QASC,處理與科學相關的推理;RiddleSense,通過謎語挑戰創造性思維。rej28資訊網——每日最新資訊28at.com

3.社會和道德推理:Social IQa,測試對社會互動的理解;ETHICS,評估道德和倫理推理。rej28資訊網——每日最新資訊28at.com

對于多模態數據集(視覺和語言),這里選擇 VCR,一個用于認知水平視覺理解的大規模數據集。rej28資訊網——每日最新資訊28at.com

對于包含多個任務的 TRAM 和 ETHICS 等數據集,研究人員提取了實驗的常識推理部分。rej28資訊網——每日最新資訊28at.com

實驗中采用準確性作為所有數據集的性能指標。下表給出了數據集的概述以及示例問題。rej28資訊網——每日最新資訊28at.com

rej28資訊網——每日最新資訊28at.com

rej28資訊網——每日最新資訊28at.com

rej28資訊網——每日最新資訊28at.com

rej28資訊網——每日最新資訊28at.com

模型rej28資訊網——每日最新資訊28at.com

采用最流行的四個大模型:開源的 Llama-2-70b-chat 和閉源的 Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo。rej28資訊網——每日最新資訊28at.com

每個模型都使用相應的 API 密鑰進行訪問:通過 Google Vertex AI 訪問 Gemini,通過 OpenAI API 訪問 GPT,通過 DeepInfra 訪問 Llama2。rej28資訊網——每日最新資訊28at.com

對于多模態數據集,實驗中考慮了 GPT-4V(API 中的 gpt-4-vision-preview)和 Gemini Pro Vision(API 中的 gemini-pro-vision)。rej28資訊網——每日最新資訊28at.com

考慮到 API 成本和速率的限制,研究人員從每個基于語言的數據集的驗證集中隨機選擇了 200 個示例,從 VCR 數據集的驗證集中隨機選擇了 50 個示例。rej28資訊網——每日最新資訊28at.com

對于所有評估,在模型響應生成期間采用貪婪解碼(即溫度 = 0)。rej28資訊網——每日最新資訊28at.com

提示rej28資訊網——每日最新資訊28at.com

在評估基于語言的數據集時,研究人員采用了兩種提示設置:零樣本標準提示(SP),旨在衡量模型在語言環境中的固有常識能力,以及少樣本思維鏈(CoT)提示,用于觀察模型性能的潛在增強。rej28資訊網——每日最新資訊28at.com

對于多模態數據集,利用零樣本標準提示,來評估 MLLM 的端到端視覺常識推理能力。rej28資訊網——每日最新資訊28at.com

結果rej28資訊網——每日最新資訊28at.com

整體的性能比較結果如下表所示:rej28資訊網——每日最新資訊28at.com

rej28資訊網——每日最新資訊28at.com

從模型的角度來看,GPT-4 Turbo 的平均表現最好。在零樣本學習中,它比第二名的 Gemini Pro 高出 7.3%,在少樣本學習中優勢更大(9.0%)。rej28資訊網——每日最新資訊28at.com

而 Gemini Pro 的平均準確率略高于 GPT-3.5 Turbo(0-shot,SP 下高 1.3%,k-shot,CoT 下高 1.5%)。rej28資訊網——每日最新資訊28at.com

關于提示方法,CoT 提高了所有數據集的性能,在 CommonsenseQA、TRAM 和 Social IQa 等數據集中有明顯的收益。rej28資訊網——每日最新資訊28at.com

下表是在多模態 VCR 數據集上的性能比較:rej28資訊網——每日最新資訊28at.com

rej28資訊網——每日最新資訊28at.com

VCR 的三個子任務分別為:Q → A,根據視覺上下文生成問題的答案;QA → R,要求模型為給定的答案提供基本原理;Q → AR,既要回答問題,又要用適當的理由來證明回答的合理性。rej28資訊網——每日最新資訊28at.com

將 11 個基于語言的數據集分為三組,在圖 1 中展示了每組中每種設置的性能。rej28資訊網——每日最新資訊28at.com

rej28資訊網——每日最新資訊28at.com

研究結果表明,GPT-4 Turbo 在所有類別的性能方面始終領先。rej28資訊網——每日最新資訊28at.com

Gemini Pro 和 GPT-3.5 Turbo 的性能相當;不過,Gemini Pro 在三個類別中的兩個類別中,略勝于 GPT-3.5 Turbo。rej28資訊網——每日最新資訊28at.com

總體而言,所有模型在處理社會和道德推理數據集方面,都表現出強大的能力。rej28資訊網——每日最新資訊28at.com

然而,它們在一般推理和語境推理任務上的表現,存在顯著差異。rej28資訊網——每日最新資訊28at.com

這也表明,它們對更廣泛的常識原則,及其在不同背景下的應用理解,存在潛在差距。rej28資訊網——每日最新資訊28at.com

而在專業和知識推理類別,特別是在時間和基于謎語的挑戰領域,模型在處理復雜時間序列、破譯謎語所需的抽象和創造性思維能力上,都表現出了缺陷。rej28資訊網——每日最新資訊28at.com

關于多模態數據集,圖 2 詳細介紹了 GPT-4V 和 GeminiPro Vision 在不同問題類型上的性能比較。rej28資訊網——每日最新資訊28at.com

rej28資訊網——每日最新資訊28at.com

我們可以看到,在最后一個關于時間類別的問題上,GeminiPro Vision 實現了反超。rej28資訊網——每日最新資訊28at.com

MLLM 的推理正當性

為了評估 MLLM 的推理能力,尤其是不僅提供正確答案,還能就常識問題提供合理且基于上下文推理的能力,研究者采用了系統抽樣方法。rej28資訊網——每日最新資訊28at.com

對于評估四個 LLM 的 11 個基于語言的數據集,研究者隨機選擇了 30 個回答正確的問題,和 30 個回答錯誤的問題。rej28資訊網——每日最新資訊28at.com

如果數據集提供的錯誤答案少于 30 個,研究者就會包含進所有可用的錯誤答案,以確保分析的全面性。rej28資訊網——每日最新資訊28at.com

選擇這些問題后,他們會讓每個模型解釋:「問題答案背后的基本原理是什么?」 然后手動檢查模型提供的推理過程,并根據其邏輯合理性和與問題的相關性被判為 True 或 False。rej28資訊網——每日最新資訊28at.com

圖 3 顯示,GPT-4 Turbo 在正確和錯誤的答案上,都顯示出先進的推理機制,即使最終答案不準確,它也有保持邏輯連貫的能力。rej28資訊網——每日最新資訊28at.com

另外,Gemini Pro 也表現出了值得稱贊的推理能力,提供了全面的常識推理方法。rej28資訊網——每日最新資訊28at.com

rej28資訊網——每日最新資訊28at.com

下圖展示了 Gemini Pro 和 GPT-3.5 的兩個真實示例,展現了正確答案和正確理由,以及錯誤答案和錯誤理由的情況。rej28資訊網——每日最新資訊28at.com

rej28資訊網——每日最新資訊28at.com

示例問題來自 QASC 數據集,紅色粗體為正確答案。在上圖中,Gemini Pro 表現出有條不紊的推理,仔細考慮所有選項以得出最合乎邏輯的結論。rej28資訊網——每日最新資訊28at.com

rej28資訊網——每日最新資訊28at.com

相反,由于 GPT-3.5 Turbo 對非常規邏輯的傾向,導致了富有想象力但不正確的答案。rej28資訊網——每日最新資訊28at.com

這表明不同模型應對常識推理任務的不同策略,有自己的獨特能力和局限性。rej28資訊網——每日最新資訊28at.com

Gemini Pro 的常識推理能力一般常識(CommonsenseQA)

在使用 CommonsenseQA 數據集的一般常識評估中,有這樣一道示例問題:「當你是陌生人時,人們會怎樣?」rej28資訊網——每日最新資訊28at.com

A.火車 B.奇怪 C.人類 D.愚蠢 E.危險rej28資訊網——每日最新資訊28at.com

Gemini Pro 選擇了 B。rej28資訊網——每日最新資訊28at.com

它的推理過程也值得注意:它認識到,雖然所有選項都和「陌生人」的概念相關,但只有「奇怪」準確概括了問題的中立和開放性本質。rej28資訊網——每日最新資訊28at.com

這個選擇,凸顯出了 Gemini Pro 解釋和應用一般常識知識的能力。rej28資訊網——每日最新資訊28at.com

時間(TRAM)

TRAM 數據集的時間常識評估中的示例問題:「他還承諾會來找他。」rej28資訊網——每日最新資訊28at.com

他需要多長時間才能「來到他身邊」?rej28資訊網——每日最新資訊28at.com

A.100 年 B.一分鐘內 C.幾個小時rej28資訊網——每日最新資訊28at.com

由于缺乏足夠的背景信息,特別是關于所涉及的身份和「來到」的含義,Gemini Pro 無法提供明確的答案。rej28資訊網——每日最新資訊28at.com

這說明了,模型需要依賴特定的上下文信息,來做出準確的時間判斷。rej28資訊網——每日最新資訊28at.com

在現實世界的信息傳播中,模糊或不完整的信息,也會造成這種局限性。rej28資訊網——每日最新資訊28at.com

社交 (Social IQa)

在使用 Social IQa 數據集評估 GeminiPro 在社會常識推理方面的表現時,出現了一個有趣的場景: 人們一直欺負在 Sasha,Sasha 報復了回去,接下來人們會做什么?rej28資訊網——每日最新資訊28at.com

A.按 Sasha 說的去做 B.報仇 C.逃離 Sasharej28資訊網——每日最新資訊28at.com

正確答案是 C,但 Gemini Pro 的選擇卻顯得很有洞察力。rej28資訊網——每日最新資訊28at.com

它選擇了 B,理由是 Sasha 的行動很可能點燃了人們復仇的欲望。rej28資訊網——每日最新資訊28at.com

這一回應表明,Gemini Pro 對于社會動態和情感動機有了細致入微的理解。rej28資訊網——每日最新資訊28at.com

Visual(VCR)

在 VCR 數據集中,研究者分析了 Gemini Pro Vision 對涉及人身安全和潛在危險場景的響應。rej28資訊網——每日最新資訊28at.com

如果此時 4 號推了 3 號,會發生什么?rej28資訊網——每日最新資訊28at.com

Gemini Pro Vision 回答:3 號會掉下懸崖,危及生命。rej28資訊網——每日最新資訊28at.com

rej28資訊網——每日最新資訊28at.com

這個結果表明,Gemini Pro Vision 已經能夠做出視覺常識推理,分析視覺場景并預測這些場景中動作的潛在后果。rej28資訊網——每日最新資訊28at.com

這表明模型已經掌握了空間關系和物理后果,具備了類似人類認知的復雜視覺信息能力。rej28資訊網——每日最新資訊28at.com

作者介紹

Yuqing Wang 目前是斯坦福大學的博士后研究員。rej28資訊網——每日最新資訊28at.com

此前,她在明尼蘇達大學獲得學士學位,在加利福尼亞大學圣芭芭拉分校獲得博士學位。rej28資訊網——每日最新資訊28at.com

rej28資訊網——每日最新資訊28at.com

Yun Zhao 目前是 Meta 的研究員,研究方向是機器學習(包括深度學習與強化學習)的應用、人工智能與數據挖掘。rej28資訊網——每日最新資訊28at.com

此前,他在清華大學獲得碩士學位,并且同樣在加利福尼亞大學圣芭芭拉分校獲得博士學位。rej28資訊網——每日最新資訊28at.com

rej28資訊網——每日最新資訊28at.com

參考資料:rej28資訊網——每日最新資訊28at.com

https://arxiv.org/abs/2312.17661rej28資訊網——每日最新資訊28at.com

本文來自微信公眾號:新智元 (ID:AI_era)rej28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-3142-0.html谷歌 Gemini 大逆轉?斯坦福 Meta 華人證明其推理性能強于 GPT-3.5

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 微軟移動端 Edge 瀏覽器名稱變更,加入“AI”字樣

下一篇: “稚暉君”出走華為創業項目新進展:“北大-智元機器人聯合實驗室”成立

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 康定县| 洛扎县| 邛崃市| 启东市| 淮北市| 阳山县| 上饶县| 明光市| 平阳县| 新乐市| 双牌县| 禄劝| 句容市| 图片| 宝应县| 新民市| 邵阳市| 清镇市| 左云县| 海丰县| 武功县| 夏河县| 介休市| 凤台县| 裕民县| 邢台县| 大宁县| 元氏县| 广州市| 蕉岭县| 巩义市| 抚州市| 萝北县| 内丘县| 荥阳市| 泸西县| 嵊州市| 宜兰市| 上高县| 吴旗县| 英吉沙县|