當前位置：首頁 > 元宇宙 > AI

谷歌 OpenAI 大模型巔峰對決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

來源：責(zé)編：時間：2023-12-14 16:35:28 411觀看

導(dǎo)讀新智元報道編輯：Aeneas 好困【新智元導(dǎo)讀】大模型巔峰對決開啟，Gemini 和 GPT-4 展開大 pk！代碼和數(shù)學(xué) Gemini 慘遭 GPT-4 碾壓，但要論講笑話和寫作，它的答案卻意外的好笑。被谷歌寄予厚望的復(fù)仇殺器 Gemini，是否能

新智元報道

編輯：Aeneas 好困

【新智元導(dǎo)讀】大模型巔峰對決開啟，Gemini 和 GPT-4 展開大 pk！代碼和數(shù)學(xué) Gemini 慘遭 GPT-4 碾壓，但要論講笑話和寫作，它的答案卻意外的好笑。

被谷歌寄予厚望的復(fù)仇殺器 Gemini，是否能夠如愿單挑 ChatGPT？

最近幾天，外媒記者和網(wǎng)友們紛紛放出實測，比較了 Gemini Pro 加持的新 Bard 與 GPT-3.5 和 GPT-4 的各項性能。

先說結(jié)果 ——ChatGPT 略勝一籌，但 Gemini 進步巨大。

雖然宣傳手段有一些夸大的成分，但谷歌確實靠 Gemini 在 LLM 大戰(zhàn)中挽回了一些頹勢。

而且，現(xiàn)在雙方都還捂著殺手锏沒有放出來，真正的巔峰對決，恐怕要等 Gemini Ultra 或者集成了 OpenAI 神秘 Q * 技術(shù)的新模型出場后了。

超大杯還沒來，大杯臨時頂上

需要強調(diào)的是，此次出戰(zhàn)的選手 Gemini Pro 只是「二弟」，因為號稱「在 32 個廣泛使用的學(xué)術(shù)基準測試中擊敗 GPT-4」的老大哥 Gemini Ultra 還未放出。

而且，由于目前只有純文本提示用上了 Gemini Pro。

所以，Bard 暫時還沒有得到加持的圖像理解能力，依然很拉跨……

來源：馬里蘭大學(xué)博士生 Fuxiao Liu

頂級模型的內(nèi)卷

早在 4 月，就有許多人做過 PaLM 支持的 Bard 和 GPT-4 的 pk，當時的結(jié)果是 GPT-4 七局五勝，略勝 Bard 一籌。

這次對決中，也考慮進了 Bard 在四月的結(jié)果，因此可以用來衡量幾個月來谷歌的進步速度。

這些測試雖不夠全面，但也提供了一個很好的基準，可以用來判斷這些 AI 聊天助手在普通用戶日常任務(wù)中的表現(xiàn)。

話不多說，現(xiàn)在開始！

代碼編程

既然谷歌這次大吹特吹了全新的 AlphaCode 2，那我們首先就來看看它們的編程水平如何。

題目：Write a Python script that says "Hello World," then creates a random repeating string of characters endlessly.

編寫一個 Python 腳本，在其中輸入「Hello World」，然后不停地隨機創(chuàng)建一個重復(fù)字符串。

PaLM Bard 的答案：

首先，初代的 Bard 非常簡陋，并不能生成代碼。

不過，谷歌后來在 6 月的時候，給它加上了這個功能。（但并沒有針對這個題目進行過測試）

Gemini Pro Bard 的答案：

可以看到，新版 Bard 生成的代碼沒什么大問題，但需要在前面添加一個 import string 才能運行。

好在，這個 bug 很容易解決。

然而，不知道是因為好奇網(wǎng)友太多導(dǎo)致負荷超載，還是系統(tǒng)本身就不穩(wěn)定。

針對這道題，Bard 在大部分時候都會先「沉默」30 秒，然后返回錯誤提示：「抱歉，出了點岔子，Bard 目前還處在試驗階段」。

GPT-3.5 的答案：

GPT-4 的答案：

相比之下，不管是 GPT-3.5 還是 GPT-4 Turbo，都提供了非常簡潔，而且可以直接跑通的代碼。

獲勝方：毫無疑問，這一輪是 ChatGPT 陣營大獲全勝。

數(shù)學(xué)應(yīng)用

接下來，就是次次都能難倒一片大模型的數(shù)學(xué)題了。

題目：If Microsoft Windows 11 shipped on 3.5" floppy disks, how many floppy disks would it take?

如果使用 3.5 英寸軟盤來安裝 Windows 11，需要多少張？

PaLM Bard 的答案：

可以看到，初代 Bard 給出了非常離譜的答案。

先不管 Win11 有沒有 21 個 GB，就算有，15.11 張軟盤也裝不下吧……

Gemini Pro Bard 的答案：

到了新版 Gemini Bard 這里，3472 這個結(jié)果顯然是把 1GB 當成了 1000MB 去算的。

然而，即便是按照 1000MB 去算，計算直接得到的 3472.2… 也應(yīng)該進一位變成 3473。

畢竟，多出的那些數(shù)據(jù)，顯然是不能被「四舍五入」掉的。

GPT-3.5 的答案：

GPT-3.5 這邊也是類似，首先推測 Win11 安裝包的大小為「幾 GB」，然后四舍五入到 20GB。

最后，按照「1GB=1000MB」去算的答案，并且把多出的 0.88… 張盤也給舍掉了。

GPT-4 的答案：

相比之下，只有 GPT-4 正確地使用了「1GB=1024MB」，并且將結(jié)果中的 3555.5… 進了一位變成 35556。

從結(jié)果來看，Gemini Pro 加持的 Bard 和 GPT-3.5 半斤八兩，而 GPT-4 不僅邏輯清晰而且還在計算中利用「Analysis」保證了答案的正確性。

考慮到 Gemini Pro 在評測跑分上要比 GPT-3.5 高了不少，這個結(jié)果多少有些令人失望。

獲勝方：谷歌和 OpenAI 的免費版模型可謂是「旗鼓相當」，而付費版的 GPT-4 則憑借著壓倒性的優(yōu)勢取勝。

老爹笑話

原創(chuàng)性方面的測試題目是：Write 5 original dad jokes。

寫 5 個原創(chuàng)的 dad jokes。

Dad Jokes（老爹笑話）是一種中年男人愛講的笑話，簡單幼稚、無聊、莫名其妙，并且包含雙關(guān)的諧音梗，屬于無厘頭的冷笑話。無聊到女兒聽到時，常常會給老爸一個白眼。

不過下面的答案因為是從英文翻譯來的緣故，中文翻譯會丟失一些諧音梗的趣味性。

PaLM Bard 的答案：

1. 我曾經(jīng)是一名銀行家，但我失去了興趣。

2. 我徹夜未眠，想看看太陽去了哪里，但后來我恍然大悟。

3. 我看到一個酒鬼在吃葡萄。我問他是否要喝它們，他說：「不，我只是去摘葡萄。」

4. 我曾經(jīng)為雞經(jīng)營過約會服務(wù)，但我很難讓母雞們互相見面。

5. 我看到一只蝸牛背上背著一片生菜。我問他在做什么，他說：「我正在努力搶占先機。」

Gemini Pro Bard 的答案：

1.水牛的兒子去上大學(xué)，它會說什么？「野牛！」

2.我以前對肥皂上癮，但我現(xiàn)在干凈了。

3.沒有眼睛的魚（Fish）叫什么？「噓（Fsh）！」

4.我正在讀一本關(guān)于反重力的書，根本不可能把它放下！

5.你聽說過患有幽閉恐懼癥的宇航員嗎？「他只是需要一點空間。」

GPT-3.5 的答案：

1. 為什么科學(xué)家不相信原子？因為它們構(gòu)成（虛構(gòu)）了一切！

2. 我只認識 25 個字母。我不認識 y（你）。

3. 假意大利面應(yīng)該怎么叫？Impasta。

4. 稻草人為何獲獎？因為他在自己的領(lǐng)域里很出色！

5. 企鵝如何建造它的房子？Igloos 起來！

GPT-4 的答案：

1. 為什么科學(xué)家不相信原子？因為它們構(gòu)成（虛構(gòu)）了一切！

2. 我告訴我兒子我是以 Thomas Edison 的名字命名的。他說：「但是爸爸，你叫布 Biran。」我回答說：「沒錯，我是在 Thomas Edison 之后起名字的！」

3. 稻草人為什么獲獎？因為他在自己的領(lǐng)域表現(xiàn)出色！

4. 我正在讀書一本關(guān)于反重力的書。根本不可能把它放下！

5. 你聽說過那個害怕負數(shù)的數(shù)學(xué)家嗎？他會不惜一切代價避免負數(shù)。

這個問題的精髓，就在于回答中的原創(chuàng)性。

但不管是 Bard 還是 ChatGPT，給出答案幾乎都可以通過谷歌搜索找到，或者就是模型在原答案的基礎(chǔ)上，進行了一些小的改寫。

而且，Bard 和 GPT-4 有一個答案重了（關(guān)于反重力的書），GPT-3.5 和 GPT-4 則有兩個笑話重復(fù)了（「科學(xué)家相信原子」和「稻草人獲獎」）。

最有趣的答案來自 GPT-4，它講的笑話里說，一個名叫 Brian 的孩子是以 Thomas Edison 命名的。谷歌沒有搜到相同的笑話，但是搜到一個類似的 Thomas Jefferson 的孩子名叫 Brian 的笑話。

獲勝方：這一輪可以視為平局。因為 AI 們寫出的笑話幾乎都不是原創(chuàng)的……

事實檢索

問題：Who invented video games?

誰發(fā)明了電子游戲？

PaLM Bard 的答案：

初代 Bard 答案中，「Ralph Baer 的 Brown Box 和 Magnavox Odyssey」的信息似乎是直接從維基百科中找到的。

Gemini Pro Bard 的答案：

相比之下，新版 Gemini Bard 不僅簡潔而準確地指出了 William Higinbotham 早期的「Tennis for Two」的貢獻。

而且，還擴展到對電子游戲早期發(fā)展做出重大貢獻的人，比如 Nolan Bushnell、Ted Dabney 和 Al Alcorn，提供的人物信息也是準確且相關(guān)的。

不過后面的回答不夠完美：它沒有提 Steve Jobs 和 Steve Wozniak 在 Atari 的工作，反而對他們創(chuàng)造 Apple II 進行了一些不合邏輯的討論。

GPT-3.5 的答案：

而 GPT-3.5 雖然提到「多年個人和公司都為該行業(yè)做出了貢獻」，卻沒有說出任何重要人物的名字。

GPT-4 的答案：

GPT-4 則表示，電子游戲的發(fā)明「不能歸因于某個人」，然后提到了 Higinbotham、Bushnell，以及 Steve Russell 1962 年創(chuàng)作的《太空戰(zhàn)爭》。

獲勝方：在免費版模型里，Bard 的答案比 GPT-3.5 更好。但要說最佳答案，還得看付費版的 GPT-4。

創(chuàng)意寫作

問題：Write a two-paragraph creative story about Abraham Lincoln inventing basketball.

寫一篇關(guān)于亞伯拉罕?林肯發(fā)明籃球的兩個段落的創(chuàng)意故事。

PaLM Bard 的答案：

初代 Bard 在寫作中，包含了一些令人回味的語句，比如「林肯對自己微笑，因為他記得小時候玩過那樣的游戲」。

Gemini Pro Bard 的答案：

相比而言，Gemini Bard 的寫作更見簡潔和專注主題。

然而，兩個版本的 Bard，都沒有按要求分成兩個段落。

GPT-3.5 的答案：

GPT-3.5 的表現(xiàn)頗有亮點，它是唯一一個將林肯想象成年輕人而不是坐在白宮里焦躁不安的總統(tǒng)形象的模型。

GPT-4 的答案：

而 GPT-4 是唯一一個明確提及林肯摔跤手經(jīng)歷的模型，而不是泛泛地說他有運動能力。

更有趣的是，GPT-4 的故事中，林肯是從白宮花園里的一群孩子那里，偷來了把球扔進籃筐這個概念。

獲勝方：所有模型的寫作都有其獨特的魅力和令人回味的句子，算是一場平局。

辯論對話

題目：Write a 5-line debate between a fan of PowerPC Processors and a fan of Intel Processors, circa 2000.

寫一篇 2000 年左右 PowerPC 處理器愛好者和 Intel 處理器愛好者之間的 5 行辯論。

PaLM Bard 的答案：

Gemini Pro Bard 的答案：

可以看出，新版 Gemini Bard 對初代 Bard 的答案進行了改進，尤其是在技術(shù)術(shù)語的選擇上。

這些答案中包含 AltiVec 指令、RISC 與 CISC 設(shè)計、MMX 技術(shù)，放在 2000 年的 Ars 論壇討論中并不違和。

GPT-3.5 的答案：

GPT-4 的答案：

不過，ChatGPT 顯然表現(xiàn)更優(yōu)。GPT-3.5 的答案冗長，但 GPT-4 中就簡化為更短小精辟的論點。

二者的響應(yīng)中，都避免了令普通受眾感到艱澀的術(shù)語，更關(guān)注普遍的「功能與兼容性」論點。不足之處可能是對于技術(shù)受眾來說太泛泛。

獲勝方：ChatGPT 成功地復(fù)刻了辯論雙方的觀點，而不是依賴于令人困惑的術(shù)語，因此 ChatGPT 獲勝。

ChatGPT 更勝一籌，但差距在縮小

可以看到，在數(shù)學(xué)、摘要、事實查找和創(chuàng)意寫作等測試中，基于 Gemini 的新版 Bard 相較于 8 個月之前，都表現(xiàn)出了顯著的進步。

雖然根據(jù)以上非常主觀的評測，ChatGPT 依然占據(jù)上風(fēng)。

但與今年四月的情況相比，雙方的差距已經(jīng)縮小了很多。

最后，我們很期待看到，像 Gemini Ultra 或者可能融合了 OpenAI 神秘的 Q * 技術(shù)的新模型，將如何在不久的將來應(yīng)對這些任務(wù)。

參考資料：

https://arstechnica.com/ai/2023/12/chatgpt-vs-google-bard-round-2-how-does-the-new-gemini-model-fare/

本文來自微信公眾號：新智元（ID：AI_era）

本文鏈接：http://www.www897cc.com/showinfo-45-2891-0.html谷歌 OpenAI 大模型巔峰對決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：除了《AI 法案》，歐盟還將對 GPT-4 等更高能力模型增加額外規(guī)則約束

下一篇： AI 變鑒片大師，星際穿越都能看懂！賈佳亞團隊新作，多模態(tài)大模型挑戰(zhàn)超長 3 小時視頻

標簽：

熱門焦點

虛擬人再升級，企業(yè)可以解放雙手了？

來源：伯虎財經(jīng)今天想跟大家來嘮嘮AI，其實聊到這個話題很多人都不陌生了。在ChatGPT和AIGC大熱背后，還有一位低調(diào)的“大佬”——虛擬人。比如咱們熟知的虛
拯救XR，蘋果力不從心

來源 | 光子星球撰文 | 文燁豪編輯 | 吳先之蘋果終于呈上了它的“答卷”。北京時間6月6日凌晨，蘋果2023年全球開發(fā)者大會（WWDC）如期舉行。作為蘋果CEO庫克口中&ld
搶先推出“元宇宙”飲料，可口可樂贏麻了

試圖傍上元宇宙的品牌千千萬，但像可口可樂玩得這么花的，屬實不多。01 可口可樂盯上元宇宙1886年，可口可樂誕生于美國喬治亞州亞特蘭大市，至今已擁有136年的悠久歷
保時捷推出虛擬超跑，車企元宇宙營銷這么香？

保時捷又出超跑了，不過這次不是在現(xiàn)實世界，而是在虛擬世界。這款Vision Gran Turismo概念車，由保時捷和日本視頻游戲開發(fā)工作室Polyphony Digital聯(lián)合打造，將于202
百度元宇宙希壤是什么？（附下載）

百度元宇宙希壤是什么，最近很多人關(guān)注。還有很多人問希壤怎么下載、百度希壤怎么進入？今天小編帶你來全面了解一下。“希壤”是百度于2021年12月27日于百度AI開
「國產(chǎn)良心」NFT嘲諷了誰？

2月23日，一個名為「國產(chǎn)良心」的NFT項目被許多活躍的加密用戶注意到。該項目的官網(wǎng)風(fēng)格尤為「不正經(jīng)」，它絲毫沒有避諱自己的小作坊出身，還將「中國人不騙中國人
Snoop Dogg 計劃推出致力于數(shù)字媒體NFT的專業(yè)公司

雅痞哥不知道這人是誰還上新聞，問了助理，解釋，相當于美版劉歡的地位吧。Snoop Dogg 在 NFT 領(lǐng)域已經(jīng)有一段時間了，尤其是在最近有消息稱人們在元宇宙中購買房地產(chǎn)
2022年元宇宙系列報告：UGC當?shù)溃琗R帶來新交互體驗

UGC作為元宇宙的主要內(nèi)容創(chuàng)作模式，已經(jīng)越來越多的呈現(xiàn)于游戲、娛樂、社交、傳媒等方面，UGC模式勾勒了元宇宙的邊界，現(xiàn)今元宇宙UGC模式的主要呈現(xiàn)方式以元宇宙概念
元宇宙不完全是想出來的，而是實打?qū)嵶龀鰜淼?/a>

沈陽強調(diào)，元宇宙不完全是想出來的，而是靠實打?qū)嵶龀鰜淼模换ヂ?lián)網(wǎng)向三維化升級是已經(jīng)明確的大方向，這意味著大量的資金和技術(shù)會持續(xù)涌入。跨入2022年，元宇宙并沒有“

《從營銷AIGC化到AIGC營銷化》報告發(fā)布

元宇宙火熱的當下，我們該如何“身臨其境”的體驗元宇宙？

DAO登上了歷史舞臺，但是主流準備好采用DAO了嗎？

元宇宙風(fēng)歸何處？

利用元宇宙平臺10天收入160萬，風(fēng)口還是虎口？

2022年元宇宙系列報告：UGC當?shù)溃琗R帶來新交互體驗

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

谷歌 OpenAI 大模型巔峰對決！Gemini 激戰(zhàn) GPT-4，數(shù)學(xué)代碼卻慘遭碾壓

虛擬人再升級，企業(yè)可以解放雙手了？

拯救XR，蘋果力不從心

搶先推出“元宇宙”飲料，可口可樂贏麻了

保時捷推出虛擬超跑，車企元宇宙營銷這么香？

百度元宇宙希壤是什么？（附下載）

「國產(chǎn)良心」NFT嘲諷了誰？

Snoop Dogg 計劃推出致力于數(shù)字媒體NFT的專業(yè)公司

2022年元宇宙系列報告：UGC當?shù)溃琗R帶來新交互體驗

元宇宙不完全是想出來的，而是實打?qū)嵶龀鰜淼?/a>

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊