日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

谷歌 OpenAI 大模型巔峰對決!Gemini 激戰 GPT-4,數學代碼卻慘遭碾壓

來源: 責編: 時間:2023-12-14 16:35:28 382觀看
導讀 新智元報道編輯:Aeneas 好困【新智元導讀】大模型巔峰對決開啟,Gemini 和 GPT-4 展開大 pk!代碼和數學 Gemini 慘遭 GPT-4 碾壓,但要論講笑話和寫作,它的答案卻意外的好笑。被谷歌寄予厚望的復仇殺器 Gemini,是否能

tch28資訊網——每日最新資訊28at.com

新智元報道tch28資訊網——每日最新資訊28at.com

編輯:Aeneas 好困tch28資訊網——每日最新資訊28at.com

【新智元導讀】大模型巔峰對決開啟,Gemini 和 GPT-4 展開大 pk!代碼和數學 Gemini 慘遭 GPT-4 碾壓,但要論講笑話和寫作,它的答案卻意外的好笑。tch28資訊網——每日最新資訊28at.com

被谷歌寄予厚望的復仇殺器 Gemini,是否能夠如愿單挑 ChatGPT?tch28資訊網——每日最新資訊28at.com

最近幾天,外媒記者和網友們紛紛放出實測,比較了 Gemini Pro 加持的新 Bard 與 GPT-3.5 和 GPT-4 的各項性能。tch28資訊網——每日最新資訊28at.com

先說結果 ——ChatGPT 略勝一籌,但 Gemini 進步巨大。tch28資訊網——每日最新資訊28at.com

雖然宣傳手段有一些夸大的成分,但谷歌確實靠 Gemini 在 LLM 大戰中挽回了一些頹勢。tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

而且,現在雙方都還捂著殺手锏沒有放出來,真正的巔峰對決,恐怕要等 Gemini Ultra 或者集成了 OpenAI 神秘 Q * 技術的新模型出場后了。tch28資訊網——每日最新資訊28at.com

超大杯還沒來,大杯臨時頂上

需要強調的是,此次出戰的選手 Gemini Pro 只是「二弟」,因為號稱「在 32 個廣泛使用的學術基準測試中擊敗 GPT-4」的老大哥 Gemini Ultra 還未放出。tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

而且,由于目前只有純文本提示用上了 Gemini Pro。tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

所以,Bard 暫時還沒有得到加持的圖像理解能力,依然很拉跨……tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

來源:馬里蘭大學博士生 Fuxiao Liutch28資訊網——每日最新資訊28at.com

頂級模型的內卷

早在 4 月,就有許多人做過 PaLM 支持的 Bard 和 GPT-4 的 pk,當時的結果是 GPT-4 七局五勝,略勝 Bard 一籌。tch28資訊網——每日最新資訊28at.com

這次對決中,也考慮進了 Bard 在四月的結果,因此可以用來衡量幾個月來谷歌的進步速度。tch28資訊網——每日最新資訊28at.com

這些測試雖不夠全面,但也提供了一個很好的基準,可以用來判斷這些 AI 聊天助手在普通用戶日常任務中的表現。tch28資訊網——每日最新資訊28at.com

話不多說,現在開始!tch28資訊網——每日最新資訊28at.com

代碼編程

既然谷歌這次大吹特吹了全新的 AlphaCode 2,那我們首先就來看看它們的編程水平如何。tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

題目:Write a Python script that says "Hello World," then creates a random repeating string of characters endlessly.tch28資訊網——每日最新資訊28at.com

編寫一個 Python 腳本,在其中輸入「Hello World」,然后不停地隨機創建一個重復字符串。tch28資訊網——每日最新資訊28at.com

PaLM Bard 的答案:tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

首先,初代的 Bard 非常簡陋,并不能生成代碼。tch28資訊網——每日最新資訊28at.com

不過,谷歌后來在 6 月的時候,給它加上了這個功能。(但并沒有針對這個題目進行過測試)tch28資訊網——每日最新資訊28at.com

Gemini Pro Bard 的答案:tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

可以看到,新版 Bard 生成的代碼沒什么大問題,但需要在前面添加一個 import string 才能運行。tch28資訊網——每日最新資訊28at.com

好在,這個 bug 很容易解決。tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

然而,不知道是因為好奇網友太多導致負荷超載,還是系統本身就不穩定。tch28資訊網——每日最新資訊28at.com

針對這道題,Bard 在大部分時候都會先「沉默」30 秒,然后返回錯誤提示:「抱歉,出了點岔子,Bard 目前還處在試驗階段」。tch28資訊網——每日最新資訊28at.com

GPT-3.5 的答案:tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

GPT-4 的答案:tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

相比之下,不管是 GPT-3.5 還是 GPT-4 Turbo,都提供了非常簡潔,而且可以直接跑通的代碼。tch28資訊網——每日最新資訊28at.com

獲勝方:毫無疑問,這一輪是 ChatGPT 陣營大獲全勝。tch28資訊網——每日最新資訊28at.com

數學應用

接下來,就是次次都能難倒一片大模型的數學題了。tch28資訊網——每日最新資訊28at.com

題目:If Microsoft Windows 11 shipped on 3.5" floppy disks, how many floppy disks would it take?tch28資訊網——每日最新資訊28at.com

如果使用 3.5 英寸軟盤來安裝 Windows 11,需要多少張?tch28資訊網——每日最新資訊28at.com

PaLM Bard 的答案:tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

可以看到,初代 Bard 給出了非常離譜的答案。tch28資訊網——每日最新資訊28at.com

先不管 Win11 有沒有 21 個 GB,就算有,15.11 張軟盤也裝不下吧……tch28資訊網——每日最新資訊28at.com

Gemini Pro Bard 的答案:tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

到了新版 Gemini Bard 這里,3472 這個結果顯然是把 1GB 當成了 1000MB 去算的。tch28資訊網——每日最新資訊28at.com

然而,即便是按照 1000MB 去算,計算直接得到的 3472.2… 也應該進一位變成 3473。tch28資訊網——每日最新資訊28at.com

畢竟,多出的那些數據,顯然是不能被「四舍五入」掉的。tch28資訊網——每日最新資訊28at.com

GPT-3.5 的答案:tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

GPT-3.5 這邊也是類似,首先推測 Win11 安裝包的大小為「幾 GB」,然后四舍五入到 20GB。tch28資訊網——每日最新資訊28at.com

最后,按照「1GB=1000MB」去算的答案,并且把多出的 0.88… 張盤也給舍掉了。tch28資訊網——每日最新資訊28at.com

GPT-4 的答案:tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

相比之下,只有 GPT-4 正確地使用了「1GB=1024MB」,并且將結果中的 3555.5… 進了一位變成 35556。tch28資訊網——每日最新資訊28at.com

從結果來看,Gemini Pro 加持的 Bard 和 GPT-3.5 半斤八兩,而 GPT-4 不僅邏輯清晰而且還在計算中利用「Analysis」保證了答案的正確性。tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

考慮到 Gemini Pro 在評測跑分上要比 GPT-3.5 高了不少,這個結果多少有些令人失望。tch28資訊網——每日最新資訊28at.com

獲勝方:谷歌和 OpenAI 的免費版模型可謂是「旗鼓相當」,而付費版的 GPT-4 則憑借著壓倒性的優勢取勝。tch28資訊網——每日最新資訊28at.com

老爹笑話

原創性方面的測試題目是:Write 5 original dad jokes。tch28資訊網——每日最新資訊28at.com

寫 5 個原創的 dad jokes。tch28資訊網——每日最新資訊28at.com

Dad Jokes(老爹笑話)是一種中年男人愛講的笑話,簡單幼稚、無聊、莫名其妙,并且包含雙關的諧音梗,屬于無厘頭的冷笑話。無聊到女兒聽到時,常常會給老爸一個白眼。tch28資訊網——每日最新資訊28at.com

不過下面的答案因為是從英文翻譯來的緣故,中文翻譯會丟失一些諧音梗的趣味性。tch28資訊網——每日最新資訊28at.com

PaLM Bard 的答案:tch28資訊網——每日最新資訊28at.com

1. 我曾經是一名銀行家,但我失去了興趣。tch28資訊網——每日最新資訊28at.com

2. 我徹夜未眠,想看看太陽去了哪里,但后來我恍然大悟。tch28資訊網——每日最新資訊28at.com

3. 我看到一個酒鬼在吃葡萄。我問他是否要喝它們,他說:「不,我只是去摘葡萄。」tch28資訊網——每日最新資訊28at.com

4. 我曾經為雞經營過約會服務,但我很難讓母雞們互相見面。tch28資訊網——每日最新資訊28at.com

5. 我看到一只蝸牛背上背著一片生菜。我問他在做什么,他說:「我正在努力搶占先機。」tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

Gemini Pro Bard 的答案:tch28資訊網——每日最新資訊28at.com

1.水牛的兒子去上大學,它會說什么?「野牛!」tch28資訊網——每日最新資訊28at.com

2.我以前對肥皂上癮,但我現在干凈了。tch28資訊網——每日最新資訊28at.com

3.沒有眼睛的魚(Fish)叫什么?「噓(Fsh)!」tch28資訊網——每日最新資訊28at.com

4.我正在讀一本關于反重力的書,根本不可能把它放下!tch28資訊網——每日最新資訊28at.com

5.你聽說過患有幽閉恐懼癥的宇航員嗎?「他只是需要一點空間。」tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

GPT-3.5 的答案:tch28資訊網——每日最新資訊28at.com

1. 為什么科學家不相信原子?因為它們構成(虛構)了一切!tch28資訊網——每日最新資訊28at.com

2. 我只認識 25 個字母。我不認識 y(你)。tch28資訊網——每日最新資訊28at.com

3. 假意大利面應該怎么叫?Impasta。tch28資訊網——每日最新資訊28at.com

4. 稻草人為何獲獎?因為他在自己的領域里很出色!tch28資訊網——每日最新資訊28at.com

5. 企鵝如何建造它的房子?Igloos 起來!tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

GPT-4 的答案:tch28資訊網——每日最新資訊28at.com

1. 為什么科學家不相信原子?因為它們構成(虛構)了一切!tch28資訊網——每日最新資訊28at.com

2. 我告訴我兒子我是以 Thomas Edison 的名字命名的。他說:「但是爸爸,你叫布 Biran。」我回答說:「沒錯,我是在 Thomas Edison 之后起名字的!」tch28資訊網——每日最新資訊28at.com

3. 稻草人為什么獲獎?因為他在自己的領域表現出色!tch28資訊網——每日最新資訊28at.com

4. 我正在讀書 一本關于反重力的書。根本不可能把它放下!tch28資訊網——每日最新資訊28at.com

5. 你聽說過那個害怕負數的數學家嗎?他會不惜一切代價避免負數。tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

這個問題的精髓,就在于回答中的原創性。tch28資訊網——每日最新資訊28at.com

但不管是 Bard 還是 ChatGPT,給出答案幾乎都可以通過谷歌搜索找到,或者就是模型在原答案的基礎上,進行了一些小的改寫。tch28資訊網——每日最新資訊28at.com

而且,Bard 和 GPT-4 有一個答案重了(關于反重力的書),GPT-3.5 和 GPT-4 則有兩個笑話重復了(「科學家相信原子」和「稻草人獲獎」)。tch28資訊網——每日最新資訊28at.com

最有趣的答案來自 GPT-4,它講的笑話里說,一個名叫 Brian 的孩子是以 Thomas Edison 命名的。谷歌沒有搜到相同的笑話,但是搜到一個類似的 Thomas Jefferson 的孩子名叫 Brian 的笑話。tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

獲勝方:這一輪可以視為平局。因為 AI 們寫出的笑話幾乎都不是原創的……tch28資訊網——每日最新資訊28at.com

事實檢索

問題:Who invented video games?tch28資訊網——每日最新資訊28at.com

誰發明了電子游戲?tch28資訊網——每日最新資訊28at.com

PaLM Bard 的答案:tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

初代 Bard 答案中,「Ralph Baer 的 Brown Box 和 Magnavox Odyssey」的信息似乎是直接從維基百科中找到的。tch28資訊網——每日最新資訊28at.com

Gemini Pro Bard 的答案:tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

相比之下,新版 Gemini Bard 不僅簡潔而準確地指出了 William Higinbotham 早期的「Tennis for Two」的貢獻。tch28資訊網——每日最新資訊28at.com

而且,還擴展到對電子游戲早期發展做出重大貢獻的人,比如 Nolan Bushnell、Ted Dabney 和 Al Alcorn,提供的人物信息也是準確且相關的。tch28資訊網——每日最新資訊28at.com

不過后面的回答不夠完美:它沒有提 Steve Jobs 和 Steve Wozniak 在 Atari 的工作,反而對他們創造 Apple II 進行了一些不合邏輯的討論。tch28資訊網——每日最新資訊28at.com

GPT-3.5 的答案:tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

而 GPT-3.5 雖然提到「多年個人和公司都為該行業做出了貢獻」,卻沒有說出任何重要人物的名字。tch28資訊網——每日最新資訊28at.com

GPT-4 的答案:tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

GPT-4 則表示,電子游戲的發明「不能歸因于某個人」,然后提到了 Higinbotham、Bushnell,以及 Steve Russell 1962 年創作的《太空戰爭》。tch28資訊網——每日最新資訊28at.com

獲勝方:在免費版模型里,Bard 的答案比 GPT-3.5 更好。但要說最佳答案,還得看付費版的 GPT-4。tch28資訊網——每日最新資訊28at.com

創意寫作

問題:Write a two-paragraph creative story about Abraham Lincoln inventing basketball.tch28資訊網——每日最新資訊28at.com

寫一篇關于亞伯拉罕?林肯發明籃球的兩個段落的創意故事。tch28資訊網——每日最新資訊28at.com

PaLM Bard 的答案:tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

初代 Bard 在寫作中,包含了一些令人回味的語句,比如「林肯對自己微笑,因為他記得小時候玩過那樣的游戲」。tch28資訊網——每日最新資訊28at.com

Gemini Pro Bard 的答案:tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

相比而言,Gemini Bard 的寫作更見簡潔和專注主題。tch28資訊網——每日最新資訊28at.com

然而,兩個版本的 Bard,都沒有按要求分成兩個段落。tch28資訊網——每日最新資訊28at.com

GPT-3.5 的答案:tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

GPT-3.5 的表現頗有亮點,它是唯一一個將林肯想象成年輕人而不是坐在白宮里焦躁不安的總統形象的模型。tch28資訊網——每日最新資訊28at.com

GPT-4 的答案:tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

而 GPT-4 是唯一一個明確提及林肯摔跤手經歷的模型,而不是泛泛地說他有運動能力。tch28資訊網——每日最新資訊28at.com

更有趣的是,GPT-4 的故事中,林肯是從白宮花園里的一群孩子那里,偷來了把球扔進籃筐這個概念。tch28資訊網——每日最新資訊28at.com

獲勝方:所有模型的寫作都有其獨特的魅力和令人回味的句子,算是一場平局。tch28資訊網——每日最新資訊28at.com

辯論對話

題目:Write a 5-line debate between a fan of PowerPC Processors and a fan of Intel Processors, circa 2000.tch28資訊網——每日最新資訊28at.com

寫一篇 2000 年左右 PowerPC 處理器愛好者和 Intel 處理器愛好者之間的 5 行辯論。tch28資訊網——每日最新資訊28at.com

PaLM Bard 的答案:tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

Gemini Pro Bard 的答案:tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

可以看出,新版 Gemini Bard 對初代 Bard 的答案進行了改進,尤其是在技術術語的選擇上。tch28資訊網——每日最新資訊28at.com

這些答案中包含 AltiVec 指令、RISC 與 CISC 設計、MMX 技術,放在 2000 年的 Ars 論壇討論中并不違和。tch28資訊網——每日最新資訊28at.com

GPT-3.5 的答案:tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

GPT-4 的答案:tch28資訊網——每日最新資訊28at.com

tch28資訊網——每日最新資訊28at.com

不過,ChatGPT 顯然表現更優。GPT-3.5 的答案冗長,但 GPT-4 中就簡化為更短小精辟的論點。tch28資訊網——每日最新資訊28at.com

二者的響應中,都避免了令普通受眾感到艱澀的術語,更關注普遍的「功能與兼容性」論點。不足之處可能是對于技術受眾來說太泛泛。tch28資訊網——每日最新資訊28at.com

獲勝方:ChatGPT 成功地復刻了辯論雙方的觀點,而不是依賴于令人困惑的術語,因此 ChatGPT 獲勝。tch28資訊網——每日最新資訊28at.com

ChatGPT 更勝一籌,但差距在縮小

可以看到,在數學、摘要、事實查找和創意寫作等測試中,基于 Gemini 的新版 Bard 相較于 8 個月之前,都表現出了顯著的進步。tch28資訊網——每日最新資訊28at.com

雖然根據以上非常主觀的評測,ChatGPT 依然占據上風。tch28資訊網——每日最新資訊28at.com

但與今年四月的情況相比,雙方的差距已經縮小了很多。tch28資訊網——每日最新資訊28at.com

最后,我們很期待看到,像 Gemini Ultra 或者可能融合了 OpenAI 神秘的 Q * 技術的新模型,將如何在不久的將來應對這些任務。tch28資訊網——每日最新資訊28at.com

參考資料:tch28資訊網——每日最新資訊28at.com

https://arstechnica.com/ai/2023/12/chatgpt-vs-google-bard-round-2-how-does-the-new-gemini-model-fare/tch28資訊網——每日最新資訊28at.com

本文來自微信公眾號:新智元 (ID:AI_era)tch28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-2891-0.html谷歌 OpenAI 大模型巔峰對決!Gemini 激戰 GPT-4,數學代碼卻慘遭碾壓

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 除了《AI 法案》,歐盟還將對 GPT-4 等更高能力模型增加額外規則約束

下一篇: AI 變鑒片大師,星際穿越都能看懂!賈佳亞團隊新作,多模態大模型挑戰超長 3 小時視頻

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 承德县| 澄城县| 册亨县| 开平市| 突泉县| 呈贡县| 湘潭市| 泰宁县| 平潭县| 宜宾市| 大安市| 丰台区| 双峰县| 黑山县| 开远市| 台山市| 二手房| 富顺县| 婺源县| 五峰| 奉化市| 当雄县| 本溪| 南京市| 永新县| 儋州市| 凤庆县| 日喀则市| 白朗县| 新营市| 藁城市| 甘南县| 兴文县| 屏南县| 奉新县| 石渠县| 乐陵市| 龙川县| 永和县| 和政县| 宁波市|