日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 元宇宙 > AI

一句話解鎖 100k + 上下文大模型真實力,27 分漲到 98,GPT-4、Claude2.1 適用

來源: 責(zé)編: 時間:2023-12-14 16:34:47 283觀看
導(dǎo)讀 各家大模型紛紛卷起上下文窗口,Llama-1 時標(biāo)配還是 2k,現(xiàn)在不超過 100k 的已經(jīng)不好意思出門了。然鵝一項極限測試卻發(fā)現(xiàn),大部分人用法都不對,沒發(fā)揮出 AI 應(yīng)有的實力。AI 真的能從幾十萬字中準(zhǔn)確找到關(guān)鍵事實嗎?顏

各家大模型紛紛卷起上下文窗口,Llama-1 時標(biāo)配還是 2k,現(xiàn)在不超過 100k 的已經(jīng)不好意思出門了。6xv28資訊網(wǎng)——每日最新資訊28at.com

然鵝一項極限測試卻發(fā)現(xiàn),大部分人用法都不對,沒發(fā)揮出 AI 應(yīng)有的實力。6xv28資訊網(wǎng)——每日最新資訊28at.com

AI 真的能從幾十萬字中準(zhǔn)確找到關(guān)鍵事實嗎?顏色越紅代表 AI 犯的錯越多。6xv28資訊網(wǎng)——每日最新資訊28at.com

6xv28資訊網(wǎng)——每日最新資訊28at.com

6xv28資訊網(wǎng)——每日最新資訊28at.com

默認(rèn)情況下,GPT-4-128k 和最新發(fā)布的 Claude2.1-200k 成績都不太理想。6xv28資訊網(wǎng)——每日最新資訊28at.com

但 Claude 團(tuán)隊了解情況后,給出超簡單解決辦法,增加一句話,直接把成績從 27% 提升到 98%。6xv28資訊網(wǎng)——每日最新資訊28at.com

6xv28資訊網(wǎng)——每日最新資訊28at.com

只不過這句話不是加在用戶提問上的,而是讓 AI 在回復(fù)的開頭先說:6xv28資訊網(wǎng)——每日最新資訊28at.com

“Here is the most relevant sentence in the context:”6xv28資訊網(wǎng)——每日最新資訊28at.com

(這就是上下文中最相關(guān)的句子:)6xv28資訊網(wǎng)——每日最新資訊28at.com

讓大模型大海撈針

為了做這項測試,作者 Greg Kamradt 自掏腰包花費了至少 150 美元。6xv28資訊網(wǎng)——每日最新資訊28at.com

好在測試 Claude2.1 時,Anthropic 伸出援手給他提供了免費額度,不然還得多花 1016 美元。6xv28資訊網(wǎng)——每日最新資訊28at.com

6xv28資訊網(wǎng)——每日最新資訊28at.com

其實測試方法也不復(fù)雜,都是選用 YC 創(chuàng)始人 Paul Graham 的 218 篇博客文章當(dāng)做測試數(shù)據(jù)。6xv28資訊網(wǎng)——每日最新資訊28at.com

在文檔中的不同位置添加特定語句:在舊金山最好的事情,就是在陽光明媚的日子坐在多洛雷斯公園吃一個三明治。6xv28資訊網(wǎng)——每日最新資訊28at.com

請 GPT-4 和 Claude2.1 僅僅使用所提供的上下文來回答問題,在不同上下文長度和添加在不同位置的文檔中反復(fù)測試。6xv28資訊網(wǎng)——每日最新資訊28at.com

6xv28資訊網(wǎng)——每日最新資訊28at.com

最后使用 Langchain Evals 庫來評估結(jié)果。6xv28資訊網(wǎng)——每日最新資訊28at.com

作者把這套測試命名為“干草堆里找針 / 大海撈針”,并把代碼開源在 GitHub 上,已獲得 200 + 星,并透露已經(jīng)有公司贊助了對下一個大模型的測試。6xv28資訊網(wǎng)——每日最新資訊28at.com

6xv28資訊網(wǎng)——每日最新資訊28at.com

AI 公司自己找到解決辦法

幾周后,Claude 背后公司 Anthropic 仔細(xì)分析后卻發(fā)現(xiàn),AI 只是不愿意回答基于文檔中單個句子的問題,特別是這個句子是后來插入的,和整篇文章關(guān)系不大的時候。6xv28資訊網(wǎng)——每日最新資訊28at.com

也就是說,AI 判斷這句話和文章主題無關(guān),就偷懶不去一句一句找了。6xv28資訊網(wǎng)——每日最新資訊28at.com

6xv28資訊網(wǎng)——每日最新資訊28at.com

這時就需要用點手段晃過 AI,要求 Claude 在回答開頭添加那句“Here is the most relevant sentence in the context:”就能解決。6xv28資訊網(wǎng)——每日最新資訊28at.com

6xv28資訊網(wǎng)——每日最新資訊28at.com

使用這個辦法,在尋找不是后來人為添加、本來就在原文章中的句子時,也能提高 Claude 的表現(xiàn)。6xv28資訊網(wǎng)——每日最新資訊28at.com

6xv28資訊網(wǎng)——每日最新資訊28at.com

Anthropic 公司表示將來會不斷地繼續(xù)訓(xùn)練 Claude,讓它能更適應(yīng)此類任務(wù)。6xv28資訊網(wǎng)——每日最新資訊28at.com

在 API 調(diào)用時要求 AI 以指定開頭回答,還有別的妙用。6xv28資訊網(wǎng)——每日最新資訊28at.com

創(chuàng)業(yè)者 Matt Shumer 看過這個方案后補充了幾個小技巧:6xv28資訊網(wǎng)——每日最新資訊28at.com

如果想讓 AI 輸出純 JSON 格式,提示詞的最后以“{”結(jié)尾。同理,如果想讓 AI 列出羅馬數(shù)字,提示詞以“I:”結(jié)尾就行。6xv28資訊網(wǎng)——每日最新資訊28at.com

6xv28資訊網(wǎng)——每日最新資訊28at.com

不過事情還沒完……6xv28資訊網(wǎng)——每日最新資訊28at.com

國內(nèi)大模型公司也注意到了這項測試,開始嘗試自家大模型能不能通過。6xv28資訊網(wǎng)——每日最新資訊28at.com

同樣擁有超長上下文的月之暗面 Kimi 大模型團(tuán)隊也測出了問題,但給出了不同的解決方案,也取得了很好的成績。6xv28資訊網(wǎng)——每日最新資訊28at.com

6xv28資訊網(wǎng)——每日最新資訊28at.com

這樣一來,修改用戶提問 Prompt,又比要求 AI 在自己的回答添加一句更容易做到,特別是在不是調(diào)用 API,而是直接使用聊天機器人產(chǎn)品的情況下。6xv28資訊網(wǎng)——每日最新資訊28at.com

月之暗面還用自己的新方法幫 GPT-4 和 Claude2.1 測試了一下,結(jié)果 GPT-4 改善明顯,Claude2.1 只是稍微改善。6xv28資訊網(wǎng)——每日最新資訊28at.com

6xv28資訊網(wǎng)——每日最新資訊28at.com

看來這個實驗本身有一定局限性,Claude 也是有自己的特殊性,可能與他們自己的對齊方式 Constituional AI 有關(guān),需要用 Anthropic 自己提供的辦法更好。6xv28資訊網(wǎng)——每日最新資訊28at.com

后來,月之暗面的工程師還搞了更多輪實驗,其中一個居然是……6xv28資訊網(wǎng)——每日最新資訊28at.com

6xv28資訊網(wǎng)——每日最新資訊28at.com

壞了,我成測試數(shù)據(jù)了。6xv28資訊網(wǎng)——每日最新資訊28at.com

6xv28資訊網(wǎng)——每日最新資訊28at.com

參考鏈接:6xv28資訊網(wǎng)——每日最新資訊28at.com

[1]https://x.com/GregKamradt/status/17270181836081933936xv28資訊網(wǎng)——每日最新資訊28at.com

[2]https://www.anthropic.com/index/claude-2-1-prompting6xv28資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號:量子位 (ID:QbitAI),作者:夢晨6xv28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-2886-0.html一句話解鎖 100k + 上下文大模型真實力,27 分漲到 98,GPT-4、Claude2.1 適用

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 馬斯克的 AI 聊天機器人 Grok 出現(xiàn)“幻覺”,誤認(rèn)為自己是 OpenAI 的產(chǎn)品

下一篇: OpenAI 宣布近期修復(fù) GPT-4“變懶”問題,將在離線評估及 A B 測試后更新模型

標(biāo)簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 高青县| 绥滨县| 唐山市| 阿巴嘎旗| 收藏| 绥中县| 讷河市| 遵化市| 定陶县| 玛曲县| 平安县| 安徽省| 黄大仙区| 信丰县| 林周县| 靖江市| 聊城市| 银川市| 青州市| 大城县| 齐齐哈尔市| 自贡市| 永登县| 凌海市| 汶川县| 云和县| 兴化市| 鸡泽县| 札达县| 百色市| 化州市| 垦利县| 双江| 利川市| 南昌市| 页游| 长春市| 罗田县| 曲阜市| 苍溪县| 化隆|