當前位置：首頁 > 元宇宙 > AI

一句話解鎖 100k + 上下文大模型真實力，27 分漲到 98，GPT-4、Claude2.1 適用

來源：責編：時間：2023-12-14 16:34:47 308觀看

導讀各家大模型紛紛卷起上下文窗口，Llama-1 時標配還是 2k，現在不超過 100k 的已經不好意思出門了。然鵝一項極限測試卻發現，大部分人用法都不對，沒發揮出 AI 應有的實力。AI 真的能從幾十萬字中準確找到關鍵事實嗎？顏

各家大模型紛紛卷起上下文窗口，Llama-1 時標配還是 2k，現在不超過 100k 的已經不好意思出門了。

然鵝一項極限測試卻發現，大部分人用法都不對，沒發揮出 AI 應有的實力。

AI 真的能從幾十萬字中準確找到關鍵事實嗎？顏色越紅代表 AI 犯的錯越多。

默認情況下，GPT-4-128k 和最新發布的 Claude2.1-200k 成績都不太理想。

但 Claude 團隊了解情況后，給出超簡單解決辦法，增加一句話，直接把成績從 27% 提升到 98%。

只不過這句話不是加在用戶提問上的，而是讓 AI 在回復的開頭先說：

“Here is the most relevant sentence in the context:”

（這就是上下文中最相關的句子：）

讓大模型大海撈針

為了做這項測試，作者 Greg Kamradt 自掏腰包花費了至少 150 美元。

好在測試 Claude2.1 時，Anthropic 伸出援手給他提供了免費額度，不然還得多花 1016 美元。

其實測試方法也不復雜，都是選用 YC 創始人 Paul Graham 的 218 篇博客文章當做測試數據。

在文檔中的不同位置添加特定語句：在舊金山最好的事情，就是在陽光明媚的日子坐在多洛雷斯公園吃一個三明治。

請 GPT-4 和 Claude2.1 僅僅使用所提供的上下文來回答問題，在不同上下文長度和添加在不同位置的文檔中反復測試。

最后使用 Langchain Evals 庫來評估結果。

作者把這套測試命名為“干草堆里找針 / 大海撈針”，并把代碼開源在 GitHub 上，已獲得 200 + 星，并透露已經有公司贊助了對下一個大模型的測試。

AI 公司自己找到解決辦法

幾周后，Claude 背后公司 Anthropic 仔細分析后卻發現，AI 只是不愿意回答基于文檔中單個句子的問題，特別是這個句子是后來插入的，和整篇文章關系不大的時候。

也就是說，AI 判斷這句話和文章主題無關，就偷懶不去一句一句找了。

這時就需要用點手段晃過 AI，要求 Claude 在回答開頭添加那句“Here is the most relevant sentence in the context:”就能解決。

使用這個辦法，在尋找不是后來人為添加、本來就在原文章中的句子時，也能提高 Claude 的表現。

Anthropic 公司表示將來會不斷地繼續訓練 Claude，讓它能更適應此類任務。

在 API 調用時要求 AI 以指定開頭回答，還有別的妙用。

創業者 Matt Shumer 看過這個方案后補充了幾個小技巧：

如果想讓 AI 輸出純 JSON 格式，提示詞的最后以“{”結尾。同理，如果想讓 AI 列出羅馬數字，提示詞以“I:”結尾就行。

不過事情還沒完……

國內大模型公司也注意到了這項測試，開始嘗試自家大模型能不能通過。

同樣擁有超長上下文的月之暗面 Kimi 大模型團隊也測出了問題，但給出了不同的解決方案，也取得了很好的成績。

這樣一來，修改用戶提問 Prompt，又比要求 AI 在自己的回答添加一句更容易做到，特別是在不是調用 API，而是直接使用聊天機器人產品的情況下。

月之暗面還用自己的新方法幫 GPT-4 和 Claude2.1 測試了一下，結果 GPT-4 改善明顯，Claude2.1 只是稍微改善。

看來這個實驗本身有一定局限性，Claude 也是有自己的特殊性，可能與他們自己的對齊方式 Constituional AI 有關，需要用 Anthropic 自己提供的辦法更好。

后來，月之暗面的工程師還搞了更多輪實驗，其中一個居然是……

壞了，我成測試數據了。

參考鏈接：

[1]https://x.com/GregKamradt/status/1727018183608193393

[2]https://www.anthropic.com/index/claude-2-1-prompting

本文來自微信公眾號：量子位（ID：QbitAI），作者：夢晨

本文鏈接：http://www.www897cc.com/showinfo-45-2886-0.html一句話解鎖 100k + 上下文大模型真實力，27 分漲到 98，GPT-4、Claude2.1 適用

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：馬斯克的 AI 聊天機器人 Grok 出現“幻覺”，誤認為自己是 OpenAI 的產品

下一篇： OpenAI 宣布近期修復 GPT-4“變懶”問題，將在離線評估及 A B 測試后更新模型

標簽：

熱門焦點

拯救XR，蘋果力不從心

來源 | 光子星球撰文 | 文燁豪編輯 | 吳先之蘋果終于呈上了它的“答卷”。北京時間6月6日凌晨，蘋果2023年全球開發者大會（WWDC）如期舉行。作為蘋果CEO庫克口中&ld
【申萬宏源】必然的碎片化AI落地，哪種路徑可能勝出？ | 元宇宙Meta洞見

大規模預訓GPT(Generative PreTraining)是OpenAI在2018年提出的模型，大規模預訓練模型（大模型）漸漸成為了AI算法領域的熱點。AI產業鏈：從算力到應用工作流程視角?
2022年中國元宇宙產業系列研究報告-基礎設施篇（5）

傳感器是由敏感元件和轉換元件構成，能夠感受規定的檢測量(物理量、化學量、生物量等)，并按照一定規律將檢測量轉化成可用的輸出信號的器件和裝置，進而滿足信息的
從NFT頂級公鏈到Web3.0基礎設施：帶你了解不一樣的Flow

對于大部分年輕人來說，剛剛過去的春節有一個詞語突然成為了品牌宣傳的流行語，作為從NFT中衍生出來的“數字藏品”一時間獲得了不少品牌青睞，他們紛紛推出自己的數
好萊塢：一股新的電影制作加密浪潮將顛覆這個行業

在Moviecoin.com平臺上，有一部電影設定了一個前所未有的目標，即通過預售NFT獲得100%的全額融資，這部電影就是馬克·奧康納(Mark O’connor)執導的《Oui Cannes》，
NFT Insider #47：YGG發布2021Q4社區報告，GameFi領域1月份獲超10億美元融資

引言：NFT Insider由WHALE社區、BeepCrypto聯合出品，濃縮每周NFT新聞，為大家帶來關于NFT最全面、最新鮮、最有價值的訊息。每期周報將從NFT市場數據，藝術新聞類，游戲
下一個黃金賽道？NFT的碎片化!

碎片化可能是我們一生中最重要的一個投資趨勢，碎片化本身并不新鮮。它已經存在了400年之久。早在1602年，荷蘭東印度公司是歷史上第一家在公共證券交易所上市的公
HTC Vive推出元宇宙平臺Viverse；騰訊投資小米生態鏈AR眼鏡廠商

今日熱點：HTC Vive正式推出元宇宙平臺Viverse；騰訊投資小米生態鏈AR眼鏡廠商北京蜂巢科技；面部追蹤和眼動追蹤是Quest下一版本的“重點”；索尼PSVR 2將推遲至2023
從概念到落地 Web3.0初具雛形

加密資產熱潮催生出的鏈上應用中，除了DeFi、NFT、鏈游GameFi等場景外，還有一個熱詞叫「Web3.0」。Web3.0的概念最早出現在2014年，由以太坊聯合創始人及波卡創建者

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

一句話解鎖 100k + 上下文大模型真實力，27 分漲到 98，GPT-4、Claude2.1 適用

拯救XR，蘋果力不從心

【申萬宏源】必然的碎片化AI落地，哪種路徑可能勝出？ | 元宇宙Meta洞見

2022年中國元宇宙產業系列研究報告-基礎設施篇（5）

從NFT頂級公鏈到Web3.0基礎設施：帶你了解不一樣的Flow

好萊塢：一股新的電影制作加密浪潮將顛覆這個行業

NFT Insider #47：YGG發布2021Q4社區報告，GameFi領域1月份獲超10億美元融資

下一個黃金賽道？NFT的碎片化!

HTC Vive推出元宇宙平臺Viverse；騰訊投資小米生態鏈AR眼鏡廠商

從概念到落地 Web3.0初具雛形

最新推薦

關于年度熱詞NFT，除了錢，我們還可以聊點啥？

有人狂賺千倍，資金盤游戲日進上億，元宇宙泡沫還能吹多久？

中國區塊鏈產業生態地圖報告（2021）

吸金31億美元，誰在催火2021年的鏈游？

知名藝術家打造去中心化“好萊塢”：一部電影一個DAO

在互聯網考古后，我被豆瓣上這座元宇宙古城征服了

猜你喜歡

熱門推薦

相關資訊