日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

大模型實時打《街霸》捉對 PK:GPT-4 不敵 3.5,新型 Benchmark 火了

來源: 責編: 時間:2024-04-03 09:03:33 237觀看
導讀 讓大模型直接操縱格斗游戲《街霸》里的角色,捉對 PK,誰更能打?GitHub 上一種你沒有見過的船新 Benchmark 火了。與 llmsys 大模型競技場中,兩個大模型分別輸出答案,再由人類評分不同 —— 街霸 Bench 引入了兩個 A

讓大模型直接操縱格斗游戲《街霸》里的角色,捉對 PK,誰更能打?P2B28資訊網——每日最新資訊28at.com

GitHub 上一種你沒有見過的船新 Benchmark 火了。P2B28資訊網——每日最新資訊28at.com

P2B28資訊網——每日最新資訊28at.com

與 llmsys 大模型競技場中,兩個大模型分別輸出答案,再由人類評分不同 —— 街霸 Bench 引入了兩個 AI 之間的交互,且由游戲引擎中確定的規則評判勝負。P2B28資訊網——每日最新資訊28at.com

這種新玩法吸引了不少網友來圍觀。P2B28資訊網——每日最新資訊28at.com

P2B28資訊網——每日最新資訊28at.com

由于項目是在 Mistral 舉辦的黑客馬拉松活動上開發,所以開發者只使用 OpenAI 和 Mistral 系列模型進行了測試。P2B28資訊網——每日最新資訊28at.com

排名結果也很出人意料。經過 342 場對戰后,根據棋類、電競常用的 ELO 算法得出的排行榜如下:P2B28資訊網——每日最新資訊28at.com

最新版 gpt-3.5-turbo 成績斷崖式領先,Mistral 小杯排第二。更小的模型超過了更大的如 GPT-4 和 Mistral 中杯大杯。P2B28資訊網——每日最新資訊28at.com

P2B28資訊網——每日最新資訊28at.com

開發者認為,這種新型基準測試評估的是大模型理解環境并根據特定情況采取行動的能力。P2B28資訊網——每日最新資訊28at.com

與傳統的強化學習也有所不同,強化學習模型相當于根據獎勵函數“盲目地”采取不同行動,但大模型完全了解自身處境并有目的的采取行動。P2B28資訊網——每日最新資訊28at.com

考驗 AI 的動態決策力

AI 想在格斗游戲里稱王,需要哪些硬實力呢?開發者給出幾個標準:P2B28資訊網——每日最新資訊28at.com

反應要快:格斗游戲講究實時操作,猶豫就是敗北P2B28資訊網——每日最新資訊28at.com

腦子要靈:高手應該預判對手幾十步,未雨綢繆P2B28資訊網——每日最新資訊28at.com

思路要野:常規套路人人會,出奇制勝才是制勝法寶P2B28資訊網——每日最新資訊28at.com

適者生存:從失敗中吸取教訓并調整策略P2B28資訊網——每日最新資訊28at.com

久經考驗:一局定勝負不說明問題,真正的高手能保持穩定的勝率P2B28資訊網——每日最新資訊28at.com

P2B28資訊網——每日最新資訊28at.com

具體玩法如下:P2B28資訊網——每日最新資訊28at.com

每個大模型控制一個游戲角色,程序向大模型發送屏幕畫面的文本描述,大模型根據雙方血量、怒氣值、位置、上一個動作、對手的上一個動作等信息做出最優決策。P2B28資訊網——每日最新資訊28at.com

P2B28資訊網——每日最新資訊28at.com

第一個挑戰是定位人物在場景中的位置,通過檢測像素顏色來判斷。P2B28資訊網——每日最新資訊28at.com

P2B28資訊網——每日最新資訊28at.com

由于目前大模型數學能力還都不太行,直接發送坐標值效果不好,最終選擇了將位置信息改寫成自然語言描述。P2B28資訊網——每日最新資訊28at.com

所以對于 AI 來說,實際上他們在玩的是一種奇怪的文字冒險游戲。P2B28資訊網——每日最新資訊28at.com

P2B28資訊網——每日最新資訊28at.com

再把大模型生成的動作招式映射成按鍵組合,就能發送給游戲模擬器執行了。P2B28資訊網——每日最新資訊28at.com

P2B28資訊網——每日最新資訊28at.com

在試驗中發現,大模型可以學會復雜的行為,比如僅在對手靠近時才攻擊,可能的情況下使用特殊招式,以及通過跳躍來拉開距離。P2B28資訊網——每日最新資訊28at.com

P2B28資訊網——每日最新資訊28at.com

從結果上可以看出,與其他測試方法不同,在這個規則下似乎更大的模型表現越差。P2B28資訊網——每日最新資訊28at.com

開發者對此解釋到:P2B28資訊網——每日最新資訊28at.com

目標是評估大模型的實時決策能力,規則上允許 AI 提前生成 3-5 個動作,更大的模型能提前生成更多的動作,但也需要更長的時間。P2B28資訊網——每日最新資訊28at.com

在推理上的延遲差距是有意保留的,但后續或許會加入其他選項。P2B28資訊網——每日最新資訊28at.com

P2B28資訊網——每日最新資訊28at.com

后續也有用戶提交了流行開源模型的對戰結果,在 7B 及以下量級的戰斗中,還是 7B 模型排名更靠前。P2B28資訊網——每日最新資訊28at.com

P2B28資訊網——每日最新資訊28at.com

從這個角度看,這種新型基準測試為評估大模型的實用性提供了新思路。P2B28資訊網——每日最新資訊28at.com

現實世界的應用往往比聊天機器人復雜得多,需要模型具備快速理解、動態規劃的本領。P2B28資訊網——每日最新資訊28at.com

P2B28資訊網——每日最新資訊28at.com

正如開發者所說,想要贏,要在速度和精度之間做好權衡。P2B28資訊網——每日最新資訊28at.com

GitHub 項目:P2B28資訊網——每日最新資訊28at.com

https://github.com/OpenGenerativeAI/llm-colosseumP2B28資訊網——每日最新資訊28at.com

參考鏈接:P2B28資訊網——每日最新資訊28at.com

[1]https://x.com/nicolasoulianov/status/1772291483325878709P2B28資訊網——每日最新資訊28at.com

[2]https://x.com/justinlin610/status/1774117947235324087P2B28資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位 (ID:QbitAI),作者:夢晨P2B28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-3817-0.html大模型實時打《街霸》捉對 PK:GPT-4 不敵 3.5,新型 Benchmark 火了

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: OpenAI攜Sora進軍好萊塢,與電影巨頭共商AI未來

下一篇: 消息稱 OpenAI 將于本月在日本東京設立亞洲首個辦事處

標簽:
  • 熱門焦點
Top 日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不
精品不卡一区二区三区| 国产精品网红福利| 韩日欧美一区| 亚洲欧美国产精品桃花| 欧美精品偷拍| 亚洲第一狼人社区| 久久久综合网站| 国产午夜亚洲精品不卡| 亚洲一区一卡| 国产精品久久久久9999| 宅男精品视频| 欧美日韩中文精品| 在线一区视频| 欧美日韩在线精品| 亚洲精品日产精品乱码不卡| 麻豆久久婷婷| 激情六月婷婷综合| 久久网站免费| 在线观看福利一区| 裸体女人亚洲精品一区| 在线日韩日本国产亚洲| 久久综合久久美利坚合众国| 伊人久久大香线| 美女视频黄免费的久久| 亚洲高清视频一区二区| 你懂的视频一区二区| 最新亚洲激情| 欧美日本在线播放| 中国成人亚色综合网站| 欧美天堂在线观看| 亚洲自拍偷拍网址| 国产精品影视天天线| 欧美中文字幕视频| 狠狠干成人综合网| 欧美~级网站不卡| 亚洲另类自拍| 欧美午夜激情小视频| 亚洲欧美日韩另类| 国产一区二区剧情av在线| 久久久av水蜜桃| 亚洲国产高清自拍| 欧美乱人伦中文字幕在线| 国产精品99久久久久久久久久久久| 国产精品成人v| 亚洲综合成人婷婷小说| 国产欧美日韩麻豆91| 久久精品国内一区二区三区| 在线观看欧美亚洲| 欧美另类在线播放| 亚洲欧美成人在线| 国产综合视频在线观看| 免费美女久久99| 一区二区三区蜜桃网| 国产精品日韩欧美一区二区| 久久黄色网页| 亚洲黄网站黄| 国产精品成人在线| 久久精品一区二区三区不卡牛牛| 亚洲电影观看| 欧美日韩在线观看视频| 欧美一区二区三区另类 | 免费成人av资源网| 日韩视频在线免费观看| 国产精品日韩在线观看| 久久综合免费视频影院| 在线亚洲一区二区| 国产一区二区激情| 欧美极品aⅴ影院| 午夜精品美女自拍福到在线 | 国产日韩欧美在线| 欧美凹凸一区二区三区视频| 亚洲一区二区在线看| 黄色日韩精品| 国产精品99免费看 | 欧美高清视频免费观看| 亚洲综合999| 亚洲国产精品v| 国产精品日韩一区二区| 美日韩丰满少妇在线观看| 国产精品99久久不卡二区| 狠狠综合久久av一区二区小说| 欧美精品啪啪| 久久精品成人| 中国成人亚色综合网站| 在线观看日韩专区| 国产精品网曝门| 欧美精品成人在线| 久久精品国产亚洲高清剧情介绍 | 91久久综合| 国产午夜精品美女毛片视频| 欧美精品一区二区三区久久久竹菊 | 欧美三级中文字幕在线观看| 久久久精品一区| 亚洲午夜成aⅴ人片| 在线观看日韩av| 国产欧美日韩一级| 欧美—级a级欧美特级ar全黄| 欧美在线视频a| 亚洲视频在线二区| 91久久在线播放| 一色屋精品视频在线观看网站| 国产精品青草久久| 欧美日韩另类字幕中文| 久久综合精品国产一区二区三区| 亚洲欧美日韩综合国产aⅴ| 亚洲激情在线播放| 黄色亚洲在线| 国产日韩av在线播放| 欧美日韩国产丝袜另类| 欧美阿v一级看视频| 久久精品视频在线| 午夜久久美女| 亚洲一级黄色| 一个色综合av| 亚洲精选在线观看| 在线观看国产一区二区| 国产一区二区三区四区在线观看| 国产精品美女久久久免费| 欧美日韩免费一区| 欧美精品一区在线| 欧美电影免费网站| 六月丁香综合| 久久香蕉精品| 久久漫画官网| 久久久人成影片一区二区三区| 欧美一级日韩一级| 午夜精品影院| 午夜激情久久久| 午夜精品久久久久久99热软件| 亚洲一区二区三区777| 一区二区三区欧美视频| 日韩亚洲国产欧美| 亚洲乱码国产乱码精品精98午夜| 亚洲精品久久| 亚洲精品护士| 亚洲麻豆av| a4yy欧美一区二区三区| 夜夜嗨av一区二区三区| 一本色道久久加勒比88综合| 日韩视频在线一区二区三区| 亚洲精品一区二区三区樱花 | 在线观看一区二区视频| 影音先锋亚洲视频| 在线观看91精品国产麻豆| 亚洲电影在线观看| 在线欧美日韩| 亚洲国产一区二区三区高清| 亚洲欧洲一区二区在线播放| 亚洲日本aⅴ片在线观看香蕉| 亚洲精品国产精品久久清纯直播| 亚洲日本va午夜在线影院| 亚洲欧洲美洲综合色网| 日韩视频一区二区在线观看 | 亚洲网站视频| 亚洲欧美三级在线| 欧美在线关看| 久久一区二区精品| 欧美成人高清视频| 欧美日本一区| 国产精品久久久久久妇女6080| 国产精品夜夜嗨| 国产一区二区日韩精品| 在线免费一区三区| 亚洲精品乱码久久久久久蜜桃91| 99精品福利视频| 亚洲免费人成在线视频观看| 欧美一区二区三区免费观看视频| 久久久激情视频| 欧美国产视频在线观看| 欧美色另类天堂2015| 国产乱人伦精品一区二区| 黄色一区二区三区四区| 亚洲精品在线观| 亚洲欧美国产毛片在线| 久久夜色精品国产| 欧美日韩大片| 国产欧美视频在线观看| 在线观看亚洲专区| 99伊人成综合| 欧美中文字幕在线播放| 麻豆freexxxx性91精品| 欧美视频在线不卡| 国产主播精品| 亚洲精品乱码久久久久久蜜桃91| 亚洲综合色婷婷| 久久综合久久综合久久综合| 欧美日韩午夜激情| 国产亚洲欧美日韩日本| 亚洲精品国产拍免费91在线| 午夜精彩视频在线观看不卡| 蜜臀久久99精品久久久久久9| 欧美无砖砖区免费| 国模叶桐国产精品一区| 亚洲靠逼com| 久久国产主播| 欧美日韩99| 韩国欧美一区| 艳妇臀荡乳欲伦亚洲一区| 欧美在线看片a免费观看| 欧美精品国产| 国内精品国产成人| 亚洲视频大全| 你懂的成人av| 国产日韩欧美日韩|