當前位置：首頁 > 科技 > 網絡

美團發布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

來源：責編：時間：2025-09-23 11:18:32 31觀看

導讀快科技9月23日消息，美團LongCat團隊正式發布全新高效推理模型——LongCat-Flash-Thinking。在保持了LongCat-Flash-Chat極致速度的同時，全新發布的LongCat-Flash-Thinking更強大、更專業。綜合評估

快科技9月23日消息，美團LongCat團隊正式發布全新高效推理模型——LongCat-Flash-Thinking。

在保持了LongCat-Flash-Chat極致速度的同時，全新發布的LongCat-Flash-Thinking更強大、更專業。

綜合評估顯示，LongCat-Flash-Thinking在邏輯、數學、代碼、智能體等多個領域的推理任務中，達到了全球開源模型的先進水平（SOTA），部分任務性能接近閉源模型GPT5-Thinking。

同時，LongCat-Flash-Thinking不僅增強了智能體自主調用工具的能力，還擴展了形式化定理證明能力，成為國內首個同時具備“深度思考+工具調用”與“非形式化+形式化”推理能力相結合的大語言模型。

美團發布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

該團隊還表示，尤其在高復雜度的任務（如數學、代碼、智能體任務）處理上，新模型具備顯著優勢。

具體表現如下：

美團發布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

通用推理能力：LongCat-Flash-Thinking具備卓越的通用推理能力，尤其在需要結構化邏輯的任務中表現突出。其在ARC-AGI基準測試中以50.3分超越OpenAI o3、Gemini2.5 Pro等頂尖閉源模型。

數學能力：LongCat-Flash-Thinking在數學推理方面展現出強大實力，躋身當前頂尖模型行列。在更具挑戰性的基準測試中優勢更加明顯——在HMMT和AIME相關基準上取得突破性成績，超越OpenAI o3，和Qwen3-235B-A22B-Thinking等領先模型水平相當。這些結果印證了其解決復雜、多步驟問題的領先能力。

代碼能力：在編程領域，LongCat-Flash-Thinking展現出開源模型先進的性能（SOTA）與綜合實力。在LiveCodeBench上以79.4分顯著超越參與評估的開源模型，并與頂級閉源模型GPT-5表現相當，證明其解決高難度編程競賽問題的卓越能力。在OJBench基準測試中也以40.7的得分保持極強競爭力，并接近領先模型Gemini2.5-Pro的水平。

智能體能力：LongCat-Flash-Thinking在復雜的、工具增強型推理（Tool-augmented Reasoning）方面表現突出，在智能體工具調用（Agentic Tool Use）上展現出強勁能力。其在τ2-Bench上以74.0分刷新開源SOTA成績，并在包括SWE-Bench、BFCL V3和VitaBench等基準測試中展現出超強競爭力。

ATP形式推理能力：LongCat-Flash-Thinking在MiniF2F-test基準中的pass@1獲得67.6的分數，大幅領先所有其他參與評估的模型，在pass@8和pass@32中同樣保持了領先優勢，凸顯其在生成結構化證明和形式化數學推理方面的絕對優勢。

目前，LongCat-Flash-Thinking已在HuggingFace、Github全面開源，并在官網可體驗。

本文鏈接：http://www.www897cc.com/showinfo-17-183390-0.html美團發布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：時隔快一百年胖東來又把自有品牌帶火了

下一篇：金字火腿：擬不超3億元取得中晟微不超20%股權

標簽：

熱門焦點

女孩租房開2小時空調用完100元電費引熱議：5級能耗惹不起月薪過萬電費也交不起

近日，江蘇蘇州一女孩租房當天充值了100元電費，開著空調不到2小時發現電費已用完。對于為什么這個快，房東表示，電表壞了這種情況很多，之前也遇到過，給租客換
三言兩語說透設計模式的藝術-單例模式

寫在前面單例模式是一種常用的軟件設計模式，它所創建的對象只有一個實例，且該實例易于被外界訪問。單例對象由于只有一個實例，所以它可以方便地被系統中的其他對象共享，從而減少
學習JavaScript的10個理由...

作者 | Simplilearn編譯 | 王瑞平當你決心學習一門語言的時候，很難選擇到底應該學習哪一門，常用的語言有Python、Java、JavaScript、C/CPP、PHP、Swift、C#、Ruby、Objective-
為什么你不應該使用Div作為可點擊元素

按鈕是為任何網絡應用程序提供交互性的最常見方式。但我們經常傾向于使用其他HTML元素，如 div span 等作為 clickable 元素。但通過這樣做，我們錯過了許多內置瀏覽器的功能。
消費結構調整丨巨頭低價博弈，拼多多還卷得動嗎？

來源：征探財經作者：陳香羽隨著流量紅利的退潮，電商的存量博弈越來越明顯。曾經主攻中高端與品質的淘寶天貓、京東重拾“低價”口號。而過去與他們錯位競爭的拼多多，靠
東方甄選單飛：有些鳥注定是關不住的

作者：彭寬鴻來源：華爾街科技眼&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;東方甄選創始人俞敏洪帶隊的“7天甘肅行”直播活動已在近日順利收官。成立后一
iQOO 11S新品發布會

iQOO將在7月4日19:00舉行新品發布會，推出杭州亞運會電競賽事官方用機iQOO 11S。
質感不錯！OPPO K11渲染圖曝光：旗艦IMX890傳感器首次下放

一直以來，OPPO K系列機型都保持著較為均衡的產品體驗，歷來都是2K價位的明星機型，去年推出的OPPO K10和OPPO K10 Pro兩款機型憑借各自的出色配置，堪稱有
微軟發布Windows 11新版引入全新任務欄狀態

近日，微軟發布了Windows 11新版，而Build 22563更新主要引入了幾周前曝光的平板模式任務欄等，系統更流暢了。更新中，Windows 11加入了專門針對平板優化的任務欄

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

美團發布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

女孩租房開2小時空調用完100元電費引熱議：5級能耗惹不起月薪過萬電費也交不起

三言兩語說透設計模式的藝術-單例模式

學習JavaScript的10個理由...

為什么你不應該使用Div作為可點擊元素

消費結構調整丨巨頭低價博弈，拼多多還卷得動嗎？

東方甄選單飛：有些鳥注定是關不住的

iQOO 11S新品發布會

質感不錯！OPPO K11渲染圖曝光：旗艦IMX890傳感器首次下放

微軟發布Windows 11新版引入全新任務欄狀態

最新推薦

猜你喜歡

熱門推薦

相關資訊