快科技9月23日消息,美團LongCat團隊正式發布全新高效推理模型——LongCat-Flash-Thinking。
在保持了LongCat-Flash-Chat極致速度的同時,全新發布的LongCat-Flash-Thinking更強大、更專業。

綜合評估顯示,LongCat-Flash-Thinking在邏輯、數學、代碼、智能體等多個領域的推理任務中,達到了全球開源模型的先進水平(SOTA),部分任務性能接近閉源模型GPT5-Thinking。
同時,LongCat-Flash-Thinking不僅增強了智能體自主調用工具的能力,還擴展了形式化定理證明能力,成為國內首個同時具備“深度思考+工具調用”與“非形式化+形式化”推理能力相結合的大語言模型。

該團隊還表示,尤其在高復雜度的任務(如數學、代碼、智能體任務)處理上,新模型具備顯著優勢。
具體表現如下:

通用推理能力:LongCat-Flash-Thinking具備卓越的通用推理能力,尤其在需要結構化邏輯的任務中表現突出。其在ARC-AGI基準測試中以50.3分超越OpenAI o3、Gemini2.5 Pro等頂尖閉源模型。
數學能力:LongCat-Flash-Thinking在數學推理方面展現出強大實力,躋身當前頂尖模型行列。在更具挑戰性的基準測試中優勢更加明顯——在HMMT和AIME相關基準上取得突破性成績,超越OpenAI o3,和Qwen3-235B-A22B-Thinking等領先模型水平相當。這些結果印證了其解決復雜、多步驟問題的領先能力。
代碼能力:在編程領域,LongCat-Flash-Thinking展現出開源模型先進的性能(SOTA)與綜合實力。在LiveCodeBench上以79.4分顯著超越參與評估的開源模型,并與頂級閉源模型GPT-5表現相當,證明其解決高難度編程競賽問題的卓越能力。在OJBench基準測試中也以40.7的得分保持極強競爭力,并接近領先模型Gemini2.5-Pro的水平。
智能體能力:LongCat-Flash-Thinking在復雜的、工具增強型推理(Tool-augmented Reasoning)方面表現突出,在智能體工具調用(Agentic Tool Use)上展現出強勁能力。其在τ2-Bench上以74.0分刷新開源SOTA成績,并在包括SWE-Bench、BFCL V3和VitaBench等基準測試中展現出超強競爭力。
ATP形式推理能力:LongCat-Flash-Thinking在MiniF2F-test基準中的pass@1獲得67.6的分數,大幅領先所有其他參與評估的模型,在pass@8和pass@32中同樣保持了領先優勢,凸顯其在生成結構化證明和形式化數學推理方面的絕對優勢。
目前,LongCat-Flash-Thinking已在HuggingFace、Github全面開源,并在官網可體驗。
本文鏈接:http://www.www897cc.com/showinfo-17-183390-0.html美團發布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: 時隔快一百年 胖東來又把自有品牌帶火了