當前位置：首頁 > 科技 > 網絡

R2來之前 DeepSeek又放了個煙霧彈

來源：責編：時間：2025-05-16 09:03:48 73觀看

導讀 5月前后，DeepSeek的動作倒是頻繁，卻都不是大家期待的R2。不過，一系列前菜已經給R2做足了鋪墊。5月14日，一篇DeepSeek V3論文，揭示了梁文峰是如何做到“極致降本”的。這篇論文也讓業界得以一窺這家以

5月前后，DeepSeek的動作倒是頻繁，卻都不是大家期待的R2。不過，一系列前菜已經給R2做足了鋪墊。

5月14日，一篇DeepSeek V3論文，揭示了梁文峰是如何做到“極致降本”的。這篇論文也讓業界得以一窺這家以技術立身的公司，其“內功”究竟修煉到了何種火候。

與此前發布的V3技術報告不同，這篇論文詳細闡述了DeepSeek如何做到在硬件資源的的“緊箍咒”下，通過精妙的“軟硬一體”協同設計，將成本效益這筆賬算到極致。（虎嗅注：DeepSeek-V3僅使用了2048塊英偉達H800 GPU）

在AI大模型這條燒錢的賽道上，算力即權力，但也可能是壓垮駱駝的后一根稻草。DeepSeek V3論文的核心，恰恰點出了一個行業痛點：如何讓大模型不再是少數巨頭的專屬游戲？

論文中，DeepSeek毫不吝嗇地分享了其“降本增效”的幾大秘籍，這些技術細節，字里行間都透露出對現有硬件潛能的極致壓榨，也預示著未來DeepSeek系列模型在性能與效率上的野心：

其一，是給模型的“記憶系統”瘦身。AI處理長文本、多輪對話時，需要記住海量的上下文信息，這部分“記憶”（即KV Cache）對顯存的消耗極為驚人。DeepSeek V3祭出了“多頭隱注意力機制”（MLA），好比給模型的記憶裝上了一個高效壓縮軟件，能將冗長的信息濃縮成精華，大幅降低顯存占用。這意味著，即便是處理越來越長的上下文，模型也能更加從容不迫，這對于解鎖更多復雜應用場景至關重要。

其二，是打造“專家各司其職”的團隊。面對大模型天文數字般的參數量，傳統的“一人生萬物”模式難免力不從心。DeepSeek V3沿用并優化了“混合專家模型”（MoE）架構。想象一下，一個龐大的項目被分解給一群各有所長的專家，遇到具體問題時，系統會自動“搖人”，只激活相關的幾位專家協同作戰。這樣一來，不僅運算效率提升，模型的“有效規模”也能在控制之下，避免了不必要的資源浪費。DeepSeek的優化，讓這些“專家”間的溝通更順暢，協作成本更低。

其三，是大膽擁抱“差不多就行”的數字精度。在AI訓練中，數字的精確度并非越高越好。FP8，一種低精度數字格式，就像我們日常生活中算賬，有時精確到“角”甚至“元”就已足夠，不必非要到“分”。DeepSeek V3在訓練中引入FP8混合精度，在對精度不那么敏感的環節“粗略”計算，直接效果就是計算量和內存占用大幅下降，訓練速度更快、更省電。關鍵在于，論文證明了這種“偷懶”并不會明顯犧牲模型的終性能。

其四，是鋪設更暢通的“信息高速公路”。大規模訓練離不開GPU集群的協同作戰，GPU之間的數據交換效率，直接決定了訓練的整體速度。DeepSeek V3采用了“多平面網絡拓撲結構”，優化了集群內部的數據傳輸路徑，減少了擁堵和瓶頸，確保信息流轉如絲般順滑。

可以說，DeepSeek V3的新論文，更像是一次技術自信的展示。它傳遞出一個清晰的信號：即便沒有頂級的硬件配置，通過極致的工程優化和算法創新，依然可以打造出具備行業領先潛力的大模型。這無疑為那些在算力焦慮中掙扎的追趕者們，提供了一條更具可行性的攀登路徑。

實際上，4月30日，DeepSeek還上了另一道“前菜”。

當時，DeepSeek Prover V2以671B的參數重磅亮相，要知道，DeepSeek上一次發布V2模型的時候僅有7B。對于DeepSeek Prover V2，行業觀察者們普遍認為，這是AI在輔助科學發現，特別是挑戰人類智力極限的數學領域邁出的重要一步。

而DeepSeek近期的系列動作，放置于當前AI大模型產業的宏觀背景下，更耐人尋味。

一方面，我們看到的是頭部廠商在模型參數、多模態能力、應用生態上的全方位“內卷”，技術迭代的速度令人目不暇接，資本的熱情也持續高漲。但另一方面，算力成本的持續攀升、商業化路徑的尚不清晰、以及“智能涌現”之后如何實現真正的價值創造，這些都是懸在所有從業者頭頂的達摩克利斯之劍。

在這樣的背景下，DeepSeek V3論文所強調的“成本效益”和“軟硬件協同”，以及Prover V2所代表的在特定高壁壘領域的深耕，似乎在傳遞一種不同的信號：在追求更大、更強的同時，對效率的極致追求和對特定價值場景的深度挖掘，可能成為AI下半場競爭的關鍵變量。

當“大力出奇跡”的邊際效應開始遞減，當市場開始從對技術本身的狂熱轉向對實際應用價值的考量，那些能夠更聰明地利用現有資源、更精準地切入真實需求、更深入地理解并解決復雜問題的玩家，或許才能在喧囂過后，笑到后。

DeepSeek的這些“前菜”，無疑吊足了市場的胃口。人們期待的，不僅僅是一個性能更強的R2模型，更是一個能夠為行業帶來新思路、新變量的DeepSeek。在AI的牌桌上，這家以技術為底色的公司，顯然還想打出更多意想不到的牌。

R2來之前 DeepSeek又放了個煙霧彈

文章出處：虎嗅網

本文鏈接：http://www.www897cc.com/showinfo-17-150075-0.htmlR2來之前 DeepSeek又放了個煙霧彈

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： “狗啃的” 樓梯網上酷炫的宇樹現實里是這個樣的

下一篇：憑啥“韓國的泡菜缸”能賣幾千萬啊

標簽：

熱門焦點

轎車從天而降電動車主被撞身亡超速搶道所致：現場視頻讓網友吵翻

近日，上海青浦區法院判決轎車從天而降電動車主被撞身亡案，轎車車主被判有期徒刑一年。案件顯示當時男子駕駛轎車在上海某路段行駛，前車忽然轉彎提速超車，
企業采用CRM系統的11個好處

客戶關系管理（CRM）軟件可以為企業提供很多的好處，從客戶保留到提高生產力?！　RM軟件用于企業收集客戶互動，以改善客戶體驗和滿意度?！　RM軟件市場規模如今超過580
花7萬退貨退款無門：誰在縱容淘寶珠寶商家造假？

來源：極點商業作者：楊銘在淘寶購買珠寶玉石后，因為保證金不夠賠付，店鋪關閉，退貨退款難、維權無門的比比皆是。“提供相關產品鑒定證書，支持全國復檢，可以30天無理由退換貨。&
微博大門常打開，迎接海外畫師漂洋東渡

作者:互聯網那些事“起猛了，我能看得懂日語了”。“為什么日本人說話我能聽懂？”“中文不像中文，日語不像日語，但是我竟然看懂了”…&hell
小米公益基金會捐贈2500萬元馳援北京、河北暴雨救災

8月2日消息，今日小米科技創始人雷軍在其微博上發布消息稱，小米公益基金會宣布捐贈2500萬元馳援北京、河北暴雨救災。攜手抗災，京冀安康！以下為公告原文
AI芯片初創公司Tenstorrent獲三星和現代1億美元投資

Tenstorrent是一家由芯片行業資深人士Jim Keller領導的加拿大初創公司，專注于開發人工智能芯片，該公司周三表示，已經從現代汽車集團和三星投資基金等
三星Galaxy Z Fold/Flip 5國行售價曝光：最低7499元/12999元起

據官方此前宣布，三星將于7月26日也就是明天在韓國首爾舉辦Unpacked活動，屆時將帶來帶來包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy
iQOO Neo8 Pro評測：旗艦雙芯加持最強性能游戲旗艦

【Techweb評測】去年10月，iQOO推出了一款Neo7手機，該機搭載了聯發科天璣9000+，配備獨顯芯片Pro+，帶來了同價位段最佳的游戲體驗，一經上市便受到了諸多用
電博會與軟博會實現"線下+云端"的雙線融合

在本次“電博會”與“軟博會”雙展會利好條件的加持下，既可以發揮展會拉動人流、信息流、資金流實現快速交互流動的作用，繼而推動區域經濟良性發展；又可以聚

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

R2來之前 DeepSeek又放了個煙霧彈

轎車從天而降電動車主被撞身亡超速搶道所致：現場視頻讓網友吵翻

企業采用CRM系統的11個好處

花7萬退貨退款無門：誰在縱容淘寶珠寶商家造假？

微博大門常打開，迎接海外畫師漂洋東渡

小米公益基金會捐贈2500萬元馳援北京、河北暴雨救災

AI芯片初創公司Tenstorrent獲三星和現代1億美元投資

三星Galaxy Z Fold/Flip 5國行售價曝光：最低7499元/12999元起

iQOO Neo8 Pro評測：旗艦雙芯加持最強性能游戲旗艦

電博會與軟博會實現"線下+云端"的雙線融合

最新推薦

猜你喜歡

熱門推薦

相關資訊