日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 資訊

DeepSeek顛覆了什么?——大模型“國產之光”破局的啟示

來源: 責編: 時間:2025-02-08 08:27:23 76觀看
導讀潘悅 制圖 一家人工智能初創企業淺淺扇動兩下翅膀,即掀起全球科技界的一陣“海嘯”。 短短30天,中國初創企業深度求索(DeepSeek)先后發布兩款性能比肩GPT-4o的大模型,“1/18的訓練成本、1/10的團隊規模、不分伯仲的模型

WTk28資訊網——每日最新資訊28at.com

潘悅 制圖WTk28資訊網——每日最新資訊28at.com

  一家人工智能初創企業淺淺扇動兩下翅膀,即掀起全球科技界的一陣“海嘯”。WTk28資訊網——每日最新資訊28at.com

  短短30天,中國初創企業深度求索(DeepSeek)先后發布兩款性能比肩GPT-4o的大模型,“1/18的訓練成本、1/10的團隊規模、不分伯仲的模型性能”令硅谷大受震撼。WTk28資訊網——每日最新資訊28at.com

  最新一期《經濟學人》封面文章第一時間讓位給這一土生土長的國產大模型:《低成本中國模型的成功動搖美國科技優勢》。很快,華爾街也同樣感受到了這種被動搖的震感。WTk28資訊網——每日最新資訊28at.com

  事實上,這匹黑馬的貢獻絕非“低成本”這一個標簽所能概括。它不僅重新定義了大模型的生產函數,還將重新定義計算。WTk28資訊網——每日最新資訊28at.com

  不論開源與閉源未來的優勢如何,這股沖擊波都將迫使全球科技界重新思考:當“規模定律”與“生態壁壘”不再絕對,什么才是下一賽季AI競爭的核心?或許我們能從中獲得新的啟示。WTk28資訊網——每日最新資訊28at.com

  擊穿三大定式WTk28資訊網——每日最新資訊28at.com

  1月下旬,DeepSeek在中區、美區蘋果App Store下載榜單中登頂,超越ChatGPT、谷歌Gemini等全球頂尖科技巨頭研發的模型產品。具體而言,它顛覆了什么?WTk28資訊網——每日最新資訊28at.com

  ——打破“越強越貴”的成本詛咒WTk28資訊網——每日最新資訊28at.com

  價格感人是讓DeepSeek快速出圈的第一個標簽。DeepSeek-R1的API服務定價為每百萬輸入tokens 1元(緩存命中)/4元(緩存未命中),每百萬輸出tokens 16元,而o1模型上述三項服務的定價分別是55元、110元、438元。WTk28資訊網——每日最新資訊28at.com

  凡是使用過幾款大模型的用戶很快就能形成這樣一個共識:就推理能力而言,DeepSeek直逼OpenAI的o1、Meta的Llama-3等一流模型,甚至在回答問題之前還能給出它的推理過程和思考鏈路。AI投資機構Menlo Ventures負責人Deedy對比谷歌Gemini和DeepSeek-R1后表示,DeepSeek-R1更便宜、上下文更長、推理性能更佳。低成本比肩o1模型,令硅谷的“燒錢模式”一時間遭到猛烈質疑。WTk28資訊網——每日最新資訊28at.com

  然而在過去,大模型服務是標準的“一分錢一分貨”,想要用上更優性能的產品必須支付更高昂的費用,以覆蓋整個模型訓練過程中更高算力成本的支出。WTk28資訊網——每日最新資訊28at.com

  ——超越“性能-成本-速度”的不可能三角WTk28資訊網——每日最新資訊28at.com

  當硅谷仍在為GPU萬卡集群豪擲千億資金時,一群土生土長的中國年輕人用557.6萬美元證明:AI大模型的比拼或許并不只靠規模,更重要的是看實際效果。有句話形象地概括出DeepSeek的優勢:“不是GPT用不起,而是DeepSeek更具性價比。”WTk28資訊網——每日最新資訊28at.com

  傳統模型訓練,需要在性能、成本、速度之間權衡,其高性能的獲得,需要極高的成本投入、更漫長的計算時間。而DeepSeek重構了大模型的“成本-性能”曲線,同時壓縮了計算周期。WTk28資訊網——每日最新資訊28at.com

  根據DeepSeek技術報告,DeepSeek-V3模型的訓練成本為557.6萬美元,訓練使用的是算力受限的英偉達H800 GPU集群。相比之下,同樣是開源模型的Meta旗下Llama-3.1模型的訓練成本超過6000萬美元,而OpenAI的GPT-4o模型的訓練成本為1億美元,且使用的是性能更加優異的英偉達H100 GPU集群。而使用過程中,DeepSeek給出反饋的時長也大部分控制在5秒至35秒之間,通過算法輕量化、計算效率最大化、資源利用率優化,成功壓縮了計算時間,降低了延遲。WTk28資訊網——每日最新資訊28at.com

  ——走出“參數膨脹”陷阱WTk28資訊網——每日最新資訊28at.com

  ChatGPT橫空出世后700多天里,全球人工智能巨頭不約而同走上了一條“大力出奇跡”的“暴力美學”路線,參數越“煉”越大,給算力、數據、能耗帶來了極大壓力。很長一段時間,參數幾乎成為大模型廠商比拼的最大焦點。WTk28資訊網——每日最新資訊28at.com

  而另辟蹊徑的DeepSeek恰巧處于對角線的另一端:并不盲目追求參數之大,而是選擇了一條通過探索更高效訓練方法以實現性能提升的“小而精”路線,打破了“參數膨脹”的慣性。WTk28資訊網——每日最新資訊28at.com

  例如DeepSeek-R1(4B參數)在數學推理、代碼生成等任務上具有比肩70B參數模型(如Llama-2)的能力,通過算法優化、數據質量提升,小參數模型一樣能實現高性能,甚至能夠“四兩撥千斤”。WTk28資訊網——每日最新資訊28at.com

  實現三大躍升WTk28資訊網——每日最新資訊28at.com

  “DeepSeek出圈,很好地證明了我們的競爭優勢:通過有限資源的極致高效利用,實現以少勝多。中國與美國在AI領域的差距正在縮小。”面壁智能首席科學家劉知遠說。WTk28資訊網——每日最新資訊28at.com

  算力封鎖下的有力破局,得益于DeepSeek技術架構、數據策略、工程實踐三方面的關鍵突破。WTk28資訊網——每日最新資訊28at.com

  ——技術架構:重新定義參數效率WTk28資訊網——每日最新資訊28at.com

  大模型的千億參數不應是冰冷的數字堆砌,而應是巧奪天工般地重組整合。WTk28資訊網——每日最新資訊28at.com

  傳統大模型Transformer架構好比一條承載車輛的高速公路,當車輛(數據)數量足夠多的時候,每輛車必須和前后所有車溝通完成才能繼續行駛(計算),導致堵車(計算慢、能耗高)。而DeepSeek創新的架構則把一條串行的高速路,變成了一個輻射狀的快遞分揀中心,先把貨物(數據)按類型分類打包,再分不同路線同時出發開往不同目的地,每輛貨車(計算)只需選擇最短路徑。因此既能提高速度又能節約能耗。WTk28資訊網——每日最新資訊28at.com

  ——數據策略:質量驅動的成本控制WTk28資訊網——每日最新資訊28at.com

  DeepSeek研發團隊相信,用“煉數據”取代“堆數據”,能使訓練更具效率。WTk28資訊網——每日最新資訊28at.com

  傳統的數據策略好比去農場隨便采撿,常有價值不高的爛菜葉(低質量數據)。而DeepSeek創新的數據蒸餾技術,有針對性地篩選掉質量不高的爛菜葉:一方面自動識別高價值數據片段(如代碼邏輯推理鏈),相比隨機采樣訓練效率提升3.2倍,另一方面通過對抗訓練生成合成數據,將高質量代碼數據獲取成本從每100個tokens的0.8元降低至0.12元。WTk28資訊網——每日最新資訊28at.com

  ——工程實踐:架起“超級工廠”流水線WTk28資訊網——每日最新資訊28at.com

  大模型傳統的訓練方式好比手工造車,一次只能裝配一臺,效率低下。而DeepSeek的3D并行相當于一方面通過流水線并行把造車流程拆分為10個步驟,同時組裝10輛車(數據分塊處理),另一方面通過張量并行,把發動機拆成零件,分給10個工廠同時生產(模型分片計算)。WTk28資訊網——每日最新資訊28at.com

  至于推理過程,傳統模型好比現點現做的餐廳,客戶等菜時間長,推理過程慢。而DeepSeek采用的INT4量化,能把復雜菜品提前做成預制菜,加熱(計算)時間減半,口味損失不到5%,實現了大模型的低成本工業化。WTk28資訊網——每日最新資訊28at.com

  超越技術的啟示WTk28資訊網——每日最新資訊28at.com

  拆解DeepSeek的成功公式不難發現,通過底層架構創新降低AGI成本,同時以開源策略構建生態護城河,提供了中小型機構突破算力限制的可行路徑。此外,我們還能從中得到一些超越技術的啟示。WTk28資訊網——每日最新資訊28at.com

  一直以來,驅動DeepSeek的目標并非利潤而是使命。“探索未至之境”的愿景也指向一種與之匹配的極簡且清爽的組織架構。WTk28資訊網——每日最新資訊28at.com

  一名人工智能科學家表示,在人工智能大模型領域,大廠、高校、傳統科研機構、初創公司在資源稟賦上其實各有優勢,但結構性的局限很難扭轉。DeepSeek這種類型的初創公司能很好地彌補其中的一個缺位——具有大工程能力、不受制于短視商業邏輯的創新定力、創業團隊扁平化組織機制帶來的絲滑流暢的協作度。WTk28資訊網——每日最新資訊28at.com

  據不具名人士透露,其V3模型的關鍵訓練架構MLA就源于一位年輕研究員的個人興趣,經過研判后DeepSeek組建了專項團隊開展大規模驗證與攻關。而R1模型果斷調整強化學習路線,領先于其他機構實現了近似o1的推理能力,核心原因之一也歸功于其青年團隊對前沿技術的敏銳嗅覺與大膽嘗試。WTk28資訊網——每日最新資訊28at.com

  “我們創新缺少的不是資本,而是信心,以及組織高密度人才的能力,調動他們高效地進行創造力與好奇心驅動的創新。”DeepSeek創始人梁文鋒說。WTk28資訊網——每日最新資訊28at.com

  在DeepSeek身上,我們看到了皮克斯動畫工作室的影子。這個年輕的中國初創企業與那個創作27部長片有19部獲得奧斯卡最佳動畫、同樣以創新為鮮明標簽的組織,有著不謀而合的組織機制與范式選擇,以及由此帶來的高企的創新成功率與人才留存率。WTk28資訊網——每日最新資訊28at.com

  不同于先發者略顯封鎖的護城堡壘,DeepSeek贏得贊譽的還有它的開源路線。將代碼、模型權重和訓練日志全部公開,不僅需要格局,更需要勇氣與實力。WTk28資訊網——每日最新資訊28at.com

  “在顛覆性技術面前,閉源形成的護城河是短暫的。即使OpenAI閉源,也無法阻止被別人趕超。”梁文鋒這樣解釋選擇開源的原因,“開源、發論文,其實并不會失去什么。對于技術人員來說,被follow(追隨模仿)是很有成就感的事。”WTk28資訊網——每日最新資訊28at.com

  從技術到愿景,DeepSeek堅定選擇的始終是一條難且正確的路。這也是為什么,即便別國在人工智能領域已坐享先發優勢,后發者依然有機會憑借技術創新、成本革命打破大模型競爭的傳統邏輯,打破人工智能行業競爭格局,打破“他國更擅長從0到1的原始創新,而中國更擅長從1到10的應用創新”的成見,重塑競爭優勢的奧秘。WTk28資訊網——每日最新資訊28at.com

  北京時間2月1日凌晨,在OpenAI發布其推理系列最新模型o3-mini時,我們從中看到了一個熟悉的字眼:“Deep research”。這是否是國產之光“被follow”的開端盡管不好斷言,但我們至少身體力行走出了一條“大力出奇跡”之外,另一條具有自主創新基因的制勝之道。WTk28資訊網——每日最新資訊28at.com

  正如梁文鋒此前接受采訪時所說,“中國要逐步成為貢獻者,而不是一直‘搭便車’。”(記者 張漫子)WTk28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-16-129144-0.htmlDeepSeek顛覆了什么?——大模型“國產之光”破局的啟示

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 英媒: DeepSeek打破美對AI話語權壟斷

下一篇: 智啟荊楚春!湖北人形機器人展現人工智能新成果

標簽:
  • 熱門焦點
  • 直屏旗艦來了 iQOO 12和K70 Pro同臺競技

    旗艦機基本上使用的都是雙曲面屏幕,這就讓很多喜歡直屏的愛好者在苦等一款直屏旗艦,這次,你們等到了。據博主數碼閑聊站帶來的最新爆料稱,Redmi下代旗艦K70 Pro和iQOO 12兩款手
  • 消息稱迪士尼要拍真人版《魔發奇緣》:女主可能也找黑人演員

    8月5日消息,迪士尼確實有點忙,忙著將不少動畫改成真人版,繼《美人魚》后,真人版《白雪公主》、《魔發奇緣》也在路上了。據外媒消息稱,迪士尼將打造真人版
  • 十個簡單但很有用的Python裝飾器

    裝飾器(Decorators)是Python中一種強大而靈活的功能,用于修改或增強函數或類的行為。裝飾器本質上是一個函數,它接受另一個函數或類作為參數,并返回一個新的函數或類。它們通常用
  • 在線圖片編輯器,支持PSD解析、AI摳圖等

    自從我上次分享一個人開發仿造稿定設計的圖片編輯器到現在,不知不覺已過去一年時間了,期間我經歷了裁員失業、面試找工作碰壁,寒冬下一直沒有很好地履行計劃.....這些就放在日
  • 得物寵物生意「狂飆」,發力“它經濟”

    作者|花花小萌主近日,得物宣布正式上線寵物鑒別,通過得物App內的“在線鑒別”,可找到鑒別寵物的選項。通過上傳自家寵物的部位細節,就能收獲擁有專業資質認證的得物鑒
  • iQOO 11S評測:行業唯一的200W標準版旗艦

    【Techweb評測】去年底,iQOO推出了“電競旗艦”iQOO 11系列,作為一款性能強機,該機不僅全球首發2K 144Hz E6全感屏,搭載了第二代驍龍8平臺及144Hz電競
  • iQOO Neo8 Pro真機諜照曝光:天璣9200+和V1+旗艦雙芯加持

    去年10月,iQOO推出了iQOO Neo7系列機型,不僅搭載了天璣9000+,而且是同價位唯一一款天璣9000+直屏旗艦,一經上市便受到了用戶的廣泛關注。在時隔半年后,
  • SN570 NVMe SSD固態硬盤 價格與性能兼具

    SN570 NVMe SSD固態硬盤是西部數據發布的最新一代WD Blue系列的固態硬盤,不僅閃存技術更為精進,性能也得到了進一步的躍升。WD Blue SN570 NVMe SSD的包裝外
  • 利用職權私自解除被封帳號 Meta開除20多名員工

    11月18日消息,據外媒援引知情人士表示,過去一年時間內,Facebook母公司Meta解雇或處罰了20多名員工以及合同工,指控這些人通過內部系統以不當方式重置用戶帳號,其
Top 主站蜘蛛池模板: 四川省| 灌阳县| 新巴尔虎右旗| 温宿县| 宁安市| 佳木斯市| 宜城市| 山丹县| 新疆| 元朗区| 永福县| 牡丹江市| 临泽县| 来宾市| 遂溪县| 光泽县| 石楼县| 滦南县| 长子县| 平江县| 布拖县| 临汾市| 绥中县| 西平县| 固原市| 元氏县| 抚顺市| 射阳县| 康马县| 襄城县| 滨州市| 济宁市| 高唐县| 山西省| 万荣县| 历史| 西盟| 南安市| 剑河县| 资源县| 千阳县|