日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

能思考會搜索的國產大模型,全網瘋測的 DeepSeek 牛在哪?

來源: 責編: 時間:2025-02-01 10:04:41 73觀看
導讀 的家友們,蛇年吉祥!在這個農歷新年期間,科技界卻并不平靜...距離 OpenAI 發布由 GPT-3.5 模型驅動的 ChatGPT 聊天機器人,已經過去了兩年多的時間。在這兩年間,不管是微軟、谷歌這樣的科技巨頭,還是如雨后春筍般出

的家友們,蛇年吉祥!g3K28資訊網——每日最新資訊28at.com

在這個農歷新年期間,科技界卻并不平靜...g3K28資訊網——每日最新資訊28at.com

距離 OpenAI 發布由 GPT-3.5 模型驅動的 ChatGPT 聊天機器人,已經過去了兩年多的時間。g3K28資訊網——每日最新資訊28at.com

在這兩年間,不管是微軟、谷歌這樣的科技巨頭,還是如雨后春筍般出現的初創企業,都在 AI 大模型領域,投入了巨額的資源。g3K28資訊網——每日最新資訊28at.com

算力逐漸膨脹,大模型的訓練及推理成本也同樣水漲船高。g3K28資訊網——每日最新資訊28at.com

OpenAI 去年推出的 ChatGPT Pro 會員,價格已經來到了每月 200 美元。g3K28資訊網——每日最新資訊28at.com

“屠龍者終成惡龍”,每月 20 美元的 ChatGPT Plus 會員,包含的 o1 模型使用次數,可以說僅僅只夠“玩一玩”,很難真的應用于自己的工作之中。g3K28資訊網——每日最新資訊28at.com

g3K28資訊網——每日最新資訊28at.com

如果未來成本進一步上漲,難道 AI 的未來,是每月 2000 美元的“ChatGPT Pro Max 會員”嗎?g3K28資訊網——每日最新資訊28at.com

然而,一家來自杭州的“小公司” DeepSeek,卻給整個 AI 行業帶來了新思路,這兩天可以說是火遍了全網。這就來跟大家一起看看是怎么回事。g3K28資訊網——每日最新資訊28at.com

01.用起來怎么樣?

去年年底,DeepSeek-V3 模型發布,其多項評測成績超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他開源模型,并在性能上和閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。g3K28資訊網——每日最新資訊28at.com

g3K28資訊網——每日最新資訊28at.com

作為一款開源的 MoE 混合專家模型,DeepSeek-V3 當時獲得了業內人士不少的關注,但是還并沒有“出圈”。g3K28資訊網——每日最新資訊28at.com

不過,在 DeepSeek 官方的手機應用 1 月上旬上線之前,已經有一些山寨 App 準備湊熱度了。g3K28資訊網——每日最新資訊28at.com

g3K28資訊網——每日最新資訊28at.com

▲極速推出的的山寨應用

而 1 月 20 日發布的推理模型 DeepSeek-R1,則在性能上實現了對 OpenAI-o1 正式版的對標。g3K28資訊網——每日最新資訊28at.com

g3K28資訊網——每日最新資訊28at.com

此外,DeepSeek 也并沒有藏著掖著,同期公開了 DeepSeek-R1 的訓練技術,并且開源了模型權重。g3K28資訊網——每日最新資訊28at.com

而且對我們普通用戶來說,DeepSeek-R1 直接在其官網免費開放使用。g3K28資訊網——每日最新資訊28at.com

g3K28資訊網——每日最新資訊28at.com

而且,DeepSeek-R1 還可以聯網搜索信息,增加了不少使用上的靈活性。g3K28資訊網——每日最新資訊28at.com

要知道,去年 10 月 31 號上線的 ChatGPT Search 搜索功能目前還不支持與 ChatGPT o1 模型協同使用,我們只能退而求其次選擇 4o 模型。g3K28資訊網——每日最新資訊28at.com

g3K28資訊網——每日最新資訊28at.com

此外,作為一款采用 CoT 思維鏈技術的推理模型,DeepSeek-R1 直接把其思考過程顯示給用戶,這一點令我們可以直觀感受到目前大模型技術的實力。g3K28資訊網——每日最新資訊28at.com

g3K28資訊網——每日最新資訊28at.com

在海內外全網爆火的同時,DeepSeek 也承受了非常大的壓力,相信我們不少家友都對下面這句話非常熟悉。g3K28資訊網——每日最新資訊28at.com

g3K28資訊網——每日最新資訊28at.com

除了大量用戶的涌入,DeepSeek 甚至還承受了大規模的惡意攻擊。g3K28資訊網——每日最新資訊28at.com

g3K28資訊網——每日最新資訊28at.com

要知道,即便是 ChatGPT,也經常出現宿機事件,這方面也希望大家可以“理解萬歲”。g3K28資訊網——每日最新資訊28at.com

g3K28資訊網——每日最新資訊28at.com

除了 671B 參數的完整模型,DeepSeek 還蒸餾了好幾款小模型,32B 和 70B 模型也在多項能力上實現了對標 OpenAI o1-mini 的效果。g3K28資訊網——每日最新資訊28at.com

g3K28資訊網——每日最新資訊28at.com

而這些蒸餾后的模型,我們已經可以嘗試在自己的設備上,本地進行運行。g3K28資訊網——每日最新資訊28at.com

02.兩把殺手锏- MoE混合專家模型

DeepSeek-R1 的成本優勢,便在其官方 API 服務定價中體現了出來:g3K28資訊網——每日最新資訊28at.com

每百萬輸入 tokens:1 元(緩存命中)/ 4 元(緩存未命中)g3K28資訊網——每日最新資訊28at.com

每百萬輸出 tokens:16 元g3K28資訊網——每日最新資訊28at.com

g3K28資訊網——每日最新資訊28at.com

其輸出 API 價格,甚至只是 ChatGPT o1 的約 3%,這就要聊到 MoE 混合專家模型了。g3K28資訊網——每日最新資訊28at.com

前面提到,DeepSeek-R1 是一款 671B 參數的模型,從傳統的角度來看,運行起來絕不會輕松。g3K28資訊網——每日最新資訊28at.com

而 MoE 架構的核心思想,其實就是將一個復雜的問題分解成多個更小、更易于管理的子問題,并由不同的專家網絡分別處理。g3K28資訊網——每日最新資訊28at.com

g3K28資訊網——每日最新資訊28at.com

這樣,當我們向 MoE 模型輸入提示時,查詢不會激活整個 AI,而只會激活生成響應所需的特定神經網絡。g3K28資訊網——每日最新資訊28at.com

因此,R1 和 R1-Zero 在回答提示時激活的參數僅為 37B,不到其總參數量的十分之一,“讓專業的人干專業的事”,推理成本大大降低。g3K28資訊網——每日最新資訊28at.com

其實,MoE 并不是一個新概念,最早起源于 1991 年的論文《Adaptive Mixture of Local Experts》。g3K28資訊網——每日最新資訊28at.com

不過這一思路的“起飛”,還要等到 2023 年 12 月 Mixtral 8x7B 模型的推出。g3K28資訊網——每日最新資訊28at.com

外界普遍認為GPT-4 就使用了 MoE 模型,但對于已經變成“CloseAI”的 OpenAI 來說,其旗艦模型的許多技術細節,我們無從得知......g3K28資訊網——每日最新資訊28at.com

- RL 強化學習

傳統的 AI 大模型訓練,使用的是 SFT 監督微調過程,在精心策劃的數據集上訓練模型,教會它們逐步推理。g3K28資訊網——每日最新資訊28at.com

而 DeepSeek-R1 則使用 RL 強化學習的方法,完全依賴環境反饋(如如問題的正確性)來優化模型行為。g3K28資訊網——每日最新資訊28at.com

它也第一次證明了通過純 RL 訓練,即可提升模型的推理能力。模型在 RL 訓練中自主發展出自我驗證、反思推理等復雜行為,達到 ChatGPT o1 級別的能力。g3K28資訊網——每日最新資訊28at.com

這項技術,說明我們未來在訓練的過程中,可能不再需要付出極為高昂的成本,獲取大量經過詳細標注的高質量數據。g3K28資訊網——每日最新資訊28at.com

03.多模態,補短板

盡管 DeepSeek-V3 和 DeepSeek-R1 十分強大,但他們還都是名副其實的“大語言模型”,并不具有多模態的能力。g3K28資訊網——每日最新資訊28at.com

也就是說,我們目前還沒發把圖片、音頻等信息丟給他們,他們也不具備生成圖片的能力,只能通過文字的方式來進行信息交流。g3K28資訊網——每日最新資訊28at.com

g3K28資訊網——每日最新資訊28at.com

目前 DeepSeek 官方提供的文件上傳能力,其實只是走了一遍文字 OCR 識別。g3K28資訊網——每日最新資訊28at.com

不過,就在 1 月 28 日凌晨,DeepSeek 開源了全新的視覺多模態模型 Janus-Pro-7B。g3K28資訊網——每日最新資訊28at.com

與以往的方法不同,Janus-Pro 通過將視覺編碼過程拆分為多個獨立的路徑,解決了以往框架中的一些局限性,同時仍采用單一的統一變換器架構進行處理。g3K28資訊網——每日最新資訊28at.com

這一解耦方式不僅有效緩解了視覺編碼器在理解和生成過程中可能出現的沖突,還提升了框架的靈活性。g3K28資訊網——每日最新資訊28at.com

Janus 的表現超越了傳統的統一模型,并且在與任務特定模型的比較中也同樣表現出色。憑借其簡潔、高靈活性和高效性的特點,Janus-Pro 成為下一代統一多模態模型的有力競爭者。g3K28資訊網——每日最新資訊28at.com

其在 GenEval 和 DPG-Bench 基準測試中擊敗了 Stable Diffusion 和 OpenAI 的 DALL-E 3。g3K28資訊網——每日最新資訊28at.com

g3K28資訊網——每日最新資訊28at.com

g3K28資訊網——每日最新資訊28at.com

不過作為一款僅有 7B 參數的“小”模型,Janus-Pro 目前只能處理 384 x 384 分辨率的圖像。g3K28資訊網——每日最新資訊28at.com

但我們相信,這只是一道開胃菜,我們期待在新思路下,DeepSeek 未來多模態大模型的表現。g3K28資訊網——每日最新資訊28at.com

04.除夕不眠夜

DeepSeek 的爆火,讓不少 AI 大模型領域的“友商”,都沒法無視這樣一家“小公司”。g3K28資訊網——每日最新資訊28at.com

今天(1 月 29 日)凌晨,農歷新年的鐘聲剛剛敲響,阿里通義團隊帶來了他們的“新年禮物”—— Qwen2.5-Max 模型。g3K28資訊網——每日最新資訊28at.com

g3K28資訊網——每日最新資訊28at.com

通義千問團隊,也在 Qwen2.5-Max 模型的介紹中提到了 DeepSeek-V3。g3K28資訊網——每日最新資訊28at.com

近期,DeepSeek V3 的發布讓大家了解到超大規模 MoE 模型的效果及實現方法,而同期,Qwen 也在研發超大規模的 MoE 模型 Qwen2.5-Max,使用超過 20 萬億 token 的預訓練數據及精心設計的后訓練方案進行訓練。g3K28資訊網——每日最新資訊28at.com

與業界領先的模型(包括 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet)相比,Qwen2.5-Max 的性能表現也相當有競爭能力。g3K28資訊網——每日最新資訊28at.com

g3K28資訊網——每日最新資訊28at.com

在基座模型的對比中,與目前領先的開源 MoE 模型 DeepSeek V3、最大的開源稠密模型 Llama-3.1-405B 相比,Qwen2.5-Max 在大多數基準測試中都展現出了優勢。g3K28資訊網——每日最新資訊28at.com

g3K28資訊網——每日最新資訊28at.com

目前 Qwen2.5-Max 已經面向用戶開放,不過作為“Max”定位的模型,Qwen2.5-Max 暫未開源。g3K28資訊網——每日最新資訊28at.com

g3K28資訊網——每日最新資訊28at.com

而與 DeepSeek-R1 的直接對決,我們可能要等到未來新版的 QwQ、QVQ 模型。g3K28資訊網——每日最新資訊28at.com

OpenAI 的 CEO 阿爾特曼也對 DeepSeek-R1 進行了評價:g3K28資訊網——每日最新資訊28at.com

g3K28資訊網——每日最新資訊28at.com

▲很“官方”的標準回答

面對大家價格上的抱怨,阿爾特曼也表示未來的 ChatGPT o3-mini 模型將會開放給免費用戶使用,Plus 會員則每天有 100 條請求的額度。g3K28資訊網——每日最新資訊28at.com

此外,新的 ChatGPT Operator 功能也將盡快向 Plus 會員開放,而 OpenAI 的下一款模型也不會由每月 200 美元的 Pro 會員獨占,Plus 會員就能用g3K28資訊網——每日最新資訊28at.com

g3K28資訊網——每日最新資訊28at.com

這究竟是來自于 DeepSeek 等競爭對手的壓力,還是 OpenAI 自身的成本優化,我們不得而知。g3K28資訊網——每日最新資訊28at.com

我們期待著在 2025 年,還會有哪些關鍵領域的突破,AGI通用人工智能是不是也離我們越來越近了。g3K28資訊網——每日最新資訊28at.com

g3K28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-10330-0.html能思考會搜索的國產大模型,全網瘋測的 DeepSeek 牛在哪?

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 阿斯麥 CEO:DeepSeek 的出現是好消息

下一篇: 春晚小品“遠程施法”,昨晚至今喚醒全球小米小愛同學超億次

標簽:
  • 熱門焦點
  • 拯救XR,蘋果力不從心

    來源 | 光子星球撰文 | 文燁豪 編輯 | 吳先之 蘋果終于呈上了它的“答卷”。 北京時間6月6日凌晨,蘋果2023年全球開發者大會(WWDC)如期舉行。作為蘋果CEO庫克口中&ld
  • 花房集團上市,走向元宇宙新征程

    文 | 港股研究社作者 | 熊生12月12日,花房集團在港交所成功上市,首日便受到追捧,當日最高漲幅達28.75%。繼360、360數科、魯大師后,這是“紅衣教主”周
  • 元宇宙社交啫喱、希壤爆款迭出,騰訊慌了嗎?

    文 | 陳橋輝沒想到騰訊超級QQ秀的20周年歸來首秀,被一款名不見經傳的產品搶了風頭。1月15日,一款名為“啫喱”的社交App迅速在各個互聯網的社交圈內火爆起來,引起
  • 2021年中國智慧城市行業概覽:AI慧眼獨具,賦能“雙碳”目標

    中國智慧城市試點項目主要集中于東南地區以及華中地區,受制于應用場景分散以及行業地域建設差異,目前中國智慧城市存在較多弊端,未來數量有望持續突破。中國智慧
  • 虛擬數字人:元宇宙的主角破圈而來

    虛擬數字人市場逐步進入成熟期,商業化進程加速。1982年世界第一位虛擬歌姬林明美誕生,虛擬數字人行業經歷了萌芽、探索、初級和成長四個階段。隨技術逐年突破,制
  • 2030年的元宇宙產業將會如何發展?

    對互聯網巨頭傳統業務的反壟斷政策倒逼互聯網企業顛覆創新,尋找新的增長點,移動互聯網流量空間見頂之際,元宇宙時代紅利已然開啟。序章:元宇宙應用場景大猜想元宇
  • Shiba Inu布局元宇宙 走出Meme局限

    以「狗狗幣殺手」成名的Shiba Inu(SHIB)在人們的印象中始終有著濃厚的Meme(模因惡搞)烙印,但它似乎一直在嘗試突破這種局限。建立起一個龐大的粉絲社區后,Shiba Inu
  • 小眾有趣NFT藝術作品欣賞(1)

    隨著NFT發展火熱,越來越多領域與NFT融合,NFT藝術在加密領域中占據了很大一部分。NFT藝術與傳統藝術有相似之處,也有完全不同的地方。NFT藝術與傳統藝術一樣,表現了
  • 紐約證券交易所母公司ICE收購tZero股份以探索代幣化股票

    2 月 22 日,紐約證券交易所 (NYSE) 的母公司洲際交易所 (ICE) 宣布,它將持有私人數字證券市場 tZERO 的所有權。根據公告,ICE 將成為 tZero 的“重要”少數股東,但
Top 主站蜘蛛池模板: 梓潼县| 岳池县| 罗定市| 昌宁县| 清河县| 汕头市| 德清县| 南安市| 阜阳市| 高邑县| 华阴市| 博白县| 阜平县| 合阳县| 包头市| 民丰县| 仙桃市| 河东区| 屯昌县| 华池县| 兰西县| 兴宁市| 陆良县| 苏尼特右旗| 湘潭县| 手机| 东丰县| 新郑市| 信宜市| 沙河市| 平远县| 五华县| 荔波县| 黄平县| 绥阳县| 陇川县| 姚安县| 靖安县| 如皋市| 呼图壁县| 徐汇区|