近日,清華大學(xué)的一支科研團隊在人工智能領(lǐng)域取得了突破性進展,成功解決了大模型推理的算力瓶頸問題,這一成就無疑給英偉達等傳統(tǒng)高性能計算解決方案提供商帶來了不小的沖擊。
據(jù)相關(guān)媒體報道,清華大學(xué)的KVCache.AI團隊攜手趨境科技,對其開源項目KTransformers進行了重大更新。此次更新標志著在24G顯存的硬件設(shè)備(例如RTX 4090D)上,也能流暢運行DeepSeek-R1和V3的671B滿血版模型,這無疑是一次具有里程碑意義的突破。
KTransformers項目的核心在于其創(chuàng)新的異構(gòu)計算策略。團隊巧妙地利用了稀疏性,即在混合專家(MoE)架構(gòu)中,每次僅激活部分專家模塊,而非全部。他們將這些非共享的稀疏矩陣卸載到CPU內(nèi)存中,并結(jié)合高速算子進行處理,從而成功將顯存占用壓縮至24GB以內(nèi)。
團隊還采用了4bit量化技術(shù)和Marlin GPU算子,這一優(yōu)化使得計算效率提升了3.87倍。在CPU端,他們通過llamafile實現(xiàn)了多線程并行,預(yù)處理速度高達每秒286個詞元。這些技術(shù)上的創(chuàng)新,共同推動了KTransformers項目的性能飛躍。
不僅如此,團隊還引入了CUDA Graph加速技術(shù),這一技術(shù)顯著減少了CPU與GPU之間的通信開銷?,F(xiàn)在,單次解碼僅需一次完整的CUDA Graph調(diào)用,生成速度達到了每秒14個詞元。這些優(yōu)化措施,使得大模型推理變得更加高效和便捷。
這一突破帶來的后果是顯而易見的。在過去,運行如此大規(guī)模的語言模型需要依賴昂貴的8卡A100服務(wù)器,其成本超過百萬,且按需計費每小時可達數(shù)千元。而現(xiàn)在,只需一張RTX 4090顯卡,整機成本約為2萬元,功耗僅為80W,這使得中小團隊和個人開發(fā)者也能輕松承擔(dān)和運行這些大規(guī)模模型。
NVIDIA RTX 4090成功運行DeepSeek-R1滿血版的案例,不僅彰顯了清華大學(xué)團隊的技術(shù)實力和創(chuàng)新精神,更是開源精神與硬件潛能完美結(jié)合的典范。這一成就證明,在人工智能飛速發(fā)展的今天,創(chuàng)新往往源自于對“不可能”的勇敢挑戰(zhàn)。
這一突破無疑將推動人工智能技術(shù)的進一步發(fā)展,使得更多有志于AI研究的團隊和個人能夠參與到這一前沿領(lǐng)域的探索中來。我們期待著未來在清華團隊的引領(lǐng)下,人工智能領(lǐng)域能夠涌現(xiàn)出更多令人矚目的創(chuàng)新成果。
本文鏈接:http://www.www897cc.com/showinfo-45-10823-0.html清華突破!RTX 4090單卡就能運行滿血版DeepSeek,AI算力門檻大幅降低
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com