日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 軟件

拋棄自回歸,連接一致性Diffusion和LLM!UCSD上交新作熱度緊追AF 3

來源: 責編: 時間:2024-05-11 09:17:52 168觀看
導讀DeepMind新發布的AlphaFold 3是科技圈今天的絕對大熱門,成為了Hacker News等許多科技媒體的頭版頭條。圖片Hacker News熱榜上緊隨其后的則是今年2月發布的論文「一致性大語言模型」。圖片到底是什么樣的成果,竟然可以頂

DeepMind新發布的AlphaFold 3是科技圈今天的絕對大熱門,成為了Hacker News等許多科技媒體的頭版頭條。fvH28資訊網——每日最新資訊28at.com

圖片圖片fvH28資訊網——每日最新資訊28at.com

Hacker News熱榜上緊隨其后的則是今年2月發布的論文「一致性大語言模型」。fvH28資訊網——每日最新資訊28at.com

圖片圖片fvH28資訊網——每日最新資訊28at.com

到底是什么樣的成果,竟然可以頂著AlphaFold 3的熱度出圈?fvH28資訊網——每日最新資訊28at.com

這篇論文不僅切中了大語言模型推理速度慢的痛點,而且實現了性能大幅度提升。fvH28資訊網——每日最新資訊28at.com

圖片圖片fvH28資訊網——每日最新資訊28at.com

CLLM在多個下游任務上都取得了2-3倍的加速,且推理過程沒有引入額外成本。在GSM8K和Spider兩個任務中,相比今年1月剛發布的Medusa 2都有了明顯提升。fvH28資訊網——每日最新資訊28at.com

圖片圖片fvH28資訊網——每日最新資訊28at.com

論文的兩位共同一作都是一年級博士生,分別是來自上海交通大學的寇思麒和來自加州大學圣地亞哥分校的胡嵐翔,他們的指導老師是交大的鄧志杰教授和UCSD的張昊教授,后者也是Vicuna/vLLM/Chatbot Arena等項目的作者。fvH28資訊網——每日最新資訊28at.com

目前這篇論文已經被ICML 2024會議接收,所用代碼已在GitHub上開源,可以在HuggingFace倉庫上看到模型多個版本的權重。fvH28資訊網——每日最新資訊28at.com

圖片圖片fvH28資訊網——每日最新資訊28at.com

https://huggingface.co/cllmfvH28資訊網——每日最新資訊28at.com

圖片圖片fvH28資訊網——每日最新資訊28at.com

https://github.com/hao-ai-lab/Consistency_LLMfvH28資訊網——每日最新資訊28at.com

LLM苦推理速度久矣

以GPT和Llama家族為代表的大語言模型雖然可以出色地完成人類語言任務,但代價也是巨大的。fvH28資訊網——每日最新資訊28at.com

除了參數量大,推理速度慢、token吞吐量低也是經常被人詬病的問題,尤其是對于上下文信息較多的任務,因此大語言模型的部署和在現實中的應用十分受限。fvH28資訊網——每日最新資訊28at.com

Reddit上經常有開發者詢問減少LLM推理時間的方法,有人曾經發帖,在64G GPU內存、4塊英偉達T4芯片上用langchain部署7B的Llama 2模型后,需要10秒鐘回答較小的查詢,較大的查詢則需要3分鐘。fvH28資訊網——每日最新資訊28at.com

圖片fvH28資訊網——每日最新資訊28at.com

為了提高推理速度和token吞吐量,研究者們想了很多方法,比如去年很流行的vLLM推理框架,就是通過改進注意力算法來提高語言模型的效率。fvH28資訊網——每日最新資訊28at.com

CLLM的思路則放在了解碼上,使用更適合并行的Jacobi算法替代傳統的自回歸方法。fvH28資訊網——每日最新資訊28at.com

Jacobi解碼算法

自回歸解碼算法在運行時,每次只能基于已知序列生成1個token,這種基于時間序列的算法對GPT之類的大模型非常不友好,要想實現并行化的推理,就必須修改模型架構或者添加額外的構件。fvH28資訊網——每日最新資訊28at.com

圖片圖片fvH28資訊網——每日最新資訊28at.com

這篇研究則提出,使用Jacobi解碼算法取代傳統的自回歸,每一次解碼可以同時生成序列后n個token。fvH28資訊網——每日最新資訊28at.com

Jacobi解碼源自用于求解非線性方程的Jacobi和Gauss-Seidel定點迭代,并被證明與使用貪婪解碼的自回歸生成相同。fvH28資訊網——每日最新資訊28at.com

給定一個初始序列時,首先生成n個隨機token作為起始點,之后將這n個token的優化問題看作n個非線性方程組,里面含有的n個變量可以基于Jacobi迭代并行求解。fvH28資訊網——每日最新資訊28at.com

每一次Jacobi迭代可以預測出一個或多個正確的token,進行多輪迭代直至收斂,就完成了n個token的預測,迭代的過程形成Jacobi軌跡。fvH28資訊網——每日最新資訊28at.com

圖片圖片fvH28資訊網——每日最新資訊28at.com

本篇文章所用Jacobi算法的靈感追溯至2021年的一篇論文,用求解非線性方程組加速神經網絡計算。fvH28資訊網——每日最新資訊28at.com

圖片圖片fvH28資訊網——每日最新資訊28at.com

論文地址:https://arxiv.org/pdf/2002.03629fvH28資訊網——每日最新資訊28at.com

以及張昊組的另一篇論文lookahead decoding:fvH28資訊網——每日最新資訊28at.com

圖片圖片fvH28資訊網——每日最新資訊28at.com

論文地址:https://arxiv.org/pdf/2402.02057fvH28資訊網——每日最新資訊28at.com

一致性語言模型

使用Jacobi算法解碼時,大語言模型的推理過程可以被歸納為——一致地將雅可比軌跡

本文鏈接:http://www.www897cc.com/showinfo-26-87963-0.html拋棄自回歸,連接一致性Diffusion和LLM!UCSD上交新作熱度緊追AF 3

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 異步編程在C#中的應用:深入理解Task

下一篇: 這個 TypeScript 技巧會讓你大吃一驚

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 嘉黎县| 色达县| 荥阳市| 横山县| 长宁区| 随州市| 大理市| 潞西市| 章丘市| 山西省| 台江县| 浮梁县| 丹东市| 金沙县| 仙游县| 两当县| 保靖县| 玛多县| 武穴市| 台南市| 铜山县| 芦溪县| 泰顺县| 成武县| 纳雍县| 彭山县| 秦安县| 榆社县| 广西| 长白| 清涧县| 福鼎市| 涟源市| 石首市| 灵石县| 南靖县| 秦皇岛市| 新巴尔虎左旗| 巴林右旗| 山西省| 邻水|