當前位置：首頁 > 科技 > 數(shù)碼

NVIDIA RTX顯卡AI推理提速5倍！RTX PC輕松在本地搞定大模型

來源：責編：時間：2023-11-17 08:49:39 366觀看

導讀快科技11月16日消息，正在舉行的微軟Iginte全球技術大會上，微軟發(fā)布一系列AI相關的全新優(yōu)化模型、開發(fā)工具資源，幫助開發(fā)者更深入地釋放硬件性能，拓展AI場景。尤是對于當下在AI領域占據(jù)絕對主導地位的NVIDIA來

快科技11月16日消息，正在舉行的微軟Iginte全球技術大會上，微軟發(fā)布一系列AI相關的全新優(yōu)化模型、開發(fā)工具資源，幫助開發(fā)者更深入地釋放硬件性能，拓展AI場景。

尤是對于當下在AI領域占據(jù)絕對主導地位的NVIDIA來說，微軟這次送上了一份大禮包，無論是面向OpenAI Chat API的TensorRT-LLM封裝接口，還是RTX驅動的性能改進DirectML for Llama 2，以及其他熱門大語言模型(LLM)，都可以在NVIDIA硬件上獲得更好的加速和應用。

其中，TensorRT-LLM是一款用于加速LLM推理的庫，可大大提升AI推理性能，還在不斷更以支持越來越多的語言模型，而且它還是開源的。

就在10月份，NVIDIA也發(fā)布了面向Windows平臺的TensorRT-LLM，在配備RTX 30/40系列GPU顯卡的臺式機、筆記本上，只要顯存不少于8GB，就可以更輕松地完成要求嚴苛的AI工作負載。

現(xiàn)在，Tensor RT-LLM for Windows可以通過全新的封裝接口，與 OpenAI 廣受歡迎的聊天 API 兼容，因此可以在本地直接運行各種相關應用，而不需要連接云端，有利于在 PC 上保留私人和專有數(shù)據(jù)，防范隱私泄露。

只要是針對TensorRT-LLM優(yōu)化過的大語言模型，都可以與這一封裝接口配合使用，包括Llama 2、Mistral、NV LLM，等等。

對于開發(fā)者來說，無需繁瑣的代碼重寫和移植，只需修改一兩行代碼，就可以讓AI應用在本地快速執(zhí)行。

NVIDIA RTX顯卡AI推理提速5倍！RTX PC輕松在本地搞定大模型 ↑↑↑基于TensorRT-LLM的微軟Visual Studio代碼插件——Continue.dev編碼助手

本月底還會有TensorRT-LLM v0.6.0版本更新，將會在RTX GPU上帶來多達5倍的推理性能提升，并支持更多熱門的 LLM，包括全新的70億參數(shù)Mistral、80億參數(shù)Nemotron-3，讓臺式機和筆記本也能隨時、快速、準確地本地運行LLM。

根據(jù)實測數(shù)據(jù)，RTX 4060顯卡搭配TenroRT-LLM，推理性能可以跑到每秒319 tokens，相比其他后端的每秒61 tokens提速足足4.2倍。

RTX 4090則可以從每秒tokens加速到每秒829 tokens，提升幅度達2.8倍。

NVIDIA RTX顯卡AI推理提速5倍！RTX PC輕松在本地搞定大模型

基于強大的硬件性能、豐富的開發(fā)生態(tài)、廣闊的應用場景，NVIDIA RTX正成為本地端側AI不可或缺的得力助手，而越來越豐富的優(yōu)化、模型和資源，也在加速AI功能、應用在上億臺RTX PC上的普及。

目前已經(jīng)有400多個合作伙伴發(fā)布了支持RTX GPU加速的AI應用、游戲，而隨著模型易用性的不斷提高，相信會有越來越多的AIGC功能出現(xiàn)在Windows PC平臺上。

NVIDIA RTX顯卡AI推理提速5倍！RTX PC輕松在本地搞定大模型

本文鏈接：http://www.www897cc.com/showinfo-24-27406-0.htmlNVIDIA RTX顯卡AI推理提速5倍！RTX PC輕松在本地搞定大模型

聲明：本網(wǎng)頁內容旨在傳播知識，若有侵權等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：牙膏都懶得擠了！RTX 40筆記本暫時按兵不動

下一篇：微軟推出兩款定制芯片Azure Maia 100和Azure Cobalt 100

標簽：

熱門焦點

印度登月最關鍵一步！月船三號今晚進入環(huán)月軌道

8月5日消息，據(jù)印度官方消息，月船三號將于北京時間今晚21時30分左右開始近月制動進入環(huán)月軌道。這是該探測器能夠成功的最關鍵步驟之一，如果成功將開始圍
轎車從天而降電動車主被撞身亡超速搶道所致：現(xiàn)場視頻讓網(wǎng)友吵翻

近日，上海青浦區(qū)法院判決轎車從天而降電動車主被撞身亡案，轎車車主被判有期徒刑一年。案件顯示當時男子駕駛轎車在上海某路段行駛，前車忽然轉彎提速超車，
SpringBoot中使用Cache提升接口性能詳解

環(huán)境：springboot2.3.12.RELEASE + JSR107 + Ehcache + JPASpring 框架從 3.1 開始，對 Spring 應用程序提供了透明式添加緩存的支持。和事務支持一樣，抽象緩存允許一致地使用各
三言兩語說透設計模式的藝術-單例模式

寫在前面單例模式是一種常用的軟件設計模式，它所創(chuàng)建的對象只有一個實例，且該實例易于被外界訪問。單例對象由于只有一個實例，所以它可以方便地被系統(tǒng)中的其他對象共享，從而減少
量化指標是與非：挽救被量化指標扼殺的技術團隊

作者 | 劉新翠整理 | 徐杰承本文整理自快狗打車技術總監(jiān)劉新翠在WOT2023大會上的主題分享，更多精彩內容及現(xiàn)場PPT，請關注51CTO技術棧公眾號，發(fā)消息【W(wǎng)OT2023PPT】即可直接領取
虛擬鍵盤 API 的妙用

你是否在遇到過這樣的問題：移動設備上有一個固定元素，當激活虛擬鍵盤時，該元素被隱藏在了鍵盤下方？多年來，這一直是 Web 上的默認行為，在本文中，我們將探討這個問題、為什么會發(fā)生
國行版三星Galaxy Z Fold5/Z Flip5發(fā)布售價7499元起

2023年8月3日，三星電子舉行Galaxy新品中國發(fā)布會，正式在國內推出了新一代折疊屏智能手機三星Galaxy Z Fold5與Galaxy Z Flip5，以及三星Galaxy Tab S9
AI芯片初創(chuàng)公司Tenstorrent獲三星和現(xiàn)代1億美元投資

Tenstorrent是一家由芯片行業(yè)資深人士Jim Keller領導的加拿大初創(chuàng)公司，專注于開發(fā)人工智能芯片，該公司周三表示，已經(jīng)從現(xiàn)代汽車集團和三星投資基金等
外交部：美方應停止在網(wǎng)絡安全問題上不負責任地指責他國

　中國外交部今天（16日）舉行例行記者會。會上，有記者問，美國情報官員稱，他們正在阻攔來自中國以及其他國家的黑客獲取相關科研成果。中方對此有何評論？對此

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

NVIDIA RTX顯卡AI推理提速5倍！RTX PC輕松在本地搞定大模型

印度登月最關鍵一步！月船三號今晚進入環(huán)月軌道

轎車從天而降電動車主被撞身亡超速搶道所致：現(xiàn)場視頻讓網(wǎng)友吵翻

SpringBoot中使用Cache提升接口性能詳解

三言兩語說透設計模式的藝術-單例模式

量化指標是與非：挽救被量化指標扼殺的技術團隊

虛擬鍵盤 API 的妙用

國行版三星Galaxy Z Fold5/Z Flip5發(fā)布售價7499元起

AI芯片初創(chuàng)公司Tenstorrent獲三星和現(xiàn)代1億美元投資

外交部：美方應停止在網(wǎng)絡安全問題上不負責任地指責他國

最新推薦

猜你喜歡

熱門推薦

相關資訊