日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 芯片

英偉達聯(lián)合推出超強多模態(tài)模型DAM

來源:icspec 責編: 時間:2025-04-28 07:35:34 79觀看
導(dǎo)讀據(jù)報道,英偉達與加州大學(xué)伯克利分校、加州大學(xué)舊金山分校團隊合作,推出了一款名為Describe Anything Model(DAM)的多模態(tài)模型。這款模型僅包含30億參數(shù),卻能夠精準描述圖像和視頻中的任何細節(jié)。DAM模型專注于詳細局部標注(D
據(jù)報道,英偉達與加州大學(xué)伯克利分校、加州大學(xué)舊金山分校團隊合作,推出了一款名為Describe Anything Model(DAM)的多模態(tài)模型。這款模型僅包含30億參數(shù),卻能夠精準描述圖像和視頻中的任何細節(jié)。
DAM模型專注于詳細局部標注(DLC),即為特定區(qū)域生成詳細且精確的描述。通過兩大創(chuàng)新,研究人員在細節(jié)與上下文之間找到了平衡。其一是焦點提示,對目標區(qū)域進行高分辨率編碼,就像給模型配備了一副“放大鏡”,清晰捕捉到局部區(qū)域的細微特征。其二是局部視覺骨干網(wǎng)絡(luò),將精確定位的特定區(qū)域與上下文無縫整合。
在項目主頁中,研究團隊展示了更多精彩demo。用戶通過點、框、涂鴉或掩碼的交互,即可一鍵生成描述。例如,上傳一張柯基在草地上奔跑的圖片,選中柯基,DAM會生成一段詳細的描述:“一只中等體型的狗,擁有濃密的紅棕色毛發(fā),腹部和腿部為白色。這只狗尾巴蓬松,耳朵尖立,戴著帶有銀色吊牌的紅色項圈。它張著嘴露出牙齒,舌頭伸在外面。狗呈奔跑姿勢,前腿向前伸展,后腿向后伸直。”
DAM的技術(shù)架構(gòu)確保了其在生成關(guān)鍵詞、短語,甚至是多句式的復(fù)雜描述時,都能保持高精度和連貫性。此外,研究團隊設(shè)計了基于半監(jiān)督學(xué)習的流水線(DLC-SDP),通過兩階段策略構(gòu)建大規(guī)模訓(xùn)練數(shù)據(jù)。
為了公平評估DLC模型,研究團隊提出了全新基準DLC-Bench。通過LLM判斷,檢查描述的正確細節(jié)和錯誤缺失,而非簡單對比文本。在DLC-Bench和其他7個涵蓋圖像與視頻的基準測試中,DAM全面超越現(xiàn)有模型,樹立了新的標桿。
DAM的優(yōu)勢主要有三大點:更詳細、更準確;更少幻覺;多場景適用。其強大能力為眾多應(yīng)用場景打開了大門,未來諸如數(shù)據(jù)標注、醫(yī)療影像、內(nèi)容創(chuàng)作等領(lǐng)域,都可以加速落地。
Long (Tony) Lian是UC伯克利電子工程與計算機科學(xué)博士研究生,他的研究主要聚焦于通過強化學(xué)習開發(fā)具備推理能力的大模型與視覺語言模型。此前,他曾在英偉達研究院Deep Imagination Research團隊實習。Long (Tony) Lian本科畢業(yè)于UC伯克利計算機科學(xué)專業(yè)。

本文鏈接:http://www.www897cc.com/showinfo-27-147931-0.html英偉達聯(lián)合推出超強多模態(tài)模型DAM

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 本田電動化新作:燁GT與P7雙車齊發(fā)

下一篇: 和輝光電遞表港交所,AMOLED面板業(yè)務(wù)表現(xiàn)亮眼

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 毕节市| 饶平县| 五台县| 合水县| 体育| 绥阳县| 揭阳市| 闵行区| 雷山县| 昌乐县| 平谷区| 全椒县| 邹平县| 阿图什市| 韶山市| 吴堡县| 河北省| 靖宇县| 胶州市| 青岛市| 金湖县| 光泽县| 浙江省| 绩溪县| 繁峙县| 察隅县| 五华县| 洪泽县| 巴马| 南溪县| 舞钢市| 宝应县| 乃东县| 南昌县| 昂仁县| 马鞍山市| 贡嘎县| 阿克| 玉溪市| 黄骅市| 宜州市|