當人類走進便利店尋找特定飲料時,即便貨架上商品琳瑯滿目,我們也能迅速鎖定目標。這種看似簡單的視覺定位能力,對人工智能而言卻是一道難題。中國科學院計算技術研究所的研究團隊針對這一挑戰,提出了一種名為CARVE的創新解決方案,有效提升了AI在復雜場景中的視覺推理能力。
研究團隊發現,現有AI視覺語言模型在處理復雜圖像時,注意力容易分散。就像人在嘈雜環境中難以集中精神一樣,AI面對包含大量視覺元素的圖片時,往往會被無關信息干擾,導致任務執行效率下降。這種注意力分散的程度與圖像的視覺復雜度密切相關,研究團隊通過量化分析證實,圖像的紋理復雜度和顏色復雜度越高,AI的注意力就越難以集中。
CARVE方法的核心在于構建了一種對比注意力機制。該方法不需要對現有AI模型進行重新訓練,而是通過設計兩種不同的觀察指令來引導模型。首先讓AI以通用指令(如"描述圖片")觀察圖像,此時模型的注意力主要受圖像本身特征影響;再讓AI以具體任務指令(如"找出紅色標簽的瓶子")觀察同一圖像,此時注意力會結合任務需求進行調整。通過對比這兩次注意力分布的差異,CARVE能夠準確識別出與任務真正相關的視覺區域。
研究團隊從數學角度證明了這種對比機制的有效性。他們發現AI的注意力分布可以分解為兩個獨立因素的乘積:一個是完全由圖像視覺特征決定的"視覺噪音因子",另一個是由任務需求決定的"語義信號因子"。在通用指令下,語義信號因子趨于均勻分布,注意力主要由視覺噪音主導;而在具體任務指令下,語義信號因子會在相關區域顯著增強。CARVE通過簡單的數學運算,成功分離出這兩個因子,有效抑制了視覺噪音的干擾。
實驗結果顯示,CARVE方法在多個標準測試集上均取得了顯著成效。特別是在處理能力有限的開源模型時,性能提升幅度最高達到75%。以LLAVA1.5-7B模型為例,在專門測試復雜場景小目標定位能力的V*數據集上,其準確率從38.7%提升至66.5%,提升幅度達71.83%。在需要識別圖像中文字信息的TextVQA數據集上,同一模型的準確率也從47.8%提升至58.2%。
與其他視覺增強方法的對比測試進一步驗證了CARVE的優勢。在TextVQA數據集上,CARVE以58.2%的準確率領先于所有對比方法,包括基于SAM分割的方法(49.42%)、YOLO目標檢測方法(48.84%)和CLIP視覺-語言匹配方法(48.55%)。雖然CARVE的處理時間(1.34秒/張)略長于YOLO等快速方法,但顯著快于需要復雜分割的SAM方法(3.33秒/張),且無需任何模型訓練,具有更好的實用性。
研究團隊深入分析了CARVE的工作機制,發現使用網絡深層注意力信息比淺層更有效,這與AI注意力在不同網絡層次的演化規律一致。在淺層網絡中,AI的注意力呈現全局掃描特征;隨著網絡加深,注意力逐漸聚焦到關鍵區域。CARVE通過對比機制,幫助模型在網絡深層實現更有效的注意力收斂。
CARVE方法展現出了良好的魯棒性。研究測試了不同的圖像掩碼生成參數,發現在保留圖像20%-60%區域、選擇2-3個主要區域的設置下,模型性能提升最為穩定。過度激進的掩碼策略(如只保留20%以下區域或僅選擇一個區域)反而會導致性能下降,因為可能丟失重要視覺信息。
盡管CARVE取得了顯著進展,但研究團隊也指出了其局限性。該方法會增加一定的計算開銷,雖然通過早期終止推理和注意力緩存等優化策略,計算效率已得到提升,但在實時應用場景中仍需進一步優化。CARVE的效果依賴于通用指令的選擇,研究團隊通過實驗確定了最優指令,但在不同語言和文化背景下可能需要調整。對于極端復雜的場景,如包含數百個小物體的密集圖像,CARVE可能仍需結合其他技術手段。
這項研究為提升AI視覺推理能力提供了新思路。通過模擬人類"先瀏覽再聚焦"的視覺認知模式,CARVE幫助AI模型在復雜環境中更準確地定位關鍵信息。隨著技術的不斷完善,這類方法有望在醫療影像分析、輔助視覺系統、教育輔導等多個領域發揮重要作用,使AI的視覺理解能力更接近人類水平。
更多>同類資訊Plaud攜三款AI紀要新品入局大陸市場,多模態交互與長續航成亮點09-23DeepSeek線上模型升級至V3.1-Terminus,輸出更穩Agent能力再提升09-23DeepSeek-V3.1升級至V3.1-Terminus:語言更一致,代理更強大,輸出更穩定09-23上海人工智能實驗室牽頭!科學智能戰略科技力量聯盟正式成立09-23DeepSeek-V3.1-Terminus發布:修復Bug,編程與搜索智能體能力再升級09-23科學智能戰略科技力量聯盟成立 共探AI賦能多學科創新發展路徑09-23中國電信引領6G新突破:首個6G計費項目獲3GPP正式批準09-23DeepSeek-V3.1-Terminus更新登場!修復關鍵Bug,Agent能力躍升,V4還會遠嗎?09-23百度智能云千帆開源Qianfan-VL視覺模型,多尺寸適配,全自研芯片賦能高效計算09-23人工智能投資新視角:大模型進階智能體,場景化應用前景展望今天分享的是:人工智能專題:從大模型到智能體——人工智能+場景的投資展望 報告共計:31頁 《人工智能專題:從大模型到智能體——人工智能+場景的投資展望》報告首先探討“什么是真正的人工智能”,指出大語言模型如…09-23京東王競凡:智能機器人高速發展,中國機器人市場2028年或達千億來源:睿見Economy 9月16日-17日,聚合智能產業發展大會(2025)在武漢市舉行,主題為“協同融合創新鏈產業鏈推動聚合智能產業發展”。 王競凡指出,目前智能機器人處于一個前所未有的高速發展道路,智…09-23上海創智學院周年慶發布模速空間AI工作站 助力教育大模型終端化應用會上,學院正式發布標桿成果——模速空間AI工作站,該設備搭載上海“啟創·InnoSpark”人工智能教育大模型,以“端側算力+教育大模型+場景化應用”三位一體架構,為教育領域注入智能新動能。該工作站由英和智臨…09-23國內AI大模型邁向“用起來”階段,央(國)企集約共享大模型前景與挑戰并存通信世界網消息(CWW)目前,國內AI大模型產業正從“百模大戰”的“建起來”階段,向“行業爆發”的“用起來”階段過渡。權威機構發布的數據顯示,2025年一季度國內大模型市場規模預計突破495億元人民幣,但AI…09-23百度智能云開源Qianfan-VL視覺模型,多尺寸適配+自研芯片助力多場景應用在 ScienceQA 等專業問答測試中,精準度表現突出;多模態任務如 RefCOCO 等,物體識別與關聯能力優異;同時,在各類通用基準測試里,相較主流模型,整體表現也頗為亮眼,充分彰顯出在視覺理解通用能力上…09-23工業互聯網浪潮涌動 中國電信云網融合賦能工業智能化升級長期以來,中國電信立足自身優勢,堅持以云網融合為核心抓手,在持續夯實工業智能底座、筑牢產業數字化根基的同時,不斷加大科技創新力度,通過技術突破與模式創新,為工業企業提供全鏈條智能化解決方案,有效賦能工業生產全…09-23點擊查看更多 +全站最新
?9月狹義乘用車零售預計達215萬輛,新能源車滲透率或超58%引關注?
6.88萬起極狐T1實測:空間越級配置足,小電車市場殺出“全能王”?
?雷軍官宣小米17系列9月25日發布,盧偉冰稱產品力跨代升級且對標iPhone17?
?小米17系列9月25日發布在即,雷軍年度演講《改變》將揭秘芯片與汽車故事?
?雷軍宣布:9月25日小米17系列發布,同期將舉辦第6次年度演講聊芯片與汽車故事?
小米SU7標準版11.7萬輛召回:OTA升級背后的智能駕駛安全與行業新挑戰熱門內容
第22屆東博會AI元素亮眼:數字智能體引路 機器人炫技展風采
AI云競爭下半場:華為以超節點、企業Agent等破局,誰能領跑產業?
2025網安周:每日互動劉宇談AI時代,知識安全成關鍵,共筑數字新未來
中國大模型DeepSeek首登Nature封面,R1訓練成本僅約208萬引關注
華為全聯接大會2025啟幕,發布全球最強算力超節點與集群
有鹿機器人+連合直租:以智能租賃模式,開啟高端場景清潔新未來
本文鏈接:http://www.www897cc.com/showinfo-45-27970-0.html中科院團隊創新CARVE法:破解AI視覺“分心”難題,助模型精準聚焦
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com