7 月 8 日消息,據小米技術消息,計算機視覺國際大會 ICCV 2025 論文錄用結果公布,小米兩篇論文憑借創新性研究成果成功入選:視頻理解大模型核心技術 Q-Frame,推出行業首個動態幀選擇與分辨率自適應框架,實現即插即用;持續學習框架 Analytic Subspace Routing (Any-SSR),成功解決大語言模型在持續學習領域的核心難題「災難性遺忘」問題。
據介紹,計算機視覺國際大會 ICCV 與國際計算機視覺與模式識別會議 CVPR、歐洲計算機視覺國際會議 ECCV 并稱為計算機領域世界三大頂級學術會議,每兩年舉辦一次。其中,ICCV 2025 年投稿量達 11239 篇,錄用率為 24%。上述兩篇論文代表了小米 AI 團隊在基座大模型領域的最新探索成果,其中視頻理解大模型核心技術 Q-Frame 由小米 AI 團隊全面自研,大模型持續學習框架 Any-SSR 由小米 AI 團隊聯合華南理工大學攻關。
全自研視頻理解大模型核心技術 Q-Frame在視頻理解大模型(Video-LLMs)的研究中,小米 AI 團隊針對傳統“均勻幀采樣”處理方式存在時間碎片化信息丟失、盲目采樣及算力浪費等問題痛點,推出全自研的 Q-Frame 核心技術,該成果以論文《Q-Frame: Query-aware Frame Selection and Multi-Resolution Adaptation for Video-LLMs》入選 ICCV 2025。
Q-Frame 作為視頻理解大模型核心技術,是行業首個動態幀選擇與分辨率自適應框架,也是首個無需訓練,市面上各類視頻理解大模型基座均可即插即用的算法框架。Q-Frame 擁有三大行業首次創新,能夠精準理解視頻內容與用戶問題,通過精準捕捉跟用戶問題最相關的視頻關鍵內容,將有效信息量提升 5 倍:
跨模態查詢檢索(Cross-modal Query Retrieval, CQR)
查詢感知幀選擇(Query-aware Frame Selection, QFS)
多分辨率自適應(Multi-Resolution Adaptation, MRA)
在 MLVU 評測集上,Q-Frame 使 Qwen2-VL 的理解準確率從 55.5% 提升至 65.4%;在 LongVideoBench 上,讓 GPT-4o 的準確率從 53.3% 提升到 58.6% 。此外,其多分辨率自適應特性可根據內容重要性和查詢需求動態調整幀分辨率,避免算力浪費。
通過采用動態查詢感知幀選擇和多分辨率自適應,Q-Frame 還有效解決了「均勻幀采樣」策略下時間碎片化的信息丟失、問題無感知的盲目采樣和分辨率一刀切的算力浪費三大難題。與傳統均勻選幀、統一處理方式不同,在有限計算資源下,Q-Frame 可使模型更高效準確理解視頻。
此外,Q-Frame 具有即插即用(plug-and-play)的特點,可與市場上現有的各類視頻理解大模型兼容,無論是開源模型還是閉源模型,無需對模型進行額外的訓練或微調。以 VILA-V1.5 和 Qwen2-VL 等開源模型為例,在集成 Q-Frame 后,這些模型在視頻理解任務上的性能均得到了顯著提升。同樣,對于閉源的 GPT-4o 模型,Q-Frame 也展現出了良好的兼容性,進一步證明了其廣泛的適用性。
Q-Frame 在小米「人車家全生態」戰略中有著多元的應用場景,目前正在持續探索和落地:小米 YU7 發布時提到的哨兵模式中,能夠分清楚普通的風吹草動和可能帶來剮蹭、碰撞的危險行為;智能家居中,能夠在監控畫面中找到最關鍵的畫面,幫助用戶解答問題;在小愛視頻問答場景中,可以直接定位到視頻中能夠解答問題的片段開始播放等。
大模型持續學習框架 Any-SSR在大語言模型(LLMs)持續學習(Continual Learning, CL)領域,往往會因新任務的學習而導致對舊任務知識的遺忘,即災難性遺忘問題。小米 AI 團隊聯合華南理工大學針對這一難題開展研究,其成果《Analytic Subspace Routing: How Recursive Least Squares Works in Continual Learning of Large Language Model》成功入選 ICCV 2025。
Any-SSR 框架作為行業首個將遞歸最小二乘法(Recursive Least Squares, RLS)引入大語言模型持續學習的技術框架,通過分析路由機制,動態地把不同任務分配到獨立子空間學習,避免任務間知識干擾,創新性解決了大語言模型持續學習中災難性遺忘問題。同時,利用低秩適應(Low-Rank Adaptation, LoRA)與分析路由相結合的方式,實現了新舊知識的無縫整合與動態學習。
在一系列技術創新的基礎上,Any-SSR 方法實現了“近乎完美”的知識保留(即不遺忘),同時能無縫地學習新知識。在實驗中,Any-SSR 在 TRACE 基準測試上的表現顯著優于其他方法,包括多任務學習(MTL)等,不僅在整體性能(OP)上取得了優異成績,還實現了零反向知識轉移(BWT)。
從小米技術獲悉,過去五年,小米集團研發投入約 1020 億元,在 2025 年的 300 億研發投入中,大約有四分之一將被用于 AI 相關方向。未來五年(2026-2030 年),小米還將在核心技術賽道再投入 2000 億元。
本文鏈接:http://www.www897cc.com/showinfo-45-14471-0.htmlAI 技術獲全球頂級學術會議認可,小米 2 篇論文入選 ICCV 2025
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com