當前位置：首頁 > 元宇宙 > AI

Meta 推 WebSSL 模型：探索 AI 無語言視覺學習，純圖訓練媲美 OpenAI CLIP

來源：責編：時間：2025-04-28 07:34:04 103觀看

導讀 4 月 25 日消息，科技媒體 marktechpost 昨日（4 月 24 日）發布博文，報道稱 Meta 公司發布 WebSSL 系列模型，參數規模從 3 億到 70 億，基于純圖像數據訓練，旨在探索無語言監督的視覺自監督學習（SSL）的潛力。以 OpenAI 的

4 月 25 日消息，科技媒體 marktechpost 昨日（4 月 24 日）發布博文，報道稱 Meta 公司發布 WebSSL 系列模型，參數規模從 3 億到 70 億，基于純圖像數據訓練，旨在探索無語言監督的視覺自監督學習（SSL）的潛力。

以 OpenAI 的 CLIP 為代表，對比語言-圖像模型已成為學習視覺表征的默認選擇，在視覺問答（VQA）和文檔理解等多模態任務中表現突出。不過受到數據集獲取的復雜性和數據規模的限制，語言依賴面臨諸多挑戰。

Meta 公司針對上述痛點，在在 Hugging Face 平臺上發布了 WebSSL 系列模型，涵蓋 DINO 和 Vision Transformer（ViT）架構，參數規模從 3 億到 70 億不等。

這些模型僅使用 MetaCLIP 數據集（MC-2B）中的 20 億張圖像子集進行訓練，排除了語言監督的影響。Meta 的目標并非取代 CLIP，而是通過控制變量，深入評估在不受數據和模型規模限制下，純視覺自監督學習（SSL）的表現潛力。

WebSSL 模型采用兩種視覺自監督學習范式：聯合嵌入學習（DINOv2）和掩碼建模（MAE）。訓練統一使用 224×224 分辨率圖像，并凍結視覺編碼器以確保結果差異僅源于預訓練策略。

模型在五個容量層級（ViT-1B 至 ViT-7B）上訓練，評估基于 Cambrian-1 基準測試，覆蓋通用視覺理解、知識推理、OCR 和圖表解讀等 16 個 VQA 任務。此外，模型無縫集成于 Hugging Face 的 transformers 庫，便于研究和應用。

實驗揭示了多項關鍵發現：隨著參數規模增加，WebSSL 模型在 VQA 任務上的表現接近對數線性提升，而 CLIP 在超過 30 億參數后性能趨于飽和。

WebSSL 在 OCR 和圖表任務中表現尤為突出，尤其在數據篩選后，僅用 1.3% 的富文本圖像訓練即超越 CLIP，在 OCRBench 和 ChartQA 任務中提升高達 13.6%。

此外，高分辨率（518px）微調進一步縮小了與 SigLIP 等高分辨率模型的差距，在文檔任務中表現尤為出色。

WebSSL 模型在無語言監督下仍展現出與預訓練語言模型（如 LLaMA-3）的良好對齊性，表明大規模視覺模型能隱式學習與文本語義相關的特征。

同時，WebSSL 在傳統基準測試（如 ImageNet-1k 分類、ADE20K 分割）上保持強勁表現，部分場景甚至優于 MetaCLIP 和 DINOv2。

附上參考地址

Scaling Language-Free Visual Representation Learning

Hugging Face

GitHub

本文鏈接：http://www.www897cc.com/showinfo-45-12655-0.htmlMeta 推 WebSSL 模型：探索 AI 無語言視覺學習，純圖訓練媲美 OpenAI CLIP

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： AI 會有意識嗎？Anthropic 啟動新項目，探索尋求答案

下一篇：黑洞超輻射：顛覆認知的量子奇觀，開啟宇宙探索新視角！

標簽：

熱門焦點

錯過了BRC20還有eths,eth銘文協議

來源：三頭鳥NFT大家好，我是鳥哥，了解鳥哥的人都知道鳥哥擅擼空投，說實話擼毛雖然回報大但周期還是有點長的，所以除了擼毛我們自己也在研究早期項目，打新，比如BRC20協議ordi當時就有
《蜘蛛俠》火了，超級英雄就該這么演

燃次元（ID:chaintruth）原創作者 | 陶淘編輯 | 曹拿下豆瓣8.8分、IMDB 9.1的高分，6月2日在全球同步上映的《蜘蛛俠：縱橫宇宙》（以下簡稱《蜘蛛俠》），上映不足一周，便在國內“
林俊杰、余文樂等明星相繼入局，元宇宙虛擬土地究竟有何魔力？

上周的元宇宙和明星圈因為一則“林俊杰在推特上宣布持有Decentraland元宇宙虛擬地塊”的新聞而備受關注，該新聞一方面在娛樂圈引起了吃瓜群眾的好奇，另一方面在
【東方證券】虛擬世界照進現實，元宇宙中有什么？ | 元宇宙Meta洞見

元宇宙的表現形式大多以游戲為起點，并逐漸整合互聯網、數字化娛樂、社交網絡等功能，長期來看甚至可以整合社會經濟與商業活動。元宇宙的發展最關鍵的部分在于元
韓國主權基金增加對硅谷初創公司投資押注元宇宙和人工智能

韓國投資公司(KIC)CEO Seoungho Jin預計，該公司在舊金山的辦事處今年將擴招人手，探索在硅谷投資科技、健康和綠色項目。規模高達2000億美元的韓國主權財富基金—
8個最適合藝術家發行NFT的交易市場

近年來，加密風靡全球。加密圈最令人興奮的方面之一是它能夠用于創建稱為NFT 的數字資產。從 CyberKitties 到 Cyber Galleries，NFT 已成為藝術家和藝術鑒賞家的
Kitten Coup社區反轉Cool Kittens NFT騙局

當狂熱的加密愛好者將金錢投入到NFT圖片時，渾水摸魚的騙局隨之而來，Cool Kittens NFT便是其中一個作惡者，該項目于去年11月在Sonala鏈上啟動小貓形象的NFT鑄造及
Interface正大光明的“跑路”，社區成員贊格局大

今日凌晨，一個廣泛受社區期待的潛力藍籌項目Interfaces突然發文宣布項目停止運營，后續也不會有鑄造NFT系列的活動。這對社區來說就是一重磅炸彈，大多數人完全不明
元宇宙的應用行業研究：娛樂可能是元宇宙落地最快的場景之一

近日，畢馬威正式發布其《初探元宇宙》報告，這也是畢馬威在元宇宙領域發布的首份報告。報告指出，元宇宙在以下十個領域的應用場景尤其值得期待，包括娛樂、社交、零

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

Meta 推 WebSSL 模型：探索 AI 無語言視覺學習，純圖訓練媲美 OpenAI CLIP

錯過了BRC20還有eths,eth銘文協議

《蜘蛛俠》火了，超級英雄就該這么演

林俊杰、余文樂等明星相繼入局，元宇宙虛擬土地究竟有何魔力？

【東方證券】虛擬世界照進現實，元宇宙中有什么？ | 元宇宙Meta洞見

韓國主權基金增加對硅谷初創公司投資押注元宇宙和人工智能

8個最適合藝術家發行NFT的交易市場

Kitten Coup社區反轉Cool Kittens NFT騙局

Interface正大光明的“跑路”，社區成員贊格局大

元宇宙的應用行業研究：娛樂可能是元宇宙落地最快的場景之一

最新推薦

AI大模型“戰火”燒到了教育領域

元宇宙里掀起回憶殺？這波虛擬懷舊營銷主打一個極限反差

上海虹口成立10億元元宇宙基金，香港首只元宇宙ETF擬上市

下一個黃金賽道？NFT的碎片化!

HTC Vive推出元宇宙平臺Viverse；騰訊投資小米生態鏈AR眼鏡廠商

虛擬人行業研究報告

猜你喜歡

熱門推薦

相關資訊

Meta 推 WebSSL 模型：探索 AI 無語言視覺學習，純圖訓練媲美 OpenAI CLIP

最新推薦

猜你喜歡

熱門推薦

相關資訊

Meta 推 WebSSL 模型：探索 AI 無語言視覺學習，純圖訓練媲美 OpenAI CLIP