4 月 25 日消息,科技媒體 marktechpost 昨日(4 月 24 日)發布博文,報道稱 Meta 公司發布 WebSSL 系列模型,參數規模從 3 億到 70 億,基于純圖像數據訓練,旨在探索無語言監督的視覺自監督學習(SSL)的潛力。
以 OpenAI 的 CLIP 為代表,對比語言-圖像模型已成為學習視覺表征的默認選擇,在視覺問答(VQA)和文檔理解等多模態任務中表現突出。不過受到數據集獲取的復雜性和數據規模的限制,語言依賴面臨諸多挑戰。
Meta 公司針對上述痛點,在在 Hugging Face 平臺上發布了 WebSSL 系列模型,涵蓋 DINO 和 Vision Transformer(ViT)架構,參數規模從 3 億到 70 億不等。
這些模型僅使用 MetaCLIP 數據集(MC-2B)中的 20 億張圖像子集進行訓練,排除了語言監督的影響。Meta 的目標并非取代 CLIP,而是通過控制變量,深入評估在不受數據和模型規模限制下,純視覺自監督學習(SSL)的表現潛力。
WebSSL 模型采用兩種視覺自監督學習范式:聯合嵌入學習(DINOv2)和掩碼建模(MAE)。訓練統一使用 224×224 分辨率圖像,并凍結視覺編碼器以確保結果差異僅源于預訓練策略。
模型在五個容量層級(ViT-1B 至 ViT-7B)上訓練,評估基于 Cambrian-1 基準測試,覆蓋通用視覺理解、知識推理、OCR 和圖表解讀等 16 個 VQA 任務。此外,模型無縫集成于 Hugging Face 的 transformers 庫,便于研究和應用。
實驗揭示了多項關鍵發現:隨著參數規模增加,WebSSL 模型在 VQA 任務上的表現接近對數線性提升,而 CLIP 在超過 30 億參數后性能趨于飽和。
WebSSL 在 OCR 和圖表任務中表現尤為突出,尤其在數據篩選后,僅用 1.3% 的富文本圖像訓練即超越 CLIP,在 OCRBench 和 ChartQA 任務中提升高達 13.6%。
此外,高分辨率(518px)微調進一步縮小了與 SigLIP 等高分辨率模型的差距,在文檔任務中表現尤為出色。
WebSSL 模型在無語言監督下仍展現出與預訓練語言模型(如 LLaMA-3)的良好對齊性,表明大規模視覺模型能隱式學習與文本語義相關的特征。
同時,WebSSL 在傳統基準測試(如 ImageNet-1k 分類、ADE20K 分割)上保持強勁表現,部分場景甚至優于 MetaCLIP 和 DINOv2。
附上參考地址
Scaling Language-Free Visual Representation Learning
Hugging Face
GitHub
本文鏈接:http://www.www897cc.com/showinfo-45-12655-0.htmlMeta 推 WebSSL 模型:探索 AI 無語言視覺學習,純圖訓練媲美 OpenAI CLIP
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com