9 月 26 日消息,Meta 公司昨日(9 月 25 日)發布博文,正式推出了 Llama 3.2 AI 模型,其特點是開放和可定制,開發者可以根據其需求定制實現邊緣人工智能和視覺革命。
Llama 3.2 提供了多模態視覺和輕量級模型,代表了 Meta 在大型語言模型(LLMs)方面的最新進展,在各種使用案例中提供了更強大的功能和更廣泛的適用性。
其中包括適合邊緣和移動設備的中小型視覺 LLMs (11B 和 90B),以及輕量級純文本模型(1B 和 3B),此外提供預訓練和指令微調(instruction-tuned)版本。
附上 4個版本AI模型簡介如下:
Llama 3.2 90B Vision(文本 + 圖像輸入):Meta 最先進的模型,是企業級應用的理想選擇。該模型擅長常識、長文本生成、多語言翻譯、編碼、數學和高級推理。它還引入了圖像推理功能,可以完成圖像理解和視覺推理任務。該模型非常適合以下用例:圖像標題、圖像文本檢索、視覺基礎、視覺問題解答和視覺推理,以及文檔視覺問題解答。
Llama 3.2 11B Vision(文本 + 圖像輸入):非常適合內容創建、對話式人工智能、語言理解和需要視覺推理的企業應用。該模型在文本摘要、情感分析、代碼生成和執行指令方面表現出色,并增加了圖像推理能力。該模型的用例與 90B 版本類似:圖像標題、圖像文本檢索、視覺基礎、視覺問題解答和視覺推理,以及文檔視覺問題解答。
Llama 3.2 3B(文本輸入):專為需要低延遲推理和有限計算資源的應用而設計。它擅長文本摘要、分類和語言翻譯任務。該模型非常適合以下用例:移動人工智能寫作助手和客戶服務應用。
Llama 3.2 1B(文本輸入):Llama 3.2 模型系列中最輕量級的模型,非常適合邊緣設備和移動應用程序的檢索和摘要。該模型非常適合以下用例:個人信息管理和多語言知識檢索。
其中 Llama 3.2 1B 和 3B 模型支持 128K 標記的上下文長度,在邊緣本地運行的設備用例(如摘要、指令跟蹤和重寫任務)中處于領先地位。這些模型在第一天就支持高通和聯發科硬件,并針對 Arm 處理器進行了優化。
Llama 3.2 11B 和 90B 視覺模型可直接替代相應的文本模型,同時在圖像理解任務方面優于 Claude 3 Haiku 等閉源模型。
與其他開源多模態模型不同的是,預訓練模型和對齊模型都可以使用 torchtune 針對自定義應用進行微調,并使用 torchchat 進行本地部署。開發者還可以使用智能助手 Meta AI 試用這些模型。
Meta 將分享首批 Llama Stack 官方發行版,這將大大簡化開發人員在不同環境(包括單節點、內部部署、云和設備)中使用 Llama 模型的方式,實現檢索增強生成(RAG)和工具支持型應用的交鑰匙部署,并集成安全性。
Meta 一直在與 AWS、Databricks、Dell Technologies、Fireworks、Infosys 和 Together AI 等合作伙伴密切合作,為他們的下游企業客戶構建 Llama Stack 發行版。設備分發通過 PyTorch ExecuTorch,單節點分發通過 Ollama。
本文鏈接:http://www.www897cc.com/showinfo-45-7793-0.html端側最強開源 AI 模型 Llama 3.2 登場:可在手機運行,從 1B 純文本到 90B 多模態,挑戰 OpenAI 4o mini
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com