9 月 20 日消息,IBM 現已正式發布了小型視覺語言模型 Granite-Docling-258M,定位于端到端文件轉換場景用途,相應模型采用 Apache 2.0 開源協議,目前已在 Hugging Face 上線(點此訪問)。
獲悉,該模型參數量為 2.58 億,號稱是一款專為文檔表格設計的輕量級模型,輸出結果能夠完整保留版面、表格、數學公式、列表和代碼塊等結構,同時準確度相比傳統 OCR 軟件識別準確性更高。
IBM 透露,Granite-Docling 的核心在于 DocTags,這是由 IBM Research 設計的一套通用文件結構標記語言,能夠精確描述頁面元素的類型、坐標、閱讀順序及跨元素關系,同時可將內容與版面結構分離,實現“先識別元素范圍再執行 OCR 識別”,在完成轉換后,DocTags 還能夠直接將內容導出為 Markdown、JSON、HTML 等格式,也可以進一步進入 Docling 庫進行處理。

目前,Granite-Docling 支持中文、阿拉伯語和日語等語言,不過尚未達到“企業級”水準,IBM 稱未來開發人員將逐步擴展語言覆蓋范圍并提升模型可靠性。同時還將進一步增強 DocTags 與 IBM watsonx.ai 模型的兼容性,并計劃把 DocTags 詞匯表納入 Granite 分詞器和訓練流程。
本文鏈接:http://www.www897cc.com/showinfo-45-27944-0.htmlIBM 發布輕量級視覺語言 AI 模型 Granite-Docling-258M:用于文件轉換、支持中文
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com