阿里云優惠券 先領券再下單
高質量數據是AI大模型訓練與應用的基礎,更是企業向AI轉型升級的 “燃料”。然而,眾多企業在開發AI應用過程中,卻因大模型難以讀懂非結構化數據而面臨困境。
能否讓更多企業級用戶用上一款更趁手的數據工具,從而實現AI-Ready數據自由?
近日,OpenDataLab和釘釘正基于MinerU,推出一款面向企業用戶的文檔解析工具——DLU(Document Language Understanding),共同助力企業破解AI-Ready數據難題,從而降低行業大模型訓練及AI應用開發門檻,加速AI技術在各行業的規模化落地。
MinerU是上海人工智能實驗室(上海AI實驗室)OpenDataLab推出的智能文檔解析引擎,因精準解析能力及廣泛兼容性深受用戶青睞,在GitHub上已累計獲得超4萬星標。

上海AI實驗室作為國際級人工智能新型科研機構,在大模型、數據智能等方向具備深厚的技術積累。其自主研發的OpenDataLab平臺為國內領先的人工智能大模型數據平臺,擁有7700余個開源精標數據集,迄今已為超10萬用戶提供了200余萬次數據獲取服務。近期更新的MinerU2.0實現了解析速度和精度雙提升,甚至以0.98B的參數達成性能比肩72B的主流大模型。
作為阿里巴巴集團旗下的企業級智能移動辦公平臺,釘釘擁有豐富的文檔產品和廣闊的企業用戶基礎。釘釘文檔、AI表格等產品此前已深度集成MinerU能力,并通過開放平臺向生態開發者開放文檔解析功能,為DLU的聯合研發提供了扎實的技術與場景基礎。
基于MinerU打造的DLU將于近期開源,其具備良好的文件格式兼容性,深層次的內容理解與精準的結構化輸出能力。DLU不僅支持主流的Office文檔、PDF、Markdown及代碼文件,還涵蓋釘釘自有的文檔、表格與AI表格格式;并支持提取純文本內容,精準解析圖表、公式、插圖乃至專業領域的化學分子式等復雜視覺元素,將其有效轉換為適合大模型訓練的高質量語料。
接下來,DLU還將借助釘釘在企業服務場景上優勢,深度融入辦公協同生態,支持用戶在同一平臺內完成從文檔創建、解析提取、知識庫管理、數據標注到定制化模型訓練的全流程閉環,提升AI應用開發與日常辦公效率。
上海人工智能實驗室青年科學家、OpenDataLab/MinerU開源項目創始人何聰輝表示:“MinerU擁有廣泛的用戶基礎,我們希望進一步拓展其在企業場景中的應用,并充分發揮OpenDataLab平臺的作用,與合作伙伴共同打造‘數據工具中的PyTorch’,助力更多企業級用戶實現AI-Ready數據的自由。”
釘釘CTO朱鴻表示:“開源DLU,能有效解決企業在AI時代面臨的數據準備難題,筑牢智能化轉型根基。釘釘正積極構建AI新生態,期待攜手更多技術伙伴與行業力量,共同為千行百業的數字化轉型與智能化升級提供強勁支撐”。
申請創業報道,分享創業好點子。點擊此處,共同探討創業新機遇!
本文鏈接:http://www.www897cc.com/showinfo-20-180688-0.html讓大模型“看懂”專業文檔,OpenDataLab將與釘釘打造企業級解析工具DLU
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com