隨著 8 月中下旬中報(bào)披露高峰期的到來(lái),眾多上市公司公布了其 2024 年上半年度的財(cái)務(wù)業(yè)績(jī),海量的財(cái)報(bào)文件涌現(xiàn),給金融行業(yè)從業(yè)者帶來(lái)了巨大的工作挑戰(zhàn)。面對(duì)海量的數(shù)據(jù)報(bào)告,部分前瞻性的企業(yè)和個(gè)人開(kāi)始探索利用大模型進(jìn)行財(cái)務(wù)報(bào)表分析,以提升效率與精準(zhǔn)度。然而,大模型在初始階段常遭遇數(shù)據(jù)讀取錯(cuò)誤、版面理解不足等難題,限制了其分析能力的充分發(fā)揮。
為助力大模型更好地“理解”財(cái)報(bào),合合信息大模型“加速器”方案對(duì) PDF 文檔解析技術(shù)進(jìn)行了深度優(yōu)化與升級(jí),通過(guò)將非結(jié)構(gòu)化的 PDF 內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),極大提升了大模型在圖表類數(shù)據(jù)提取及版面理解方面的準(zhǔn)確性,實(shí)現(xiàn)了從“泛讀”到“精讀”的質(zhì)的飛躍。
PDF 作為財(cái)報(bào)的主要載體,其復(fù)雜多變的版面布局往往成為大模型解析的攔路虎,合合信息 PDF 文檔解析技術(shù),能夠?qū)崿F(xiàn)將 PDF、圖片等多種格式的財(cái)報(bào)文件轉(zhuǎn)換為 Markdown 或 JSON 格式,以一種更易于大模型處理的方式呈現(xiàn),有效降低了文檔識(shí)別失敗率,提升了復(fù)雜版面下的解析精度。特別是針對(duì)財(cái)報(bào)中常見(jiàn)的無(wú)線表、合并單元格、不規(guī)則行距等復(fù)雜元素,該技術(shù)展現(xiàn)出強(qiáng)大的版面分析和元素識(shí)別能力,確保了大模型在提取細(xì)節(jié)信息時(shí)的準(zhǔn)確無(wú)誤,避免了回答錯(cuò)誤、段落語(yǔ)義劃分錯(cuò)誤及總結(jié)性偏差等問(wèn)題。
同時(shí),該技術(shù)還具備模擬人類閱讀順序的能力,能夠依據(jù) PDF 文檔的布局和格式,智能判斷閱讀順序,推斷出人類閱讀時(shí)的順序,而非機(jī)械地判定為從左至右排序,避免把完整的段落文字“攔腰斬?cái)唷保嬲龅搅恕八?jiàn)即所得”。
據(jù)合合信息技術(shù)團(tuán)隊(duì)成員介紹,上市公司年報(bào)頁(yè)數(shù)大多集中在 200 至 300 頁(yè)的范圍內(nèi),一個(gè)熟練的分析師可能在幾天到一周的時(shí)間內(nèi)完成對(duì)年報(bào)的基本分析,PDF 文檔解析工具最快能在 1.5 秒完成百頁(yè)文檔的解析,按 8 小時(shí)為一天工作時(shí)間計(jì)算,解析工具可幫助大模型在一日內(nèi)對(duì)數(shù)千家企業(yè)的年報(bào)數(shù)據(jù)進(jìn)行精準(zhǔn)分析。在數(shù)字化、無(wú)紙化辦公趨勢(shì)日益明顯的今天,這一技術(shù)的應(yīng)用前景無(wú)疑更加廣闊,有望為更多領(lǐng)域的文檔處理與分析帶來(lái)革命性的變革。
本文鏈接:http://www.www897cc.com/showinfo-26-114128-0.html合合信息文檔解析技術(shù)助力大模型“精讀”上市公司財(cái)報(bào)
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com