當前位置：首頁 > 科技 > 軟件

使用Python從圖像中提取表格

來源：責編：時間：2023-11-15 17:17:17 286觀看

導讀大約一年前，我被分配任務從文件中提取和結構化數據，主要是包含在表格中的數據。我之前對計算機視覺沒有了解，并且很難找到一個合適的“即插即用”的解決方案。當時可選的方案要么是基于最新神經網絡（NN）的解決方案，這些解決

大約一年前，我被分配任務從文件中提取和結構化數據，主要是包含在表格中的數據。我之前對計算機視覺沒有了解，并且很難找到一個合適的“即插即用”的解決方案。當時可選的方案要么是基于最新神經網絡（NN）的解決方案，這些解決方案龐大而繁瑣，要么是基于OpenCV的較簡單的解決方案，但不夠一致。

受現有OpenCV腳本的啟發，我開發了一種簡單而一致的方法來提取表格，并將其制作成一個開源的Python庫：img2table。

鏈接：https://github.com/xavctn/img2table

我的庫有什么作用？

與深度學習解決方案相比，這個輕量級的包不需要訓練和最小化參數化。它提供了以下功能：

識別圖像和PDF文件中的表格，包括在表格單元級別的邊界框。
通過支持OCR服務/工具（Tesseract、PaddleOCR、AWS Textract、Google Vision和Azure OCR目前支持）來提取表格內容。
處理復雜的表格結構，如合并單元格。
實現糾正圖像的傾斜和旋轉的方法。
提取的表格以一個簡單的對象形式返回，包括一個Pandas DataFrame表示。
將提取的表格導出為Excel文件的選項，保留其原始結構。

如何使用它？

您可以通過pip安裝該庫，然后就可以使用了：

pip install img2table

在文檔中識別表格只需調用一個函數：

from img2table.document import Image# Instantiation of the imageimg = Image(src="myimage.jpg")# Table identificationimg_tables = img.extract_tables()# Result of table identificationimg_tables[ExtractedTable(title=None, bbox=(10, 8, 745, 314),shape=(6, 3)), ExtractedTable(title=None, bbox=(936, 9, 1129, 111),shape=(2, 2))]

上述示例中使用的圖像

如果我們想提取表格的內容，則需要使用OCR工具，可以按如下方式實現：

from img2table.document import PDFfrom img2table.ocr import TesseractOCR# Instantiation of the pdfpdf = PDF(src="mypdf.pdf")# Instantiation of the OCR, Tesseract, which requires prior installationocr = TesseractOCR(lang="eng")# Table identification and extractionpdf_tables = pdf.extract_tables(ocr=ocr)# We can also create an excel file with the tablespdf.to_xlsx('tables.xlsx',            ocr=ocr)

從PDF中提取的表格示例

最后，在簡單的情況下，可以通過設置`borderless_tables`參數來執行“無邊框”表格的提取。這允許檢測那些單元格不需要完全被邊框包圍的表格。

“無邊框”表格提取示例

這就是全部！實際上，庫并沒有太多復雜的東西，因為目標是盡可能簡化，以避免其他可用解決方案可能帶來的復雜性。

有關更詳細的文檔和示例，請查看項目的GitHub頁面：https://github.com/xavctn/img2table

底層實現

所有圖像處理都使用OpenCV和opencv-python庫完成。然而，這仍然相當基礎。

算法的骨架是Hough變換，它能夠識別圖像中的線條，使我們能夠檢測圖像的水平和垂直線條。

cv2.HoughLinesP(img, rho, theta, threshold, None, minLinLength, maxLineGap)

之后，對線條進行一些處理以從線條中識別單元格，然后從單元格中識別表格。

實現算法的簡化表示

大多數計算使用Polars進行，以實現良好的性能和速度。

本文鏈接：http://www.www897cc.com/showinfo-26-25992-0.html使用Python從圖像中提取表格

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： C語言結構體用法詳解

下一篇：由“點”向“面”！簡析新一代WAF的理念與應用

標簽：

熱門焦點

小米降噪藍牙耳機Necklace分享：聽一首歌讀懂一個故事

在今天下午的小米Civi 2新品發布會上，小米還帶來了一款新的降噪藍牙耳機Necklace，我們也在發布結束的第一時間給大家帶來這款耳機的簡單分享?，F在大家能見到最多的藍牙耳機
雅柏威士忌多款單品價格大跌，泥煤頂流也不香了？

來源 | 烈酒商業觀察編 | 肖海林今年以來，威士忌市場開始出現了降溫跡象，越來越多不斷暴漲的網紅威士忌也開始悄然回歸市場理性。近日，LVMH集團旗下蘇格蘭威士忌品牌雅柏（Ardbeg
10天營收超1億美元，《星鐵》比《原神》差在哪？

來源：伯虎財經作者：陳平安即便你沒玩過《原神》，你一定聽說過的它的大名。恨它的人把《原神》開服那天稱作是中國游戲史上最黑暗的一天，有粉絲因為索尼在PS平臺上線《原神》，怒而
華為HarmonyOS 4升級計劃公布：首批34款機型今日開啟公測

8月4日消息，今天下午華為正式發布了HarmonyOS 4系統，在更流暢的前提下，還帶來了不少新功能，UI設計也有變化，會讓手機煥然一新。華為宣布，首批機型將會在
郭明錤稱華為和江淮汽車合作開發問界MPV，定價100萬左右、計劃明年量產

8 月 1 日消息，郭明錤今天在 Medium 平臺發布博文，稱華為正在和江淮汽車合作，開發售價在 100 萬元的問界 MPV，預計在 2024 年第 2 季度量產，銷量目標為
iQOO Neo8 Pro搶先上架：首發天璣9200+ 安卓性能之王

經過了一段時間的密集爆料，昨日iQOO官方如期對外宣布：將于5月23日推出全新的iQOO Neo8系列新品，官方稱這是一款擁有旗艦級性能調校的作品。隨著發布時
OPPO K11采用全方位護眼屏：三大護眼能力減輕視覺疲勞

日前OPPO官方宣布，全新的OPPO K11將于7月25日正式發布，將主打旗艦影像，和同檔位競品相比，其最大的賣點就是將配備索尼IMX890主攝，堪稱是2000檔位影像表
微軟發布Windows 11新版引入全新任務欄狀態

近日，微軟發布了Windows 11新版，而Build 22563更新主要引入了幾周前曝光的平板模式任務欄等，系統更流暢了。更新中，Windows 11加入了專門針對平板優化的任務欄
外交部：美方應停止在網絡安全問題上不負責任地指責他國

　中國外交部今天（16日）舉行例行記者會。會上，有記者問，美國情報官員稱，他們正在阻攔來自中國以及其他國家的黑客獲取相關科研成果。中方對此有何評論？對此

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

使用Python從圖像中提取表格

我的庫有什么作用？

如何使用它？

底層實現

小米降噪藍牙耳機Necklace分享：聽一首歌讀懂一個故事

雅柏威士忌多款單品價格大跌，泥煤頂流也不香了？

10天營收超1億美元，《星鐵》比《原神》差在哪？

華為HarmonyOS 4升級計劃公布：首批34款機型今日開啟公測

郭明錤稱華為和江淮汽車合作開發問界MPV，定價100萬左右、計劃明年量產

iQOO Neo8 Pro搶先上架：首發天璣9200+ 安卓性能之王

OPPO K11采用全方位護眼屏：三大護眼能力減輕視覺疲勞

微軟發布Windows 11新版引入全新任務欄狀態

外交部：美方應停止在網絡安全問題上不負責任地指責他國

最新推薦

猜你喜歡

熱門推薦

相關資訊

使用Python從圖像中提取表格

我的庫有什么作用？

如何使用它？

底層實現

最新推薦

猜你喜歡

熱門推薦

相關資訊

如何使用它？