<abbr id="kccye"></abbr>

當前位置：首頁 > 科技 > 軟件

如何使用Python中的OCR技術將圖像中的文本提取為可編輯文件？

來源：責編：時間：2023-09-28 10:07:55 313觀看

導讀1、安裝和配置Pytesseract庫Pytesseract是Python的一個OCR庫，它是Tesseract OCR引擎的Python封裝。在使用Pytesseract之前，需要先安裝Tesseract OCR引擎和Pytesseract庫。可以使用以下命令在Linux系統中安裝Tesseract O

1、安裝和配置Pytesseract庫

Pytesseract是Python的一個OCR庫，它是Tesseract OCR引擎的Python封裝。在使用Pytesseract之前，需要先安裝Tesseract OCR引擎和Pytesseract庫?？梢允褂靡韵旅钤贚inux系統中安裝Tesseract OCR和Pytesseract庫：

sudo apt-get install tesseract-ocrsudo apt-get install libtesseract-devpip install pytesseract

在Windows系統中，可以從Tesseract OCR的官方網站（https://github.com/UB-Mannheim/tesseract/wiki）下載安裝包，然后使用以下命令安裝Pytesseract庫：

pip install pytesseract

2、識別圖片中的文本

使用Pytesseract庫識別圖片中的文本非常簡單。首先，需要導入pytesseract模塊和PIL模塊（用于打開和處理圖片）。然后，可以使用pytesseract.image_to_string()函數來識別圖片中的文本。以下是一個簡單的示例：

import pytesseractfrom PIL import Image# 打開圖片img = Image.open('example.png')# 識別圖片中的文本text = pytesseract.image_to_string(img, lang='eng')# 打印識別的文本print(text)

在上面的示例中，pytesseract.image_to_string()函數接受兩個參數：要識別的圖片和語言選項。默認情況下，Pytesseract使用英語語言模型進行識別。如果需要識別其他語言，可以將lang參數設置為對應的語言代碼。

3、整理識別的文本

在將識別的文本整理成word、txt和markdown格式的文件之前，需要先對識別的文本進行處理和清洗，以確保輸出的文件格式正確。以下是一些常用的文本處理和清洗操作：

去除多余的空格和換行符
將文本按照段落進行分割
將文本按照句子進行分割
刪除無用的字符和標點符號
將文本轉換為小寫字母（可選）
...

下面是一個示例代碼，將識別的文本整理成txt格式的文件：

import pytesseractfrom PIL import Image# 打開圖片img = Image.open('example.png')# 識別圖片中的文本text = pytesseract.image_to_string(img, lang='eng')# 去除多余的空格和換行符text = ' '.join(text.split())text = text.replace('/n', ' ')# 將文本按照段落進行分割paragraphs = text.split('/n/n')# 創建txt文件并寫入文本with open('example.txt', 'w') as f:    for p in paragraphs:        f.write(p + '/n/n')

將識別的文本整理成word、markdown格式的文件也類似，只需要將輸出格式從txt改為對應的格式，然后使用相應的庫或工具來生成文件即可。

4、完整代碼

下面是一個完整的示例代碼，將識別的文本整理成word、txt格式的文件：

import pytesseractfrom PIL import Imageimport docximport os# 打開圖片img = Image.open('example.png')# 識別圖片中的文本text = pytesseract.image_to_string(img, lang='eng')# 去除多余的空格和換行符text = ' '.join(text.split())text = text.replace('/n', ' ')# 將文本按照段落進行分割paragraphs = text.split('/n/n')# 將文本整理成word格式的文件doc = docx.Document()for p in paragraphs:    doc.add_paragraph(p)doc.save('example.docx')# 將文本整理成txt格式的文件with open('example.txt', 'w') as f:    for p in paragraphs:        f.write(p + '/n/n')# 打開生成的文件os.system('start example.docx')os.system('start example.txt')

在上面的代碼中，使用了Python的docx庫來生成word格式的文件。在生成文件之后，使用os模塊打開文件。在Windows系統中，可以使用os.system()函數來打開文件。在其他操作系統中，可能需要使用其他方式來打開文件。

本文鏈接：http://www.www897cc.com/showinfo-26-11845-0.html如何使用Python中的OCR技術將圖像中的文本提取為可編輯文件？

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： SpringBoot 并發編程學習歷程，你所需要的所有知識點！

下一篇：深度使用了下 Serverless，太絲滑了！

標簽：

熱門焦點

小米官宣：2023年上半年出貨量中國第一！

今日早間，小米電視官方微博帶來消息，稱2023年小米電視上半年出貨量達到了中國第一，同時還表示小米電視的巨屏風暴即將開始。“公布一個好消息2023年#小米電視上半年出貨量中國
直屏旗艦來了 iQOO 12和K70 Pro同臺競技

旗艦機基本上使用的都是雙曲面屏幕，這就讓很多喜歡直屏的愛好者在苦等一款直屏旗艦，這次，你們等到了。據博主數碼閑聊站帶來的最新爆料稱，Redmi下代旗艦K70 Pro和iQOO 12兩款手
梁柱接棒兩年，騰訊音樂闖出新路子

文丨田靜出品丨牛刀財經（niudaocaijing）7月5日，企鵝FM發布官方公告稱由于業務調整，將于9月6日正式停止運營，這意味著騰訊音樂長音頻業務走向消亡。騰訊在長音頻領域還在摸索。為
OPPO、vivo、小米等國內廠商Q2在印度智能手機市場份額依舊高達55%

7月20日消息，據外媒報道，研究機構的報告顯示，在全球智能手機出貨量同比仍在下滑的大背景下，印度這一有潛力的市場也未能幸免，出貨量同比也有下滑，多家廠
華為Mate60標準版細節曝光：經典星環相機模組回歸

這段時間以來，關于華為新旗艦的爆料日漸密集。據此前多方爆料，今年華為將開始恢復一年雙旗艦戰略，除上半年推出的P60系列外，往年下半年的Mate系列也將
三星獲批量產iPhone 15全系屏幕：蘋果史上最驚艷直屏

按照慣例，蘋果將繼續在今年9月舉辦一年一度的秋季新品發布會，有傳言稱發布會將于9月12日舉行，屆時全新的iPhone 15系列將正式與大家見面，不出意外的話
AMD的AI芯片轉單給三星可能性不大與臺積電已合作至2nm制程

據 DIGITIMES 消息，英偉達 AI GPU 出貨逐季飆升，接下來 AMD MI 300 系列將在第 4 季底量產。而半導體業內人士表示，近日傳出 AMD 的 AI 芯片將轉單給
iQOO 11S屏幕細節公布：首發三星2K E6全感屏安卓最好的直屏手機

日前iQOO手機官方宣布，新一代電競旗艦iQOO 11S將會在7月4日19:00正式與大家見面。隨著發布時間的日益臨近，官方關于該機的預熱也更加密集，截至目前已
最薄的14英寸游戲筆記本電腦 Alienware X14已可以購買

2022年1月份在國際消費電子展(CES2022)上首次亮相的Alienware新品——Alienware X14現在已經可以購買了，這款筆記本電腦被譽為世界上最薄的 14 英寸游戲筆

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

如何使用Python中的OCR技術將圖像中的文本提取為可編輯文件？

1、安裝和配置Pytesseract庫

2、識別圖片中的文本

3、整理識別的文本

4、完整代碼

小米官宣：2023年上半年出貨量中國第一！

直屏旗艦來了 iQOO 12和K70 Pro同臺競技

梁柱接棒兩年，騰訊音樂闖出新路子

OPPO、vivo、小米等國內廠商Q2在印度智能手機市場份額依舊高達55%

華為Mate60標準版細節曝光：經典星環相機模組回歸

三星獲批量產iPhone 15全系屏幕：蘋果史上最驚艷直屏

AMD的AI芯片轉單給三星可能性不大與臺積電已合作至2nm制程

iQOO 11S屏幕細節公布：首發三星2K E6全感屏安卓最好的直屏手機

最薄的14英寸游戲筆記本電腦 Alienware X14已可以購買

最新推薦

猜你喜歡

熱門推薦

相關資訊

如何使用Python中的OCR技術將圖像中的文本提取為可編輯文件？

1、安裝和配置Pytesseract庫

2、識別圖片中的文本

3、整理識別的文本

4、完整代碼

最新推薦

猜你喜歡

熱門推薦

相關資訊

如何使用Python中的OCR技術將圖像中的文本提取為可編輯文件？

2、識別圖片中的文本

3、整理識別的文本

4、完整代碼