日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 軟件

如何使用Python中的OCR技術將圖像中的文本提取為可編輯文件?

來源: 責編: 時間:2023-09-28 10:07:55 285觀看
導讀1、安裝和配置Pytesseract庫Pytesseract是Python的一個OCR庫,它是Tesseract OCR引擎的Python封裝。在使用Pytesseract之前,需要先安裝Tesseract OCR引擎和Pytesseract庫。可以使用以下命令在Linux系統中安裝Tesseract O

XfF28資訊網——每日最新資訊28at.com

1、安裝和配置Pytesseract庫

Pytesseract是Python的一個OCR庫,它是Tesseract OCR引擎的Python封裝。在使用Pytesseract之前,需要先安裝Tesseract OCR引擎和Pytesseract庫。可以使用以下命令在Linux系統中安裝Tesseract OCR和Pytesseract庫:XfF28資訊網——每日最新資訊28at.com

sudo apt-get install tesseract-ocrsudo apt-get install libtesseract-devpip install pytesseract

在Windows系統中,可以從Tesseract OCR的官方網站(https://github.com/UB-Mannheim/tesseract/wiki)下載安裝包,然后使用以下命令安裝Pytesseract庫:XfF28資訊網——每日最新資訊28at.com

pip install pytesseract

2、識別圖片中的文本

使用Pytesseract庫識別圖片中的文本非常簡單。首先,需要導入pytesseract模塊和PIL模塊(用于打開和處理圖片)。然后,可以使用pytesseract.image_to_string()函數來識別圖片中的文本。以下是一個簡單的示例:XfF28資訊網——每日最新資訊28at.com

import pytesseractfrom PIL import Image# 打開圖片img = Image.open('example.png')# 識別圖片中的文本text = pytesseract.image_to_string(img, lang='eng')# 打印識別的文本print(text)

在上面的示例中,pytesseract.image_to_string()函數接受兩個參數:要識別的圖片和語言選項。默認情況下,Pytesseract使用英語語言模型進行識別。如果需要識別其他語言,可以將lang參數設置為對應的語言代碼。XfF28資訊網——每日最新資訊28at.com

3、整理識別的文本

在將識別的文本整理成word、txt和markdown格式的文件之前,需要先對識別的文本進行處理和清洗,以確保輸出的文件格式正確。以下是一些常用的文本處理和清洗操作:XfF28資訊網——每日最新資訊28at.com

  • 去除多余的空格和換行符
  • 將文本按照段落進行分割
  • 將文本按照句子進行分割
  • 刪除無用的字符和標點符號
  • 將文本轉換為小寫字母(可選)
  • ...

下面是一個示例代碼,將識別的文本整理成txt格式的文件:XfF28資訊網——每日最新資訊28at.com

import pytesseractfrom PIL import Image# 打開圖片img = Image.open('example.png')# 識別圖片中的文本text = pytesseract.image_to_string(img, lang='eng')# 去除多余的空格和換行符text = ' '.join(text.split())text = text.replace('/n', ' ')# 將文本按照段落進行分割paragraphs = text.split('/n/n')# 創建txt文件并寫入文本with open('example.txt', 'w') as f:    for p in paragraphs:        f.write(p + '/n/n')

將識別的文本整理成word、markdown格式的文件也類似,只需要將輸出格式從txt改為對應的格式,然后使用相應的庫或工具來生成文件即可。XfF28資訊網——每日最新資訊28at.com

4、完整代碼

下面是一個完整的示例代碼,將識別的文本整理成word、txt格式的文件:XfF28資訊網——每日最新資訊28at.com

import pytesseractfrom PIL import Imageimport docximport os# 打開圖片img = Image.open('example.png')# 識別圖片中的文本text = pytesseract.image_to_string(img, lang='eng')# 去除多余的空格和換行符text = ' '.join(text.split())text = text.replace('/n', ' ')# 將文本按照段落進行分割paragraphs = text.split('/n/n')# 將文本整理成word格式的文件doc = docx.Document()for p in paragraphs:    doc.add_paragraph(p)doc.save('example.docx')# 將文本整理成txt格式的文件with open('example.txt', 'w') as f:    for p in paragraphs:        f.write(p + '/n/n')# 打開生成的文件os.system('start example.docx')os.system('start example.txt')

在上面的代碼中,使用了Python的docx庫來生成word格式的文件。在生成文件之后,使用os模塊打開文件。在Windows系統中,可以使用os.system()函數來打開文件。在其他操作系統中,可能需要使用其他方式來打開文件。XfF28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-26-11845-0.html如何使用Python中的OCR技術將圖像中的文本提取為可編輯文件?

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: SpringBoot 并發編程學習歷程,你所需要的所有知識點!

下一篇: 深度使用了下 Serverless,太絲滑了!

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 营口市| 江油市| 辽宁省| 平凉市| 伊通| 青阳县| 延长县| 区。| 崇义县| 巴林右旗| 临颍县| 商南县| 汤阴县| 岳西县| 双辽市| 葫芦岛市| 南木林县| 南汇区| 浦县| 榆林市| 石门县| 出国| 渭源县| 扶绥县| 团风县| 兴业县| 洞头县| 巴林右旗| 蒲城县| 孝感市| 秭归县| 辽宁省| 宜城市| 城口县| 济阳县| 温州市| 云龙县| 沙坪坝区| 永安市| 长垣县| 盘山县|