Pytesseract是Python的一个OCR库,它是Tesseract OCR引擎的Python封装。在使用Pytesseract之前,需要先安装Tesseract OCR引擎和Pytesseract库。可以使用以下命令在Linux系统中安装Tesseract OCR和Pytesseract库:
目前创新互联公司已为千余家的企业提供了网站建设、域名、雅安服务器托管、网站托管运营、企业网站设计、贵德网站维护等服务,公司将坚持客户导向、应用为本的策略,正道将秉承"和谐、参与、激情"的文化,与客户和合作伙伴齐心协力一起成长,共同发展。
sudo apt-get install tesseract-ocr
sudo apt-get install libtesseract-dev
pip install pytesseract
在Windows系统中,可以从Tesseract OCR的官方网站(https://github.com/UB-Mannheim/tesseract/wiki)下载安装包,然后使用以下命令安装Pytesseract库:
pip install pytesseract
使用Pytesseract库识别图片中的文本非常简单。首先,需要导入pytesseract模块和PIL模块(用于打开和处理图片)。然后,可以使用pytesseract.image_to_string()函数来识别图片中的文本。以下是一个简单的示例:
import pytesseract
from PIL import Image
# 打开图片
img = Image.open('example.png')
# 识别图片中的文本
text = pytesseract.image_to_string(img, lang='eng')
# 打印识别的文本
print(text)
在上面的示例中,pytesseract.image_to_string()函数接受两个参数:要识别的图片和语言选项。默认情况下,Pytesseract使用英语语言模型进行识别。如果需要识别其他语言,可以将lang参数设置为对应的语言代码。
在将识别的文本整理成word、txt和markdown格式的文件之前,需要先对识别的文本进行处理和清洗,以确保输出的文件格式正确。以下是一些常用的文本处理和清洗操作:
下面是一个示例代码,将识别的文本整理成txt格式的文件:
import pytesseract
from PIL import Image
# 打开图片
img = Image.open('example.png')
# 识别图片中的文本
text = pytesseract.image_to_string(img, lang='eng')
# 去除多余的空格和换行符
text = ' '.join(text.split())
text = text.replace('\n', ' ')
# 将文本按照段落进行分割
paragraphs = text.split('\n\n')
# 创建txt文件并写入文本
with open('example.txt', 'w') as f:
for p in paragraphs:
f.write(p + '\n\n')
将识别的文本整理成word、markdown格式的文件也类似,只需要将输出格式从txt改为对应的格式,然后使用相应的库或工具来生成文件即可。
下面是一个完整的示例代码,将识别的文本整理成word、txt格式的文件:
import pytesseract
from PIL import Image
import docx
import os
# 打开图片
img = Image.open('example.png')
# 识别图片中的文本
text = pytesseract.image_to_string(img, lang='eng')
# 去除多余的空格和换行符
text = ' '.join(text.split())
text = text.replace('\n', ' ')
# 将文本按照段落进行分割
paragraphs = text.split('\n\n')
# 将文本整理成word格式的文件
doc = docx.Document()
for p in paragraphs:
doc.add_paragraph(p)
doc.save('example.docx')
# 将文本整理成txt格式的文件
with open('example.txt', 'w') as f:
for p in paragraphs:
f.write(p + '\n\n')
# 打开生成的文件
os.system('start example.docx')
os.system('start example.txt')
在上面的代码中,使用了Python的docx库来生成word格式的文件。在生成文件之后,使用os模块打开文件。在Windows系统中,可以使用os.system()函数来打开文件。在其他操作系统中,可能需要使用其他方式来打开文件。
本文题目:如何使用Python中的OCR技术将图像中的文本提取为可编辑文件?
本文链接:http://www.mswzjz.cn/qtweb/news0/539300.html
攀枝花网站建设、攀枝花网站运维推广公司-贝锐智能,是专注品牌与效果的网络营销公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 贝锐智能