使用c#的Tesseract提取
本文关键字:提取 Tesseract 使用 | 更新日期: 2023-09-27 18:17:27
我们需要提取tiff和扫描的PDF文档。
我已经在互联网和论坛上搜索过了,我已经知道Tesseract提供了最好的方法和最准确的结果。
但是这里有一个问题,我用c#语言开发了一些早期的提取程序。所以我想知道是否有任何方法使用Tesseract与c#语言?
最好的方法是使用visual studio最新版本2022,只需搜索并将掘金包tesseract 4.1.1直接从visual studio添加到您的项目中。(从工具菜单和包管理器)
添加;使用超正方体;//进入标题
查看我的文章中的代码示例。
导出图片为PDF
致以最亲切的问候弗朗西斯
要从pdf中提取图像,最好的方法是从c#中执行python脚本
你可以使用这个python脚本只需从DOS使用pip命令安装python和python库包,以使您的导入可用
pip install pillow For PIL为Fitz安装pymupdf为了适应分辨率变化矩阵线这里是150 dpi输出,你可以把200或更多。
page.get_pixmap(matrix=fitz.Matrix(150/72,150/72))
Python脚本工作————————————————————-
from PIL import Image
import fitz
doc = fitz.open("c:/temp/pdfSample.pdf")
p=0
for page in doc:
p=p+1
pix = page.get_pixmap(matrix=fitz.Matrix(150/72,150/72))
pix.save("c:/temp/out"+str(p)+".jpg")
我已经用c#检查了OCR技术,我发现了以下链接,请检查它可能有用。
https://code.google.com/p/tesseract-ocr/