使用c#的Tesseract提取

本文关键字:提取 Tesseract 使用 | 更新日期: 2023-09-27 18:17:27

我们需要提取tiff和扫描的PDF文档。

我已经在互联网和论坛上搜索过了,我已经知道Tesseract提供了最好的方法和最准确的结果。

但是这里有一个问题,我用c#语言开发了一些早期的提取程序。所以我想知道是否有任何方法使用Tesseract与c#语言?

使用c#的Tesseract提取

最好的方法是使用visual studio最新版本2022,只需搜索并将掘金包tesseract 4.1.1直接从visual studio添加到您的项目中。(从工具菜单和包管理器)

添加;使用超正方体;//进入标题

查看我的文章中的代码示例。

导出图片为PDF

致以最亲切的问候弗朗西斯

要从pdf中提取图像,最好的方法是从c#中执行python脚本

你可以使用这个python脚本只需从DOS使用pip命令安装python和python库包,以使您的导入可用

pip install pillow For PIL为Fitz安装pymupdf为了适应分辨率变化矩阵线这里是150 dpi输出,你可以把200或更多。

page.get_pixmap(matrix=fitz.Matrix(150/72,150/72))

Python脚本工作————————————————————-

from PIL import Image
import fitz
doc = fitz.open("c:/temp/pdfSample.pdf")
p=0
for page in doc:
 p=p+1
 pix = page.get_pixmap(matrix=fitz.Matrix(150/72,150/72))
 pix.save("c:/temp/out"+str(p)+".jpg")

我已经用c#检查了OCR技术,我发现了以下链接,请检查它可能有用。

https://code.google.com/p/tesseract-ocr/