将PDF文件转换为Excel工作表
本文关键字:Excel 工作 转换 PDF 文件 | 更新日期: 2023-09-27 18:33:09
我是.net的新手,我有一个包含三个表格的pdf,(带有购买详细信息)我的任务是从PDF中提取所有3个表格,并使用C#代码将每个表格转换为Excel工作表(三个Excel工作表),我谷歌了3天,我能找到的只是从PDF中提取文本的代码(但没有任何格式),我不能购买任何第三方工具,我需要一种方法至少以适当的表格格式提取文本,然后我会使用互操作将其转换为Excel,或者直接转换为Excel的代码,无论解决方案是什么我迫切需要它,请帮助。
itextpdf 支持 C# 从 PDF 中提取信息,但是为了回答我们可以提取表:
如上所述:您无法从看起来像 形式,如果 PDF 不是从技术角度来看的表单;你 无法从看起来像表格的 PDF 中获取表格,如果表格 PDF 中缺少结构(使用标签)。
我从他们的支持小组得到的
我建议你看看xpdf。它有一个命令行界面,您可以从pdf中获取文本文件。最重要的是,对于列,xpdf 会生成一个间隔良好的文本文件,因此您可以使用 Substring() 或在最坏的情况下使用正则表达式轻松读取数据。在最简单的情况下,您可以将pdf输出作为具有"固定宽度字段"的文本文件直接导入Excel。