如何设置字符之间的数据集,同时读取PDF使用c# iTextSharp
本文关键字:读取 PDF iTextSharp 使用 数据集 何设置 设置 之间 字符 | 更新日期: 2023-09-27 18:02:58
当使用c# iTextSharp读取PDF时,默认使用数据集之间的空白。
当我尝试用空白分割时,这会给我带来麻烦,因为PDF中的数据包含空白。
例如,我有一个如下所示的PDF,它有一个表格:
基金AA|固定收益
基金BB|现金
iTextSharp提取的结果是:
基金AA固定收益
基金BB现金
这样我就不能分裂了。我想在数据集之间设置一个特殊字符,比如+。这样,我就可以拆分和判断了。
预期结果是:
基金AA+固定收益
基金BB +现金有人知道如何实现这一点吗?
谢谢。
实际上没有办法将空格分隔符设置为'+',除非我们更新源代码。
这就是我为自己修复它的方法。我下载源代码并更新它,然后获得新的itextsharp.dll,它现在使用'+'作为分隔符。
我认为如果我们把它变成一个属性字段或参数,用户可以设置它的值,那就好得多了
我更新的行粘贴在下面:https://github.com/itext/itextsharp/blob/develop/src/core/iTextSharp/text/pdf/parser/LocationTextExtractionStrategy.cs第193行https://github.com/itext/itextsharp/blob/develop/src/core/iTextSharp/text/pdf/parser/SimpleTextExtractionStrategy.cs第145行