如何设置字符之间的数据集，同时读取PDF使用c# iTextSharp

本文关键字：读取 PDF iTextSharp 使用数据集何设置设置之间字符 | 更新日期: 2023-09-27 18:02:58

当使用c# iTextSharp读取PDF时，默认使用数据集之间的空白。

当我尝试用空白分割时，这会给我带来麻烦，因为PDF中的数据包含空白。

例如，我有一个如下所示的PDF，它有一个表格:

基金AA|固定收益

基金BB|现金

iTextSharp提取的结果是:

基金AA固定收益

基金BB现金

这样我就不能分裂了。我想在数据集之间设置一个特殊字符，比如+。这样，我就可以拆分和判断了。

预期结果是:

基金AA+固定收益

基金BB +现金

有人知道如何实现这一点吗?

谢谢。

如何设置字符之间的数据集，同时读取PDF使用c# iTextSharp

实际上没有办法将空格分隔符设置为'+'，除非我们更新源代码。

这就是我为自己修复它的方法。我下载源代码并更新它，然后获得新的itextsharp.dll，它现在使用'+'作为分隔符。

我认为如果我们把它变成一个属性字段或参数，用户可以设置它的值，那就好得多了

我更新的行粘贴在下面:https://github.com/itext/itextsharp/blob/develop/src/core/iTextSharp/text/pdf/parser/LocationTextExtractionStrategy.cs第193行https://github.com/itext/itextsharp/blob/develop/src/core/iTextSharp/text/pdf/parser/SimpleTextExtractionStrategy.cs第145行