如何使用iTextSharp 4.1.6提取文本

本文关键字:提取 取文本 何使用 iTextSharp | 更新日期: 2023-09-27 18:31:06

iTextSharp 4.1.6 是根据 LGPL 授权的最后一个版本,可以免费用于商业目的,无需支付许可费。

对于某些人来说,如何使用此版本提取文本可能会很有趣。

有人有想法吗?

如何使用iTextSharp 4.1.6提取文本

我不得不手动破解它,因为我和你在同一条船上。希望这很有帮助。它可能并不完美,但我能够以这种方式从文档中获取所需的文本。 fileName是PDF文件的字符串变量/参数。

var reader = new PdfReader(fileName);
StringBuilder sb = new StringBuilder();
try
{
    for (int page = 1; page <= reader.NumberOfPages; page++)
    {
        var cpage = reader.GetPageN(page);
        var content = cpage.Get(PdfName.CONTENTS);
        var ir = (PRIndirectReference)content;
        var value = reader.GetPdfObject(ir.Number);
        if (value.IsStream())
        {
            PRStream stream = (PRStream)value;
            var streamBytes = PdfReader.GetStreamBytes(stream);
            var tokenizer = new PRTokeniser(new RandomAccessFileOrArray(streamBytes));
            try
            {
                while (tokenizer.NextToken())
                {
                    if (tokenizer.TokenType == PRTokeniser.TK_STRING)
                    {
                        string str = tokenizer.StringValue;
                        sb.Append(str);
                    }
                }
            }
            finally
            {
                tokenizer.Close();
            }
        }
    }
}
finally
{
    reader.Close();
}
return sb.ToString();