pdfname中指定的每个常量的描述,因为我需要能够同时检索图像和文本

本文关键字:检索 文本 图像 因为 常量 pdfname 描述 | 更新日期: 2023-09-27 18:22:23

我在同时检索pdf文件中的图像和文本时遇到了麻烦,我可以在pdf文件中获取图像和文本,但不能同时获取(这会导致一个问题,例如在我的面板控件中,是先呈现图像还是先呈现文本?),如果你们能帮我定义pdfname中的每个常量的含义?我试过使用pdfname.all,但它返回null,但当使用pdfname.resources时,它返回procset、font和xobject。我用xobject表示图像,但procset和font是什么(这可能是文本的样式吗?它有用于检索文本的pdfname.text吗)?

提前谢谢。

pdfname中指定的每个常量的描述,因为我需要能够同时检索图像和文本

首先,

我在同一检索pdf文件中的图像和文本时遇到了问题

对于这个任务,您应该使用iText(Sharp)解析器API。在iTextSharp中,您基本上实现了IRenderListener(一个具有通知内容流中(位图)图像和文本片段的方法的接口),并使用它处理页面内容:

PdfReader reader = new PdfReader(...);
PdfReaderContentParser parser = new PdfReaderContentParser(reader);
int pageNumber = [... the number of the page you are interested in; may be a loop variable ...];
IRenderListener listener = new [... your IRenderListener implementation ...]
parser.ProcessContent(pageNumber, listener);

你问

是先渲染图像还是先渲染文本,例如在我的面板控制中

IRenderListener方法还检索关于所讨论的位图或文本片段的位置的信息。

关于如何在听众中组合文本片段的想法,您可能希望从iTextSharp中的SimpleTextExtractionStrategy或LocationTextExtractionPolicy实现中获得灵感。

不过,如果你坚持手动操作。。。

也许你们能帮我定义pdfname中的每个常量是什么意思?

你可以在PDF规范ISO 32000-1:2008中找到名称映射的定义,Adobe在这里提供了该规范的副本。

当使用pdfname.resources时,它返回procset、font和xobject。我用xobject表示图像,但procset和字体是什么(这可能是文本的风格吗?

本规范第7.8.3节对资源词典页面的内容进行了说明。

它有用于检索文本的pdfname.text吗)?

您将在第9节中发现测试是如何在页面内容流和xobjects中呈现的。