pdfname中指定的每个常量的描述，因为我需要能够同时检索图像和文本

本文关键字：检索文本图像因为常量 pdfname 描述 | 更新日期: 2023-09-27 18:22:23

我在同时检索pdf文件中的图像和文本时遇到了麻烦，我可以在pdf文件中获取图像和文本，但不能同时获取（这会导致一个问题，例如在我的面板控件中，是先呈现图像还是先呈现文本？），如果你们能帮我定义pdfname中的每个常量的含义？我试过使用pdfname.all，但它返回null，但当使用pdfname.resources时，它返回procset、font和xobject。我用xobject表示图像，但procset和font是什么（这可能是文本的样式吗？它有用于检索文本的pdfname.text吗）？

提前谢谢。

首先，

我在同一检索pdf文件中的图像和文本时遇到了问题

对于这个任务，您应该使用iText（Sharp）解析器API。在iTextSharp中，您基本上实现了IRenderListener（一个具有通知内容流中（位图）图像和文本片段的方法的接口），并使用它处理页面内容：

PdfReader reader = new PdfReader(...);
PdfReaderContentParser parser = new PdfReaderContentParser(reader);
int pageNumber = [... the number of the page you are interested in; may be a loop variable ...];
IRenderListener listener = new [... your IRenderListener implementation ...]
parser.ProcessContent(pageNumber, listener);

你问

是先渲染图像还是先渲染文本，例如在我的面板控制中

IRenderListener方法还检索关于所讨论的位图或文本片段的位置的信息。

关于如何在听众中组合文本片段的想法，您可能希望从iTextSharp中的SimpleTextExtractionStrategy或LocationTextExtractionPolicy实现中获得灵感。

不过，如果你坚持手动操作。。。

也许你们能帮我定义pdfname中的每个常量是什么意思？

你可以在PDF规范ISO 32000-1:2008中找到名称映射的定义，Adobe在这里提供了该规范的副本。

当使用pdfname.resources时，它返回procset、font和xobject。我用xobject表示图像，但procset和字体是什么（这可能是文本的风格吗？

本规范第7.8.3节对资源词典页面的内容进行了说明。

它有用于检索文本的pdfname.text吗）？

您将在第9节中发现测试是如何在页面内容流和xobjects中呈现的。