如何在 iTextSharp 中识别 PDF 的一部分

本文关键字：PDF 一部分识别 iTextSharp | 更新日期: 2023-09-27 18:37:00

我想知道是否可以按部分（页眉、正文、页脚等）检索 PDF 中的文本，我能够获取文本及其特定坐标，但我不想为这些部分定义我自己的 x 和 y 坐标。我想知道是否有一种更动态的方式来解决这个问题。也许循环遍历外部参照对象。任何帮助将不胜感激。提前谢谢。

除非您的PDF文件是由非常一致的来源创建的，并且您不必处理"一般的PDF文件"，否则问题的答案是：

PDF没有任何条款来构建其内容，例如XML，HTML，Word等...页眉、正文、页脚的概念不存在。甚至段落、行或单词的概念也不存在。PDF 只对确保特定字符（字形）显示在特定位置感兴趣。

因此，如果你想提出一种动态方法，你必须编写一个算法来分析页面上所有文本的文本位置，将其与该文本的其他属性（例如使用的字体、字体大小、颜色、样式......）相关联，并从该分析中猜测标题是什么，正文和页脚。