如何在 iTextSharp 中识别 PDF 的一部分

本文关键字:PDF 一部分 识别 iTextSharp | 更新日期: 2023-09-27 18:37:00

我想知道是否可以按部分(页眉、正文、页脚等)检索 PDF 中的文本,我能够获取文本及其特定坐标,但我不想为这些部分定义我自己的 x 和 y 坐标。我想知道是否有一种更动态的方式来解决这个问题。也许循环遍历外部参照对象。任何帮助将不胜感激。提前谢谢。

如何在 iTextSharp 中识别 PDF 的一部分

除非您的PDF文件是由非常一致的来源创建的,并且您不必处理"一般的PDF文件",否则问题的答案是:

  • 不,你不能用简单的方式做到这一点
  • 但你可以想出一个动态的方法(也许)。

PDF没有任何条款来构建其内容,例如XML,HTML,Word等...页眉、正文、页脚的概念不存在。甚至段落、行或单词的概念也不存在。PDF 只对确保特定字符(字形)显示在特定位置感兴趣。

因此,如果你想提出一种动态方法,你必须编写一个算法来分析页面上所有文本的文本位置,将其与该文本的其他属性(例如使用的字体、字体大小、颜色、样式......)相关联,并从该分析中猜测标题是什么, 正文和页脚。