如何删除页面顶部不包含某个单词的巨大PDF中的页面?希望在C#中
本文关键字:巨大 PDF 单词 希望 包含某 何删除 删除 顶部 | 更新日期: 2023-09-27 18:30:04
所以我有这个2300+pdf的pdf需要处理。第1步必须删除我不需要的页面。例如,第1页至第24页不包含我需要的任何信息,然后是第25页至第28页我确实需要,第29页至第54页我不需要,等等。我确实需要的每一页的数量和不需要的页数因节而异。但我需要保留的每个页面的顶部都有"5 DAY M.A.R."这句话,所以任何不包含这句话的页面都需要删除。
理想情况下,如果有一种方法可以创建一个C#(或类似的)应用程序,那么我可以触发它自动运行,因为我需要设置一个每小时处理一个这样的PDF的过程。
谢谢你的建议。我并不反对为这样的产品付费,但我找不到任何能满足我期望的东西。
可能更容易把编辑留在这里:
不幸的是,我没有做太多,我试图使用一个用C#编写的旧程序,但它可能不起作用。旧的程序是基于每页上一系列"第1页,共6页"类型的页脚,将一个大的PDF拆分成更小的PDF。我没有从那个系列中删除任何页面,所以我不知道从哪里开始。我的C#相当生疏。我倾向于设置一些东西,然后忘记它。
如果可以选择使用商业库,您可以尝试使用Amyuni PDF Creator.Net
使用此库,您可以遍历页面的所有元素并检索文本(如果可用,因为并非所有PDF文件都允许提取文本)。然后可以使用IacDocument.DeletePage方法从文档中删除页面。
免责声明:我为Amyuni Technologies工作
当然,如果允许付费库,你可以使用Apitron PDF Kit,例如,它支持格式化文本提取和文本搜索。还支持页面操作。正如yms所说,并不是所有的PDF文件都支持文本提取,因为可能只有字形,而没有关于它们应该映射到哪个字符的信息。希望不是这样。