在 c# 中读取 PDF 文件的一部分

本文关键字:文件 一部分 PDF 读取 | 更新日期: 2023-09-27 18:33:44

我有很多大尺寸的PDF文件,我只需要阅读其中的一部分。我想开始读取PDF文件并将其写入另一个文件,如txt文件或任何其他类型的文件。但是,我想限制我正在写入的文件的大小。当 txt 文件的大小约为 15 MB 时,我应该停止阅读 PDF 文档,然后保留创建的 txt 文件以达到我的目的。有人可以帮助我如何在 C# 中做到这一点吗?

提前感谢您的帮助。

这是我用于读取整个文件的代码;(图片内容对我来说并不重要)

using (StreamReader sr = new StreamReader(@"F:'1.pdf"))
        {
            using (StreamWriter sw = new StreamWriter(@"F:'test.txt"))
            {
                while (!sr.EndOfStream)
                {
                    string line = sr.ReadLine();                       
                    sw.WriteLine(line);
                    sw.Flush(); 
                }
            }
        }

在 c# 中读取 PDF 文件的一部分

您必须使用 PDF 库来执行此操作。有很多免费和付费的PDF库可以用来完成你的任务。最近我使用EO.pdf库来阅读pdf页面并提取页面内容。最好的部分是它具有NuGet包并且还在不断发展。缺点是您必须为商业用途付费。

PDF 不能使用 .NET 直接读取。您应该首先将PDF转换为文本(或XML或HTML)。

有很多PDF库能够将PDF转换为文本,如iTextSharp(最流行和开源)和许多其他工具

要控制输出文本文件的大小,您应该

  • 从 PDF 获取页数
  • 逐页运行PDF到文本转换,同时检查输出文本文件大小
  • 一旦文件大小超过15 MB,只需停止转换并移动到另一个文件