对 PDF 文档进行切片

本文关键字:切片 文档 PDF | 更新日期: 2023-09-27 18:32:19

如何在 C# 中对 PDF 文档进行切片.. 这是我用于切片的代码,但在切片后切片 10 MB 的 PDF 文档时,总大小为 20 MB 如何在切片时减少切片文档???请给出一个好的切片和压缩方法

public int ExtractPages(string sourcePdfPath)
    {
        int p = 0;
        try
        {
            iTextSharp.text.Document document;
            iTextSharp.text.pdf.PdfReader reader = new        iTextSharp.text.pdf.PdfReader(new iTextSharp.text.pdf.RandomAccessFileOrArray(sourcePdfPath), new ASCIIEncoding().GetBytes(""));
            if (!Directory.Exists(sourcePdfPath.ToLower().Replace(".pdf", "")))
            {
                Directory.CreateDirectory(sourcePdfPath.ToLower().Replace(".pdf", ""));
            }
            else
            {
                Directory.Delete(sourcePdfPath.ToLower().Replace(".pdf", ""), true);
                Directory.CreateDirectory(sourcePdfPath.ToLower().Replace(".pdf", ""));
            }
            for (p = 1; p <= reader.NumberOfPages; p++)
            {
                using (MemoryStream memoryStream = new MemoryStream())
                {
                    document = new iTextSharp.text.Document();
                    iTextSharp.text.pdf.PdfWriter writer = iTextSharp.text.pdf.PdfWriter.GetInstance(document, memoryStream);
                    writer.SetPdfVersion(iTextSharp.text.pdf.PdfWriter.PDF_VERSION_1_2);
                    writer.CompressionLevel = iTextSharp.text.pdf.PdfStream.BEST_COMPRESSION;
                    writer.SetFullCompression();
                    document.SetPageSize(reader.GetPageSize(p));
                    document.NewPage();
                    document.Open();
                    document.AddDocListener(writer);
                    iTextSharp.text.pdf.PdfContentByte cb = writer.DirectContent;
                    iTextSharp.text.pdf.PdfImportedPage pageImport = writer.GetImportedPage(reader, p);
                    int rot = reader.GetPageRotation(p);
                    if (rot == 90 || rot == 270)
                    {
                        cb.AddTemplate(pageImport, 0, -1.0F, 1.0F, 0, 0, reader.GetPageSizeWithRotation(p).Height);
                    }
                    else
                    {
                        cb.AddTemplate(pageImport, 1.0F, 0, 0, 1.0F, 0, 0);
                    }
                    document.Close();
                    document.Dispose();
                    File.WriteAllBytes(sourcePdfPath.ToLower().Replace(".pdf", "") + "/" + p + ".pdf", memoryStream.ToArray());
                }
            }
            reader.Close();
            reader.Dispose();
        }
        catch
        {
        }
        finally
        {
            GC.Collect();
        }
        return p - 1;

对 PDF 文档进行切片

PDF使用资源的概念进行操作。 文档中任何消耗内存的大型对象通常被视为可以在文档中共享的资源。 可共享资源的类型包括字体、图像、页面模板(表单 - 不是 AcroForms)、色彩空间、图形状态对象、模式和过程集。 如果我在第 1、2、3 和 4 页上使用字体 Basketball Overexpand,则文件中只需要嵌入 1 个 Basketball Overextended 的副本。

当您将文档分成 4 个不同的页面时,iText 将完全按照您的要求执行:在每个文件中嵌入字体。

由于字体通常很大,因此这是文件看起来膨胀的最可能原因。

如果您希望文档在任何地方正确呈现,这是正确的做法。

这并不是说没有选择。 例如,如果iText足够聪明,它可能能够为每个页面生成一个字体子集 - 换句话说,分析您的字体使用情况并仅嵌入实际使用的字体部分。

您还可以完全删除字体嵌入。 只要您不考虑指标和字体描述符,Acrobat 就会非常努力地为您生成等效的字体,甚至在目标系统上可用时使用正确的字体,但如果文档使用深奥的字体,祝您好运 - 您的最终用户将看到一个看起来完全错误的文档。