从PDF文档中提取表格

本文关键字:提取 表格 文档 PDF | 更新日期: 2023-09-27 18:19:01

我想在PDF文档中使用c#以编程方式提取表,用于大学项目。我对itextsharp很熟悉。

  1. 是否有一种方法可以在itextsharp中提取表?

  2. 是否有其他免费的库可以用于此目的?

  3. 我可以将PDF转换为XML/HTML以提取<table>标签,如果是这样,是否有一个免费的库,我可以使用PDF到HTML转换?

请给我一个合适的解决方案。

从PDF文档中提取表格

你可以尝试这样的东西,并扩展你需要从这个例子我从VB转换。Net到c#等价

public static string GetTextFromPDF(string PdfFileName)
{
    iTextSharp.text.pdf.PdfReader pdfReader = new iTextSharp.text.pdf.PdfReader(PdfFileName);
    dynamic sOut = string.Empty;
    for (i = 1; i <= pdfReader.NumberOfPages; i++) {
        iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy its = new iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy();
        sOut += iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(pdfReader, i, its);
    }
    return sOut;
}