从PDF文档中提取表格
本文关键字:提取 表格 文档 PDF | 更新日期: 2023-09-27 18:19:01
我想在PDF
文档中使用c#以编程方式提取表,用于大学项目。我对itextsharp
很熟悉。
-
是否有一种方法可以在
itextsharp
中提取表? -
是否有其他免费的库可以用于此目的?
-
我可以将
PDF
转换为XML/HTML以提取<table>
标签,如果是这样,是否有一个免费的库,我可以使用PDF
到HTML转换?或
请给我一个合适的解决方案。
你可以尝试这样的东西,并扩展你需要从这个例子我从VB转换。Net到c#等价
public static string GetTextFromPDF(string PdfFileName)
{
iTextSharp.text.pdf.PdfReader pdfReader = new iTextSharp.text.pdf.PdfReader(PdfFileName);
dynamic sOut = string.Empty;
for (i = 1; i <= pdfReader.NumberOfPages; i++) {
iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy its = new iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy();
sOut += iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(pdfReader, i, its);
}
return sOut;
}