无法读取pdf文件

本文关键字:文件 pdf 读取 | 更新日期: 2023-09-27 18:09:32

我正在尝试构建一个可以读取PDF文件的应用程序。我使用这个指南:

http://www.codeproject.com/articles/14170/extract文本- - pdf的c - 100净

,但不明白"file"是什么意思是从你的计算机的整个url。因为当我尝试它的时候,它说它是错误的格式。

String file = "C:/project/test2.pdf";
// create an instance of the pdfparser class
PDFParser pdfParser = new PDFParser();
// extract the text
String result = pdfParser.ExtractText(file);

错误信息:

错误1没有重载方法'ExtractText'接受1个参数

无法读取pdf文件

如果您想将pdf文本提取为字符串,请尝试使用PdfTextExtractor.GetTextFromPage,示例代码:

public string ReadPdfFile(string fileName)
{
    var text = new StringBuilder();
    if (File.Exists(fileName))
    {
        var pdfReader = new PdfReader(fileName);
        for (int page = 1; page <= pdfReader.NumberOfPages; page++)
        {
            var strategy = new SimpleTextExtractionStrategy();
            string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
            currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
            text.Append(currentText);
        }
        pdfReader.Close();
    }
    return text.ToString();
}

我想ExtractTexttwo arguments 一个是PDF源文件第二个是文本目标文件

所以试试下面的方法,你的错误就解决了:

pdfParser.ExtractText(file,Path.GetFileNameWithoutExtension(file)+".txt");

首先,您应该正确指定路径。您可以从您发布的代码项目链接中下载测试项目。

你应该这样使用:

string sourceFile =  "C:''Folder''File.pdf";
string outputFile =  "C:''Folder''File2.txt"
PDFParser pdfParser = new PDFParser();
pdfParser.ExtractText(sourceFile, outputFile);

乌利希期刊指南:你用错了(你肯定会得到你的错误:不能隐式地将bool转换为string):

string result = pdfParser.ExtractText(sourceFile, outputFile);

正确的方法是:

pdfParser.ExtractText(sourceFile, outputFile);