从PDF中读取字符时，我的编码有什么问题

本文关键字：编码我的什么问题 PDF 读取字符 | 更新日期: 2023-09-27 18:19:47

我正在用C#读取一个PDF文件，但字符来自另一种编码，并且返回的字符与我在PDF查看器中查看文件时预期的不同。

我认为UTF-8编码是正确的。

我做错了什么？

string file = @"c:'document.pdf";
Stream stream = File.Open(file, FileMode.Open);
BinaryReader binaryReady = new BinaryReader(stream);
byte[] buffer = binaryReady.ReadBytes(Convert.ToInt32(stream.Length));
var encoder = UTF8Encoding.UTF8.GetString(buffer);

从PDF中读取字符时，我的编码有什么问题

PDF是一个非常复杂的多部分文件，它不仅仅是UTF8文本。

如果你想阅读PDF文件，你必须阅读完整的PDF文件格式文档，并充分实现文件格式如何工作的庞大而复杂的细节。