从PDF中读取字符时,我的编码有什么问题

本文关键字:编码 我的 什么 问题 PDF 读取 字符 | 更新日期: 2023-09-27 18:19:47

我正在用C#读取一个PDF文件,但字符来自另一种编码,并且返回的字符与我在PDF查看器中查看文件时预期的不同。

我认为UTF-8编码是正确的。

我做错了什么?

string file = @"c:'document.pdf";
Stream stream = File.Open(file, FileMode.Open);
BinaryReader binaryReady = new BinaryReader(stream);
byte[] buffer = binaryReady.ReadBytes(Convert.ToInt32(stream.Length));
var encoder = UTF8Encoding.UTF8.GetString(buffer);

从PDF中读取字符时,我的编码有什么问题

PDF是一个非常复杂的多部分文件,它不仅仅是UTF8文本。

如果你想阅读PDF文件,你必须阅读完整的PDF文件格式文档,并充分实现文件格式如何工作的庞大而复杂的细节。