从PDF中读取字符时,我的编码有什么问题
本文关键字:编码 我的 什么 问题 PDF 读取 字符 | 更新日期: 2023-09-27 18:19:47
我正在用C#读取一个PDF文件,但字符来自另一种编码,并且返回的字符与我在PDF查看器中查看文件时预期的不同。
我认为UTF-8编码是正确的。
我做错了什么?
string file = @"c:'document.pdf";
Stream stream = File.Open(file, FileMode.Open);
BinaryReader binaryReady = new BinaryReader(stream);
byte[] buffer = binaryReady.ReadBytes(Convert.ToInt32(stream.Length));
var encoder = UTF8Encoding.UTF8.GetString(buffer);
PDF是一个非常复杂的多部分文件,它不仅仅是UTF8文本。
如果你想阅读PDF文件,你必须阅读完整的PDF文件格式文档,并充分实现文件格式如何工作的庞大而复杂的细节。