不需要<;img>;下载html源代码时的转换
本文关键字:源代码 html 转换 gt lt img 不需要 下载 | 更新日期: 2023-09-27 18:27:56
我想下载一个带有扫描文本图像的.html页面,就像我可以通过以下方式下载一样:
浏览器->右键单击->将页面另存为。。。使用C#。
我尝试了3种不同的方法:
1.和2。从这里:如何在C#中下载HTML源代码
3.从这里开始:从C#中的网站获取HTML代码
我已尝试按照此处的建议保存文件:
在C#中创建文件(.htm)或使用System.IO.File.WriteAllText(@"C:xy.html", htmlSourceString);
我的问题是,当我打开下载的文件时,图像上的文本会自动提取为html段落,并且图像会丢失
如何禁用此横框选项
更新
谢谢你的回复!现在我明白了,我必须单独下载图像
但我仍然很好奇:为什么会发生这种转变
我做了一张照片来展示我到底在说什么。点击图片
保存html后,必须对其进行解析。http://www.codeplex.com/htmlagilitypack是一个很好的html解析解析器。我自己也用过很多次
然后使用解析器,您将找到所有<img>
节点,并获取它们各自的src属性。这些属性将包含绝对或相对url。如果他们是绝对的,那很容易。你可以使用它们来下载图像。如果它们是相对的,你必须找到使它们成为绝对的部分,并用它作为所有url的前缀。此时,您可以再次下载所有图像。