用不正确的格式解析html内容
本文关键字:html 内容 格式 不正确 | 更新日期: 2023-09-27 18:15:37
返回的html数据格式不正确,我有它从提琴,现在我想解析不正确的格式数据,我试图使用Fizzler来解析它,但它不能读取类或id的div标签,因为格式不正确:这是我的html数据:
我使用Regex来切断根(resposta =),只得到html内容,但它仍然没有为解析工作。(Regex: resposta's='s"(?(.|'n)'*.*)")
我猜是由于html内容中的'符号,解析器无法解析'
内容我在这里引用了html返回数据的一小部分:resposta = "<div style='" margin-top:10px;width: 100%; position:relative;height:56px;'"><a href='"'/WebsiteRoot'/v2'/?hotelinfo&ss=433&landingpage=hfofertafranca'" rel='"nofollow'" title='"Offre Speciale'" onClick='"_gaq.push([''_trackEvent'', ''Banner Promocode Booking'', ''Click'', ''Click idioma fr'',,false]);'" class='"addlink det'"><img src='"'/rootimages'/ofertaespecial_fr.png'" height='"56'" width='"891'" alt='"Offre Speciale'"'/><'/a><'/div><div class='"tabBoxdisp'" style='"margin-top:10px'"><div class='"tabtitdisp redondotop'" style='"color:#FFF; background:#9D293F;'"><div class='"float-left'"><h2 class='"upcase size18'">HF FÉNIX LISBOA<'/h2> Lisboa'/Portugal<'/div><div class='"float-right text-right'" style='"width:350px;'"><img src='"'/rootimages'/icons'/star_white.png'" width='"14'" height='"13'" '/><img src='"'/rootimages'/icons'/star_white.png'" width='"14'" height='"13'" '/><img src='"'/rootimages'/icons
完整数据如下:http://notepad.cc/share/AReb0eaiqH
所以无论如何,我可以修复html内容没有'使其为html解析器工作?
解决方案可能很简单,只需将数据中的''"'(反斜杠引号)替换为'"'(引号),例如:
data = data.Replace("'''"","'"");
(您可能还必须删除第一个和最后一个引号(如果它们存在))。