c# html agility pack

本文关键字:pack agility html | 更新日期: 2023-09-27 17:57:56

我们正在将一个电子商务网站转移到一个新的平台上,因为他们所有的页面都是静态html,而且他们的所有产品信息都没有在数据库中,所以我们必须从他们当前的网站上抓取产品描述。

以下是其中一页:http://www.cabinplace.com/accrugsbathblackbear.htm

最好的方法是将描述转换成字符串?我应该使用html敏捷包吗?如果是这样的话,该怎么做呢?因为我是html敏捷性包和xhtml的新手。

感谢

c# html agility pack

HTML敏捷包是一个很好的库,可以用于这类工作。

您没有说明所有内容是否都是以这种方式构建的,也没有说明您是否已经从HTML文件中获得了发布的片段,因此很难提供进一步的建议。

通常,如果所有页面的结构相似,我会使用XPath表达式来提取段落,并从每个页面中选择innerHtmlinnerText

类似以下内容:

var description = htmlDoc.SelectNodes("p[@class='content_txt']")[0].innerText;

此外,

如果你需要一个好的工具来测试或找到HAP的Xpath,你可以使用这个:HTML敏捷扩展路径查找器。它是使用同一个库制作的,所以如果你在这个工具中找到了xpath,你就可以安全地在代码中使用。