c# html agility pack

本文关键字：pack agility html | 更新日期: 2023-09-27 17:57:56

我们正在将一个电子商务网站转移到一个新的平台上，因为他们所有的页面都是静态html，而且他们的所有产品信息都没有在数据库中，所以我们必须从他们当前的网站上抓取产品描述。

以下是其中一页：http://www.cabinplace.com/accrugsbathblackbear.htm

最好的方法是将描述转换成字符串？我应该使用html敏捷包吗？如果是这样的话，该怎么做呢？因为我是html敏捷性包和xhtml的新手。

感谢

c# html agility pack

HTML敏捷包是一个很好的库，可以用于这类工作。

您没有说明所有内容是否都是以这种方式构建的，也没有说明您是否已经从HTML文件中获得了发布的片段，因此很难提供进一步的建议。

通常，如果所有页面的结构相似，我会使用XPath表达式来提取段落，并从每个页面中选择innerHtml或innerText。

类似以下内容：

var description = htmlDoc.SelectNodes("p[@class='content_txt']")[0].innerText;

此外，

如果你需要一个好的工具来测试或找到HAP的Xpath，你可以使用这个：HTML敏捷扩展路径查找器。它是使用同一个库制作的，所以如果你在这个工具中找到了xpath，你就可以安全地在代码中使用。