reading HTML?

本文关键字：HTML reading | 更新日期: 2023-09-27 18:34:55

我正在用C#开发一个程序，我需要一些帮助。我正在尝试创建一个数组或项目列表，显示在某个网站上。我正在尝试做的是阅读锚文本，它href.例如，这是 HTML：

<div class="menu-1">
    <div class="items">
        <div class="minor">
            <ul>
                <li class="menu-item">
                    <a class="menu-link" title="Item-1" id="menu-item-1"
                    href="/?item=1">Item 1</a>
                </li>
                <li class="menu-item">
                    <a class="menu-link" title="Item-1" id="menu-item-2"
                    href="/?item=2">Item 2</a>
                </li>
                <li class="menu-item">
                    <a class="menu-link" title="Item-1" id="menu-item-3"
                    href="/?item=3">Item 3</a>
                </li>
                <li class="menu-item">
                    <a class="menu-link" title="Item-1" id="menu-item-4"
                    href="/?item=4">Item 4</a>
                </li>
                <li class="menu-item">
                    <a class="menu-link" title="Item-1" id="menu-item-5"
                    href="/?item=5">Item 5</a>
                </li>
            </ul>
        </div>
    </div>
</div>

所以从那个 HTML 中我想读到这个：

string[,] array = {{"Item 1", "/?item=1"}, {"Item 2", "/?item=2"},
    {"Item 3", "/?item=3"}, {"Item 4", "/?item=4"}, {"Item 5", "/?item=5"}};

HTML是我写的一个例子，实际的网站看起来不像那样。

reading HTML?

正如其他人所说，HtmlAgilityPack 是最适合 html 解析的，也一定要从 HtmlAgilityPack 站点下载 HAP 资源管理器，使用它来测试你的选择，无论如何这个 SelectNode 命令将获取所有具有 ID 的锚点，它以菜单项开头：

  HtmlDocument doc = new HtmlDocument();
  doc.Load(htmlFile);
  var myNodes = doc.DocumentNode.SelectNodes("//a[starts-with(@id,'menu-item-')]");
  foreach (HtmlNode node in myNodes)
  {
    Console.WriteLine(node.Id);
  }

如果HTML是有效的XML，你可以使用XmlDocument类加载它，然后使用XPaths访问你想要的部分，或者你可以按照Adriano的建议使用和XmlReader(更多的工作(。

如果HTML不是有效的XML，我建议使用一些现有的HTML解析器 - 例如参见这个 - 对我们来说工作正常。

你也可以使用 HtmlAgility 包

我认为这种情况很简单，可以使用正则表达式，例如<a.*title="([^"]*)".*href="([^"]*)"：

string strRegex = @"<a.*title=""([^""]*)"".*href=""([^""]*)""";
RegexOptions myRegexOptions = RegexOptions.None;
Regex myRegex = new Regex(strRegex, myRegexOptions);
string strTargetString = ...;
foreach (Match myMatch in myRegex.Matches(strTargetString))
{
  if (myMatch.Success)
  {
    // Use the groups matched
  }
}