在不使用XML解析器的情况下从XML文档中提取数据

本文关键字：XML 文档情况下数据提取 | 更新日期: 2023-09-27 17:58:22

以下是文档的几行：

  <div class="rowleft">
    <h3>Technical Fouls</h3>
    <table class="num-left">
      <tr class="datahl2b"> 
        <td>&nbsp;</td>
            <td>Players</td>
          </tr>
          <tr> 
            <td>DAL</td>
            <td>
              None</td>
          </tr>
          <tr> 
            <td>MIA</td>
            <td>
              Mike Miller</td>
            <td>
              Mike Miller, Jr.</td>
          </tr>
        </table>
    </div>

我感兴趣的是从中提取None、Mike Miller和Mike Miller, Jr.。我尝试使用各种XML解析器，但1）性能非常糟糕，2）文档显然不是一个格式正确的XML文档。

我一直在考虑的一件事是剥离文档中的换行符，将其拆分为类似<tr>的行，查看哪些行包含数据（可能使用StartsWith()），并用正则表达式提取它。这对我的程序来说已经足够高效了（下载文档需要5秒，只需要半秒，这并不重要），但我对它的替代解决方案感兴趣。

在不使用XML解析器的情况下从XML文档中提取数据