在不使用XML解析器的情况下从XML文档中提取数据
本文关键字:XML 文档 情况下 数据 提取 | 更新日期: 2023-09-27 17:58:22
以下是文档的几行:
<div class="rowleft">
<h3>Technical Fouls</h3>
<table class="num-left">
<tr class="datahl2b">
<td> </td>
<td>Players</td>
</tr>
<tr>
<td>DAL</td>
<td>
None</td>
</tr>
<tr>
<td>MIA</td>
<td>
Mike Miller</td>
<td>
Mike Miller, Jr.</td>
</tr>
</table>
</div>
我感兴趣的是从中提取None
、Mike Miller
和Mike Miller, Jr.
。我尝试使用各种XML解析器,但1)性能非常糟糕,2)文档显然不是一个格式正确的XML文档。
我一直在考虑的一件事是剥离文档中的换行符,将其拆分为类似<tr>
的行,查看哪些行包含数据(可能使用StartsWith()
),并用正则表达式提取它。这对我的程序来说已经足够高效了(下载文档需要5秒,只需要半秒,这并不重要),但我对它的替代解决方案感兴趣。
相关
HTML通常不是正确格式化的XML,我建议您使用类似HTML敏捷包的东西
尝试使用字符串操作和正则表达式解析HTML总是非常容易出错。
如果您的文档不是格式良好的XML,我建议您使用HTML敏捷包