ASP.NET:如何从表html源中提取特定值

本文关键字:提取 html NET ASP | 更新日期: 2023-09-27 18:29:05

我想提取IMDb Boxoffice表中每行的电影名称。。

示例html表行:

    <tr class="chart_even_row">
  <td style="text-align: right;">
      <b>1</b>
  </td>
  <td>
      <img border="0" src="http://ia.media-imdb.com/images/M/MV5BMjA4NDg3NzYxMF5BMl5BanBnXkFtZTcwNTgyNzkyNw@@._V1._SY30_SX23_.jpg" width="20" height="30">
  </td>
  <td>
<a  href="/title/tt1392170/" >The Hunger Games</a> (2012)
  </td>
  <td style="text-align: right; padding-right: 20px;">$155M
  </td>
  <td style="text-align: right;">
$155M
  </td>
  <td style="text-align: center;">
1
  </td>
</tr>

我想提取的价值观是"饥饿游戏"。。

我需要一个C#代码来实现这一点。

注意:我想通过REGEX 进行此操作

提前感谢,拉沙德。

ASP.NET:如何从表html源中提取特定值

屏幕刮擦IMDB是复杂、脆弱和禁止的。IMDB提供纯文本数据文件,您可以在http://www.imdb.com/interfaces

更新

请允许我重申:屏幕抓取和数据挖掘IMDB.com违反了它们的使用条款。

关于Regex:见此答案。

因此,如果你在违反IMDB的使用条款的情况下一意孤行,那么HTML敏捷包可能是最好的选择。

尝试将代码复制粘贴到单个html文件中。如果您有太多的页面要获取,那么尝试编写代码,通过html敏捷包读取这些页面。

你可以在这里找到html敏捷包http://htmlagilitypack.codeplex.com/