ASP.NET:如何从表html源中提取特定值
本文关键字:提取 html NET ASP | 更新日期: 2023-09-27 18:29:05
我想提取IMDb Boxoffice表中每行的电影名称。。
示例html表行:
<tr class="chart_even_row">
<td style="text-align: right;">
<b>1</b>
</td>
<td>
<img border="0" src="http://ia.media-imdb.com/images/M/MV5BMjA4NDg3NzYxMF5BMl5BanBnXkFtZTcwNTgyNzkyNw@@._V1._SY30_SX23_.jpg" width="20" height="30">
</td>
<td>
<a href="/title/tt1392170/" >The Hunger Games</a> (2012)
</td>
<td style="text-align: right; padding-right: 20px;">$155M
</td>
<td style="text-align: right;">
$155M
</td>
<td style="text-align: center;">
1
</td>
</tr>
我想提取的价值观是"饥饿游戏"。。
我需要一个C#代码来实现这一点。
注意:我想通过REGEX 进行此操作
提前感谢,拉沙德。
屏幕刮擦IMDB是复杂、脆弱和禁止的。IMDB提供纯文本数据文件,您可以在http://www.imdb.com/interfaces
更新
请允许我重申:屏幕抓取和数据挖掘IMDB.com违反了它们的使用条款。
关于Regex:见此答案。
因此,如果你在违反IMDB的使用条款的情况下一意孤行,那么HTML敏捷包可能是最好的选择。
尝试将代码复制粘贴到单个html文件中。如果您有太多的页面要获取,那么尝试编写代码,通过html敏捷包读取这些页面。
你可以在这里找到html敏捷包http://htmlagilitypack.codeplex.com/