在抓取网站页面的数据时出现获取403错误

本文关键字:获取 错误 数据 网站 抓取 | 更新日期: 2023-09-27 18:20:48

我有一个比价网站,它从各种网站上抓取价格。对于所有网站,代码运行良好,但其中一个返回403禁止错误。该网站是在Asp.net MVC3框架下开发的。以下是我的代码。

public static decimal? GetSpanFromWebSite(string url, string identification)
    {
        var baseUrl = new Uri(url);
        HtmlAgilityPack.HtmlDocument document = new HtmlDocument();
        try
        {
            WebClient client = new WebClient();
            document.Load(client.OpenRead(baseUrl));
            var div = document.DocumentNode.SelectNodes(identification).FirstOrDefault();
            return Convert.ToDecimal(div.InnerHtml);
        }
        catch (Exception)
        {
            return null;
        }
    }

解决方法是什么?我如何继续报废网站?

在抓取网站页面的数据时出现获取403错误

这很可能是站点实施的刮擦对策。

尽量模仿浏览器请求(尤其是头-用户代理、refer、内容类型等)

403禁用事实上,服务器在理解和接受您的请求的同时,拒绝了您的请求,所以请检查您的HttpRequest Headers和Cookie值

你可以使用像fiddler这样的web调试工具http://www.telerik.com/fiddler/web-debugging调试请求和响应