从站点抓取链接

本文关键字:链接 抓取 站点 | 更新日期: 2023-09-27 17:49:37

我有一个问题。我想从一个网站抓取链接(示例:www.x.com/date/counter of news)。现在,我的解决方案是:

1-我有最新链接,存储在我的数据库中,如下所示:
www.x.com/2015/01/13/99901

2-我得到最新链接从网站,像下面:
www.x.com/2015/01/12/99905

3-我想循环之间99901 ~ 99905为生成以上两个链接之间的链接,如下所示:

www.x.com/2015/01/12/99901
www.x.com/2015/01/_( I don't know this day is /12 or /13 )_/99902
www.x.com/2015/01/_( I don't know this day is /12 or /13 )_/99903
www.x.com/2015/01/_( I don't know this day is /12 or /13 )_/99904
www.x.com/2015/01/13/99905

现在,我知道日期什么时候改变了?!!

从站点抓取链接

您应该首先检查不存在的页面(例如01/12/99999)的响应。然后你应该循环使用"first"day,检查响应,如果你得到相同的响应,将1加到day并重复,直到你收到预期的响应。