智能检测 html 内容更改

本文关键字:检测 html 智能 | 更新日期: 2023-09-27 18:35:12

我正在寻找可以智能地检测 html 页面内容更改的算法/库(最好是在 c# 中)。

例如,如果页面 techcrunch.com,则只有在有新帖子或页面发生重大更改时,它才会匹配。 它会忽略HTML注释,JavaScript,次要更新,例如注释数量等。

有人可以指出我正确的方向吗?

智能检测 html 内容更改

您可以使用JavaScript来

计算页面上或页面特定部分的元素数量。有数千种方法可以实现JS来检测更改。

对于我的假设,您使用 C# 程序请求页面。

实际上,有数百种方法可以做到这一点。

我给你一个:

第一,最简单和虚拟的算法是

while(true) {
    checkModifyDate();
    if(date is newer) {
        do anything you want...
    }
    do it again in next 10 mins()
}

该 checkModifyDate() 函数将"仅"检查 HTTP 标头是否有更改。
然后你可以稍后做任何事情。

您可以将其添加到每 xxx 分钟运行的计时器对象或线程中,并将其设置为自动为您完成作业。

希望这有帮助。