智能检测 html 内容更改
本文关键字:检测 html 智能 | 更新日期: 2023-09-27 18:35:12
我正在寻找可以智能地检测 html 页面内容更改的算法/库(最好是在 c# 中)。
例如,如果页面 techcrunch.com,则只有在有新帖子或页面发生重大更改时,它才会匹配。 它会忽略HTML注释,JavaScript,次要更新,例如注释数量等。
有人可以指出我正确的方向吗?
您可以使用JavaScript来
计算页面上或页面特定部分的元素数量。有数千种方法可以实现JS来检测更改。
对于我的假设,您使用 C# 程序请求页面。
实际上,有数百种方法可以做到这一点。
我给你一个:
第一,最简单和虚拟的算法是
while(true) {
checkModifyDate();
if(date is newer) {
do anything you want...
}
do it again in next 10 mins()
}
该 checkModifyDate() 函数将"仅"检查 HTTP 标头是否有更改。
然后你可以稍后做任何事情。
您可以将其添加到每 xxx 分钟运行的计时器对象或线程中,并将其设置为自动为您完成作业。
希望这有帮助。