确定 html 页面中的内容

本文关键字:html 确定 | 更新日期: 2023-09-27 18:32:56

我正在构建一个新闻阅读器,我可以选择通过输入页面链接来共享博客、网站等的文章。我现在使用两种方法来确定页面的内容:

  1. 我正在尝试从用户输入的页面中提取rss提要链接,然后在提要中匹配该网址以获得正确的项目。

  2. 如果网站不重合提要,或者它的格式不正确或输入的地址与 rss 中的项目链接不同(大约在 50% 的情况下,如果不是更多的话(,我尝试找到 og 元标签,这很好用,但只有更大的网站才有,较小的网站和博客通常对整个网站有相同的元描述。

我想知道例如谷歌是如何做到的?当网站不重合元描述时,谷歌会以某种方式自行确定搜索结果页面上的内容。

我正在使用HtmlAgilityPack从页面中提取内容,并使用自己的方法将html清理为文本。

有人可以解释一下我的逻辑或最佳方法,如果我尝试直接从顶部抓取它,我通常会得到来自侧边栏、导航等的内容?

确定 html 页面中的内容

我最终使用了用 JAVA 编写的样管,使用 IKVM 导入它,它适用于区域格式正确的页面,但它仍然有一些内容分散的页面的问题。