确定 html 页面中的内容

本文关键字：html 确定 | 更新日期: 2023-09-27 18:32:56

我正在构建一个新闻阅读器，我可以选择通过输入页面链接来共享博客、网站等的文章。我现在使用两种方法来确定页面的内容：

我正在尝试从用户输入的页面中提取rss提要链接，然后在提要中匹配该网址以获得正确的项目。
如果网站不重合提要，或者它的格式不正确或输入的地址与 rss 中的项目链接不同(大约在 50% 的情况下，如果不是更多的话(，我尝试找到 og 元标签，这很好用，但只有更大的网站才有，较小的网站和博客通常对整个网站有相同的元描述。

我想知道例如谷歌是如何做到的？当网站不重合元描述时，谷歌会以某种方式自行确定搜索结果页面上的内容。

我正在使用HtmlAgilityPack从页面中提取内容，并使用自己的方法将html清理为文本。

有人可以解释一下我的逻辑或最佳方法，如果我尝试直接从顶部抓取它，我通常会得到来自侧边栏、导航等的内容？

确定 html 页面中的内容

我最终使用了用 JAVA 编写的样管，使用 IKVM 导入它，它适用于区域格式正确的页面，但它仍然有一些内容分散的页面的问题。