我如何为我的搜索引擎获得有效url的数据库

本文关键字:有效 url 数据库 搜索引擎 我的 | 更新日期: 2023-09-27 18:04:31

我正在尝试用c#和。net框架为学校做一个互联网搜索引擎。我需要下载我正在索引的页面的HTML代码。

现在只需要一个有效的url列表。

由于我没有有效url的数据库,所以我做了一个试错算法,它会生成一个字符串:

a, b, c.....
aa, ab, ac......
aaa, aab, aac......
aaaa, aaab, aaac......
aaaaa, aaaab, aaaac......

然后尝试连接。com,。net或其他。这太低效了。

我需要一个具有有效url的数据库。你知道哪里可以买到吗?

我不知道如何将它们直接从DNS中取出-这是可能的吗?

我如何为我的搜索引擎获得有效url的数据库

您可以构建自己的。大多数搜索引擎抓取页面并跟踪到其他页面的链接。

你从一个已知的列表开始(它不必很大),然后:

  1. 访问列表中的页面
  2. 查找这些页面的链接
  3. 将这些链接添加到您的列表
  4. 转到1

对于使用DNS;它不是用来查询url的,而是用来查询主机名的。而且,据我所知,你不可能从DNS服务器获得每个主机名的列表,除非你自己管理服务器。