我如何为我的搜索引擎获得有效url的数据库
本文关键字:有效 url 数据库 搜索引擎 我的 | 更新日期: 2023-09-27 18:04:31
我正在尝试用c#和。net框架为学校做一个互联网搜索引擎。我需要下载我正在索引的页面的HTML代码。
现在只需要一个有效的url列表。
由于我没有有效url的数据库,所以我做了一个试错算法,它会生成一个字符串:
a, b, c.....
aa, ab, ac......
aaa, aab, aac......
aaaa, aaab, aaac......
aaaaa, aaaab, aaaac......
然后尝试连接。com,。net或其他。这太低效了。
我需要一个具有有效url的数据库。你知道哪里可以买到吗?
我不知道如何将它们直接从DNS中取出-这是可能的吗?
您可以构建自己的。大多数搜索引擎抓取页面并跟踪到其他页面的链接。
你从一个已知的列表开始(它不必很大),然后:
- 访问列表中的页面
- 查找这些页面的链接
- 将这些链接添加到您的列表
- 转到1
对于使用DNS;它不是用来查询url的,而是用来查询主机名的。而且,据我所知,你不可能从DNS服务器获得每个主机名的列表,除非你自己管理服务器。