连接到网站查找单词(编译海量数据/Webcrawler)
本文关键字:数据 Webcrawler 编译海 网站 查找 单词 连接 | 更新日期: 2023-09-27 18:28:00
我目前正在用C#开发一个Word Completion应用程序,在启动并运行UI、设置键盘挂钩以及其他类似的东西之后,我意识到我需要一个WordList。唯一的问题是,我似乎找不到一个合适的信息。我也不想花整整一周的时间手工格式化和收集WordList。我想要的信息是类似于"TheWord,The definition,verb/etc."
所以,我突然想到了。为什么不下载一个只有单词的基本单词列表(已经下载了;大约有109523个单词),编写一个程序,遍历每个单词,连接到互联网,从某个任意网站检索数据(定义等),并从所述信息创建XML数据。它可以100%自动化,我只需要等待一个小时,这取决于我的互联网连接速度。
然而,这给我带来了一些问题。
- 我应该如何连接到网站来查找这些单词<lt;这是我真正的问题
- 我该如何从网站上阅读这些信息
- 我会因为这件事惹恼我的ISP或网站吗
- 这真的是个坏主意吗?哈哈
你们觉得我该怎么做?
编辑
有人注意到Dictionary.com在url中使用了这个词作为后缀。这将使遍历word文件变得容易。我还看到网页存储在XHTML中(或者可能只是HTML)。以下是"猫"一词的来源。http://pastebin.com/hjZj6AC1
对于您标记为实际问题的内容,您只需要从网站下载数据并找到所需内容。CsQuery是一个很好的工具,它允许您使用jquery选择器。你可以这样做:
var dom = CQ.CreateFromUrl("http://www.jquery.com");
string definition = dom.Select(".definitionDiv").Text();