从汽车经销商网站中提取价格,里程和位置的好方法是什么
本文关键字:位置 是什么 方法 网站 经销商 汽车 提取 | 更新日期: 2023-09-27 18:35:57
我已经抓取了一些汽车网站,并试图从这些网站中提取信息。我需要以下信息 - Vin,里程,价格和位置。我尝试使用正则表达式方法,但它无法扩展,因为我有大约 20000 个网站提取。我想尝试机器学习进行提取。
一些上下文:我下载的所有网页都有vins。我已经使用正则表达式来找出这一点。在某些网页中,价格表示为以下任何词语 - 价格,市场价格,eprice,互联网价格,建议零售价。有一些价格文本被划掉,并在折扣的情况下提供另一个更低的价格。我希望我的程序考虑到这一点,并忽略笔画价格,考虑其他价格。里程表示为里程或英里。
我想过使用包装器归纳法,但读到如果网站更改网站的模板,这种方法将不起作用。此外,这种方法需要时间来训练每个网站的每种模式的分类器。
那么我应该使用什么样的方法或算法来从网页中提取价格里程和位置。
解析
html 站点有不同的方法:
您可以使用正则表达式
XPath 还可用于选择内容
但最好的方法是使用HTML敏捷包。
HTML 敏捷性示例:
var doc = new HtmlWeb().Load(url);
var comments = doc.Descendants("div")
.Where(div => div.GetAttributeValue("class", "") == "comment");
在这里,您可以找到通过 C# 解析 HTML 字段的不同方法的概述(包括示例)
你可以看看HtmlAgilityPack。它允许您解析 HTML 并使用 CSS 选择器提取必要的信息。它可以使您的代码以某种方式对网站设计和结构的变化更具弹性。