如何查找哪个类别属于只有标题的报价

本文关键字:属于 标题 何查找 查找 | 更新日期: 2023-09-27 17:57:41

我正在开发一项新服务,该服务将查询多个优惠(Groupon等),我想破解哪个类别属于此优惠。

示例:

我得到了这个标题:"Acqualina健康博览会-Acqualina度假村和水疗中心",我需要找出什么类别属于这个优惠。

我试着玩http://www.google.com/insights/search/但这并不容易,因为它只接收7个参数(项),而且有时我们有无法分离的复合词。

如何查找哪个类别属于只有标题的报价

有一些基于Wordnet和搜索距离等有趣的方法,但标准的方法是贝叶斯垃圾邮件过滤方法。

第1步:构建一个标题(或标题和正文)的示例集,以及你认为它属于什么类别。这个集越大、越多样化越好。你需要从你想要识别的每个类别中有很多(比如说至少一个两位数,但最好是数百个)不同的例子。如果你想帮助构建这个集合,你可以使用亚马逊的Mechanical Turk,并付钱给其他人来进行分类。

步骤2:通过CRM114运行所有示例(http://crm114.sourceforge.net/)或类似的东西。如果你想使用云服务,我认为谷歌预测API允许文本字段。

步骤3:对于测试,不要让分类程序看到所有的示例。在所谓的样本外集合中保留一些,你可以在上面测试你的分类程序。对它来说,对已经看到的东西进行分类要容易得多,所以你要确保你知道它在看不见的例子上有多好。某些分类程序将自动为您进行此测试。

祝你好运!