文本分类从文本中提取标记

本文关键字:文本 提取 分类 | 更新日期: 2023-09-27 18:21:29

我有一个lucene索引,里面有很多文本数据,每个项目都有一个描述,我想从描述中提取更常见的单词,并生成标签,根据描述对每个项目进行分类,有没有lucene.net库或任何其他库来进行文本分类?

文本分类从文本中提取标记

不,lucene.net可以使搜索、索引、文本规范化、"查找更像这样"很有趣,但不是文本分类。

向你建议什么取决于你的要求。所以,也许需要更多的描述。但是,一般来说,最简单的方法是尝试使用外部服务。所有外部服务都有RESTneneneba API,使用C#与之交互非常容易。

来自外部服务:

  • 开放加莱
  • u分类
  • 谷歌预测API
  • 文本分类
  • 炼金API

还有像Mahout这样优秀的Java SDK。正如我所记得的,与Mahout的交互也可以像与服务一样进行,因此与服务的集成根本不是问题。

我用c#做过类似的"自动标记"任务,我也用过Open Calais。每天进行50000笔交易是免费的。这对我来说已经足够了。而且uClassify有很好的定价,例如"独立"许可证每年99美元。

但也许外部服务和Mahout不是你的方式。然后看看DBpedia项目和RDF。最后,至少可以使用Naive Bayes算法的一些实现。这很容易,一切都在你的控制之下。

这是一个非常困难的问题,但如果你不想花时间,你可以接受整个文档中频率在5%到10%之间的所有单词。或者,你只需取最常见的5个单词。

做好标签提取是非常非常困难的。整个公司靠暴露这样一个API的网络服务生存是非常困难的。

你也可以删除停止语(使用从互联网上获得的固定停止语列表)。

你可以找到常见的N字格(例如对),你可以用它来找到多字标签。