使用libsvm进行文本分类c#

本文关键字:分类 文本 libsvm 使用 | 更新日期: 2023-09-27 18:21:45

我正在使用libsvm来预测情绪。我想知道输入的格式假设我使用的是单词计数。

     [label] [index]:[value] [index]:[value]

这是libsvm的必需格式。这是否意味着我只有两个标签(一个表示阳性,一个表示阴性),索引是该标签下的每个单词,值是每个单词的频率?

这是否也意味着我需要存储单词到索引的映射,以便在测试集中使用?

使用libsvm进行文本分类c#

LIBSVM使用所谓的"稀疏"格式,其中不需要存储零值。因此,具有属性的数据
5 0 2 0
表示为
1:53:2
因此,您只需要指定非零属性的索引

标签位于第一列。对于二进制情况,您可以使用+1表示阳性样本,使用-1表示阴性样本。顺便说一句,您并不局限于只有两个标签。您可以使用其他数字(例如1,2,3,4,5,…)

请查看libsvm中给出的示例文件。它被称为心刻度。按照这个。。。这是一个很好的例子。。。