相关性百分比(搜索字符串在源字符串中更“左”)

本文关键字:字符串 百分比 搜索 相关性 | 更新日期: 2023-09-27 17:56:47

任何人都可以帮助选择算法吗?

比较两个字符串并给出相关性百分比(如果找到的更多,则排名更多)。也许合并两个算法例如:寻找"chocolate white quills"我们有记录

CHOCOLATE, WHITE/DARK QUILLS [MONA LISA, 4 #/CS]
CHOCOLATE, WHITE QUILLS [SWISS CHALET, 900 GR BOX]
PASTRY INGR., CHOCOLATE QUILLS WHITE [SWISS CHALET FINE FO, 16 / 120 CT]

结果必须如下所示:

CHOCOLATE, WHITE QUILLS [SWISS CHALET, 900 GR BOX] | 0,1
CHOCOLATE, WHITE/DARK QUILLS [MONA LISA, 4 #/CS] | 0,2
PASTRY INGR., CHOCOLATE QUILLS WHITE [SWISS CHALET FINE FO, 16 / 120 CT] | 0,4

就像你可以看到它不是很强比较必须使用我现在正在使用JaroWinkler现在结果是这样的

CHOCOLATE, WHITE/DARK QUILLS [MONA LISA, 4 #/CS] | 0,3775
CHOCOLATE, WHITE QUILLS [SWISS CHALET, 900 GR BOX] | 0,3769
PASTRY INGR., CHOCOLATE QUILLS WHITE [SWISS CHALET FINE FO, 16 / 120 CT] | 0,3728

相关性百分比(搜索字符串在源字符串中更“左”)

对于任何文本排名,您都需要明确要衡量的内容。 在您的示例中

CHOCOLATE, WHITE QUILLS [SWISS CHALET, 900 GR BOX] | 0,1
CHOCOLATE, WHITE/DARK QUILLS [MONA LISA, 4 #/CS] | 0,2
PASTRY INGR., CHOCOLATE QUILLS WHITE [SWISS CHALET FINE FO, 16 / 120 CT] | 0,4

为什么第一项排名低于第二项? 我有点理解为什么底部的评分最高,因为它包含字符串中的所有项目,没有中间字符串。提供更多细节,我们将尽力提供帮助。