在HashMap值上搜索子字符串

本文关键字：字符串搜索 HashMap | 更新日期: 2023-09-27 17:51:21

给定一个HashMap，我想检索其值包含给定子字符串s的所有条目e(不区分大小写)。我正在寻找对后缀树(trie)的行子字符串索引的想法，这只适用于前缀/后缀匹配。

在HashMap值上搜索子字符串

基于广义后缀树的解决方案

后缀树不仅适用于后缀匹配。你可以这样做:

用哈希表中的每个条目构建一个通用后缀树。注意，为了忽略大小写，您必须将所有字符串转换为任意大小写。在构建过程中，用一组共享叶子的字符串标记每个叶子(例如字符串hazelnut和coconut将共享代表nut, ut和t的叶子)
从根目录开始:
- 用子字符串s沿着树走(转换为第一步中选择的情况):您最终处于隐式状态(即在边缘的中间)或显式状态(您最终处于节点N)。
- 如果你处于隐式状态，就取你所在边的目标节点，我们称该节点为N
计算从N可以到达的所有叶子的字符串集的并集:你得到一个字符串集S
S是哈希表中包含子字符串S

假设您只需要在映射上测试一个字符串s，朴素的解决方案易于实现，易于理解，其总体复杂性不仅优于基于后缀树的方法，而且是最优的。所以你可以自信地坚持下去。

然而，如果你必须测试大量的K_s字符串s_j，那么后缀树方法可以更好，因为它的总体复杂度最多为:

O (L + K <子>。(max(长度(s <子>))+ (K.max (L (s <子>)]<一口> 2>

而KMP方法将导致总复杂度为:

O (K <子>。L +∑(length(s_j))) = O(K_s)。[L + max(length(s_j))])

还请注意，由于后缀树是树形结构，如果没有巧妙地设计，内存访问和分配将发挥作用，并可能严重损害运行时间。

如果你愿意，我可以举一个例子(在c++中，但它仍然可以说明问题)。