关于javascript：如何从字符串数组中以任何顺序匹配和突出显示所有术语？

How to match and highlight all terms in any order from an array of strings?

要求如下：

从一个数组中查找字符串(从这里在调用的选项上)，该数组中包含任意顺序的所有项
正确突出显示匹配项-即在每个匹配项前后插入一个字符串-我在这里使用和。
搜索查询和选项都可以是"任何内容"

为了简单起见，答案可以集中在只包含ASCII字符的列表中进行不区分大小写的搜索，并假定术语分隔符是一个纯空格，即输入为"foo bar baz"的查询意味着搜索术语是['foo', 'bar', 'baz']。

澄清：

在匹配的选项中，所有术语必须分开存在-即，较短的术语不应仅作为较长术语的子字符串存在，并且不应有两个术语重叠。
选项中必须至少存在与查询中相同次数的重复搜索词

最后一个应用程序是(也许并不奇怪)某种类型的自动完成。

TL;DR

Most recent fiddle comparing the proposed algorithms side by side:
https://jsfiddle.net/Mikk3lRo/ndeuqn02/7/
(feel free to update this link if you add a new algorithm)

jsPerf comparing algorithms in a somewhat more realistic / representative way - a few strings are basically"entered" one character at a time on each rep:
https://jsperf.com/comparison-of-algorithms-to-search-and-highlight

At this point it is clear (thanks to trincot's excellent base-comparison) that the majority of time used by the original implementations was spent on DOM-output. Its significance has been minimized as much as possible in the fiddle.

There is still a clear difference in performance between the algorithms in each search, but not one of them is consistently fastest on every keystroke. After revisiting and cleaning up my own"Divide and Conquer" it does outperform the others consistently in any realistic scenario I try though.

Tigregalis introduced the idea of a pre-run optimization, which seems reasonable given that options are unlikely to change between keystrokes. I have added (a function for) this to all methods here. The only algorithm where I saw an obvious benefit from it was in Skirtle's Permutations, but I'll encourage each answerer to consider if it might be useful for their own algorithms.

Some algorithms will be much easier to adapt than others. It is still my opinion that this will be more important than the minor performance differences in a real implementation.

Note that the current version of Tigregalis' Shrinking Set has a bug - I've excluded it from fiddle and jsperf until that is fixed.

病毒排列

理论上，这可以通过"手动"构建一个regexp来解决，该regexp包含由捕获组分隔的搜索项的每一个可能排列，以捕获项之间的任何内容-在(foo)(.*?)(bar)|(bar)(.*?)(foo)中搜索"foo bar"结果。

然后用string.replace()一次完成突出显示。如果字符串有任何变化，我们就有一个匹配项。

演示：

1
2
3
4

<input type="text" id="viral_permutations" onkeyup="viral_permutations()">


[cc lang="javascript"]

< /代码>

感谢Trincot指出，我的原始版本偶尔会突出显示一个重复出现的术语两次——这是在这段代码中修复的。

失败是因为：

正则表达式随着条件的增加呈指数增长。7个术语(甚至是单个字母)超过250kb，我的浏览器放弃了Error: regexp too big…

其他一些不起作用的值得注意的战略：捕获每个组中包含所有术语的组：

1	(foo\|bar)(.*)(foo\|bar)

失败是因为：

将匹配包含重复条款-fx的选项。The food in the food court会匹配，但显然不应该。
如果我们"反复检查"所有条款，事实上，发现它将无法找到有效的匹配-外汇。The food in the food bar会发现foo两次，永远不会到bar去。

否定的lookaheads和backreferences：

1	(foo\|bar\|baz)(.?)((?!\1)(?:foo\|bar\|baz))(.?)((?!\1\|\3)(?:foo\|bar\|baz))

失败是因为：

当查询中的条件重复出现时，将达到"找一个不是foo、bar、bar，也不是foo、bar"等不可能的条件。
我相当肯定它还有其他问题，但当我意识到它在逻辑上有缺陷时，我就不再去追求它了。

正面造型

1	(?=.foo)(?=.bar)(?=.*baz)

失败是因为：

很难(如果不可能)可靠地突出显示找到的匹配项。
我还没有找到任何方法来确保所有条款都实际存在——也就是说，它们可能单独存在于期权中，但较短的条款可能只存在于较长条款的子字符串中——或者条款可能重叠。

相关讨论

我建议在分而治之的思想上有一个微小的变体：您可以"清除"匹配的字符，而不是将字符串分割成块(位)，然后在该字符串上执行进一步的搜索。要擦除的字符将是分隔符，因为它保证不会出现在任何术语中。

这里是：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77

1
2
3
4
5

ul {
height:300px;
font-size: smaller;
overflow: auto;
}

1
2
3
4
5
6

Input terms: <input type="text" id="findTerms">

Trincot's Wipe Search
Time: ms
<ul id="result">
</ul>

我已将dom I/O从时间度量中排除。

下面是一个JSfiddle并排比较这两种算法。与其他算法相比，添加第三个算法并不难。

当分隔符可以是任何正则表达式时

…则不能使用上述功能。克服这一问题的一种方法是引入一个"影子"字符串，与选项字符串一样长，但其中只有两个不同的可能字符(如.和x)。

其中一个表示选项字符串中的对应字符(即在同一位置)已与某个术语匹配，因此不再可用于另一个术语的匹配。
另一个字符表示选项字符串中的相应字符仍然可以包含在术语匹配中。

显然，这会使函数慢一点，因为在检查此阴影字符串之后，可能需要拒绝匹配：

1
2
3
4
5

ul {
height:300px;
font-size: smaller;
overflow: auto;
}

1
2
3
4
5
6

Input terms: <input type="text" id="findTerms">

Trincot's Wipe Search
Time: ms
<ul id="result">
</ul>

相关讨论

杰出的！这实际上是导致我进入分治战略的(基本)想法——它肯定比我的版本更为优化，它确实解决了问题的"精简"版本。问题是(在我的例子中)我需要支持一个(前面)未知的regex作为分隔符(fx某人可能使用/\s|\*|,/或类似的东西)。考虑到这一点，我最初的结论是，除了实际操作字符串之外，我必须将"咬伤"标记为消耗，因为没有任何字符(甚至序列)是真正的"安全"…有没有想过如何解决这个问题？
一种方法是使用第二个"shadow"字符串，与选项字符串一样长，但只填充了2个字符：一个用于指示位置已被上一个匹配项占用，另一个用于指示位置仍可用于匹配。显然，这会减慢最初的想法，并且根据输入，它可能比分治算法运行得慢或快。我在这里添加了：jsfiddle.net/dqjybz6o
我想我理解你的意思，尽管你链接到的小提琴和你的答案中的一样(可能忘记点击更新？)不管怎样，正如前面提到的，我很确定我理解，所以我自己添加了它和踢脚线方法(结果在这个比较中表现不太好-我不确定是否是因为我在调整它时把事情搞砸了)。shadow-string方法比原始方法稍慢，但据我所知，它与regex分隔符完美配合。看起来还是比我的快。新小提琴：jsfiddle.net/mik3llo/dqjybz6o/1
啊，是的，忘了存钱，但是的，你有这个主意。我只是在循环结束时对lastIndex进行了一些小的(可能微不足道的)改进。请看我打算引用的内容：jsfidle.net/dqjybz6o/2，但您的版本还不错。
Tigregalis引入了预运行优化的思想。因为在实际的实现中，按键之间的选项不太可能改变，所以这似乎是合理的。我已经为与问题相关联的小提琴中的每个方法添加了一个"准备"函数。如果你仍然感兴趣，你可以考虑它是否会对你的算法有好处——我没有想出任何明显的东西，但是我今晚被擦掉了；)
我删除了第一个解决方案("擦除")，以便为我现在添加的解决方案留出足够的空间：通用后缀树(预处理)。
看到你这样做，我有点抱歉-我认为你应该回过头来，把你的新解决方案写在一个单独的答案里，因为这是一种全新的解决问题的方法。您的第一个解决方案非常简单，而且性能非常好。几天前我决定在我的当前项目中使用我自己的算法，因为对于我来说，它是最容易适应所有其他需求的算法。但是为了其他人的利益，我真的认为你应该把新的解决方案放在一个单独的答案中。
好的，我按你的建议做。我也会在你的问题中使用小提琴来添加我的新解决方案——除非你更喜欢自己做；-)
你的代码卫生至少和我的一样，所以欢迎你根据自己的情况进行更新；)我选择了我自己的答案，因为它最适合我的情况。他付出了巨大的努力，我奖励了他最初的赏金。不过，你的解决方案和评论对我来说是最有帮助的，所以我已经开始了一项新的奖励，当我被允许授予它时，它将是你的。
谢谢你的赏金！如果可行的话，我还打算发布一些备选方案。在测试了更多之后，我无法让suffixtree预处理在可接受的时间内运行8000个短语(参见我的其他答案)，因此它可能不是您的用例的一个很好的候选者。但为了让你知道，我还在研究这个问题；—)
对于我目前的项目，我已经确定了优化的分而治之。我大约一个月前就开始研究它了，没想到会花上一两个小时的时间…直到我意识到这其实并不容易解决。这个问题对我很有教育意义…事实证明，这个问题本身比我最初预期的要有趣得多。尽管我们已经有了非常好的算法，而且我目前的项目是"关闭"的，但我确信存在更多(更好)的策略…所以不管怎样，当你有什么需要补充的时候，一定要发帖。我仍然感兴趣；)

我试了一下，但我不确定这会有多大帮助。我的方法类似于你的分而治之的方法。好的。

我没有咬掉字符串中的一些位，而是提前搜索每个词，并存储所有匹配项的集合，记录开始和结束位置。如果没有足够的匹配项来匹配特定的搜索词，算法会立即为该"选项"下注。好的。

一旦集合了所有可能的匹配项，它就会递归地尝试找到一个不重叠的组合。在这个递归过程中有很多数据结构的复制，我怀疑它可能比这里的优化要好得多。我也只能为一些变量名道歉，我一直在努力想出有意义的名称。好的。

对于某些测试搜索，如a n a n a n a n ...，它似乎比原始的分而治之技术更好地处理问题，但我怀疑这可能是因为在特定搜索项的匹配不足时执行的早期救援。如果没有大量的实际数据，就很难知道真正有价值的优化将在哪里进行。好的。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388

1
2
3
4
5
6
7
8
9
10
11
12

Permutations
<input type="text" id="search" onkeyup="search()" autocomplete="off">

Ok.


Ok.

<ul id="results">
</ul>

好的。

更新：好的。

根据Mik3Pro在评论中的反馈，我做了一些性能调整，并得出了以下结论：好的。

https://jsfiddle.net/skirtle/ndeuqn02/1/好的。

核心算法是相同的，但我以性能的名义让它更难理解。大多数更改都与尽可能避免创建新对象有关。好的。

由于该算法需要预先搜索很多它可能永远不需要的东西，所以总是有机会让其他算法更快，特别是在简单的情况下。其中许多情况可以单独处理，但我没有尝试过这种优化。好的。

在Chrome中，它在许多不同的场景中都优于其他实现，尽管这是一个不公平的比较，因为它们还没有以相同的方式进行调整。对于简单的搜索，其他的实现在firefox中的速度可能稍快一些，但时间都在同一个范围内。好的。

一些特别有趣的搜索：好的。

a ab ba baba。我添加了一个新的"选项"，并调整了CSS来演示这一点。算法在执行突出显示的选择方式上有所不同。我的算法倾向于查询中术语的顺序，而不是基于术语的长度。如果我不担心订购，还有更多的优化可用，但我认为它们只在重叠的极端情况下有帮助。
t r i s t a n d a c u n h a。注意字母之间的空格，这是14个独立的搜索词。如果你一次只打一个词，分而治之很快就会开始斗争，但最终会恢复过来。擦拭和阴影可以处理更长的时间，但当你键入字母c时，它们会从悬崖上掉下来。我认为这是回溯中的指数爆炸，但我还没有证实。我相信通过一些工作，它可以在简单的情况下得到解决，但是如果回溯是由不可解决的重叠引起的，那么修复它可能会更加棘手。

我相信所有的实现都可以通过更多的调优和一些精心设计的特殊情况处理来加快速度。对于真实的场景，哪一个是"最好的"，我不确定，但我目前的感觉是，我的算法可能只有一个狭隘的优势，在一个真正公平的测试中，它会优于其他算法。对于真正的搜索来说，一个没有预先完成所有搜索的算法似乎很难击败。好的。

更新2好的。

我尝试了我以前的方法的另一种实现：好的。

https://jsfiddle.net/skirtle/ndeuqn02/9/好的。

请注意，我只更新了自己的实现，其他的实现仍然是过时的。好的。

我想我应该尽量避免不必要的搜索，懒散地执行它们，而不是预先执行它们。它仍然缓存它们，以便在算法需要回溯时重用它们。我不知道这是否有显著的区别，因为在短字符串上执行少量的额外搜索可能不会增加太多开销。好的。

我还尝试过去掉函数递归。虽然它看起来确实有效，但我觉得存在很高的bug风险(它需要大量的单元测试来确保它确实有效)。我不相信这一部分真的是成功的，因为所涉及的数据结构使它很难遵循。它看起来确实很快，但还不足以证明其复杂性。好的。

我还尝试了其他方法来构建最后的亮点。所有这些排序和切片看起来都是性能消耗，但同样，代码在试图避免它时变得更加复杂。不过，其中一些收益可能适用于其他算法。好的。

我在这里介绍的另一个想法是对查询词进行预搜索分析(只依赖于查询，而不依赖于选项)。它检查术语是否可以重叠，对于任何不可能重叠的术语(如cat dog)，它使用一个更简单的算法来获取匹配项。这个想法也有可能应用到其他算法中。好的。

正如评论中所提到的，运行选项的某种预搜索分析的想法也是可能的，但我在这里还没有真正实现。很难知道哪种搜索索引最有用，因为它取决于内存使用情况和选项的具体情况。然而，尝试将少量信息从一次搜索传递到下一次搜索可能更为实际。好的。

例如，如果有人搜索united states，很有可能他们最后键入的是最后一个s，而他们以前的搜索是united state。基于此的两个潜在优化是：好的。

united states的匹配选项将是united state的匹配选项的子集，因此，如果我们记住该列表，就可以省去检查所有其他选项的麻烦。这可以用于任何算法。

在我的算法中，匹配缓存可以从一个搜索保留到下一个搜索。虽然state的缓存条目不会有任何用途，但united的条目从一个搜索到下一个搜索将完全相同，从而允许我们跳过该术语算法中昂贵的部分。

好啊。

相关讨论

看起来很有前途。当然，在小测试集上性能很好。它给了我一些新的想法。
嗯。我把它和Trincots和我自己的解决方案一起添加了，用这种方式测试时性能不太好。看看jsfiddle.net/mik3dro/dqjybz6o/1…注意每个算法在每个按键上运行多次，以获得更精确的测量结果…所以反应很慢。
@我已经更新了我的答案。最初的实现需要进行优化，以获得与其他实现类似的性能。核心算法擅长在某些边缘情况下避免性能峰值，但我认为在大多数实际搜索中，它不太可能比其他算法更出色。
我不能决定什么是最重要的：P一方面，搜索需要1或5毫秒并不重要…另一方面，一个真实的场景可能有10万个选项，性能将开始变得重要。避免高峰显然是可取的，但到目前为止，这种情况在实际情况下不太可能发生，几乎可以忽略不计。不管怎样，我仍然在玩它-我需要实现像一百万个设置来修改行为。我已经把小提琴加到问题本身了。我仍然希望其他人也能提出自己的想法；)
Tigregalis引入了预运行优化的思想。因为在实际的实现中，按键之间的选项不太可能改变，所以这似乎是合理的。我已经为与问题相关联的小提琴中的每个方法添加了一个"准备"函数。如果你仍然感兴趣，你可以考虑它是否能比我提出的更有益于你的算法。
@Mik3llo我已经发布了另一个更新，其中有一些我一直在思考的想法。我没有做任何特定的预运行优化，因为我觉得这将是非常具体的数据和搜索类型，它需要支持和试图覆盖所有的基础将是几个章节本身。我不知道我的最新实现是否真的比以前的尝试好，但我认为在大多数情况下它更快。应该注意的是，对于简单的搜索来说这是"欺骗"(正如我在更新中解释的那样)。
恭喜你的赏金：应得的！
我也考虑过你提到的一些事情，特别是搜索"n"几乎总是"n-1"的一个子集。如果性能是一个主要问题，我肯定会进一步研究优化。对于我当前的项目文件大小，可读性和兼容性(有许多影响搜索行为的设置)比在某些边缘情况下保存几毫秒要重要得多。所以我选择了自己的答案。赏金是你对你的努力的认可——事实上，在某些情况下，你的算法比任何其他方案都有明显的好处。

分而治之

比单一的regex病毒排列策略要复杂一些-这个递归算法从最长的术语开始逐个搜索每个术语。

每次发现匹配时，它都将该"咬"分为三个(除非在开始或结束时)，将匹配的"咬"标记为消耗，并尝试在任何未消耗的"咬"中匹配下一个最长的术语。

当它找不到最长的不匹配项时，它将回溯并尝试在不同的位置(甚至在不同的"咬")匹配上一个项。

如果它回到最长的期限，并且找不到另一个位置来匹配它，那么它将返回false。

这意味着在大多数情况下，它可以很快地返回非匹配项，因为它们甚至不包含最长的项。

当然，如果它超出了条件-即成功匹配最短的-它将返回突出显示的匹配，将所有"咬"重新连接在一起。

演示：

为了提高性能而更新：基本算法完全相同，但是有一些非常昂贵的调用可以完全避免。

1
2
3
4
5

当查询仅由(通常非常短)字符串组成时，此策略会出现性能问题，这些字符串在许多选项(如a a a a a a a a中)中都存在。

在现实场景中，它目前的性能优于其他建议的算法——请参阅添加到问题中的JSPERF链接。

相关讨论

这里有一个与我之前的答案完全不同的方法——我不能将下面的所有内容都添加到(大小限制)，所以……这是一个单独的答案。

通用后缀树：预处理选项

广义后缀树是一种结构，理论上允许以有效的方式搜索一组字符串中的子字符串。所以我想我可以试试看。

以有效的方式构建这样一棵树远不是一件容易的事情，从这个令人敬畏的Ukkonen算法解释中可以看出，它涉及为一个短语(选项)构建一个后缀树。

我从这里发现的实施中获得了灵感，需要对以下内容进行一些调整：

应用更好的编码样式(例如，去掉未显式声明的全局变量)
使其在文本后不需要添加分隔符。这真的很棘手，我希望我没有错过一些边界条件。
使其适用于多个字符串(即通用字符串)

所以这里是：

"use strict";
// Implementation of a Generalized Suffix Tree using Ukkonen's algorithm
// See also: https://stackoverflow.com/q/9452701/5459839
class Node {
constructor() {
this.edges = {};
this.suffixLink = null;
}
addEdge(ch, textId, start, end, node) {
this.edges[ch] = { textId, start, end, node };
}
}

class Nikkonen extends Node {
constructor() {
super(); // root node of the tree
this.texts = [];
}
findNode(s) {
if (!s.length) return;
let node = this,
len,
suffixSize = 0,
edge;
for (let i = 0; i < s.length; i += len) {
edge = node.edges[s.charAt(i)];
if (!edge) return;
len = Math.min(edge.end - edge.start, s.length - i);
if (this.texts[edge.textId].substr(edge.start, len) !== s.substr(i, len)) return;
node = edge.node;
}
return { edge, len };
}
findAll(term, termId = 1) {
const { edge, len } = this.findNode(term) || {};
if (!edge) return {}; // not found
// Find all leaves
const matches = new Map;
(function recurse({ node, textId, start, end }, suffixLen) {
suffixLen += end - start;
const edges = Object.values(node.edges);
if (!edges.length) { // leaf node: calculate the match
if (!(matches.has(textId))) matches.set(textId, []);
matches.get(textId).push({ offset: end - suffixLen, termId });
return;
}
edges.forEach( edge => recurse(edge, suffixLen) );
})(edge, term.length - len);
return matches;
}
addText(text) {
// Implements Nikkonen's algorithm for building the tree
// Inspired by https://felix-halim.net/misc/suffix-tree/
const root = this,
active = {
node: root,
textId: this.texts.length,
start: 0,
end: 0,
},
texts = this.texts;

// Private functions
function getChar(textId, i) {
return texts[textId].charAt(i) || '$' + textId;
}

function addEdge(fromNode, textId, start, end, node) {
fromNode.addEdge(getChar(textId, start), textId, start, end, node);
}

function testAndSplit() {
const ch = getChar(active.textId, active.end);
if (active.start < active.end) {
const edge = active.node.edges[getChar(active.textId, active.start)],
splitPoint = edge.start + active.end - active.start;
if (ch === getChar(edge.textId, splitPoint)) return;
const newNode = new Node();
addEdge(active.node, edge.textId, edge.start, splitPoint, newNode);
addEdge(newNode, edge.textId, splitPoint, edge.end, edge.node);
return newNode;
}
if (!(ch in active.node.edges)) return active.node;
}

function canonize() {
while (active.start < active.end) {
const edge = active.node.edges[getChar(active.textId, active.start)];
if (edge.end - edge.start > active.end - active.start) break;
active.start += edge.end - edge.start;
active.node = edge.node;
}
}

function update() {
let prevNewNode = root,
newNode;

while (newNode = testAndSplit()) {
addEdge(newNode, active.textId, active.end, text.length+1, new Node());
// Rule 2: add suffix-link from previously inserted node
if (prevNewNode !== root) {
prevNewNode.suffixLink = newNode;
}
prevNewNode = newNode;
// Rule 3: follow suffixLink after split
active.node = active.node.suffixLink || root;
canonize(); // because active.node changed
}
if (prevNewNode !== root) {
prevNewNode.suffixLink = active.node;
}
}

texts.push(text);

if (!root.suffixLink) root.suffixLink = new Node();
for (let i = 0; i < text.length; i++) {
addEdge(root.suffixLink, active.textId, i, i+1, root);
}

// Main Ukkonen loop: add each character from left to right to the tree
while (active.end <= text.length) {
update();
active.end++;
canonize(); // because active.end changed
}
}
}

function trincotSuffixTree(query, options, suffixTree, separator) {
// Split query in terms at delimiter
const terms = query.split(separator).filter(Boolean);
if (!terms.length) return options;
// Sort terms by descending size
terms.sort( (a,b) => b.length - a.length );

// create Map keyed by term with count info
const termMap = new Map(terms.map( (term, termId) => [term, { termId, count: 0, leftOver: 0, size: term.length }] ));
terms.forEach( (term) => termMap.get(term).count++ );

function getNonOverlaps(offsets, leftOver, lastIndex = 0, offsetIndex = 0) {
// All terms found?
if (!leftOver) return [];
let giveUpAt = Infinity;
// While still enough matches left over:
while (offsetIndex + leftOver <= offsets.length) {
const { termId, offset } = offsets[offsetIndex++];
if (offset < lastIndex) continue; // overlap, try next
if (offset >= giveUpAt) break; // Looking further makes no sense
const termInfo = termMap.get(terms[termId]);
//console.log('termId', termId, 'offset', offset, 'size', termInfo.size, 'lastIndex', lastIndex);
if (!termInfo.leftOver) continue; // too many of the same term, try next
termInfo.leftOver--;
const result = getNonOverlaps(offsets, leftOver - 1, offset + termInfo.size, offsetIndex);
// If success, then completely backtrack out of recursion.
if (result) return result.concat([offset + termInfo.size, offset]);
termInfo.leftOver++; // restore after failed recursive search and try next
// If a term-match at a given offset could not lead to a solution (in recursion),
// and if we keep those matched character postions all unmatched and only start matching after
// the end of that location, it will certainly not lead to a solution either.
giveUpAt = Math.min(giveUpAt, offset + termInfo.size);
}
}

let allTermsAllOptionsOffsets;
// Loop through the unique terms:
for (let [term, termInfo] of termMap) {
// Get the offsets of the matches of this term in all options (in the preprocessed tree)
const thisTermAllOptionsOffsets = suffixTree.findAll(term, termInfo.termId);
//console.log('findAll:', JSON.stringify(Array.from(thisTermAllOptionsOffsets)));
if (!thisTermAllOptionsOffsets.size) return []; // No option has this term, so bail out
if (!allTermsAllOptionsOffsets) {
allTermsAllOptionsOffsets = thisTermAllOptionsOffsets;
} else {
// Merge with all previously found offsets for other terms (intersection)
for (let [optionId, offsets] of allTermsAllOptionsOffsets) {
let newOffsets = thisTermAllOptionsOffsets.get(optionId);
if (!newOffsets || newOffsets.length < termInfo.count) {
// this option does not have enough occurrences of this term
allTermsAllOptionsOffsets.delete(optionId);
} else {
allTermsAllOptionsOffsets.set(optionId, offsets.concat(newOffsets));
}
}
if (!allTermsAllOptionsOffsets.size) return []; // No option has all terms, so bail out
}
}
// Per option, see if (and where) the offsets can serve non-overlapping matches for each term
const matches = Array.from(allTermsAllOptionsOffsets, ([optionId, offsets]) => {
// Indicate how many of each term must (still) be matched:
termMap.forEach( obj => obj.leftOver = obj.count );
return [optionId, getNonOverlaps(offsets.sort( (a, b) => a.offset - b.offset ), terms.length)];
})
// Remove options that could not provide non-overlapping offsets
.filter( ([_, offsets]) => offsets )
// Sort the remaining options in their original order
.sort( (a,b) => a[0] - b[1] )
// Replace optionId, by the corresponding text and apply mark-up at the offsets
.map( ([optionId, offsets]) => {
let option = options[optionId];
offsets.map((index, i) => {
option = option.substr(0, index)
+ (i%2 ?"" :"")
+ option.substr(index);
});
return option;
});
//console.log(JSON.stringify(matches));
return matches;
}

function trincotPreprocess(options) {
const nikkonen = new Nikkonen();
// Add all the options (lowercased) to the suffic tree
options.map(option => option.toLowerCase()).forEach(nikkonen.addText.bind(nikkonen));
return nikkonen;
}

const options = ['abbbba', 'United States', 'United Kingdom', 'Afghanistan', 'Aland Islands', 'Albania', 'Algeria', 'American Samoa', 'Andorra', 'Angola', 'Anguilla', 'Antarctica', 'Antigua and Barbuda', 'Argentina', 'Armenia', 'Aruba', 'Australia', 'Austria', 'Azerbaijan', 'Bahamas', 'Bahrain', 'Bangladesh', 'Barbados', 'Belarus', 'Belgium', 'Belize', 'Benin', 'Bermuda', 'Bhutan', 'Bolivia, Plurinational State of', 'Bonaire, Sint Eustatius and Saba', 'Bosnia and Herzegovina', 'Botswana', 'Bouvet Island', 'Brazil', 'British Indian Ocean Territory', 'Brunei Darussalam', 'Bulgaria', 'Burkina Faso', 'Burundi', 'Cambodia', 'Cameroon', 'Canada', 'Cape Verde', 'Cayman Islands', 'Central African Republic', 'Chad', 'Chile', 'China', 'Christmas Island', 'Cocos (Keeling) Islands', 'Colombia', 'Comoros', 'Congo', 'Congo, The Democratic Republic of The', 'Cook Islands', 'Costa Rica', 'Cote D\'ivoire', 'Croatia', 'Cuba', 'Curacao', 'Cyprus', 'Czech Republic', 'Denmark', 'Djibouti', 'Dominica', 'Dominican Republic', 'Ecuador', 'Egypt', 'El Salvador', 'Equatorial Guinea', 'Eritrea', 'Estonia', 'Ethiopia', 'Falkland Islands (Malvinas)', 'Faroe Islands', 'Fiji', 'Finland', 'France', 'French Guiana', 'French Polynesia', 'French Southern Territories', 'Gabon', 'Gambia', 'Georgia', 'Germany', 'Ghana', 'Gibraltar', 'Greece', 'Greenland', 'Grenada', 'Guadeloupe', 'Guam', 'Guatemala', 'Guernsey', 'Guinea', 'Guinea-bissau', 'Guyana', 'Haiti', 'Heard Island and Mcdonald Islands', 'Holy See (Vatican City State)', 'Honduras', 'Hong Kong', 'Hungary', 'Iceland', 'India', 'Indonesia', 'Iran, Islamic Republic of', 'Iraq', 'Ireland', 'Isle of Man', 'Israel', 'Italy', 'Jamaica', 'Japan', 'Jersey', 'Jordan', 'Kazakhstan', 'Kenya', 'Kiribati', 'Korea, Democratic People\'s Republic of', 'Korea, Republic of', 'Kuwait', 'Kyrgyzstan', 'Lao People\'s Democratic Republic', 'Latvia', 'Lebanon', 'Lesotho', 'Liberia', 'Libya', 'Liechtenstein', 'Lithuania', 'Luxembourg', 'Macao', 'Macedonia, The Former Yugoslav Republic of', 'Madagascar', 'Malawi', 'Malaysia', 'Maldives', 'Mali', 'Malta', 'Marshall Islands', 'Martinique', 'Mauritania', 'Mauritius', 'Mayotte', 'Mexico', 'Micronesia, Federated States of', 'Moldova, Republic of', 'Monaco', 'Mongolia', 'Montenegro', 'Montserrat', 'Morocco', 'Mozambique', 'Myanmar', 'Namibia', 'Nauru', 'Nepal', 'Netherlands', 'New Caledonia', 'New Zealand', 'Nicaragua', 'Niger', 'Nigeria', 'Niue', 'Norfolk Island', 'Northern Mariana Islands', 'Norway', 'Oman', 'Pakistan', 'Palau', 'Palestinian Territory, Occupied', 'Panama', 'Papua New Guinea', 'Paraguay', 'Peru', 'Philippines', 'Pitcairn', 'Poland', 'Portugal', 'Puerto Rico', 'Qatar', 'Reunion', 'Romania', 'Russian Federation', 'Rwanda', 'Saint Barthelemy', 'Saint Helena, Ascension and Tristan da Cunha', 'Saint Kitts and Nevis', 'Saint Lucia', 'Saint Martin (French part)', 'Saint Pierre and Miquelon', 'Saint Vincent and The Grenadines', 'Samoa', 'San Marino', 'Sao Tome and Principe', 'Saudi Arabia', 'Senegal', 'Serbia', 'Seychelles', 'Sierra Leone', 'Singapore', 'Sint Maarten (Dutch part)', 'Slovakia', 'Slovenia', 'Solomon Islands', 'Somalia', 'South Africa', 'South Georgia and The South Sandwich Islands', 'South Sudan', 'Spain', 'Sri Lanka', 'Sudan', 'Suriname', 'Svalbard and Jan Mayen', 'Swaziland', 'Sweden', 'Switzerland', 'Syrian Arab Republic', 'Taiwan, Province of China', 'Tajikistan', 'Tanzania, United Republic of', 'Thailand', 'Timor-leste', 'Togo', 'Tokelau', 'Tonga', 'Trinidad and Tobago', 'Tunisia', 'Turkey', 'Turkmenistan', 'Turks and Caicos Islands', 'Tuvalu', 'Uganda', 'Ukraine', 'United Arab Emirates', 'United Kingdom', 'United States', 'United States Minor Outlying Islands', 'Uruguay', 'Uzbekistan', 'Vanuatu', 'Venezuela, Bolivarian Republic of', 'Viet Nam', 'Virgin Islands, British', 'Virgin Islands, U.S.', 'Wallis and Futuna', 'Western Sahara', 'Yemen', 'Zambia', 'Zimbabwe'];

/*
* I/O and performance measurements
*/

let preprocessed;

function processInput() {
if (!preprocessed) { // Only first time
const t0 = performance.now();
preprocessed = trincotPreprocess(options);
const spentTime = performance.now() - t0;
// Output the time spent on preprocessing
pretime.textContent = spentTime.toFixed(2);
}
var query = this.value.toLowerCase();
const t0 = performance.now();
const matches = trincotSuffixTree(query, options, preprocessed, ' ');
const spentTime = performance.now() - t0;
// Output the time spent
time.textContent = spentTime.toFixed(2);
// Output the matches
result.innerHTML = '';
for (var match of matches) {
// Append it to the result list
var li = document.createElement('li');
li.innerHTML = match;
result.appendChild(li);
}
}

findTerms.addEventListener('keyup', processInput);
processInput.call(findTerms);

1
2
3
4
5

ul {
height:300px;
font-size: smaller;
overflow: auto;
}

1
2
3
4
5
6
7

Input terms: <input type="text" id="findTerms">

Trincot's Suffix Tree Search
Preprocessing Time: ms (only done once)
Time: ms
<ul id="result">
</ul>

这个方法背后有相当多的代码，所以我想对于小的数据集它可能不会显示出有趣的性能，而对于大的数据集，它将消耗内存：树比原始选项数组占用更多的内存。

相关讨论

更新2

由于Vue中的工作字符串恢复问题，放弃了缩小集合的概念。

现在，方法简单如下：

预处理选项集，使显示与工作同步。

处理条款。

通过对选项集进行迭代和循环，减少(过滤)选项集，并在不匹配时短路。

使用简化集，迭代每个选项，找到匹配范围。

在每个匹配范围周围插入HTML字符串。

代码被注释。

原始javascript(记录过滤/操作选项数组)：https://jsfiddle.net/pvlj9uxe/14/

新的Vue实现：https://jsfiddle.net/15prcpxn/30/

计算速度似乎相当快——dom更新会使其失效。

添加到比较*：https://jsfiddle.net/ektyx133/4/

*警告：预先处理选项(被视为"静态")是策略的一部分，因此它已经在基准之外进行了处理。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68

旧尝试

https://jsfiddle.net/15prcpxn/25/

我的尝试是，使用Vue进行渲染(这些方法是连续的，因此您可能不费吹灰之力就可以将它们全部放入一个整体函数中——输入将是条件和完整选项集；输出将被过滤选项集和突出显示的范围)。

将输入拆分为单个术语

按长度对术语进行排序(最长的术语优先，这样当您有一个选项(如"abc ab"和术语"a abc"时，即术语是另一个术语的子字符串，它将能够匹配"abc")

将条款复制/更改为小写

复制选项("显示集")到小写("工作集")。

对于每个术语，从"工作集"中删除不匹配的工作选项，并同时从"显示集"中删除显示选项-这样做时，从剩余的工作选项字符串中删除匹配的术语字符串，例如，在选项"abc"中匹配的术语"a"生成"bc"[实际实现是相反的：对于每个术语，在匹配时重新创建"工作集"，并将显示选项并行添加到"显示集"，然后将这些集传递到下一个术语]-这将为我们提供过滤后的显示集

将筛选显示集复制到小写，以给我们一个新的筛选工作集

对于剩余过滤工作集中的每个工作选项，通过记录选项"abc"：start = 0, end = 1中的范围(即开始和结束，例如匹配项"a")创建一个范围集，其中每个术语匹配，方法是取匹配的偏移量(开始)和术语/匹配的长度。将匹配字符串替换为与该术语等长的空白(或其他未使用的字符)，并将其输入下一个术语，例如，选项"abc"中的匹配术语"a"生成" bc"-这保留了工作选项的长度，确保过滤后的工作集(小写)与过滤后的显示相匹配设置(原始大小写)。范围集的总数将等于已筛选选项集中的剩余选项数。

此外，对每个范围集内的范围进行排序(按降序排列，以便反向工作)，以允许插入字符串。

对于过滤显示集中的每个选项(反向工作，以便在操作字符串时不干扰索引)，通过对显示选项进行切片，在匹配范围周围插入标记，例如，在选项"abc"中匹配术语"a"：new option ="" +"a" +"" +"bc"。

渲染它

如果有许多匹配项/无用项(例如输入单个字符)，则性能较差。对于最终用途，我可能会输入计算延迟。

我应该能够将这些步骤中的一些汇总到更少的步骤中，从而提高性能。我明天再来。

Vue可能还通过虚拟DOM等来处理一些优化，因此它不一定反映普通的JavaScript/DOM呈现。

相关讨论

从您的描述(即，不仔细检查您的代码)来看，这听起来像是指向Vue的@trincots算法的端口，对吗？或者算法本身有改进吗？另外，它对外汇也是失败的。intena mant(列出包含maintenant的所有选项)－我认为是因为您在步骤5中替换为空字符串。使用一个空格可以修复一个简单的测试…
我回顾了Trincot的代码，两个代码之间的主要共性是字符串"擦除"，但我的实现是非常不同的。Trincot使用递归；我在一组越来越小(缩小)的选项上使用迭代。trincot构建regexp对象，并使用不区分大小写的regex匹配来同时查找匹配项和偏移量；我使用string.indexof比较已经是小写的字符串以减少选项集，然后只查找已经减少的选项集的偏移量，保持"display"集和"working"集同步。
Trincot的递归的目的是将被擦除的字符串馈送到下一个字符串中，但是我通过迭代实现了相同的目的，所以在这个意义上没有太大的区别。然而，我们的方法是正交的，在某种程度上-我循环通过每个选项的选项；Trincot循环通过每个选项的项-我的想法是，总是会有比项更多的选项，所以如果我们可以减少选项集，那么在理论上，我们进行的比较较少。此外，我只确定与最终的，已经减少集的偏移。
很好地解决了空字符串问题-我已经用完全擦除替换了它。我真的很喜欢@trincot的"丰富"字词的概念，即用擦除和字符串长度来丰富字词，这样我们就不必在每次检查字词时都重新确定字词长度和擦除。在我的例子中，我也可以将其应用于丰富选项(即，将小写字符串与原始字符串并排存储)。要考虑很多。
考虑到上述情况，值得考虑的优化，假设选项集是"静态的"，那么小写选项也可能是静态的(在我对Vue的回答中，它是静态的，除非更改选项集)。直接比较算法可能是不公平的，那么，如果我们需要在每次输入更改时预处理整个选项集-实际上，考虑到以这种方式对选项集进行的初始预处理，这使得问题更简单，因为只需要将术语转换为小写，并且不需要区分大小写的regex匹配。
我很快会仔细看一下你的方法，但从我的头脑中，我不明白为什么循环项而不是选项会有任何性能增益-所有的算法必须至少对每个选项进行一次比较，如果第一次匹配失败，它们中的任何一个都不会对该选项做更多的工作…我还在打电话，所以当我在电脑旁的时候，也许我会"拿到它"；)
在某些情况下，您的算法确实优于其他算法。我正在进一步加强比较，并尝试将每个算法的"准备"分开，以获得更公平的竞争环境。另一个可能影响性能的因素是一些算法使用regex's，而其他算法仅使用indexOf。对于我的特殊用途，我需要对regex'es的支持，因为可能有通配符等等，但我认为至少在比较时，它需要在不同的方法之间保持一致。我还删除了大部分的dom输出，因为它比实际搜索花费的时间要长得多。
@Tigregalis使用最新版本的an ha搜索，Does not find Afghanistan
@skirtle ah，yes，that would be because it wipes the first"an"in"han"before it wipes"ha"-I need to revisit this.