关于 lucene:Elasticsearch – 词频越高得分越高

Elasticsearch - higher scoring if higher frequency of term

我有 2 个文档,正在搜索关键字"Twitter"。假设两个文档都是带有"标签"字段的博客文章。

文档 A 在"标签"字段中只有 1 个术语,即"Twitter"。
文档 B 在"标签"字段中有 100 个术语,但其中 3 个是"Twitter"。

即使文档 B 的频率更高,弹性搜索也会给文档 A 更高的分数。但是分数被"稀释"了,因为它有更多的术语。我如何给文档 B 一个更高的分数,因为它的搜索词的频率更高?

我知道 ElasticSearch/Lucene 会根据文档中的术语数量执行一些规范化。如何禁用此规范化,以便文档 B 获得更高的分数?


正如另一个答案所说,看看你在单个分片上是否有相同的结果会很有趣。我认为你会,这取决于标签字段的规范,在使用 tf/idf 相似度(默认)计算分数时会考虑到这一点。

事实上,lucene 确实考虑了术语频率,即术语在字段中出现的次数(在您的情况下为 1 或 3 次),以及倒置文档频率,换句话说,术语是如何出现的在索引中频繁出现,以便将其与查询中的其他术语进行比较(在您的情况下,如果您正在搜索单个术语,它没有任何区别)。

但是还有另一个称为规范的因素,它奖励较短的字段并考虑最终的索引时间提升,这可以是每个字段(在映射中)甚至每个文档。您可以验证规范是否是您在搜索请求中启用解释选项并查看解释输出结果的原因。

我想第一个文档只包含该标签这一事实使得其他包含该标签多次但也包含许多其他标签的文档更重要。如果您不喜欢这种行为,您可以在标签字段的映射中禁用规范。如果字段为 "index":"analyzed"(默认),则默认情况下应启用它。如果您不希望您的标签字段被分析,您可以切换到 "index":"not_analyzed"(这通常是有意义的,但取决于您的数据和域),或者在您的标签字段的映射中添加 "omit_norms": true 选项。


文件是否在不同的分片上找到?来自弹性搜索文档:

"在特定分片上执行查询时,它不会考虑来自其他分片的词频和其他搜索引擎信息。如果我们想要支持准确的排名,我们需要先执行查询所有分片并收集相关词频,然后基于它执行查询。"

解决方法是指定搜索类型。使用 dfs_query_and_fetch 搜索类型执行初始分散阶段,该阶段会计算分布的词频以进行更准确的评分。

您可以在这里阅读更多内容。