背景
最近有一個線上的es查詢問題,最後確定在使用
bool query
多條件組合查詢時出現should
子句查詢失效,於是查詢資料來確定問題所在。
其中Elasticsearch
: 5.5.0
問題
找到相關的查詢語句:
"query": {
"bool": { // bool query 查詢
"should": [ // should子句
{
"match_phrase": {
"name": {
"query": "星起",
"boost": 30,
"slop": 5
}
}
}
],
"filter": { // #filter子句
"bool": {
"must": [
{
"terms": {
"round": ["A輪"]
}
},
]
}
}
}
}
複製程式碼
問題在於:使用 bool query
組合查詢時,should
與filter
組合查詢的結果只匹配了filter
子句,並不匹配should
子句,達不到should
和filter
取交集的預期。
解決方法
翻了一下官方文件:Bool Query | Elasticsearch Reference [5.5] | Elastic
對should
的解釋:
The clause (query) should appear in the matching document. If the
bool
query is in a query context and has amust
orfilter
clause then a document will match thebool
query even if none of theshould
queries match. In this case these clauses are only used to influence the score. If thebool
query is a filter context or has neithermust
orfilter
then at least one of theshould
queries must match a document for it to match thebool
query. This behavior may be explicitly controlled by settings the minimum_should_match parameter.
大體的意思就是:should
子句是在匹配文件中使用的,如果bool
查詢是在query
上下文,並且有must
或者 filter
子句時不管should
查詢是否匹配,都不影響must
或者filter
子句的查詢。這些子句只是影響查詢的score
而已。如果bool
查詢是在filter
上下文 或者 既沒有must
也沒有filter
則應至少一個should
查詢必須匹配bool
查詢。也可以顯式設定minimum_should_match這個引數來解決。
從官方文件可以看出,有2種方式可以在bool query
取各資料的交集:
- 將查詢的條件,移到
filter
上下文裡 - 使用設定
minimum_should_match
引數
解決方案
用上面提到2種方式,我們分別嘗試一下是否可以達到預期目標。
方案一
使用filter
上下文:
"query": {
"bool": {
"filter": { // filter上下文
"bool": {
"should": [ // should子句
{
"match_phrase": {
"name": {
"query": "星起",
"boost": 30,
"slop": 5
}
}
}
],
"filter": { // filter子句
"bool": {
"must": [
{
"terms": {
"round": ["A輪"]
}
}
]
}
}
}
}
}
}
複製程式碼
測試結果如下:
"hits": {
"total": 1,
"max_score": null,
"hits": [
{
"_index": "index_name",
"_type": "hub/product",
"_id": "id",
"_score": 0.0, // filter下分值為0.0
"_source": {
"round": "A輪",
"name": "星起Starup",
"created_at": "2015-12-25T22:20:36.210+08:00",
"sector_name": "企業服務"
},
"highlight": {
"name": ["<em>星起</em>Starup"]
},
"sort": []
}
]
}
複製程式碼
測試結果滿足should
與filter
子句交集,需要注意結果的分值為0.0
, 沒有對查詢結果匹配程度打分。
方案二
使用minimum_should_match
,至少匹配一項should
子句,可以如下設定:
"query": {
"bool": {
"should": [ // should 子句
{
"match_phrase": {
"name": {
"query": "星起",
"boost": 30,
"slop": 5
}
}
}
],
"minimum_should_match": 1, // 最少匹配一項should中條件子句
"filter": { // filter子句
"bool": {
"must": [
{
"terms": {
"round": ["A輪"]
}
},
]
}
}
}
}
複製程式碼
測試結果如下:
"hits": {
"total": 1,
"max_score": null,
"hits": [
{
"_index": "index_name",
"_type": "hub/product",
"_id": "id",
"_score": 757.66394,
"_source": {
"round": "A輪",
"name": "星起Starup",
"created_at": "2015-12-25T22:20:36.210+08:00",
"sector_name": "企業服務"
},
"highlight": {
"name": ["<em>星起</em>Starup"]
},
"sort": [757.66394]
}
]
}
複製程式碼
資料為should
與filter
子句的交集,符合預期的結果,並且有相應的匹配程度分值。
總結
從上面2種解決方案可以看出,Elasticsearch
在查詢上還是比較靈活,平時除了需要熟悉官方的文件,還要結合業務的需求,才能找到正確解決問題的方法。