前言
Elasticsearch 中的結構化搜尋,即面向數值、日期、時間、布林等型別資料的搜尋,這些資料型別格式精確,通常使用基於詞項的term精確匹配或者prefix字首匹配。本文還將新版本的“text”,“keyword”進行說明,還有Term查詢。
結構化搜尋
結構化搜尋(Structured search) 是指對結構化的資料進行搜尋。比如日期、時間和數字都是結構化的,它們有精確的格式,我們可以對這些格式進行邏輯操作。比較常見的操作包括比較數字或時間的範圍、判定兩個值的大小、字首匹配等。
文字也可以是結構化的。如彩色筆可以有離散的顏色集合: 紅(red) 、 綠(green) 、 藍(blue) 。一個部落格可能被標記了關鍵詞 分散式(distributed) 和 搜尋(search) 。電商網站上的商品都有 UPCs(通用產品碼 Universal Product Codes)或其他的唯一標識,它們都需要遵從嚴格規定的、結構化的格式。
在結構化查詢中,我們得到的結果只有“是”或“否”兩個值,可以根據場景需要,決定結構化搜尋是否需要打分,但通常我們是不需要打分的。
精確值查詢
讓我們以下面的例子開始介紹,建立並索引一些表示產品的文件,文件裡有欄位 price
,productID
,show
,createdAt
,tags
( 價格
,產品ID
,是否展示
,建立時間
, 打標資訊
)
POST products/_doc/_bulk
{ "index": { "_id": 1 }}
{ "price" : 10, "productID" : "XHDK-A-1293-#fJ3", "show":true, "createdAt":"2021-03-03", "tags":"abc" }
{ "index": { "_id": 2 }}
{ "price" : 20, "productID" : "KDKE-B-9947-#kL5", "show":true, "createdAt":"2021-03-04" }
{ "index": { "_id": 3 }}
{ "price" : 30, "productID" : "JODL-X-1937-#pV7", "show":false, "createdAt":"2021-03-05"}
{ "index": { "_id": 4 }}
{ "price" : 30, "productID" : "QQPX-R-3956-#aD8", "show":true, "createdAt":"2021-03-06"}
數字
現在我們想要做的是查詢具有某個價格的所有產品,假設我們要獲取價格是20元的商品,我們可以使用 term 查詢,如下
GET products/_search
{
"query": {
"term": {
"price": 20
}
}
}
通常查詢一個精確值的時候,我們不希望對查詢進行評分計算。只希望對文件進行包括或排除的計算,所以我們會使用 constant_score 查詢以非評分模式來執行 term 查詢並以1.0作為統一評分。
最終組合的結果是一個 constant_score 查詢,它包含一個 term 查詢:
GET products/_search
{
"query": {
"constant_score": {
"filter": {
"term": {
"price": 20
}
}
}
}
}
對於數字,一般還有範圍查詢
GET products/_search
{
"query": {
"constant_score": {
"filter": {
"range": {
"price": {
"gte": 10,
"lte": 20
}
}
}
}
}
}
range 支援的選項
- gt: > 大於(greater than)
- lt: < 小於(less than)
- gte: >= 大於或等於(greater than or equal to)
- lte: <= 小於或等於(less than or equal to)
布林值
GET products/_search
{
"query": {
"constant_score": {
"filter": {
"term": {
"show": true
}
}
}
}
}
日期
搜尋一定時間範圍內的文件
POST products/_search
{
"query": {
"constant_score": {
"filter": {
"range": {
"createdAt": {
"gte": "now-9d"
}
}
}
}
}
}
POST products/_search
{
"query": {
"constant_score": {
"filter": {
"range": {
"createdAt": {
"gte": "2021-01-05"
}
}
}
}
}
}
日期匹配表示式
- y 年
- M 月
- w 周
- d 天
- H/h 小時
- m 分鐘
- s 秒
文字
POST products/_search
{
"query": {
"constant_score": {
"filter": {
"terms": {
"productID.keyword": [
"XHDK-A-1293-#fJ3",
"KDKE-B-9947-#kL5"
]
}
}
}
}
}
“productID.keyword”中的“keyword”不是關鍵字,而是Elasticsearch在插入文件的時候,自動為“productID”生成的子欄位,名字是“keyword”。
null 處理
存在用“exists”,不存在用“must_not”搭配“exists”
// 存在“tags”欄位
POST products/_search
{
"query" : {
"constant_score" : {
"filter" : {
"exists": {
"field":"tags"
}
}
}
}
}
// 不存在“tags”欄位,老版本用“missing”關鍵字,現在已經廢除了
POST products/_search
{
"query": {
"constant_score": {
"filter": {
"bool": {
"must_not": {
"exists": {
"field": "tags"
}
}
}
}
}
}
}
注意,新版本不要再使用“missing”關鍵字,現在已經廢除了,用“must_not”做取反。
使用“missing”會報錯,報錯資訊如下:
"reason": "no [query] registered for [missing]"
keyword
在2.x版本里面文字使用的是string欄位。
5.0之後,把string欄位設定為了過時欄位,引入text與keyword欄位,這兩個欄位都可以儲存字串使用。
“text”用於全文搜尋,“keyword”用於結構化搜尋。“keyword”類似Java中的列舉。在新版本中,如果沒有自己建立mapping,那麼在文字的處理中,會把文字自動對映為“text”,同時會生成一個子欄位“keyword”,型別是“keyword”。
在儲存上,“text”會被分詞器進行分詞,而“keyword”會被原樣保留。比如“Rabit is jumping”,“text”的情況下可能被儲存為“rabit”,“jump”,而“keyword”情況下就會儲存為“Rabit is jumping”。
Term查詢
在ES中,term查詢,對輸入不做分詞,會將輸入作為一個整體,在倒排索引中查詢精確的詞項,並且使用相關性算分公式為每個包含該詞項的文件進行相關度算分。
比如上面的("productID": "QQPX-R-3956-#aD8"),會被分詞為“qqpx”,“r”,“3956”,“ad8”。
“productID.keyword”的型別是keyword,所以即使使用match查詢,最終也會變成Term查詢。
// "productID.keyword": "qqpx-r-3956-#ad8" 沒搜尋出資料,其他都有
GET products/_search
{
"query": {
"match": {
//"productID": "QQPX-R-3956-#aD8"
//"productID": "qqpx"
//"productID": "qqpx-r-3956-#ad8"
//"productID.keyword": "QQPX-R-3956-#aD8"
"productID.keyword": "qqpx-r-3956-#ad8"
}
}
}
// "productID": "qqpx" 與 "productID.keyword": "QQPX-R-3956-#aD8" 可以搜尋出資料,其他不行
GET products/_search
{
"query": {
"term": {
"productID": "QQPX-R-3956-#aD8"
//"productID": "qqpx"
//"productID": "qqpx-r-3956-#ad8"
//"productID.keyword": "QQPX-R-3956-#aD8"
//"productID.keyword": "qqpx-r-3956-#ad8"
}
}
}