mongoDB中聚合函式java處理

VV不想說話發表於2019-04-14

原文網址 : https://juejin.im/post/5cb31cf0e51d456e2c2484fb

MongoDB函式Java

1.問題

最近在做專案的時候碰到一個對mongoDB的資料處理，從MongoDB中拿到內嵌文件的時間排序的list。
一開始考慮到直接對mongoDB中的屬性排序，後面發現屬性存在內嵌文件中，所以處理中需要用到聚合函式。

思考

（key）解決這個問題的過程讓我學到很多，發現自己在解決一個問題不僅查詢問題的姿勢不對，浪費太多時間。而且在碰到問題之後，應該多看看解決辦法，甚至解決了之後要去思考問題，回顧問題。而不是像以前一樣，解決問題了就萬事大吉，拋之腦後。

2.解決

需要對document中的一個tweet_list 集合中的一個屬性 timestamp_ms進行排序。 組內排序

使用聚合框架，通過match，unwind，sort等不同的元件建立一個管道。
類似mysql中的多層巢狀子查詢。

mongoDB中js程式碼

db.text.aggregate(
    // Initial document match (uses index, if a suitable one is available)
    [
    { $match: {
        _id : ObjectId("5ca95b4bfb60ec43b5dd0db5")
    }},

    // Expand the scores array into a stream of documents
    { $unwind: '$tweet_list' },
     
     { $match: {
         'tweet_list.timestamp_ms': '1451841845660'
     }},

    // Sort in descending order
    { $sort: {
        'tweet_list.timestamp_ms': 1
    }}
    ]
)
複製程式碼

java實現此聚合函式

java中的Aggregation類，查詢條件的順序決定結果。

Aggregation agg = Aggregation.newAggregation(
        Aggregation.match(Criteria.where("_id").is(id)),
        Aggregation.unwind("tweet_list"),
        Aggregation.sort(Sort.Direction.ASC,"tweet_list.timestamp_ms"),
        Aggregation.project("tweet_list.timestamp_ms","tweet_list.text","tweet_list.created_at")

);
AggregationResults<JSONObject> results = mongoTemplate.aggregate(agg, "text", JSONObject.class);
//System.out.println("results"+results.getRawResults()); //獲取到的結果是document
//String res = results.getRawResults();
String json = com.mongodb.util.JSON.serialize(results.getRawResults());
System.out.println("JSON serialized Document: " + json);
JSONObject jso= JSON.parseObject(json);
JSONArray resultss=jso.getJSONArray("results");
System.out.println(resultss);
複製程式碼

3.擴充套件

管道pipeline

以下的管道操作符可以按照任意順序組合在一起使用。每個操作符都會接受一連串文件，對這些文件做了型別轉換後，將轉換後的文件作為結果傳遞給下一個操作符。直到最後一個管道操作符，將結果返回給客戶端。

篩選match

儘可能將帥選放在管道的前部。兩個原因：
1.先過濾掉不需要的文件，減少管道的工作量。
2.如果在project和group之前執行match，查詢可以用索引。
3.不能在match中使用地理空間操作符

投射project

類似select操作。可以用管道表示式，數學表示式，日期表示式，字元表示式，邏輯表示式等。

分組group

跟mysql中的分組比較像

排序sort

1 升序 -1 降序

限制limit

限制結果條數

跳過skip

丟棄結果中的前n個文件

拆分unwind

把陣列中的每個值拆分為單獨的文件，例如此問題中需要對一個document中的tweetlist進行排序，可以使用unwind把tweetlist中的不同map拆分成不同的文件。

結果返回

文件

MapReduce

如果聚合框架中查詢語言不能不表達，需要用到MapReduce。
使用：把問題拆分為多個小問題，把各個小問題傳送到不同的機器上，每臺機器只負責完成一部分的工作，完成之後，再把零碎的解決方案合併。
步驟：
1.對映map：把操作對映到集合中每個文件
2.洗牌shuffle：按照鍵值分組，並將產生的鍵值組成列表放到對應的鍵中。
3.化簡reduce：把列表中的值化簡成一個單值，值被返回，繼續shuffle，然後最終每個鍵的列表只有一個值，即最終結果，
應用：
1.找到集合中所有鍵
2.網頁分類

SQL-函式 - 聚合函式
2024-12-04
SQL函式
陣列處理函式
2019-08-07
陣列函式
spark中的聚合函式總結
2018-09-13
Spark函式
Django：聚合函式
2024-08-20
Django函式
Stream聚合函式
2021-09-28
函式
SQL中的常用的字串處理函式大全
2018-12-17
SQL字串函式
Django（18）聚合函式
2021-05-19
Django函式
Flink處理函式實戰之四：視窗處理
2020-11-23
函式
Sanic 處理函式修飾器
2019-04-15
函式
JavaScript 註冊事件處理函式
2018-09-22
JavaScript事件函式
echarts 繫結事件處理函式
2024-11-20
Echarts事件函式
C語言之字串處理函式
2024-06-23
C語言字串函式
JAVA - mongodb 聚合幾種查詢方式
2018-03-26
JavaMongoDB
Flink處理函式實戰之五：CoProcessFunction(雙流處理)
2021-07-13
函式Function
Oracle OCP(04)：聚合函式
2019-01-16
Oracle函式
MySQL函式大全(字串函式，數學函式，日期函式，系統級函式，聚合函式)
2020-11-14
MySql函式字串
JavaScript 批量註冊事件處理函式
2018-11-13
JavaScript事件函式
JavaScript 非同步函式的 Promisification 處理
2022-08-15
JavaScript非同步函式
六、函式、包和錯誤處理
2021-04-20
函式
mongodb 聚合管道
2018-09-24
MongoDB
Python利用partial偏函式生成不同的聚合函式
2024-04-15
Python函式
thinkphp 輸出變數使用函式處理
2018-10-19
PHP變數函式
for迴圈批量註冊事件處理函式
2018-07-16
事件函式
Clickhouse SQL日期處理函式及案例分享
2024-05-24
SQL函式
MySQL-日期和資料處理函式
2022-06-13
MySql函式
地理位置geo處理之mysql函式
2021-03-10
MySql函式
JAVA中的Random()函式
2018-08-18
Javarandom函式
MongoDB - 聚合查詢
2022-11-24
MongoDB
探索MySQL高階語句（數學函式、聚合函式、字串函式、日期時間函式）
2020-12-27
MySql函式字串
[譯] 如何使用純函式式 JavaScript 處理髒副作用
2018-08-26
函式JavaScript
MATLAB音訊訊號處理（一）：函式簡易用法（audioread，sound函式）
2020-12-27
Matlab音訊函式
如何在 Go 中優雅的處理和返回錯誤（1）——函式內部的錯誤處理
2021-10-01
Go函式
java當中的批處理
2020-04-06
Java
Java 中的並行處理
2021-09-09
Java並行
留存統計引數聚合函式
2024-05-27
函式
原創：oracle聚合函式介紹
2020-04-06
Oracle函式
MatLab 基本影像處理（3）——函式變換
2019-03-22
Matlab函式
兄弟連go教程（15）函式 - 錯誤處理
2018-07-04
Go函式