Java如何上傳大檔案

Mr_Zang666發表於2020-09-28

原文網址 : https://blog.csdn.net/Mr_Zang666/article/details/108850524

1 背景

使用者本地有一份txt或者csv檔案，無論是從業務資料庫匯出、還是其他途徑獲取，當需要使用螞蟻的大資料分析工具進行資料加工、挖掘和共創應用的時候，首先要將本地檔案上傳至ODPS，普通的小檔案通過瀏覽器上傳至伺服器，做一層中轉便可以實現，但當這份檔案非常大到了10GB級別，我們就需要思考另一種形式的技術方案了，也就是本文要闡述的方案。

技術要求主要有以下幾方面：

支援超大資料量、10G級別以上
穩定性：除網路異常情況100%成功
準確性：資料無丟失，讀寫準確性100%
效率：1G檔案分鐘級、10G檔案小時級
體驗：實時進度感知、網路異常斷點續傳、定製字元特殊處理

2 檔案上傳選型

檔案上傳至ODPS基本思路是先檔案上傳至某中轉區域儲存，然後同步至ODPS，根據儲存介質可以分為兩類，一類是應用伺服器磁碟，另一類類是中間介質，OSS作為阿里雲推薦的海量、安全低成本雲端儲存服務，並且有豐富的API支援，成為中間介質的首選。而檔案上傳至OSS又分為web直傳和sdk上傳兩種方案，因此上傳方案有如下三種，詳細優缺點對比如下：

螞蟻的文字上傳功能演進過程中對第一種、第二種方案均有實踐，缺點比較明顯，如上表所述，不滿足業務需求，因此大檔案上傳終極方案是方案三。

3 整體方案

以下是方案三的整體過程示意圖。

請求步驟如下：

使用者嚮應用伺服器取到上傳policy和回撥設定。
應用伺服器返回上傳policy和回撥。
使用者直接向OSS傳送檔案上傳請求。
等檔案資料上傳完，OSS給使用者Response前，OSS會根據使用者的回撥設定，請求使用者的伺服器。如果應用伺服器返回成功，那麼就返回使用者成功，如果應用伺服器返回失敗，那麼OSS也返回給使用者失敗。這樣確保了使用者上傳成功，應用伺服器已經收到通知了。
應用伺服器給OSS返回。
OSS將應用伺服器返回的內容返回給使用者。
啟動後臺同步引擎執行oss到odps的資料同步。
同步實時進度返回返回給應用伺服器，同時展示給使用者。

4 技術方案

4.1 上傳

OSS提供了豐富的SDK，有簡單上傳、表單上傳、斷點續傳等等，對於超大檔案提供的上傳功能建議採用斷點續傳方式，優點是可以對大檔案並行分片上傳，利用OSS的並行處理能力，中間暫停也可以從當前位置繼續上傳，網路環境影響可以降到最低。

4.2 下載

OSS檔案下載同樣也有多種方式，普通下載、流式下載、斷點續傳下載、範圍下載等等，若直接下載到本地同樣建議斷點續傳下載，但我們的需求並不僅僅是下載檔案本地儲存，而是讀取檔案做資料從OSS到ODPS的同步，因此不做中間儲存，直接邊讀變寫，一方面採用OSS流式讀取，一方面ODPS tunnel上傳，用多執行緒讀寫方式提高同步速率。

4.3 兩階段資料轉移

檔案從本地到ODPS可以分為兩個階段，第一階段前端分片斷點續傳將本地檔案上傳至OSS，第二階段後端流式讀寫將資料從OSS同步至ODPS，如下圖所示：

涉及技術點：

4.3.1 前端，js sdk帶STS token 安全上傳

在需要上傳的檔案較大時，可以通過multipartUpload介面進行分片上傳。分片上傳的好處是將一個大請求分成多個小請求來執行，這樣當其中一些請求失敗後，不需要重新上傳整個檔案，而只需要上傳失敗的分片就可以了。一般對於大於100MB的檔案，建議採用分片上傳的方法，每次進行分片上傳都建議重新new一個新的OSS例項。

阿里雲分片上傳流程主要會呼叫3個api，包含

InitiateMultipartUpload, 分片任務初始化介面。
UploadPart, 單獨的分片上傳介面。
CompleteMultipartUpload, 分片上傳完成後任務完成介面

臨時訪問憑證是通過阿里雲Security Token Service(STS)來實現授權的一種方式。其實現請參見STS Java SDK。臨時訪問憑證的流程如下：

客戶端向伺服器端發起獲得授權的請求。伺服器端先驗證客戶端的合法性。如果是合法客戶端，那麼伺服器端會使用自己的AccessKey來向STS發起一個請求授權的請求，具體可以參考訪問控制。
伺服器端獲取臨時憑證之後返回給客戶端。
客戶端使用獲取的臨時憑證來發起向OSS的上傳請求，更詳細的請求構造可以參考臨時授權訪問。客戶端可以快取該憑證用來上傳，直到憑證失效再向伺服器端請求新的憑證。

4.3.2 後端，多執行緒流式讀寫

OSS端：如果要下載的檔案太大，或者一次性下載耗時太長，可以多執行緒流式下載，一次處理部分內容，直到完成檔案的下載。
ODPS端：tunnel sdk對OSS流式資料直接寫入，一次完整的資料寫入流程通常包括以下步驟：
先對資料進行劃分;

為每個資料塊指定 block id，即呼叫 openRecordWriter(id);
然後用一個或多個執行緒分別將這些 block 上傳上去, 並在某個 block 上傳失敗以後，需要對整個 block 進行重傳;
在所有 block 都上傳以後，向服務端提供上傳成功的 blockid list 進行校驗，即呼叫 session.commit([1,2,3,…])
而由於服務端對block管理，連線超時等的一些限制，上傳過程邏輯變得比較複雜，為了簡化上傳過程，SDK提供了更高階的一種RecordWriter——TunnelBufferWriter。

5 實現過程及壓測

太多了，可以參考我寫的這篇文章：http://blog.ncmem.com/wordpress/2019/08/09/%e5%a4%a7%e6%96%87%e4%bb%b6%e4%b8%8a%e4%bc%a0%e8%a7%a3%e5%86%b3%e6%96%b9%e6%a1%88/

6 總結

實測結果顯示，本文的上傳方案實現了第一節提出的幾點技術要求，如下：

支援超大資料量、10G級別以上沒有任何壓力，主要是前端在分片上傳設定好分片限額即可（最大10000片，每片最大100G），目前設定每片1M滿足10G需求。
穩定性：實測觀察網路異常情況較少，檔案內容正常情況下100%成功。
準確性：實測資料無丟失，讀寫準確性100%。
效率：辦公網頻寬1.5M/s的情況下1G檔案分鐘級、10G檔案小時級，實際速度視使用者端的當前網路頻寬變化。
體驗：實時進度感知、網路異常斷點續傳、定製字元特殊處理等高階功能可以提升使用者體驗。

歡迎入群一起討論：374992201

.NET Core 如何上傳檔案及處理大檔案上傳
2024-10-27
Java大檔案上傳、分片上傳、多檔案上傳、斷點續傳、上傳檔案minio、分片上傳minio等解決方案
2024-06-24
Java斷點
Java檔案上傳如何實現呢？
2021-03-24
Java
如何提升大容量檔案上傳效能
2021-06-17
前端大檔案上傳/分片上傳
2024-07-08
前端
Java Web 檔案上傳
2021-06-09
JavaWeb
1. 大檔案上傳如何斷點續傳
2024-04-18
斷點
JAVA實現大檔案分片上傳斷點續傳
2024-03-17
Java斷點
JAVA檔案上傳下載
2020-09-24
Java
linux大檔案上傳（nc）
2018-03-12
Linux
大檔案如何傳輸，大檔案的傳輸方式有哪些？
2019-05-28
Java 中的 GraphQL 上傳檔案
2024-07-10
Java
post 表單大檔案上傳
2019-01-10
大檔案上傳實踐分享
2024-03-27
nodeJs + js 大檔案分片上傳
2020-08-03
NodeJS
使用java的MultipartFile實現layui官網檔案上傳實現全部示例，java檔案上傳
2019-07-13
JavaUI
網站如何上傳超大檔案？
2024-12-10
網站
java檔案上傳到伺服器
2019-03-06
Java伺服器
java 上傳下載檔案工具類
2022-02-28
Java
如何快速傳輸大檔案：4 種大檔案傳輸有效的方法
2023-01-03
單個檔案上傳和批量檔案上傳
2022-05-10
php大檔案上傳注意事項
2020-08-20
PHP
net6 WebAPI大檔案上傳
2024-07-04
WebAPI
搗鼓系列：前端大檔案上傳
2021-06-28
前端
如何分發大檔案、大檔案傳輸解決方案
2019-05-31
如何快速傳輸大檔案，介紹大檔案快速方法
2022-12-16
檔案上傳
2020-11-06
大檔案上傳、斷點續傳、秒傳、beego、vue
2020-06-23
斷點GoVue
請問上傳的檔案如何傳送post
2022-05-07
Java上傳檔案到ftp伺服器
2018-04-11
JavaFTP伺服器
定時ftp上傳，如何設定定時ftp上傳檔案
2020-09-24
FTP
鐳速傳輸：如何快速傳輸大檔案？
2020-06-17
Uedior上傳大檔案超時報錯
2018-10-30
大規格檔案的上傳優化
2020-05-13
優化
檔案上傳之三基於flash的檔案上傳
2021-09-09
Java SE 檔案上傳和檔案下載的底層原理
2024-07-27
Java
uniapp如何使用分包,檔案上傳如何呼叫介面
2024-12-03
APP
什麼是極速檔案傳輸，極速檔案傳輸如何進行大檔案傳輸
2023-02-13

Java如何上傳大檔案

相關文章