從圖森未來的資料處理平臺,看Serverless 工作流應用場景

程式碼派就是我發表於2020-04-21

Serverless工作流來了!

釋出會傳送門:

https://developer.aliyun.com/live/2570?spm=a2c6h.12873639.0.0.76e15175otVYZH

搶先了解Serverless技術乾貨:


4月,阿里雲Serverless工作流正式商業化,這是一款用於協調多個分散式任務執行的全託管 Serverless 雲服務。產品致力於簡化開發和執行業務流程所需要的任務協調、狀態管理以及錯誤處理等繁瑣工作,讓使用者聚焦業務邏輯開發。

精準打造雲上自動生產線,Serverless工作流正式商用

工作流是一種非常常見的場景,比如企業內部審批、採購訂單、ETL等日常企業事務,或者大資料處理流水線,常規或定製化自動化運維等。此外,音影片行業的多媒體檔案分片轉碼、格式轉換、稽核校驗和人臉識別等長時任務,電商旅遊行業的客戶線上訂單,AI行業的機器學習流水線, 生信行業的基因測序工作流。

這些場景面臨著以下難點:一般由眾多非同步分散式任務組成,控制邏輯和任務邏輯交織在一起,流程複雜冗長;分散式任務可能跨越公共雲和本地機房,安全的打通網路代價很大;整個工作流執行完畢耗時過長,造成資源佔用的浪費;涉及非同步且關鍵業務流程,務必保證資料一致性;繁複的執行步驟如何進行視覺化監控等等。

Serverless工作流正式針對這些痛點,分離控制邏輯與任務邏輯,細化責任,便於管理和維護; 將流程以模版方式統一定義控制,簡化編排,透過串聯或並行等多種方式編排任務;支援函式,佇列,雲服務等多種任務型別,打通公共雲和企業內網;支援最長1年的執行任務,但卻採用Serverless計費模型, 按需付費;動態呼叫併發函式,保持狀態和訊息的持久化,資訊不丟失且最終同步,提高容錯性,自動處理異常;流程進度視覺化,歷史執行可追溯性等等。

技術01.png

助力圖森未來,自動化資料處理平臺, 讓一切簡單可靠

圖森未來是一家專注於L4級別無人駕駛卡車技術研發與應用的人工智慧企業,面向全球提供可大規模商業化運營的無人駕駛卡車技術,為全球物流運輸行業賦能。目前已完成D輪融資,估值超過10億美元。無人駕駛技術研發依賴大量的路測試驗資料積累,而高效進行路測、快速對路測資料進行處理來指導模型的更新迭代是這類場景的核心訴求。

路測過程中會有大量資料產生,而對這些資料的處理流程則複雜多變,即使對於同一批資料,不同的業務小組也會有不同的使用及處理方式。如何有效管理不同的資料處理流程、降低人為介入頻率能夠大幅的提高生產效率。

路測不定時執行的特點使得流程編排任務執行時間點、執行時長具有極大的不確定性,本地機房獨自建立流程管理系統難以最大最佳化機器利用率,造成資源浪費。而圖森未來本地已有許多單元化業務處理指令碼及應用程式,但因為各種限制而無法全量的遷移上雲,這也對如何合理化使用雲上服務帶來了挑戰。

另外,由於處理流程的步驟繁多,不同任務間的資料共享變得十分重要。任務之間在相互依賴的情況下,非常考驗系統可靠性。因此,對於複雜流程的步驟間的狀態及資料管理也是業務所面臨的一項挑戰。

技術02.png針對上述情況,圖森未來開始探索資料處理平臺的自動化。阿里雲 Serverless 工作流按執行排程的次數計費,具有易用易整合、運維簡單等諸多優點,能夠很好的解決上述場景中所遇到的問題,非常適合這類不定時執行的離線任務場景。Serverless 工作流還支援編排本地或自建機房的任務,圖森未來透過使用 Serverless 工作流原生支援的訊息服務MNS解決了雲上雲下的資料打通問題,使得本地的原有任務得到很好的編排及管理。

除了排程外,Serverless 工作流也支援對任務的狀態及執行過程中所產生的資料進行維護。圖森未來透過使用任務的輸入輸出對映及狀態彙報機制,高效的管理了流程中各任務的生命週期及相互間的資料傳遞。

在未來,隨著業務規模的擴大,圖森未來將持續最佳化離線大資料處理流程的執行效率及自動化水平。透過各種探索,圖森未來將進一步提升工程團隊的效率,將更多的精力和資金投入到業務創新中去。

Serverless工作流更多應用場景

技術03.png各個公司會有如下的一些典型工作流場景。這裡簡單介紹三個典型應用:

訂單流程審批,可支援1年執行時長

對於電商、旅行行業的訂單,或者企業內部的日常各類申請, 從下發到生效都要經過多個環節,需要跨公司辦公網路和公共雲的多網路環境,途徑多個環節的多步驟分散式,可能涉及人工介入,最終資料確保強一致性。目前Serverless工作流預設的支援最長 1 年的執行,以及並行觸發 1 萬個流程。

技術04.png

多媒體檔案處理,降低失敗率、提升吞吐量

Serverless工作流同樣適用多工編排,比如多媒體檔案如轉碼、截幀、人臉識別、語音識別、稽核上傳等各類處理。使用者可以編排成一個完整的處理流程,透過函式計算提交媒體處理(IMM)任務(或自建處理器),產出一個符合業務需求的輸出。各任務的執行錯誤異常可以被可靠的重試,大大提升多媒體任務處理吞吐量。

對於影片點播、 影片轉碼等重度依賴算力的任務如果採用Serverless方式搭建,將函式計算和Serverless工作流組合使用,僅需3人天便可上線落地。

技術05.jpeg

自動化運維,流程進度視覺化跟進

自動化運維常見有步驟繁瑣時間長短不一,單機指令碼可靠性低,依賴複雜等常見的挑戰,另外進度無法視覺化。Serverless 工作流+函式計算的流程可以很好地應對這些挑戰。例如軟體自動化部署從構建Docker容器,上傳容器映象,開始並追蹤各節點下拉映象並啟動新版本映象的容器,每一步函式產生的日誌會被儲存到日誌服務可供查詢分享。基於工作流的自動化工具相比單機運維指令碼具有高可用,自帶錯誤處理機制和進度圖形化的特點。

技術06.png"Serverless 工作流是阿里雲 Serverless 產品體系中的關鍵一環。" 阿里雲 Serverless產品負責人楊皓然表示,“ 透過 Serverless 工作流,使用者能夠將函式計算、視覺智慧平臺等多個阿里雲服務,或者自建的服務,以簡單直觀的方式編排為工作流,迅速構建彈性高可用的雲原生應用。”

據悉,阿里雲在2017年推出函式計算, 該服務根據應用負載變化實時智慧地彈性擴縮容,1分鐘完成上萬例項的伸縮並保證穩定的延時。目前已經支撐微博、芒果TV、華大基因、圖森未來、石墨科技等使用者的關鍵應用,輕鬆應對業務洪峰。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31550522/viewspace-2687379/,如需轉載,請註明出處,否則將追究法律責任。

相關文章