大資料匯流排(DataHub)

李博bluemind發表於2018-11-14

本頁目錄

註冊

DataHub作為一個流式資料匯流排,為阿里雲數加平臺提供了大資料的入口服務。結合阿里雲眾多雲產品,可以構建一站式的資料處理平臺。流計算通常使用DataHub作為流式資料儲存頭和輸出目的端。

注意: DataHub在公有云使用需要使用者授予實時計算代為使用者訪問DataHub許可權,具體請參看流計算角色授權。否則可能出現報錯“No Permission”的情況。

22

Endpoint

填寫DataHub Endpoint

需要注意不同的地域下DataHub有不同的Project。當前DataHub僅支援杭州地域,為http://dh-cn-hangzhou.aliyun-inc.com。如需瞭解更多Endpoint相關資訊,請您訪問DataHub控制檯。

注意:http://dh-cn-hangzhou.aliyun-inc.com不要使用(/)結尾

VPC模式支援

當前DataHub不提供VPC模式,因此實時計算當前使用DataHub的經典網路地址(Endpoint)即可。

內外網選擇

上述http://dh-cn-hangzhou.aliyun-inc.com是DataHub在阿里雲內網地址。實時計算和DataHub實際上同處於阿里雲內網,使用內網訪問更加節省頻寬。

有關專有云的Endpoint填寫,請聯絡您的專有云系統管理員,諮詢有關DataHub Endpoint地址。

Project填寫

填寫DataHub的Project。

注意:**跨屬主的資料儲存不能註冊。例如A使用者擁有DataHub的ProjectA,但B使用者希望在流計算使用ProjectA,目前流計算暫不支援這類使用場景下注冊,若需使用可使用明文方式,具體參考建立資料匯流排源表建立資料匯流排結果表

使用

由於DataHub本身是流資料儲存,流計算只能將其作為流式資料輸入和輸出,無法作為維表引用。有關DataHub DDL定義,請參看具體章節。

常見問題

Q: 為什麼我註冊失敗,失敗原因提示XXX?

A: 實時計算的資料儲存頁面能夠協助您完成資料管理,其本身就是使用相關儲存SDK代為訪問各類儲存。因此很多情況下可能是您註冊過程出現問題導致,請排查如下原因。

  • 請確認是否已經開通並擁有DataHub的Project。請登入DataHub控制檯,公有云客戶可以訪問DataHub控制檯看您是否有許可權訪問您的Project。

  • 請確認您是DataHub Project的屬主。跨屬主的資料儲存不能註冊。例如A使用者擁有DataHub的ProjectA,但B使用者希望在流計算使用ProjectA,目前流計算暫不支援這類使用場景下注冊,若需使用可使用明文方式,具體參考建立資料匯流排源表建立資料匯流排結果表

  • 請確認您填寫的DataHub的Endpoint和Project完全正確。DataHub Endpoint必須以http開頭,且不能以(/)結尾。例如,http://dh-cn-hangzhou-internal.aliyuncs.com是正確的,但http://dh-cn-hangzhou-internal.aliyuncs.com/是錯誤的。

  • 請確認您填寫的DataHub Endpoint是經典網路地址,而非VPC地址。目前流計算暫不支援VPC內部地址。

  • 請不要重複註冊,實時計算提供註冊檢測機制,避免您重複註冊。

Q: 為什麼資料抽樣僅僅針對時間抽樣,不支援其他欄位抽樣?

A: DataHub定位是流資料儲存,對外提供的介面也只有時間引數。因此,實時計算也只能提供基於時間的抽樣。

附錄

產品內網與公網選擇

注意:本小節僅限於公共雲場景,不包含專有云情況。

所謂的內網和公網是相對於阿里雲叢集來說。我們可以將阿里雲端計算視為一個跨地域的大型計算叢集。叢集內部之間的網路傳輸可以使用阿里雲內網,這樣可以有效地節省網路頻寬成本。

例如,實時計算使用阿里雲內部網路頻寬訪問RDS。

對於外部(例如Internet)網路請求阿里雲服務,則需要使用公網地址。實時計算註冊DataHub過程中,要求使用者必須提供DataHub內網Endpoint地址。 但對於外部資料寫入DataHub而言,則需要填寫DataHub公網地址。如下圖所示。

例如,在當前PC使用LogStash採集傳輸日誌。

大資料匯流排目錄


本文轉自實時計算——大資料匯流排(DataHub)


相關文章