專案owner看這裡,MaxCompute全表掃描新功能,給你“失誤”的機會

程式碼派就是我發表於2018-08-27

隨著社會資料收集手段的不斷豐富及完善,越來越多的行業資料被積累下來。資料規模已經增長到了傳統軟體行業無法承載的海量資料,達到百GB、TB乃至PB級別。

在分析海量資料場景下,由於單臺伺服器的處理能力限制,資料分析者通常採用分散式計算模式。但分散式的計算模型對資料分析人員提出了較高的要求,且不易維護。使用分散式模型,資料分析人員不僅需要了解業務需求,同時還需要熟悉底層計算模型。

MaxCompute的目的是為使用者提供一種便捷的分析處理海量資料的能力,owner可以不必關心分散式計算細節,便可達到分析大資料的目的,這樣一是減輕專案負責人的工作負擔,也同時降低了企業對海量資料處理的專業人才成本。

在使用過程中,我們發現使用者經常遇到這樣的問題,如果一不小心寫錯了sql,對全表做了掃描,不僅影響效率還會對成本造成損失,因為對全表資料掃描是費用比較高的。

現在,MaxCompute釋出了“ALIAS 命令”,提供了在不修改程式碼的前提下,在MapReduce或自定義函式(UDF) 程式碼中,透過某個固定的資源名讀取不同資源(資料)的需求。

其實通俗的來講就是允許專案owner對專案進行設定,可以透過允許或不允許來保障這個專案不被做全表掃描,可以節約成本,避免了初次使用MaxCompute的使用者或者誤操作而對全表做了掃描影響效率和成本發生。如果確實需要對全表掃描,可以把屬性這裡改為true,完成使用者需要的全表掃描的操作。

具體操作如下:
以開關的形式,透過設定允許或禁止全表掃描。true為允許,false為禁止 專案級別控制:setproject odps.sql.allow.fullscan=false/true Session級別控制:set odps.sql.allow.fullscan=false/true

總體來說該功能對於專案owner來說,不僅可以避免資源浪費、控制計算成本,還能靈活應開啟全表掃描分割槽表。
具體操作詳情請戳這裡:
https://help.aliyun.com/document_detail/27834.html


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31550522/viewspace-2212956/,如需轉載,請註明出處,否則將追究法律責任。

相關文章