實時技術的榮光,微軟釋出實時大資料分析產品!

微軟技術棧發表於2021-11-17

跨雲智慧裝置和並行技術的新程式設計模型是數字化轉型的一個關鍵方面。從這些新的應用正規化中產生的關鍵資料型別之一是遙測資料。遙測資料無處不在: 物聯網感測器、應用程式日誌、網路日誌、基礎設施日誌、安全日誌、指標、點選流、時間序列等等。從這些資料中釋放出來的強大洞察力推動了消費者和企業每天依賴的聯網裝置的進步。

利用遙測資料需要一個靈活的適應性平臺,它必須可以處理大量資料,併為使用者提供實時的洞察,以改善他們的操作和創新。傳統上,這些資料是在豎井系統中儲存和管理的,缺乏實時可見性,具有規模的限制,維護成本很高。此外,將這些資料與企業業務進行普及化和關聯是很複雜的。

Azure Synapse Data Explorer (資料瀏覽器)是什麼?

accda33e1e84eacb4cb06b210af164c2.png

為了讓客戶能夠充分利用日誌和遙測資料,微軟釋出Azure Synapse Data Explorer(資料瀏覽器)的公開預覽。為了補充現有的SQL池和Apache Spark引擎,微軟從產品層面對新的資料瀏覽器執行時引擎進行了優化,使用強大的索引技術,自動索引自由文字和半結構化資料,讓它可以近乎實時的速度查詢大量的結構化、半結構化和自由文字遙測和時間序列資料,以下是一些使之成為可能的關鍵功能:

  • 強大的分散式查詢引擎,索引所有資料,包括自由文字和半結構化資料。資料被自動壓縮、索引、自動優化,快取在SSD上,並持久化在儲存上。計算和儲存是分離的,這給了使用者完全的彈性來自動伸縮,而不需要停機。
  • 直觀的Kusto查詢語言(KQL),使用Synapse資料瀏覽器的最佳文字索引來探索原始遙測和時間序列資料,用於高效的自由文字搜尋、正規表示式和對跟蹤\文字資料的解析。
  • 全面的JSON解析功能,用於查詢半結構化資料,包括陣列和巢狀結構。
  • 原生、高階時間序列支援建立、操作和分析多個時間序列,引擎內Python和R執行支援模型評分。

Azure Synapse資料瀏覽器的架構是什麼樣的?

資料資源管理器叢集通過計算資源和儲存資源分離來實現橫向擴充套件的體系結構。這樣,使用者就可以獨立擴充套件每種資源,例如,針對相同的資料執行多個只讀計算。資料資源管理器叢集包含一組計算引擎,該引擎負責自動索引編制、壓縮、快取和分散式查詢服務。另外,資料資源管理器叢集還有一組資料管理服務的計算引擎,該服務負責後臺系統作業,以及託管和排隊的資料引入。所有資料以壓縮的分列格式儲存在託管的 Blob 儲存帳戶上。

3cbe5966815069a2ffa6696eda8d07fb.png

資料資源管理器叢集支援豐富的生態系統,可以使用聯結器、SDK、REST API 和其他託管功能引入資料。使用者可以通過多種方式使用臨時查詢、報告、儀表板、警報、REST API 和 SDK 的資料。

Azure Synapse資料瀏覽器有哪些創新和特色之處?

288d9fbcacf65b2c650bec401960b15c.png

無限流資料引入 - 資料資源管理器提供內建的整合用於實現無程式碼/少程式碼、高吞吐量資料引入以及從實時源快取資料。可以從Event hub、Kafka、Azure Data Lake 之類的源、Fluentd/Fluent Bit 之類的開源代理以及各種跨雲和本地資料來源引入資料。

無界資料建模 - 如果使用資料資源管理器,無需生成複雜的資料模型,並且在使用資料之前無需編寫複雜的指令碼來轉換資料。

無窮資料規模 - 資料資源管理器是一個分散式系統,其計算和儲存可獨立縮放,可以輕鬆實現PB 量級之上的資料分析。

無需索引維護 - 無需執行維護任務即可優化資料以保持查詢效能,並且無需維護索引。使用資料資源管理器時,所有原始資料立即可供使用,因此你可以針對流資料和永久性資料執行高效能、高併發的查詢。可以使用這些查詢生成準實時儀表板和警報,並將運營分析資料連線到資料分析平臺的其餘元件。

低延遲、高效能、高併發 - 資料資源管理器為半結構化資料 (JSON) 和非結構化資料(自由文字)編制索引,因此可以十分高效地對此類資料執行查詢。預設情況下,在資料引入期間將為每個欄位編制索引,並可以通過相應的選項使用低階別編碼策略,以微調或禁用特定欄位的索引編制。索引範圍為單個資料分片。

標準資料分析 - 資料資源管理器通過直觀的 Kusto 查詢語言 (KQL) 標準化了自助式的大資料分析。KQL 兼備 SQL 的表達性和強大功能,以及 Excel 的簡便性。KQL 經過高度優化,可以利用資料資源管理器的一流文字索引技術探索原始遙測資料和時序資料,實現高效的自由文字和正規表示式搜尋,並提供全面的分析功能用於查詢跟蹤\文字資料和 JSON 半結構化資料(包括陣列和巢狀結構)。KQL 提供高階時序支援用於建立、操作和分析多個時序,併為模型評分提供引擎內部的 Python 執行支援。

多元生態整合 - Azure Synapse Analytics 為資料資源管理器、Apache Spark 和 SQL 引擎之間的資料提供互操作性,使資料工程師、資料科學家和資料分析師能夠輕鬆且安全地訪問資料湖中的相同資料並就此展開協作。

Azure Synapse資料瀏覽器用以支撐的數字化業務場景有哪些?

361e1ea9c817215d00c7fb44c95ba150.png

精準實時行為優化

Azure Synapse資料瀏覽器在客戶的Azure混合雲解決方案之間靈活工作。例如,一家鐵路網路公司可以信任Azure Synapse資料瀏覽器來取代其本地日誌管理解決方案。對於交通運輸業來說,安全是首要考慮因素,因為人們的生活依賴於實時遙測資料。隨著大規模的基礎設施在全國範圍內擴充套件,鐵路管理公司需要一個能夠快速獲取大量時間序列和日誌資料的平臺,然後在Power BI中建立強大的洞察力和資料視覺化。Azure Synapse資料瀏覽器讓這家鐵路公司有效地識別其龐大的運輸網路中的行為模式或違規行為,從而使鐵路系統更加安全。

實時供應鏈洞察

Azure Synapse資料瀏覽器可以對定製事件和日誌資料構建實時的大資料分析,從而為企業節約時間和資源,專注於業務的核心價值。例如,如果一家網際網路外賣公司想要改善他們的流程和業務,以提供一致和一流的客戶體驗,他們可能會被緩慢、複雜和昂貴的日誌管理技術方案所阻礙。然而,使用Azure Synapse資料瀏覽器引擎,網際網路外賣公司可以立即從更快的資料攝取、更高的併發性和更大的彈性中獲益。這將使他們能夠專注於自己的核心使命: 為人們提供美味的外賣和始終如一的客戶服務。

複雜安全事件處理

面對數字化安全威脅,每一秒都很重要。客戶端上線延遲、網路故障和查詢超時可能是毀滅性的,但這些問題可能困擾網路安全和日誌管理服務提供商。他們現有的技術解決方案可能會阻礙他們實現易訪問性和透明度的核心價值主張的能力。在這種情況下,網路安全供應商可以使用Azure Synapse資料瀏覽器,這將為他們提供一個資料平臺,為他們的客戶提供關於威脅檢測、情報警報和安全趨勢的有價值的見解。因此,網路安全供應商可以與他們的使用者建立更牢固的關係和更多的信任。


綜上所述, Azure Synapse資料瀏覽器可以跨各種資料來源和資料庫建立有意義的連線。如今,各種數字化業務都被大量的時間序列、日誌和遙測資料淹沒,這些資料來自物聯網裝置、應用程式、網站和其他來源。這種實時的持續資料流對於IT基礎設施可能是壓倒性和緩慢的。使用Azure Synapse資料瀏覽器的分散式查詢引擎,客戶可以獲得強大的洞察力,讓他們專注於自己的核心業務,無論是建立一個更安全的世界,還是送出最好的外賣。

(由21世紀互聯運營的Azure Synapse Analytics現已上市,點選閱讀原文了解更多。)

相關文章