迎戰大資料-Oracle篇

海興發表於2012-11-12

特別說明
內容源自Oracle廣告貼,採信須謹慎,花錢有風險 ;)
雖然標題看起來像個系列,但後續不一定會有IBM篇,SAP篇,EMC篇,OpenSource篇等等
本文內容包括:

  • 瞭解大資料帶來的機遇;
  • 透視架構與工具;
  • 開源節流,獲得競爭優勢。

聚焦大資料

組織為了變得更高效,盈利能力更強,或生產率更高,對資訊的渴求似乎永遠也無法得到滿足。為此它們一直在尋找更強大的資料儲存技術,包括超大型資料庫(VLDB),以滿足他們對資訊儲存和獲取的需求。最近幾年資料的爆炸式增長催生了新的儲存技術。用於儲存和管理大資料的技術作為企業級資料庫技術的補充出現在了人們的視野中。

大資料有四個關鍵特性:容量,速度,多樣性和價值。對於IT管理者來說,容量和速度並不是什麼新問題;它們現在只是被放大了。大資料成為新問題是因為它們的多樣性和資料價值密度過低。與傳統的交易資料不同,大資料有各種不同的形式。它們的價值密度通常也都不高;資料本身一般沒太大價值,但資料之中所蘊藏的趨勢資訊卻非常有意義。

爆炸式資料增長

全球資料大爆炸的產生有技術方面的原因,比如數字多媒體、智慧手機和網際網路的增長。舉例來說,在瀏覽器成為通用的客戶端之後,出現了數以億計的網際網路使用者點選流資料。社交網站變得如此龐大,以致於現在的資料探勘活動也變成了數以億計的行為。智慧手機為基於位置的服務提供的資訊很快就會出現在十幾億使用者手中。從Web伺服器日誌、工具中的資料流、實時交易資料、部落格,還有社交網站這些不同的資料來源中,能提煉出非常有價值的資訊。

目前的線上或移動金融交易、社交網站流量以及GPS定位每天所產生的資料已經超過了2.5 * 1021個位元組(EB,260位元組)


提示 資料量的單位

  • KB ,2 的 10 次方 : 1024 BYTE.
  • MB,2 的 20 次方 : 1048576 BYTE, 或 1024 KB.
  • GB ,2 的 30 次方 : 1073741824 BYTE, 或 1024 MB.
  • TB ,2 的 40 次方 : 1099511627776 BYTE, 或 1024 GB.
  • PB ,2 的 50 次方 : 1125899906842624 BYTE, 或 1024 TB.
  • EB ,2 的 60 次方 : 1152921504606846976 BYTE, 或 1024 PB.
  • ZB ,2 的 70 次方 : 1024 EB.
  • YB ,2 的 80 次方 : 1024 ZB.

應用和效益

因為CPU和儲存越來越便宜,很多組織現在都有能力處理TB,甚至是PB級別的資料。他們都能從大資料中獲益。

利用好大資料,組織能對自己的使用者和客戶群,運營和供應鏈,甚至競爭環境或監管環境有更深入的理解。如果處理得當,大資料會對組織產生積極的影響,在經過改善的BI基礎之上提供更好的服務,做出更好的決策。組織可以通過分析大資料開發並提煉出先進的預測分析體系,從而降低成本,提供可持續的競爭優勢。

如果組織能利用大資料增強對客戶的瞭解,對行業和政府都有好處。比如說在零售行業,產生了用於點選流監測、消費者資訊指數分析,以及對線上客戶進行推薦所需的資料集。在金融服務業,加強對客戶的認識可以使欺詐檢測及預測更準確,還能通過分析消費習慣增強每客戶盈利能力。而且無論是在公共醫療還是私人保健領域,大資料都有望能幫助行業降低成本,提高效率,從而也會使病人護理得到改善。

基於大資料的應用及其所能帶來的收益,行業分析師預測大資料技術和服務市場將得到迅猛發展。

發展大資料策略很複雜,要面對不同的資料種類,新的用例,還要增加軟體投入。最重要的是,對企業有什麼價值呢?
請看視訊

架構

大資料代表著為了做出決策而採用的技術發生了翻天覆地的變化。組織所要整合和分析的資料來自多種不同的資料來源,要用來自社交網路、視訊、智慧移動裝置和其它來源的資料補充企業資料庫。為涵蓋大資料而產生的資訊架構演化很可能會為新一代的企業基礎設施提供基礎。要利用這些來源不同的資料做決策,必須開發出一套行之有效的策略,做好大資料的獲取組織分析工作,由此產生新的業務洞察力,做出更好的決策。

大資料提煉過程中的每一步都需要合適的軟硬體。可以對現有資料倉儲基礎設施進行擴充,以應對大資料的規模需求和不同的分析需求。但要獲取和組織好新的資料型別,必須有新的軟體,Hadoop就是這種新型軟體之一。

Hadoop有兩個主要組成部分:用於資料儲存的Hadoop分散式檔案系統(HDFS),以及用來管理資料處理過程的MapReduce程式設計框架。組織可以使用Hadoop的工具套件組織原始(通常是非結構化的)資料,並對其進行轉換,以便能把它們載入到資料倉儲和資料集市中,然後進行綜合分析。

Hadoop支援大資料的並行處理機制,用叢集或計算網格來處理大資料工作負荷。它主要執行在HDFS上,HDFS有很好的容錯性,並且可以擴充套件到多個帶有上千節點的叢集上。Hadoop MapReduce提供了用大量處理器分析海量資料集的能力。Yahoo的研究人員曾在一個有3800個節點的叢集上用16.25個小時完成了對1PB資料的排序操作。

Hadoop是很多大資料架構中的核心構件。它可以用於資料獲取和儲存,在組織內部,它還有三個主要用途。
請看視訊

資料獲取

大資料的資料來源有很多。線上活動、RFID、儀器儀表、社交網路、點選流和交易系統這樣的資料來源,具有交易資料量大,資料流速快,資料格式多樣的特點。資料獲取所需的延遲也不同,既有需要在一秒內響應服務請求的互動式系統,也有把資料存起來用於以後進行離線分析的批量式系統。

內容的多樣性要求軟體在高吞吐量的情景下操作結構化和非結構化資料。一個有效的大資料解決方案必須為資料採集、組織和提煉大量資料提供儲存和處理能力,甚至是PB級別的資料集。

在選擇正確的儲存技術時,既要理解準備儲存的資料種類,也要知道將來怎麼使用。儘管有很多針對特定場景專門優化的專業儲存技術,但其中主要有兩種用例。

比較偏批處理的系統對響應時間、更新和查詢的要求都不太嚴格,通常會使用Hadoop分散式檔案系統(HDFS)。而對於時間限制更加嚴格,需要亞秒級查詢響應時間的應用,或者要經常更新現有資料的,通常會使用某種NoSQL資料庫。Amazon、 Google、LinkedIn 和 Twitter 這樣的公司要在嚴格的延遲時間限制下跟史無前例的資料量做鬥爭,在鬥爭過程中,出現了NoSQL技術。利用非結構化和半結構化的資料來源開發新的業務分析模型,分析像網站點選流這樣的大容量實時資料能取得顯著的業務優勢。因此,這些企業在研究了十多年的分散式雜湊表(DHT)基礎之上,或者利用傳統的關係型資料庫系統,或者利用嵌入式鍵/值儲存資料庫(比如Berkeley DB),開發出了高可用的分散式鍵值儲存庫。

組織獲取和儲存多種結構化和非結構資訊。他們必須明白自己的用例是需要亞秒級的互動響應,還是可以慢一些的批量操作。
請看視訊

資料組織

從大資料中汲取價值的過程是一個從原始資料獲取有價值資訊提煉的多階段過程。資料獲取,比如從點選流和社交媒體訂閱源中取得資料,是對資料進行轉換和組織以汲取商業價值的前提。之後還需要預處理過程將那些沒什麼價值的資料篩選掉,並將剩餘資料結構化以用於分析。因為大資料形態多樣,大小不一,並且格式各異,所以把資料轉移到分析環境之前的轉換至關重要,不可或缺。

把大資料收集過來之後,在進一步提煉和分析之前,要先對其進行轉換和組織,形成先導資料。
用Hadoop轉換和組織資料

提煉過的大資料可以和企業資料一起進行分析。在得到原始資料之後,可以用HDFS或NoSQL資料庫把資料儲存起來,並在經過預處理後載入到分析環境中,比如執行在Oracle資料庫雲伺服器Exadata 上的資料倉儲。

這種工作一般是由Hadoop來處理的。現在通常都是由開發人員定製開發Java程式碼,與MapReduce程式設計框架一起處理和轉換節點上儲存的資料。總體來說,資料遷移達到了最小化,因為只有預處理的最終結果才會被載入到資料倉儲中。

準備好載入到Oracle資料庫雲伺服器Exadata上的資料後,對大資料與傳統企業資料進行整合分析的舞臺就算是搭建起來了。

資料分析

很久以前,組織就開始通過搭建數學模型和大容量資料的篩選來汲取有價值的資訊。一旦經過提煉,大資料就會擴充套件已有模型,並很有可能為使用資料倉儲的BI應用透視組織情況提供豐富的資訊源。

大資料的分析與以前的資料分析是不同的。請看它如何揭示事情發生的原因,以及補充了哪些新的分析工具和流程。
視訊:用統計分析產生新的見解

  • Oracle R 企業版
  • 資料庫內分析
    • 資料探勘
    • 文字分析
    • 語義分析
    • 空間分析

資料倉儲是大資料分析的關鍵。儘管資料的來源多種多樣,但新的見解是通過對所有資料的整合分析得到的。因此,現代資料倉儲中不光要儲存更多的傳統企業資料,還要儲存Hadoop才產生的彙總資料。

新的資料來源是不同的,對資料的理解可能更少,也可能因歷史原因不太精確,或者與問題的相關性只是間接的。所以,為了從大資料中汲取價值,我們必須轉向一種迭代的、不斷細化的分析流程。每次迭代或者揭示新的見解,或者只是簡單地讓分析師排除某條查詢語句。大資料分析不僅僅是要充分理解資料集並做出報告,還要發現新的關係。

先進的分析方法

傳統的分析工具依然很重要,但要充分利用好大資料,還需要同時涉及到統計分析和資料探勘的先進分析方法。開源的統計程式語言R自1997年發展至今,已經吸引了大量使用者群。R在分析師和資料科學家之中相當流行,在學術界也得到了廣泛應用,所以訓練有素的R開發人員也大有人在。

一種被稱為預測分析的統計分析技術已經引起了各行各業的注意,其中包括金融、零售、保險、醫療健康、製藥和電信等多種行業。預測分析可以利用客戶資料來構建並優化預測模型。組織使用預測指標來指導其營銷活動,使其更加有效。藉助計算能力的提升,對預測分析激增的興趣已經變成了可能。藉助現代化的工具,可以建立尖端的預測分析模型,並在大量資料集合上執行多種情景的模擬計算。

決策

現如今這個年代,我們所做的每個決定後面都充斥著大量的資料,我們可以用強大的工具提煉資料,展示資訊,使決策過程更加智慧。使用自動化的分析工具,我們可以做出資料驅動的決策。可以把大資料變成可執行的洞察力,並且如果技術得當,還可以達到實時的效果。

資料視覺化和商業智慧儀表盤是決策過程的強力輔助工具,特別是在處理海量資料時。統計分析軟體是資料分析、商業智慧和決策支援的關鍵要素。執行統計分析語言R指令碼的Web介面可以整合到儀表盤中,為決策過程提供分析和流式圖形。

實時決策

大資料的容量和速度對資料分析軟體和BI工具的擴充套件性及效能提出了新的要求。伺服器容量,高速互聯能力和網路頻寬的提升對新一代軟體的出現做出了貢獻,使它們可以實現在記憶體中、資料庫中的實時分析。

比如說,記憶體資料庫給了我們實時決策的能力。現代系統的64位定址能力使我們可以在伺服器上配置TB(240B)級的記憶體。這就是說,某些超過了十幾億行記錄的資料庫可以被載入到記憶體中,維繫更快的決策所需的高效能、低延遲處理。

大資料軟體

友情提示:即將進入Oracle廣告時段,請自行判斷以下內容的可信度。

Oracle 提供了一系列的軟體,包括專為應對大資料挑戰而專門設計的新功能。這些軟體既可以執行在Oracle工程系統上,也可以執行在自行整合的硬體上。

Oracle NoSQL 資料庫

應用軟體的架構和效能需求各不相同,對資料儲存和獲取能力的需求也各不相同。很多大資料應用軟體都希望能有快速、精簡的資料儲存方式,能夠支援大容量資料的互動式查詢和更新。

Oracle NoSQL資料庫能迅速獲取和組織無模式、非結構化,或半結構化的資料。它是一個“永遠可用”的分散式鍵-值資料儲存庫,具有查詢延時可預測、響應快速的特點,並且所支援的互動用例範圍廣泛。它的程式設計模型也很簡單,易於整合到新的大資料應用軟體中。

Oracle Endeca 資訊探索平臺

Oracle Endeca 資訊探索平臺是一個對複雜多變的資料進行高階勘探和分析的企業資料探索平臺。從多個分散的源系統中載入進來的資訊被儲存在一個對變化中的資料提供動態支援的多面體資料模型中。這些經過整合的豐富資料可以由互動式的、可配置的應用程式進行搜尋、探索和分析。Oracle Endeca直觀的介面讓企業使用者可以輕鬆地對大資料進行探索,以確定其潛在的價值。

用資訊探索快速回答新問題

Oracle 資料整合工具

Oracle Data Integrator 為Oracle 資料庫、Oracle 應用程式和其它第三方應用軟體源提供資料抽取,載入和轉換(E-LT)服務。Oracle GoldenGate具備大容量資料實時轉換的能力,並把資料載入到資料倉儲或資料集市中。這些產品與Oracle大資料聯結器(Oracle Big Data Connectors)一起提供了一個整合大資料的閘道器。資料大爆炸使得這些產品變得更重要了,因為孤立的大資料是沒用的。

Oracle 大資料聯結器

Oracle 已經開發了一套軟體來整合Oracle資料庫和Hadoop。Oracle大資料聯結器即可作為Oracle 大資料應用軟體的一部分,也可以作為獨立的軟體產品。它們能幫助Oracle資料庫訪問Hadoop分散式檔案系統(HDFS),也可以從Hadoop中把資料載入的Oracle資料庫中。它們還為HDFS和MapReduce框架提供了原生的R介面,使得Oracle 資料整合工具能夠生成Hadoop MapReduce 程式。

Oracle 高階分析平臺

大資料和分析經常出現在同一句話中,因為技術的發展,我們可以分析不斷增長的大資料集。至少這些發展讓Oracle資料庫能夠把分析嵌入到資料庫中,這是一個具備可擴充套件性、效能卓越並且安全的架構層解決方案。這個架構把分析工作從記憶體有限的計算機上解除安裝下來,讓分析過程更加靠近資料。這樣可以消除不必要的網路往返時間,充分利用企業級資料庫,並能降低硬體成本。

Oracle 高階分析平臺把Oracle資料庫變成了一個先進的分析平臺,為分析大資料做好了準備。它和Oracle R 企業版(開源R語言的改進版本)的Oracle 資料探勘能力結合在一起。因為Oracle高階分析平臺不需要為了進行分析而在資料庫和其外部客戶端之間封送資料,所以消除了網路延時。這比在資料庫外進行分析處理提高了10到100倍的效能。把分析邏輯封裝在資料庫中還可以利用資料庫的多層安全模型,並且資料庫也因此能夠管理實時預測模型和它所產生的結果。

工程系統

通過部署Oracle的工程系統,組織可以把大資料方案作為業務系統、資料倉儲、分析軟體和商業智慧過程的補充。工程系統是預先整合好的,所以部署起來更容易,支援維護也方便,而且它們的效能是經過調優的。它們既可以單獨部署,也可以整合到已有的基礎設施中。

Oracle大資料應用(Oracle Big Data Appliance)是一個全面的、企業級的軟硬體組合,藉助它可以輕鬆快速的啟用大資料。它被設計成用Hadoop和Oracle NoSQL資料庫來獲取資料,用Hadoop MapReduce演算法組織資料,並載入到資料倉儲中進行綜合分析。

Oracle已經跟Cloudera聯合,在Oracle大資料應用中提供 Hadoop的Cloudera版本。確保客戶能夠使用一個全面整合並得到支援的Hadoop版本,它能部署在上萬個節點上,部署速度更快,持有成本更低。

Oracle雲伺服器Exadata(Oracle Exadata Database Machine)是先進的軟硬體結合的代表,它易於部署、完全可擴充套件、安全並且冗餘。像Exadata智慧掃描, Exadata 智慧快閃記憶體 和 混合列式壓縮 這些技術創新讓Exadata的效能表現極其優秀,無論是在資料倉儲中,還是線上事務處理,以及混合的工作負荷上,都非常棒。Oracle Exadata使用大規模並行架構和高速InfiniBand網路來維繫資料庫伺服器、儲存伺服器,以及其它工程系統(比如Oracle大資料應用和Oracle Exalytics)之間的高速頻寬連線。

Oracle Exadata支援大規模資料倉儲的部署,以及發現新關係,開發新見解所需的迭代式分析。這種分析一旦得以實施,決策者就可以據此採取行動,實現商業價值。

Oracle 記憶體伺服器Exalytics是為不會超出預算的快速決策提供記憶體分析的軟硬體整合方案。部署它可以支援需求預測,收入和收益管理,定價,庫存管理,以及無數的其他應用。此外,它也可以用在高速InfiniBand 連線的Oracle Exadata的資料倉儲上,為訪問大資料倉儲的BI應用提供實時分析。

Oracle 記憶體伺服器Exalytics能夠實現“像思考一樣快速的分析。”這從根本上改變了你和BI軟體互動的方式,對資料的利用會更加充分,因此產生更大的商業價值。

結論

要從大資料中汲取真正的商業價值,需要用合適的工具從不同的資料來源捕獲型別多變的資料,然後組織好它們,把它們放在所有企業資料的上下文中。藉助這些工具,它們分析起來並不困難。Oracle的工程系統及其補充軟體能開啟大資料的財富之門,為得到大資料中的商業價值鋪平道路。

相關文章