大資料相關術語(1)

親吻昨日的陽光發表於2015-04-07
1.大資料:
英文:big data,mega data

大資料指的是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。


2.大資料的4V:

英文:4V [volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)]


3. HDFS(Hadoop Distributed FileSystem):Hadoop分散式檔案系統

hdfs是架構在多臺機器上的檔案系統,可以時間多臺機器上的檔案如同在同一機器上的無縫訪問,使用者不需要知道檔案儲存在那臺機器上或者從哪一臺機器上去讀。就如同在單機PC上不需要知道檔案存放在磁碟的哪一個扇區上一樣。為單機不能儲存的海量資料提供儲存。


4.MapReduce:對映歸約

MapReduce是一種程式設計模型,用於大規模資料集(>1TB)的平行計算,Map(對映)和Reduce(歸約)是MapReduce的主要思想,借鑑自函數語言程式設計及向量程式設計。該模型方便了開發人員在不熟悉分散式並行程式設計的情況下,將自己的程式執行在分散式系統上。


5.BI(Business Intelligence):商業智慧
商務智慧是一整套完整的解決方案,用來將企業中現有的資料進行有效的整合,快速準確的提供報表並提出決策依據,幫助企業做出明智的業務經營決策。

商業智慧產品及解決方案大致可分為資料倉儲產品、資料抽取產品、OLAP產品、展示產品、和整合以上幾種產品的針對某個應用的整體解決方案等


6.CRM(Customer Relationship Management):客戶關係管理
CRM是企業的一項商業策略,它按照客戶細分情況有效的組織企業資源,培養以客戶為中心的經營行為以及實施以客戶為中心的業務流程,並以此為手段來提高企業的獲利能力、收入以及客戶滿意度。

CRM實現的是基於客戶細分的一對一營銷,所以對企業資源的有效組織和調配是按照客戶細分而來的,而以客戶為中心不是口號,而是企業的經營行為和業務流程都要圍繞客戶,通過這樣的CRM手段來提高利潤和客戶滿意度。


7.雲端計算(Cloud Computing)
雲端計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網路訪問, 進入可配置的計算資源共享池(資源包括網路,伺服器,儲存,應用軟體,服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的互動

雲端計算是分散式計算(Distributed Computing)、平行計算(Parallel Computing)、效用計算(Utility Computing)、網路儲存(Network Storage Technologies)、虛擬化(Virtualization)、負載均衡(Load Balance)、高可用(High Available)等傳統計算機和網路技術發展融合的產物。


8.分散式計算(Distributed Computing)
分散式計算是一種新的計算方式。所謂分散式計算就是在兩個或多個軟體互相共享資訊,這些軟體既可以在同一臺計算機上執行,也可以在通過網路連線起來的多臺計算機上執行。分散式計算比起其它演算法具有以下幾個優點:
1、稀有資源可以共享。
2、通過分散式計算可以在多臺計算機上平衡計算負載。
3、可以把程式放在最適合執行它的計算機上。

其中,共享稀有資源和平衡負載是計算機分散式計算的核心思想之一。


9.平行計算(Parallel Computing)
平行計算是指同時使用多種計算資源解決計算問題的過程,是提高計算機系統計算速度和處理能力的一種有效手段。它的基本思想是用多個處理器來協同求解同一問題,即將被求解的問題分解成若干個部分,各部分均由一個獨立的處理機來平行計算。平行計算系統既可以是專門設計的、含有多個處理器的超級計算機,也可以是以某種方式互連的若干臺的獨立計算機構成的叢集。通過平行計算叢集完成資料的處理,再將處理的結果返回給使用者。

平行計算或稱平行計算是相對於序列計算來說的。它是一種一次可執行多個指令的演算法,目的是提高計算速度,及通過擴大問題求解規模,解決大型而複雜的計算問題。所謂平行計算可分為時間上的並行和空間上的並行。 時間上的並行就是指流水線技術,而空間上的並行則是指用多個處理器併發的執行計算


10.效用計算(Utility Computing):

簡單的說就是通過網際網路資源來實現企業使用者的資料處理、儲存和應用等問題,企業不必再組建自己的資料中心,改變目前傳統資料庫軟體側重於離線和後臺應用的局面。而效用計算理念發展的進一步延伸,使雲端計算技術正在逐步成為技術發展的主流


11.網路儲存技術(Network Storage Technologies):

網路儲存技術是基於資料儲存的一種通用網路術語。網路儲存結構大致分為三種:直連式儲存(DAS:Direct Attached Storage)、網路儲存裝置(NAS:Network Attached Storage)和儲存網路(SAN:Storage Area Network)


12.虛擬化(英語:Virtualization):

虛擬化是一種資源管理技術,是將計算機的各種實體資源,如伺服器、網路、記憶體及儲存等,予以抽象、轉換後呈現出來,打破實體結構間的不可切割的障礙,使使用者可以比原本的組態更好的方式來應用這些資源。這些資源的新虛擬部份是不受現有資源的架設方式,地域或物理組態所限制。一般所指的虛擬化資源包括計算能力和資料儲存。


13.負載均衡(Load Balance):

負載均衡是由多臺伺服器以對稱的方式組成一個伺服器集合,每臺伺服器都具有等價的地位,都可以單獨對外提供服務而無須其他伺服器的輔助。通過某種負載分擔技術,將外部傳送來的請求均勻分配到對稱結構中的某一臺伺服器上,而接收到請求的伺服器獨立地迴應客戶的請求。均衡負載能夠平均分配客戶請求到伺服器列陣,籍此提供快速獲取重要資料,解決大量併發訪問服務問題。


14.HA(High Availability):高可用性

高可用性指的是通過儘量縮短因日常維護操作(計劃)和突發的系統崩潰(非計劃)所導致的停機時間,以提高系統和應用的可用性。它與被認為是不間斷操作的容錯技術有所不同。HA系統是目前企業防止核心計算機系統因故障停機的最有效手段。


15.DW(data warehouse)資料倉儲:

資料倉儲是為企業所有級別的決策制定過程提供支援的所有型別資料的戰略集合。它是單個資料儲存,出於分析性報告和決策支援的目的而建立。 為企業提供需要業務智慧來指導業務流程改進和監視時間、成本、質量和控制。


16.NoSQL(Not Only SQL): 非關係型資料庫

NoSQL,泛指非關係型的資料庫。隨著網際網路web2.0網站的興起,傳統的關聯式資料庫在應付web2.0網站,特別是超大規模和高併發的SNS型別的web2.0純動態網站已經顯得力不從心,暴露了很多難以克服的問題,而非關係型的資料庫則由於其本身的特點得到了非常迅速的發展。NoSQL資料庫的產生就是為了解決大規模資料集合多重資料種類帶來的挑戰,尤其是大資料應用難題。


17.非結構化資料

非結構化資料庫是指其欄位長度可變,並且每個欄位的記錄又可以由可重複或不可重複的子欄位構成的資料庫,用它不僅可以處理結構化資料(如數字、符號等資訊)而且更適合處理非結構化資料(全文文字、圖象、聲音、影視、超媒體等資訊)


18.結構化資料:

結構化資料即行資料,儲存在資料庫裡,可以用二維表結構來邏輯表達實現的資料


19.半結構化資料:

和普通純文字相比,半結構化資料具有一定的結構性,但和具有嚴格理論模型的關聯式資料庫的資料相比。OEM(Object exchange Model)是一種典型的半結構化資料模型


20.資料分析:
資料分析是指用適當的統計分析方法對收集來的大量資料進行分析,提取有用資訊和形成結論而對資料加以詳細研究和概括總結的過程。這一過程也是質量管理體系的支援過程。在實用中,資料分析可幫助人們作出判斷,以便採取適當行動。

Excel作為常用的分析工具,可以實現基本的分析工作,在商業智慧領域Cognos、Style Intelligence、Microstrategy、Brio、BO和Oracle以及國內產品如Yonghong Z-Suite BI套件


21.DM(Data mining)資料探勘:

資料探勘(英語:Data mining),又譯為資料探勘、資料採礦。它是資料庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。資料探勘一般是指從大量的資料中通過演算法搜尋隱藏於其中資訊的過程。資料探勘通常與電腦科學有關,並通過統計、線上分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。


22.資料清洗 :

資料清洗從名字上也看的出就是把“髒”的“洗掉”,指發現並糾正資料檔案中可識別的錯誤的最後一道程式,包括檢查資料一致性,處理無效值和缺失值等。因為資料倉儲中的資料是面向某一主題的資料的集合,這些資料從多個業務系統中抽取而來而且包含歷史資料,這樣就避免不了有的資料是錯誤資料、有的資料相互之間有衝突,這些錯誤的或有衝突的資料顯然是我們不想要的,稱為“髒資料”。我們要按照一定的規則把“髒資料”“洗掉”,這就是資料清洗。而資料清洗的任務是過濾那些不符合要求的資料,將過濾的結果交給業務主管部門,確認是否過濾掉還是由業務單位修正之後再進行抽取。不符合要求的資料主要是有不完整的資料、錯誤的資料、重複的資料三大類。資料清洗是與問卷稽核不同,錄入後的資料清理一般是由計算機而不是人工完成。


23.CTR(Click-Through-Rate)廣告點選率:

CTR指在搜尋引擎中輸入關鍵詞後進行搜尋,然後按競價等因素把相關的網頁按順序進行排列出來,然後使用者會選擇自己感興趣的網站點選進去;把一個網站所有搜尋出來的次數作為總次數,把使用者點選並進入網站的次數佔總次數的比例叫點選率。


24.ML(Machine Learning)機器學習:
機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。

它是人工智慧的核心,是使計算機具有智慧的根本途徑,其應用遍及人工智慧的各個領域,它主要使用歸納、綜合而不是演繹。


25.AI(Artificial Intelligence)人工智慧:

人工智慧(Artificial Intelligence),英文縮寫為AI。它是研究、開發用於模擬、延伸和擴充套件人的智慧的理論、方法、技術及應用系統的一門新的技術科學。 人工智慧是電腦科學的一個分支,它企圖瞭解智慧的實質,並生產出一種新的能以人類智慧相似的方式做出反應的智慧機器,該領域的研究包括機器人、語言識別、影象識別、自然語言處理和專家系統等。人工智慧從誕生以來,理論和技術日益成熟,應用領域也不斷擴大,可以設想,未來人工智慧帶來的科技產品,將會是人類智慧的“容器”。


26.DL(Deep Learning):深度學習
深度學習的概念源於人工神經網路的研究。含多隱層的多層感知器就是一種深度學習結構。深度學習通過組合低層特徵形成更加抽象的高層表示屬性類別或特徵,以發現資料的分散式特徵表示。 
深度學習的概念由Hinton等人於2006年提出。基於深信度網(DBN)提出非監督貪心逐層訓練演算法,為解決深層結構相關的優化難題帶來希望,隨後提出多層自動編碼器深層結構。此外Lecun等人提出的卷積神經網路是第一個真正多層結構學習演算法,它利用空間相對關係減少引數數目以提高訓練效能。
深度學習是機器學習研究中的一個新的領域,其動機在於建立、模擬人腦進行分析學習的神經網路,它模仿人腦的機制來解釋資料,例如影象,聲音和文字。

相關文章