一個常見的大資料術語表
大資料的出現帶來了許多新的術語,但這些術語往往比較難以理解。因此,我們通過本文給出一個常用的大資料術語表,拋磚引玉,供大家深入瞭解。其中部分定義參考了相應的部落格文章。當然,這份術語表並沒有100%包含所有的術語,如果你認為有任何遺漏之處,請告之我們。
A
- 聚合(Aggregation) – 搜尋、合併、顯示資料的過程
- 演算法(Algorithms) – 可以完成某種資料分析的數學公式
- 分析法(Analytics) – 用於發現資料的內在涵義
- 異常檢測(Anomaly detection) – 在資料集中搜尋與預期模式或行為不匹配的資料項。除了“Anomalies”,用來表示異常的詞有以下幾種:outliers, exceptions, surprises, contaminants.他們通常可提供關鍵的可執行資訊
- 匿名化(Anonymization) – 使資料匿名,即移除所有與個人隱私相關的資料
- 應用(Application) – 實現某種特定功能的計算機軟體
- 人工智慧(Artificial Intelligence) – 研發智慧機器和智慧軟體,這些智慧裝置能夠感知周遭的環境,並根據要求作出相應的反應,甚至能自我學習
B
- 行為分析法(Behavioural Analytics) – 這種分析法是根據使用者的行為如“怎麼做”,“為什麼這麼做”,以及“做了什麼”來得出結論,而不是僅僅針對人物和時間的一門分析學科,它著眼於資料中的人性化模式
- 大資料科學家(Big Data Scientist) – 能夠設計大資料演算法使得大資料變得有用的人
- 大資料創業公司(Big data startup) – 指研發最新大資料技術的新興公司
- 生物測定術(Biometrics) – 根據個人的特徵進行身份識別
- B位元組 (BB: Brontobytes) – 約等於1000 YB(Yottabytes),相當於未來數字化宇宙的大小。1 B位元組包含了27個0!
- 商業智慧(Business Intelligence) – 是一系列理論、方法學和過程,使得資料更容易被理解
C
- 分類分析(Classification analysis) – 從資料中獲得重要的相關性資訊的系統化過程; 這類資料也被稱為後設資料(meta data),是描述資料的資料
- 雲端計算(Cloud computing) – 構建在網路上的分散式計算系統,資料是儲存於機房外的(即雲端)
- 聚類分析(Clustering analysis) – 它是將相似的物件聚合在一起,每類相似的物件組合成一個聚類(也叫作簇)的過程。這種分析方法的目的在於分析資料間的差異和相似性
- 冷資料儲存(Cold data storage) – 在低功耗伺服器上儲存那些幾乎不被使用的舊資料。但這些資料檢索起來將會很耗時
- 對比分析(Comparative analysis) – 在非常大的資料集中進行模式匹配時,進行一步步的對比和計算過程得到分析結果
- 複雜結構的資料(Complex structured data) – 由兩個或多個複雜而相互關聯部分組成的資料,這類資料不能簡單地由結構化查詢語言或工具(SQL)解析
- 計算機產生的資料(Computer generated data) – 如日誌檔案這類由計算機生成的資料
- 併發(Concurrency) – 同時執行多個任務或執行多個程式
- 相關性分析(Correlation analysis) – 是一種資料分析方法,用於分析變數之間是否存在正相關,或者負相關
- 客戶關係管理(CRM: Customer Relationship Management) – 用於管理銷售、業務過程的一種技術,大資料將影響公司的客戶關係管理的策略
D
- 儀表板(Dashboard) – 使用演算法分析資料,並將結果用圖表方式顯示於儀表板中
- 資料聚合工具(Data aggregation tools) – 將分散於眾多資料來源的資料轉化成一個全新資料來源的過程
- 資料分析師(Data analyst) – 從事資料分析、建模、清理、處理的專業人員
- 資料庫(Database) – 一個以某種特定的技術來儲存資料集合的倉庫
- 資料庫即服務(Database-as-a-Service) – 部署在雲端的資料庫,即用即付,例如亞馬遜雲服務(AWS: Amazon Web Services)
- 資料庫管理系統(DBMS: Database Management System) – 收集、儲存資料,並提供資料的訪問
- 資料中心(Data centre) – 一個實體地點,放置了用來儲存資料的伺服器
- 資料清洗(Data cleansing) – 對資料進行重新審查和校驗的過程,目的在於刪除重複資訊、糾正存在的錯誤,並提供資料一致性
- 資料管理員(Data custodian) – 負責維護資料儲存所需技術環境的專業技術人員
- 資料道德準則(Data ethical guidelines) – 這些準則有助於組織機構使其資料透明化,保證資料的簡潔、安全及隱私
- 資料訂閱(Data feed) – 一種資料流,例如Twitter訂閱和RSS
- 資料集市(Data marketplace) – 進行資料集買賣的線上交易場所
- 資料探勘(Data mining) – 從資料集中發掘特定模式或資訊的過程
- 資料建模(Data modelling) – 使用資料建模技術來分析資料物件,以此洞悉資料的內在涵義
- 資料集(Data set) – 大量資料的集合
- 資料虛擬化(Data virtualization) – 資料整合的過程,以此獲得更多的資料資訊,這個過程通常會引入其他技術,例如資料庫,應用程式,檔案系統,網頁技術,大資料技術等等
- 去身份識別(De-identification) – 也稱為匿名化(anonymization),確保個人不會通過資料被識別
- 判別分析(Discriminant analysis) – 將資料分類;按不同的分類方式,可將資料分配到不同的群組,類別或者目錄。是一種統計分析法,可以對資料中某些群組或叢集的已知資訊進行分析,並從中獲取分類規則。
- 分散式檔案系統(Distributed File System) – 提供簡化的,高可用的方式來儲存、分析、處理資料的系統
- 檔案存貯資料庫(Document Store Databases) – 又稱為文件資料庫(document-oriented database), 為儲存、管理、恢復文件資料而專門設計的資料庫,這類文件資料也稱為半結構化資料
E
- 探索性分析(Exploratory analysis) – 在沒有標準的流程或方法的情況下從資料中發掘模式。是一種發掘資料和資料集主要特性的一種方法
- E位元組(EB: Exabytes) – 約等於1000 PB(petabytes), 約等於1百萬 GB。如今全球每天所製造的新資訊量大約為1 EB
- 提取-轉換-載入(ETL: Extract, Transform and Load) – 是一種用於資料庫或者資料倉儲的處理過程。即從各種不同的資料來源提取(E)資料,並轉換(T)成能滿足業務需要的資料,最後將其載入(L)到資料庫
F
- 故障切換(Failover) – 當系統中某個伺服器發生故障時,能自動地將執行任務切換到另一個可用伺服器或節點上
- 容錯設計(Fault-tolerant design) – 一個支援容錯設計的系統應該能夠做到當某一部分出現故障也能繼續執行
G
- 遊戲化(Gamification) – 在其他非遊戲領域中運用遊戲的思維和機制,這種方法可以以一種十分友好的方式進行資料的建立和偵測,非常有效。
- 圖形資料庫(Graph Databases) – 運用圖形結構(例如,一組有限的有序對,或者某種實體)來儲存資料,這種圖形儲存結構包括邊緣、屬性和節點。它提供了相鄰節點間的自由索引功能,也就是說,資料庫中每個元素間都與其他相鄰元素直接關聯。
- 網格計算(Grid computing) – 將許多分佈在不同地點的計算機連線在一起,用以處理某個特定問題,通常是通過雲將計算機相連在一起。
H
- Hadoop – 一個開源的分散式系統基礎框架,可用於開發分散式程式,進行大資料的運算與儲存。
- Hadoop資料庫(HBase) – 一個開源的、非關係型、分散式資料庫,與Hadoop框架共同使用
- HDFS – Hadoop分散式檔案系統(Hadoop Distributed File System);是一個被設計成適合執行在通用硬體(commodity hardware)上的分散式檔案系統
- 高效能運算(HPC: High-Performance-Computing) – 使用超級計算機來解決極其複雜的計算問題
I
- 記憶體資料庫(IMDB: In-memory) – 一種資料庫管理系統,與普通資料庫管理系統不同之處在於,它用主存來儲存資料,而非硬碟。其特點在於能高速地進行資料的處理和存取。
- 物聯網(Internet of Things) – 在普通的裝置中裝上感測器,使這些裝置能夠在任何時間任何地點與網路相連。
J
- 法律上的資料一致性(Juridical data compliance) – 當你使用的雲端計算解決方案,將你的資料儲存於不同的國家或不同的大陸時,就會與這個概念扯上關係了。你需要留意這些儲存在不同國家的資料是否符合當地的法律。
K
- 鍵值資料庫(KeyValue Databases) – 資料的儲存方式是使用一個特定的鍵,指向一個特定的資料記錄,這種方式使得資料的查詢更加方便快捷。鍵值資料庫中所存的資料通常為程式語言中基本資料型別的資料。
L
- 延遲(Latency) – 表示系統時間的延遲
- 遺留系統(Legacy system) – 是一種舊的應用程式,或是舊的技術,或是舊的計算系統,現在已經不再支援了。
- 負載均衡(Load balancing) – 將工作量分配到多臺電腦或伺服器上,以獲得最優結果和最大的系統利用率。
- 位置資訊(Location data) – GPS資訊,即地理位置資訊。
- 日誌檔案(Log file) – 由計算機系統自動生成的檔案,記錄系統的執行過程。
M
- M2M資料(Machine2Machine data) – 兩臺或多臺機器間交流與傳輸的內容
- 機器資料(Machine data) – 由感測器或演算法在機器上產生的資料
- 機器學習(Machine learning) – 人工智慧的一部分,指的是機器能夠從它們所完成的任務中進行自我學習,通過長期的累積實現自我改進。
- MapReduce – 是處理大規模資料的一種軟體框架(Map: 對映,Reduce: 歸納)。
- 大規模並行處理(MPP: Massively Parallel Processing) – 同時使用多個處理器(或多臺計算機)處理同一個計算任務。
- 後設資料(Metadata) – 被稱為描述資料的資料,即描述資料資料屬性(資料是什麼)的資訊。
- MongoDB – 一種開源的非關係型資料庫(NoSQL database)
- 多維資料庫(Multi-Dimensional Databases) – 用於優化資料聯機分析處理(OLAP)程式,優化資料倉儲的一種資料庫。
- 多值資料庫(MultiValue Databases) – 是一種非關係型資料庫(NoSQL), 一種特殊的多維資料庫:能處理3個維度的資料。主要針對非常長的字串,能夠完美地處理HTML和XML中的字串。
N
- 自然語言處理(Natural Language Processing) – 是電腦科學的一個分支領域,它研究如何實現計算機與人類語言之間的互動。
- 網路分析(Network analysis) – 分析網路或圖論中節點間的關係,即分析網路中節點間的連線和強度關係。
- NewSQL – 一個優雅的、定義良好的資料庫系統,比SQL更易學習和使用,比NoSQL更晚提出的新型資料庫
- NoSQL – 顧名思義,就是“不使用SQL”的資料庫。這類資料庫泛指傳統關係型資料庫以外的其他型別的資料庫。這類資料庫有更強的一致性,能處理超大規模和高併發的資料。
O
- 物件資料庫(Object Databases) – (也稱為面象物件資料庫)以物件的形式儲存資料,用於物件導向程式設計。它不同於關係型資料庫和圖形資料庫,大部分物件資料庫都提供一種查詢語言,允許使用宣告式程式設計(declarative programming)訪問物件.
- 基於物件影象分析(Object-based Image Analysis) – 數字影象分析方法是對每一個畫素的資料進行分析,而基於物件的影象分析方法則只分析相關畫素的資料,這些相關畫素被稱為物件或影象物件。
- 操作型資料庫(Operational Databases) – 這類資料庫可以完成一個組織機構的常規操作,對商業運營非常重要,一般使用線上事務處理,允許使用者訪問 、收集、檢索公司內部的具體資訊。
- 優化分析(Optimization analysis) – 在產品設計週期依靠演算法來實現的優化過程,在這一過程中,公司可以設計各種各樣的產品並測試這些產品是否滿足預設值。
- 本體論(Ontology) – 表示知識本體,用於定義一個領域中的概念集及概念之間的關係的一種哲學思想。(譯者注: 資料被提高到哲學的高度,被賦予了世界本體的意義,成為一個獨立的客觀資料世界)
- 異常值檢測(Outlier detection) – 異常值是指嚴重偏離一個資料集或一個資料組合總平均值的物件,該物件與資料集中的其他它相去甚遠,因此,異常值的出現意味著系統發生問題,需要對此另加分析。
P
- 模式識別(Pattern Recognition) – 通過演算法來識別資料中的模式,並對同一資料來源中的新資料作出預測
- P位元組(PB: Petabytes) – 約等於1000 TB(terabytes), 約等於1百萬 GB (gigabytes)。歐洲核子研究中心(CERN)大型強子對撞機每秒產生的粒子個數就約為1 PB
- 平臺即服務(PaaS: Platform-as-a-Service) – 為雲端計算解決方案提供所有必需的基礎平臺的一種服務
- 預測分析(Predictive analysis) – 大資料分析方法中最有價值的一種分析方法,這種方法有助於預測個人未來(近期)的行為,例如某人很可能會買某些商品,可能會訪問某些網站,做某些事情或者產生某種行為。通過使用各種不同的資料集,例如歷史資料,事務資料,社交資料,或者客戶的個人資訊資料,來識別風險和機遇
- 隱私(Privacy) – 把具有可識別出個人資訊的資料與其他資料分離開,以確保使用者隱私。
- 公共資料(Public data) – 由公共基金建立的公共資訊或公共資料集。
Q
- 數字化自我(Quantified Self) – 使用應用程式跟蹤使用者一天的一舉一動,從而更好地理解其相關的行為
- 查詢(Query) – 查詢某個問題答案的相關資訊
R
- 再識別(Re-identification) – 將多個資料集合並在一起,從匿名化的資料中識別出個人資訊
- 迴歸分析(Regression analysis) – 確定兩個變數間的依賴關係。這種方法假設兩個變數之間存在單向的因果關係(譯者注:自變數,因變數,二者不可互換)
- RFID – 射頻識別; 這種識別技術使用一種無線非接觸式射頻電磁場感測器來傳輸資料
- 實時資料(Real-time data) – 指在幾毫秒內被建立、處理、儲存、分析並顯示的資料
- 推薦引擎(Recommendation engine) – 推薦引擎演算法根據使用者之前的購買行為或其他購買行為向使用者推薦某種產品
- 路徑分析(Routing analysis) – 針對某種運輸方法通過使用多種不同的變數分析從而找到一條最優路徑,以達到降低燃料費用,提高效率的目的
S
- 半結構化資料(Semi-structured data) – 半結構化資料並不具有結構化資料嚴格的儲存結構,但它可以使用標籤或其他形式的標記方式以保證資料的層次結構
- 情感分析(Sentiment Analysis) – 通過演算法分析出人們是如何看待某些話題
- 訊號分析(Signal analysis) – 指通過度量隨時間或空間變化的物理量來分析產品的效能。特別是使用感測器資料。
- 相似性搜尋(Similarity searches) – 在資料庫中查詢最相似的物件,這裡所說的資料物件可以是任意型別的資料
- 模擬分析(Simulation analysis) – 模擬是指模擬真實環境中程式或系統的操作。模擬分析可以在模擬時考慮多種不同的變數,確保產品效能達到最優
- 智慧網格(Smart grid) – 是指在能源網中使用感測器實時監控其執行狀態,有助於提高效率
- 軟體即服務(SaaS: Software-as-a-Service) – 基於Web的通過瀏覽器使用的一種應用軟體
- 空間分析(Spatial analysis) – 空間分析法分析地理資訊或拓撲資訊這類空間資料,從中得出分佈在地理空間中的資料的模式和規律
- SQL – 在關係型資料庫中,用於檢索資料的一種程式語言
- 結構化資料(Structured data) -可以組織成行列結構,可識別的資料。這類資料通常是一條記錄,或者一個檔案,或者是被正確標記過的資料中的某一個欄位,並且可以被精確地定位到。
T
- T位元組(TB: Terabytes) – 約等於1000 GB(gigabytes)。1 TB容量可以儲存約300小時的高清視訊。
- 時序分析(Time series analysis) – 分析在重複測量時間裡獲得的定義良好的資料。分析的資料必須是良好定義的,並且要取自相同時間間隔的連續時間點。
- 拓撲資料分析(Topological Data Analysis) – 拓撲資料分析主要關注三點:複合資料模型、叢集的識別、以及資料的統計學意義。
- 交易資料(Transactional data) – 隨時間變化的動態資料
- 透明性(Transparency) – 消費者想要知道他們的資料有什麼作用、被作何處理,而組織機構則把這些資訊都透明化了。
U
- 非結構化資料(Un-structured data) – 非結構化資料一般被認為是大量純文字資料,其中還可能包含日期,數字和例項。
V
- 價值(Value) – (譯者注:大資料4V特點之一) 所有可用的資料,能為組織機構、社會、消費者創造出巨大的價值。這意味著各大企業及整個產業都將從大資料中獲益。
- 可變性(Variability) – 也就是說,資料的含義總是在(快速)變化的。例如,一個詞在相同的推文中可以有完全不同的意思。
- 多樣(Variety) – (譯者注:大資料4V特點之一) 資料總是以各種不同的形式呈現,如結構化資料,半結構化資料,非結構化資料,甚至還有複雜結構化資料
- 高速(Velocity) – (譯者注:大資料4V特點之一) 在大資料時代,資料的建立、儲存、分析、虛擬化都要求被高速處理。
- 真實性(Veracity) – 組織機構需要確保資料的真實性,才能保證資料分析的正確性。因此,真實性(Veracity)是指資料的正確性。
- 視覺化(Visualization) – 只有正確的視覺化,原始資料才可被投入使用。這裡的“視覺化”並非普通的圖型或餅圖,視覺化指是的複雜的圖表,圖表中包含大量的資料資訊,但可以被很容易地理解和閱讀。
- 大量(Volume) – (譯者注:大資料4V特點之一) 指資料量,範圍從Megabytes至Brontobytes
W
- 天氣資料(Weather data) – 是一種重要的開放公共資料來源,如果與其他資料來源合成在一起,可以為相關組織機構提供深入分析的依據
X
- XML資料庫(XML Databases) – XML資料庫是一種以XML格式儲存資料的資料庫。XML資料庫通常與面向文件型資料庫相關聯,開發人員可以對XML資料庫的資料進行查詢,匯出以及按指定的格式序列化
Y
- Y位元組 (Yottabytes) – 約等於1000 ZB (Zettabytes), 約等於250萬億張DVD的資料容量。現今,整個數字化宇宙的資料量為1 YB, 並且將每18年翻一番。
Z
- Z位元組 (ZB: Zettabytes) – 約等於1000 EB (Exabytes), 約等於1百萬 TB。據預測,到2016年全球範圍內每天網路上通過的資訊大約能達到1 ZB。
附:儲存容量單位換算表:
1 Bit(位元) = Binary Digit
8 Bits = 1 Byte(位元組)
1,000 Bytes = 1 Kilobyte
1,000 Kilobytes = 1 Megabyte
1,000 Megabytes = 1 Gigabyte
1,000 Gigabytes = 1 Terabyte
1,000 Terabytes = 1 Petabyte
1,000 Petabytes = 1 Exabyte
1,000 Exabytes = 1 Zettabyte
1,000 Zettabytes = 1 Yottabyte
1,000 Yottabytes = 1 Brontobyte
1,000 Brontobytes = 1 Geopbyte