大資料相關術語(2)

親吻昨日的陽光發表於2015-04-28
27.LDB(local DataBase):本地資料庫
本地資料庫是指駐留於執行客戶應用程式的機器上的資料庫。本地資料庫提供最快的相應時間。因為在客戶端沒有網路傳輸。

本地資料庫位於本地磁碟或區域網上。如果有幾個使用者同時訪問資料庫,本地資料庫採取攘於檔案的鎖定策略。因此本地資料庫叫基於檔案的資料庫。典型的有Paradox、dBasep、FoxPro、Access。


28.DAQ(data Acquisition):資料採集
資料採集是指將被測物件的各種參量通過各種感測器做適當轉換後,在經過訊號調理、取樣、量化、編碼、傳輸等步驟傳遞到控制器的過程。
各類資料採集系統的資料採集過程基本相同,一般包括這樣幾個步驟:
1.用感測器感受各種物理量,並把他們轉換為電訊號;
2.通過A/D轉換,模擬量的資料轉變為數字量的資料;
3.資料的記錄,列印輸出或存入磁碟檔案;
各種資料採集系統所用的資料採集程式有:

大型專用程式、固話的採集程式(小型專用系統)、利用軟體工具使用者自行編制的採集程式(組合式系統)


29.data model:資料模型

資料模型是顯示世界資料特徵的抽象,用於描述一組資料的蓋面和定義。資料模型數受苦中資料的儲存方式,是資料庫系統的基礎。在資料庫中,資料的物理結構成為資料的儲存結構,就是資料元素在計算機儲存器中的表示及其配置;資料的邏輯結構則是指資料元素之間的邏輯關係,它是資料在使用者或程式設計師面前的表現形式,資料的儲存結構不一定與邏輯結構一致。


30.正規化(資料庫術語)
正規化是符合某一種級別的關係模式的集合,關聯式資料庫中的關係必須滿足一定的要求,滿足不同程度要求的為不同正規化。

目前正規化有:第一正規化、第二正規化、第三正規化、BC正規化、第四正規化、第五正規化。


31:資料壓縮(data compression):
資料壓縮是以及可能少的數碼來表示信源發出的訊號,較少容納給定的訊息集合或資料取樣集合的訊號空間。這裡的訊號空間,就是被壓縮的物件,是指某訊號集合所佔的時域、空域和頻域。訊號空間的這幾種形式是仙童冠樑的,儲存空間的減少,意味著訊號傳輸效率的提高,所佔頻寬的節省。只要採取某種方式來減少某個訊號空間,就能夠壓縮資料。

資料壓縮是資訊理論中的一個很重要的概念。從資訊理論的角度來講,信源編碼的一個最主要的目的就是要解決資料的壓縮問題。這一點,反映在整個通訊過程中。


32.資料恢復(data recovery)

資料恢復是指由於各種原因導致資料損失時,把保留在介質上的資料重新還原。及時資料被刪除或硬碟出現故障,在介質沒有嚴重受損的情況下,資料均有可能被無損恢復。格式化或誤刪除引起的資料損失情況,大部分資料未損壞。只要通過軟體重新恢復連線環節,即可重讀資料。如果硬碟因硬體損壞無法訪問,只要更換髮生故障的零件,即可恢復資料。但在介質嚴重受損或資料被覆蓋時,資料極難恢復。


33.資料整合(data integtation)

資料整合就是講若干個分散的資料來源中的資料、邏輯的或物理的整合到一個同意的資料集合中。資料整合的核心任務是要講互聯的分散式異構資料來源整合到一起,使使用者能夠以透明的方式訪問這些資料來源。整合是指維護資料來源整體上的資料一致性、提高資訊共享利用的效率;透明的方式是指使用者無需關係如何實現對異構資料來源資料的訪問,只關心以何種方式訪問何種資料。實現資料整合的系統成為資料整合系統。他為使用者提供統一的資料來源訪問介面,執行使用者對資料來源的訪問請求。


34.資料遷移(data migration)

資料遷移是資料系統整合中保證系統平滑升級和更新的關鍵部分。在資訊化建設過程中,隨著技術的發展,原有的資訊系統不斷被功能更強大的新系統所取代,從兩層結構到三層結構,從C/S到B/S 。在新舊系統的切換過程中,必然要面臨一個資料遷移的問題。


35.資料來源(data element)

資料元即資料元素,是通過定義、標識、表示和允許值等一系列屬性描述的資料單元,在一定語境下,構建一個語義正確、獨立且無I儀的特定概念語義的資訊單元。資料元可理解為資料的基本單元,將若干具有相關性的疏遠按一定次序組成一個整體結構即資料模型。


36.資料冗餘(data redundancy)

資料冗餘是指同一個資料在系統中多次重複出現。在檔案系統中,由於檔案之間沒有聯絡,有時一個資料在多檔案中出現;而資料庫系統則克服了檔案系統的這種缺陷,但仍然存在資料冗餘問題。消除資料冗餘的目的是為了避免更新時可能出現的問題,以便保持資料的一致性。


37.資料抽取

資料抽取是從資料來源總抽取資料的過程。資料抽取是指從源資料來源系統抽取目的資料來源系統需要的資料。實際應用中個,多采用關聯式資料庫。


38.資料標準化(data standardization)

資料標準化是指研究、制定 和推廣應用統一的資料分類分級、記錄格式及轉換、編碼等技術標準的過程


39.資料備份(data backup)
資料備份是把檔案或資料庫從原來的儲存地方複製到其他地方的活動,其目的是為了在這杯發生故障或其他威脅資料安全的災害時保護資料,將資料遭受破壞的程度見到最小。取回原先備份檔案的過程叫做資料恢復
1.完全備份(Full backup)
這種備份策略優點是當發生資料丟失的災難時,可以徐蘇恢復丟失的資料。
不足:每天對整個系統進行完全備份,造成備份的資料大量重複。對於業務繁忙、備份時間有限的使用者,選擇這種策略不明智
2.增量備份(Incremental Backup)
先進行一次完全備份,接下來對當前新的或被修改過的資料進行備份,節省磁碟空間,縮短備份時間;缺點是當災難發生時,資料的恢復比較麻煩,備份的可靠性很差
3.差分備份(Differential Backup)

先進行系統完全備份,接下來將當天所有與備份不同的資料備份到磁碟上。避免了以上兩種側羅的缺陷,有具有其所有優點。首先,它無需每天對系統做完全備份,因此節省時間和磁碟空間。其次,災難恢復也很方便,一旦發生問題,使用者只需要使用完全備份和發生問題前一天的備份就可以將系統恢復。


40.貪心演算法(Greedy algorithm)
貪心演算法是指在對問題求解時,總是做出在當前看來是最好的選擇。也就是說,不從整體最優上加以考慮,他所做出的僅僅是在某種意義上的局域最優解。

貪心演算法不是對所有的問題都能得到整體最優解,關鍵是貪心策略的選擇,選擇貪心策略必須具備無後效性,即某個狀態以前的過程不會影響以後的狀態,只與當前狀態有關。


41.分治法(Divide and Conquer)

在電腦科學中分治法是一種很重要的演算法,分而治之。就是把複雜的問題分成兩個或更多的相同或相似的子問題,再把子問題分成更小的子問題。知道最後子問題可以簡單的直接求解。原問題的解即子問題的解的合併。這個技巧是很多高效演算法的基礎(排序演算法、傅立葉變換)


42.動態規劃(Dynamic programming)

動態規劃是運籌學的一個分支,是求解決策過程最優化的數學方法。把多階段過程轉化為一系列單階段問題,利用各階段間的關係,逐個求解。


43.迭代法(Iterative Method)

迭代法也稱輾轉法,是一種不斷用變數的舊值遞推心智的過程。迭代分為精確迭代和金絲迭代。"二分法"和"牛頓迭代法"屬於近似迭代法。迭代演算法是計算機解決問題的基本方法。利用計算機運速塊,適合做重複操作特點,讓計算機對一組指定重複執行。在每次執行時,都從變數的原值推出它的新值


44.分支界限法(branch and bound method)
是用途十分廣泛的演算法,運用這種演算法的技巧性很強,不同型別的問題解法也不同。

基本思想:對有約束條件的最優化問題的所有可行解空間進行搜尋。該演算法在具體執行時,把全部可行的解空間不斷分割為越來越小的子集(分支),併為每個子集內的解的值計算一個下界或上界(定界).在每次分支後,對凡是界限超出已知可行解值那些子集不再做進一步分支。這樣,解的許多子集就可以不予考慮了,從而縮小搜尋範圍。這一過程直到進行到找到可行解為止,該可行解的值不大於任何子集的界限。因此這種演算法一般可以求得最優解。


45.割圓術(cyclotomic method)
用圓內接正多邊形的面積去無限逼近圓面積並以此求取圓周率的方法

相關文章