區塊鏈概念1:Hash演算法

雪花又一年發表於2018-04-17

問題導讀
1.雜湊演算法在區塊鏈的作用是什麼?
2.什麼是雜湊演算法?
3.雜湊演算法是否可逆?
4.比特幣採用的是什麼雜湊演算法?

作用
在學習雜湊演算法前,我們需要知道雜湊在區塊鏈的作用
雜湊演算法的作用如下:
區塊鏈通過雜湊演算法對一個交易區塊中的交易資訊進行加密,並把資訊壓縮成由一串數字和字母組成的雜湊字串。

區塊鏈的雜湊值能夠唯一而精準地標識一個區塊,區塊鏈中任意節點通過簡單的雜湊計算都接獲得這個區塊的雜湊值,計算出的雜湊值沒有變化也就意味著區塊鏈中的資訊沒有被篡改。

定義

hash (雜湊或雜湊)演算法是資訊科技領域非常基礎也非常重要的技術。它能任意長度的二進位制值(明文)對映為較短的固定長度的二進位制值(hash 值),並且不同的明文很難對映為相同的 hash 值。

例如計算一段話“hello blockchain world, this is yeasy@github”的 md5 hash 值為 89242549883a2ef85dc81b90fb606046。

$ echo “hello blockchain world, this is yeasy@github”|md5
89242549883a2ef85dc81b90fb606046
這意味著我們只要對某檔案進行 md5 hash 計算,得到結果為 89242549883a2ef85dc81b90fb606046,這就說明檔案內容極大概率上就是 “hello blockchain world, this is yeasy@github”。可見,hash 的核心思想十分類似於基於內容的編址或命名。

注:md5 是一個經典的 hash 演算法,其和 SHA-1 演算法都已被 證明 安全性不足應用於商業場景。

一個優秀的 hash 演算法,將能實現:

正向快速:給定明文和 hash 演算法,在有限時間和有限資源內能計算出 hash 值。
逆向困難:給定(若干) hash 值,在有限時間內很難(基本不可能)逆推出明文。
輸入敏感:原始輸入資訊修改一點資訊,產生的 hash 值看起來應該都有很大不同。
衝突避免:很難找到兩段內容不同的明文,使得它們的 hash 值一致(發生衝突)。
衝突避免有時候又被稱為“抗碰撞性”。如果給定一個明文前提下,無法找到碰撞的另一個明文,稱為“抗弱碰撞性”;如果無法找到任意兩個明文,發生碰撞,則稱演算法具有“抗強碰撞性”。

流行的演算法

目前流行的 hash 演算法包括 MD5(已被證明不夠安全)和 SHA-1,兩者均以 MD4 為基礎設計的。

MD4(RFC 1320)是 MIT 的 Ronald L. Rivest 在 1990 年設計的,MD 是 Message Digest 的縮寫。其輸出為 128 位。MD4 並不足夠安全。

MD5(RFC 1321)是 Rivest 於1991年對 MD4 的改進版本。它對輸入仍以 512 位分組,其輸出是 128 位。MD5 比 MD4 複雜,並且計算速度要慢一點,但更安全一些。MD5 並不足夠安全。

SHA1 (Secure Hash Algorithm)是由 NIST NSA 設計,它的輸出為長度 160 位的 hash 值,因此抗窮舉性更好。SHA-1 設計時基於和 MD4 相同原理,並且模仿了該演算法。

為了提高安全性,NIST NSA 還設計出了 SHA-224、SHA-256、SHA-384,和 SHA-512 演算法(統稱為 SHA-2),跟 SHA-1 演算法原理類似。

效能

一般的,hash 演算法都是算力敏感型,意味著計算資源是瓶頸,主頻越高的 CPU 進行 hash 的速度也越快。

也有一些 hash 演算法不是算力敏感的,例如 scrypt,需要大量的記憶體資源,節點不能通過簡單的增加更多 CPU 來獲得 hash 效能的提升。
數字摘要

顧名思義,數字摘要是對數字內容進行 hash 運算,獲取唯一的摘要值來指代原始數字內容。

數字摘要是解決確保內容沒被篡改過的問題(利用 hash 函式的抗碰撞性特點)。

數字摘要是 hash 演算法最重要的一個用途。

在網路上下載軟體或檔案時,往往同時會提供一個數字摘要值,使用者下載下來原始檔案可以自行進行計算,並同提供的摘要值進行比對,以確保內容沒有被修改過。

##########################
對於雜湊,我們可能認識還不夠徹底,下面在補充一些內容

解釋1:
把網址A,轉換成數字1。網址B,轉換成數字2。一個網址X,轉換成數字N,根據數字N作為下標,就可以快速地查詢出網址X的資訊。這個轉換的過程就是雜湊演算法。雜湊演算法並不是一種特定的演算法,只要能完成這種轉換的演算法都是雜湊演算法。但是評定一個演算法是否是好的雜湊演算法,要根據演算法的離散度和衝突概率來評定。

解釋2:
什麼是雜湊表和雜湊演算法?比如這裡有一萬首歌,給你一首新的歌X,要求你確認這首歌是否在那一萬首歌之內。無疑,將一萬首歌一個一個比對非常慢。但如果存在一種方式,能將一萬首歌的每首資料濃縮到一個數字(稱為雜湊碼)中,於是得到一萬個數字,那麼用同樣的演算法計算新的歌X的編碼,看看歌X的編碼是否在之前那一萬個數字中,就能知道歌X是否在那一萬首歌中。作為例子,如果要你組織那一萬首歌,一個簡單的雜湊演算法就是讓歌曲所佔硬碟的位元組數作為雜湊碼。這樣的話,你可以讓一萬首歌“按照大小排序”,然後遇到一首新的歌,只要看看新的歌的位元組數是否和已有的一萬首歌中的某一首的位元組數相同,就知道新的歌是否在那一萬首歌之內了。當然這個簡單的雜湊演算法很容易出現兩者同樣大小的歌曲,這就是傳送了碰撞。而好的雜湊演算法發生碰撞的機率非常小。

解釋3:
這個HASH演算法不是大學裡資料結構課裡那個HASH表的演算法。這裡的HASH演算法是密碼學的基礎,比較常用的有MD5和SHA,最重要的兩條性質,就是不可逆和無衝突。所謂不可逆,就是當你知道x的HASH值,無法求出x;所謂無衝突,就是當你知道x,無法求出一個y, 使x與y的HASH值相同。這兩條性質在數學上都是不成立的。因為一個函式必然可逆,且由於HASH函式的值域有限,理論上會有無窮多個不同的原始值,它們的hash值都相同。MD5和SHA做到的,是求逆和求衝突在計算上不可能,也就是正向計算很容易,而反向計算即使窮盡人類所有的計算資源都做不到。我覺得密碼學的幾個演算法(HASH、對稱加密、公私鑰)是電腦科學領域最偉大的發明之一,它授予了弱小的個人在強權面前資訊的安全(而且是絕對的安全)。舉個例子,只要你一直使用https與國外站點通訊,並注意對方的公鑰沒有被篡改,G**W可以斷開你的連線,但它永遠不可能知道你們的傳輸內容是什麼。

解釋4:

解讀區塊鏈,區塊鏈中HASH演算法

區塊鏈技術是一系列技術的結合,建立一種新的技術架構,hash演算法是其中尤為重要的一塊,這裡簡單對hash演算法做一個說明。如果有理解不當的地方請及時指正。

講hash演算法之前先明確一個基礎的計算機知識,計算機在底層機器碼是採用二進位制的模式,所謂二進位制簡單來說就是底層以0/1來標識,所有資料傳輸記錄都以010101的模式來儲存記錄,兩種狀態也可認為就是一個日常生活中的開關,1標識開,0標識關。那麼計算機中最小的資料單位也就是這裡說的0或者1,這裡我們稱為bit(位元或者位),8個bit組成一個位元組。當然計算機中也有八進位制、十六進位制的表示,這裡暫時不展開討論。只明確底層一個二進位制的概念。

Hash演算法將任意長度的二進位制值對映為較短的固定長度的二進位制值,這個小的二進位制值稱為雜湊值。雜湊值是一段資料唯一且極其緊湊的數值表示形式。如果雜湊一段明文而且哪怕只更改該段落的一個字母,隨後的雜湊都將產生不同的值。要找到雜湊為同一個值的兩個不同的輸入,在計算上是不可能的,所以資料的雜湊值可以檢驗資料的完整性。一般用於快速查詢和加密演算法。

再引入一個hash表概念,計算機資料結構中,給定一個表M,關鍵字key,存在函式H(key),對任意給定的關鍵字值key,代入函式後若能得到包含該關鍵字的記錄在表中的地址,則稱表M為hash表。

簡單理解hash演算法就是這一種單向的加密,一個明文加密稱為密文,不可逆推,只有加密過程,沒有解密過程。說明了hash函式和hash表的概念,那麼目前常用的hash演算法有MD5(已被破解),SHA系列演算法(比特幣中使用sha-256演算法)。SHA這裡稍微提下(secure hash algorithm)這不是一個演算法,這是一個hash函式集,現在有sha-224、sha-256、sha-384、sha-512等演算法。在09年中本聰設計比特幣的時候,當時sha-256被認為最安全的演算法之一,故選擇了sha-256,到目前為止還沒有被破解。

解釋到這裡,可能會聯想到,hash演算法中key在計算後如果出現了同一位置,衝突的產生,這裡簡單說下幾種衝突處理,如有興趣可以檢視hash演算法論文。

1.拉鍊法:這種方法可以完全避免衝突,將所有關鍵字為同義詞的結點連結在同一個單連結串列中。若選定的雜湊表長度為m,則可將雜湊表定義為一個由m個頭指標組成的指標陣列t[0..m-1]。凡是雜湊地址為i的結點,均插入到以t為頭指標的單連結串列中。t中各分量的初值均應為空指標。在拉鍊法中,裝填因子α可以大於1,但一般均取α≤1。

2.多雜湊法:設計兩種以上的hash函式,避免衝突,這個感覺比較不靠譜,但是從概率上來說多種hash函式還是降低了衝突的出現。

3.開放地址法:開放地址法有一個公式:Hi=(H(key)+di) MOD m i=1,2,…,k(k<=m-1),其中,m為雜湊表的表長。di 是產生衝突的時候的增量序列。如果di值可能為1,2,3,…m-1,稱線性探測再雜湊。如果di取1,則每次衝突之後,向後移動1個位置.如果di取值可能為1,-1,4,-4,9,-9,16,-16,…k*k,-k*k(k<=m/2),稱二次探測再雜湊。如果di取值可能為偽隨機數列。稱偽隨機探測再雜湊。

    Hash演算法函式根據分類:加法hash、位運算hash、乘法hash、除法hash、查表hash等。

參考百度百科說的比較抽象,有興趣可以深入瞭解下。

結合區塊鏈,在區塊鏈中很多地方都用到了hash函式:

1.區塊鏈中節點的地址、公鑰、私鑰的計算。以地址為例:公鑰經過一次SHA256計算,再進行一次RIPEMD160計算,得到一個公鑰雜湊(20位元組160位元),新增版本資訊,再來兩次SHA256運算、取前4位元位元組,放到雜湊公鑰加版本資訊後,再經過base58編碼,最終得到地址。

1620

2.merkle tree:是資料結構中的一種樹結構,可以是二叉樹,也可以是多叉樹,他和資料結構中樹的特點幾乎一致,和普通樹不同的是:merkle tree上的葉節點存放hash計算後的hash值,非葉節點是其對應的子節點串聯的字串的hash值。用於區塊頭和SPV認證中。

3.比特幣中的挖礦,工作量證明(pow),計算的其實就是一個nonce,當這個隨機數和其他雜湊過的資料合併時,產生一個比規定目標小(target)值。挖礦也可以理解一種快速不可逆的計算。SHA256(SHA256(version + prev_hash + merkle_root + ntime + nbits + x )) < TARGET。

4.比特幣中的bloom filter布隆過濾器,布隆過濾器基於hash函式的快速查詢。解決了客戶端檢索的問題,原理是Bloom filter可以快速判斷出某檢索值一定不存在於某個指定的集合,從而可以過濾掉大量無關資料,減少客戶端不必要的下載量。

簡單介紹了HASH演算法,和區塊鏈中用到的HASH演算法,區塊鏈是多個技術的結合,結合各自特點出現的一種新的技術架構,HASH演算法和加密技術為區塊鏈的自證信任化及安全控制提供了基礎,演算法的碰撞和現在量子計算的發展,之前在區塊鏈的安全性的文章中筆者有過說明,技術不斷髮展,肯定會有更適合的技術保障應用的實現。

原文釋出時間為:2018-03-16
本文作者:使用者1410343
本文來源:騰訊雲 雲+社群,如需轉載請聯絡原作者。


相關文章