似乎是最實用的hashtable知識總結

justisme發表於2020-05-06

雜湊表:將物件轉換為索引,然後儲存在陣列中。

定義注意點:

  • 物件:就是物件導向中的物件,可以為任何東西。整數、浮點數、日期、字串、類。
  • 轉換:通過hash函式來完成,hash函式是hash表的核心與難點。對於整數,可以將取模運算作為hash函式
  • 陣列:hash表本質是就是一個陣列(靜態、動態),這也是名稱中"表"的含義。

體現的計算機思想: 空間換時間

思考角度,當空間無限時,可以使用O(1)完成各項操作,當空間只要1個時,就退化為線性表O(n)。

雜湊表關注的核心問題

  • 雜湊函式如何設計
  • 如何解決hash衝突

對於不同的關鍵字得到了同一個hash地址,這種現象稱為hash衝突(collision),形式化為:key1≠key2,f(key1)==f(key2),其中f為hash函式。

hash函式的設計原則

  • 一致性:如果a==b,則hash(a)==hash(b),這是java自定義類時必須需重寫的hashcode方法原因。

  • 高效性:計算高效便捷,O(1),這也是使用動態陣列,在適當的情況下resize的原因。

  • 均勻性雜湊值的分佈越均勻越好這就是取模法中模為質數的原因

整數轉換為索引的方法:取模法

hashcode=val%M,其中M為一個質數,M的參考取值請點選這兒。注意,公式總val為正整數,如果型別為int,可以先進行去除符號操作:val=val&ox7fffffff。因為從二進位制的角度看ox7fffffff就是0和31個1,正好把符號位過濾掉。

任何物件都可以表示為整數。

  • 浮點數:在計算機內部都是用32位或者64位二進位制表示,從整數的角度去解析這些位,就找到了浮點數對應的整數。
  • 字串:字串本質上可以理解為B(base)進位制數,其中B可以是不同字串的個數。例如26。也可以是任意設定的一個質數。
    • 例如:code=c*26^3+o*26^2+d*26^1+e*26^0
    • 例如:abcd=a*B^3+b*B^2+c*B^1+d*B^0

進製表示的形式簡化以及程式設計實現:

hash(code)=(c*B^3+o*B^2+d*B^1+e*B^0)%M,可以表示為每一位乘以base,在加下一位

=((((c*B+o)*B+d)*B+e)%M,很重要,在java字串的hashcode方法中B=31

=((((c%M)*B+o)%M*B+d)%M*B+e)%M,取餘操作可以拿到括號裡面去。(此性質快速冪演算法中很常用)

int hash=0;
for(int i=0;i<s.length;i++){
    hash=(hash*B+s.charAt(i))%M;
}
//java中B的是31,不在乎是否溢位,只要返回的是一個整數就OK,不知道M是什麼,所以就沒有出現M。
  • 日期型別考慮每個部分,每部分表示不同的權重(進位制思維)。

    • Date: year,month,day,則hash(date)=(((date.year%M)*B+date.month%M)*B+date.day)%M
  • 分別將類的每一個欄位當做B進位制中的某一位。依據B進位制數進行轉換。

當將自定義的類作為hashmap和hashSet的Key時,必須重寫hashcode方法和equal方法。

1.因為預設的hashcode()方法取物件的地址為基礎獲得的,而new()同一類的不同例項物件地址不同,使得hashcode的結果也不同,這就不滿足一致性,例如,new Person("小明")兩次,它們的hashcode不同,但這顯然就不合理。

2.重寫hashcode()只是為了獲得正確的hash值,但當衝突了,還需要逐個欄位進行比較才能確定是否相等,這就要求重寫equal來完成,因為預設的equal就等於==,含義為比較物件地址。

自定義hashcode和equals的例項

基本思路利用已有基本型別的包裝類和String類的hashcode()方法來生成我們的hashcode()

public class Student {
    Integer grade;
    Integer cls;
    String name;
//省去無關程式碼
    @Override
    public int hashCode() {//套路:模仿String,Base取31
        int B=31;
        int hash=0;
        hash=hash*B+grade.hashCode();
        hash=hash*B+cls.hashCode();
        hash=hash*B+name.hashCode();
        return hash;
    }

    @Override
    public boolean equals(Object obj) {//有套路,逐個欄位比較
        if(this==obj) return true;
        if(obj==null)return false;
        if(this.getClass()!=obj.getClass()) return  false;
        Student another=(Student) obj;
        return this.grade.equals(another.grade) &&
                this.cls.equals(another.cls) &&
                this.name.equals(another.name);//字串比較相等,equals
    }
}

完整程式碼以及測試用例,請點選這兒

hash衝突的解決方法:鏈地址法

陣列中每個元素保留的是地址。陣列中每個元素的位置是N%M

去掉符號位:hashcode(k1)&0X7FFFFFFF

動態空間(擴容和縮容)處理N/M>=upperTolN/M<lowerTol

實現自己的hashtable,採用TreeMap作為連結衝突元素的容器

都是先獲得key索引,然後再獲某個元素。TreeMap<K,V> map=hashtable[hash(key)]

完整原始碼及測試程式碼請點選這兒

更多關於hash衝突的辦法

  1. 開放地址法。
  2. 再雜湊法:rehashing.

相關文章