寫在前面
開發 hashset 常用的套路:
map[int]int8
map[int]bool複製程式碼
我們一般只用 map 的鍵來儲存資料,值是沒有用的。所以來快取集合資料會造成記憶體浪費。
空物件
空物件是個神奇的東西。它指的是沒有欄位的結構型別。
type Q struct{}複製程式碼
它牛逼的地方在於:
可以和普通結構一樣操作
var a = []struct{}{struct{}{}} fmt.Println(len(a)) // prints 1複製程式碼
不佔用空間
var s struct{} fmt.Println(unsafe.Sizeof(s)) // prints 0複製程式碼
宣告兩個空物件,它們指向同一個地址
type A struct{} a := A{} b := A{} fmt.Println(&a == &b) // prints true複製程式碼
造成這個結果的原因是 Golang 的編譯器會把這種空物件都當成runtime.zerobase
處理。
var zerobase uintptr複製程式碼
hashset
有了上面的介紹,就可以利用空結構來優化 hashset 了。
var itemExists = struct{}{}
type Set struct {
items map[interface{}]struct{}
}
func New() *Set {
return &Set{items: make(map[interface{}]struct{})}
}
func (set *Set) Add(item interface{}) {
set.items[item] = itemExists
}
func (set *Set) Remove(item interface{}) {
delete(set.items, item)
}
func (set *Set) Contains(item interface{}) bool {
if _, contains := set.items[item]; !contains {
return false
}
return true
}複製程式碼
一個簡易的 hashset 實現就完成了。
效能比較
func BenchmarkIntSet(b *testing.B) {
var B = NewIntSet(3)
B.Set(10).Set(11)
for i := 0; i < b.N; i++ {
if B.Exists(1) {
}
if B.Exists(11) {
}
if B.Exists(1000000) {
}
}
}
func BenchmarkMap(b *testing.B) {
var B = make(map[int]int8, 3)
B[10] = 1
B[11] = 1
for i := 0; i < b.N; i++ {
if _, exists := B[1]; exists {
}
if _, exists := B[11]; exists {
}
if _, exists := B[1000000]; exists {
}
}
}
BenchmarkIntSet-2 50000000 35.3 ns/op 0 B/op 0 allocs/op
BenchmarkMap-2 30000000 41.2 ns/op 0 B/op 0 allocs/op複製程式碼
結論
- 效能,有些提升,但不是特別明顯。尤其是線上壓力不大的情況效能應該不會有明顯變化;
- 記憶體佔用。我們的服務快取較多、佔用記憶體較大,通過這個優化實測可以減少 1.6 GB 的空間。不過這個優化的空間取決於資料量。
參考文獻
- 【1】The empty struct - Dave Cheney
- 【2】gods - emirpasic
- 【3】 《Go 語言學習筆記》 - 雨痕。5.5 結構。