Go死鎖——當Channel遇上Mutex時

Go和分散式IM發表於2022-07-13

原文網址 : https://www.cnblogs.com/wishFreedom/p/16473195.html

GoMutex

背景

用metux lock for迴圈，在for迴圈中又向帶緩衝的Channel 寫資料時，千萬要小心死鎖！

最近，我在測試ws長連結閘道器，平均一個星期會遇到一次服務假死問題，因為並不是所有routine被阻塞，故runtime的檢查無法觸發，http health check又是另開的一個埠，k8s檢查不到異常，無法重啟服務。

經過一番排查論證之後，確定了是 混用帶緩衝的Channel和Metux造成的死鎖（具體在文末總結）問題，請看下面詳細介紹。

死鎖現象

我們使用了gin框架，預先接入了pprof封裝元件，這樣通過http（非生產）就能很方便的檢視go runtime的一些資訊。

果不其然，我們開啟後發現了大量的 goroutine洩漏：

點開 full goroutiine stack dump，可以看到有很多死鎖等待，導致goroutine被阻塞：

其中：

semacquire阻塞：有9261/2 個 routine
chan send阻塞：有9處

問題出在哪裡？

啟發

有一個作者：https://wavded.com/post/golang-deadlockish/ 分享了一個類似的問題。

下面是引用的部分正文內容。

1）Wait your turn

在我們為應用程式提供的一項支援服務中，每個組都有自己的Room，可以這麼說。我們在向房間廣播訊息之前鎖定了members列表，以避免任何資料競爭或可能的崩潰。像這樣：

func (r *Room) Broadcast(msg string) {
        r.membersMx.RLock()
        defer r.membersMx.RUnlock()
        for _, m := range r.members {
                if err := s.Send(msg); err != nil { // ❶
                       log.Printf("Broadcast: %v: %v", r.instance, err)
                }
        }
}

請注意，我們等待❶，直到每個成員收到訊息，然後再繼續下一個成員。這很快就會成為問題。

2）另一個線索

測試人員還注意到，他們可以在重新啟動服務時進入房間，並且事情似乎在一段時間內執行良好。然而，他們一離開又回來，應用程式就停止了正常工作。事實證明，他們被這個向房間新增新成員的功能結束通話了：

func (r *Room) Add(s sockjs.Session) {
        r.membersMx.Lock() // ❶
       r.members = append(r.members, s)
        r.membersMx.Unlock()
}

我們無法獲得鎖❶，因為我們的 Broadcast 函式仍在使用它來傳送訊息。

分析

得益於上面的思路，我發現確實有大量的死鎖發生在 Add 位置：

和 wavded 直接呼叫 Send() 不同，我們是往一個帶緩衝的channel中寫資料（因為使用了 github.com/gorilla/websocket 包，它的 Writer() 函式不是執行緒安全的，故需要自己開一個Writer routine來處理資料的傳送邏輯）：

func (ud *UserDevice) SendMsg(ctx context.Context, msg *InternalWebsocketMessage) {
   // 注意，不是原生的Write
   if err = ud.Conn.Write(data); err != nil {
      ud.L.Debug("Write error", zap.Error(err))
   }
}
 
func (c *connectionImpl) Write(data []byte) (err error) {
   wsMsgData := &MsgData{
      MessageType: websocket.BinaryMessage,
      Data:        data,
   }
 
   c.writer <- wsMsgData // 注意這裡，writer是有緩衝的，數量目前是10，如果被寫滿，就會阻塞
   return
}

然後在給room下面的使用者廣播訊息的業務程式碼（實際有刪減）呼叫：

func (m *userManager) BroadcastMsgToRoom(ctx context.Context, msg *InternalWebsocketMessage, roomId []int64) {
   // 這裡有互斥鎖，確保map的遍歷
   m.RLock()
   defer m.RUnlock()
 
   // m.users 是一個 map[int64]User型別 
   for _, user := range m.users {
      user.SendMsg(ctx, msg)   // ❶
   }
}

當這個channel寫滿了，位置 ❶ 的程式碼就會被阻塞，從而下面的邏輯也會阻塞（因為它一直在等待讀鎖釋放）：

func (m *userManager) Add(device UserDeviceInterface) (User, int) {
   uid := device.UID()
 
   m.Lock() // ❶
   defer m.Unlock()
 
   user, ok := m.users[uid]
   if !ok {
      user = NewUser(uid, device.GetLogger())
      m.users[uid] = user
   }
 
   remain := user.AddDevice(device)
   return user, remain
}

那麼，當一個ws連線建立後，它對應的go routine也就一直阻塞在 Add中了。

func onWSUpgrade(ginCtx *gin.Context) {
   // ...
   utils.GoSafe(ctx, func(ctx context.Context) {
      // ...
      userDevice.User, remain = biz.DefaultUserManager.Add(userDevice)
   }, logger)
}

但是 c.writer <- wsMsgData 為什麼會滿了呢？再繼續跟程式碼，發這裡原來有個超時邏輯：

func (c *connectionImpl) ExecuteLogic(ctx context.Context, device UserDeviceInterface) {
   
   go func() {
      for {
         select {
         case msg, ok := <-c.writer:
            if !ok {
               return
            }
 
            // 寫超時5秒
            _ = c.conn.SetWriteDeadline(time.Now().Add(types.KWriteWaitTime))
            if err := c.conn.WriteMessage(msg.MessageType, msg.Data); err != nil {
               c.conn.Close()
               c.onWriteError(err, device.UserId(), device.UserId())
               return
            }
         }
      }
   }()
}

這下就能解釋的通了！

別人是如何解決的？

既然有人遇到了同樣的問題，我猜一些開源專案中可能就有一些細節處理，開啟goim（https://github.com/Terry-Mao/goim），看到如下細節：

// Push server push message.
func (c *Channel) Push(p *protocol.Proto) (err error) {
    select {
    case c.signal <- p:
    default:
        err = errors.ErrSignalFullMsgDropped
    }
    return
}

有一個select，發現了嗎？如果c.signal緩衝區滿，這個i/o就被阻塞，select輪詢機制會執行到default，那麼呼叫方在迴圈中呼叫Push的時候，也不會block了。

修改為下面程式碼，問題解決：

func (c *connectionImpl) Write(data []byte) (err error) {
   wsMsgData := &MsgData{
      MessageType: websocket.BinaryMessage,
      Data:        data,
   }
 
   // if buffer full, return error immediate
   select {
   case c.writer <- wsMsgData:
   default:
      err = ErrWriteChannelFullMsgDropped
   }
   return
}

後記

其實runtime是自帶死鎖檢測的，只不過比較嚴格，僅當所有的goroutine被掛起時才會觸發：

func main() {
    w := make(chan string, 2)
 
    w <- "1"
    fmt.Println("write 1")
 
    w <- "2"
    fmt.Println("write 2”)
 
    w <- "3"
}

上面的程式碼建立了帶緩衝的channel，大小為2。然後向其中寫入3個字串，我們故意沒有起go routine來接收資料，來看看執行的效果：

write 1
write 2
fatal error: all goroutines are asleep - deadlock!
 
goroutine 1 [chan send]:
main.main()
        /Users/xu/repo/github/01_struct_mutex/main.go:133 +0xdc
exit status 2

這個程式只有一個 main routine（runtime建立），當它被阻塞時，相當於所有的go routine被阻塞，於是觸發 deadlock 報錯。

我們改進一下，使用 select 來檢查一下channel，發現滿了就直接返回：

func main() {
    w := make(chan string, 2)
 
    w <- "1"
    fmt.Println("write 1")
 
    w <- "2"
    fmt.Println("write 2")
 
    select {
    case w <- "3":
        fmt.Println("write 3")
    default:
        fmt.Println("msg flll")
    }
}

此時，不會觸發死鎖：

write 1
write 2
msg flll

總結

用metux lock for迴圈，在for迴圈中又向帶緩衝的Channel 寫資料時，千萬要小心死鎖！

Bad：

func (r *Room) Broadcast(msg string) {
        r.mu.RLock()
        defer r.mu.RUnlock()
        for _, m := range r.members {
            r.writer <- msg // Bad
        }
}

Good：

func (r *Room) Broadcast(msg string) {
        r.mu.RLock()
        defer r.mu.RUnlock()
 
        for _, m := range r.members {
 
           // Good?
           select {
            case c.writer <- wsMsgData:
            default:
               fmt.Println(“ErrWriteChannelFullMsgDropped”)
            }
        }
}

最後，丟擲2個問題

當帶緩衝的channel 被寫滿時，到底是應該阻塞好？還是丟棄立即返回錯誤好？
為什麼不用 len(w) == cap(w) 判斷channel是否寫滿呢？

第1個問題：我的答案是，根據實際業務特點決定。

第2個問題：我也暫時無法回答。

——————傳說中的分割線——————

大家好，我目前已從C++後端轉型為Golang後端，可以訂閱關注下《Go和分散式IM》公眾號，獲取一名轉型萌新Gopher的心路成長曆程和升級打怪技巧。

當 Go struct 遇上 Mutex
2021-04-21
GoStructMutex
當 Go 遇上了 Lua
2019-03-12
Go
Go語言的互斥鎖Mutex
2020-11-02
GoMutex
Go 互斥鎖 Mutex 原始碼分析(二)
2024-08-24
GoMutex原始碼
Go 標準庫 —— sync.Mutex 互斥鎖
2019-02-16
GoMutex
Go中協程死鎖
2021-06-22
Go
Go語言中的互斥鎖和讀寫鎖（Mutex和RWMutex）
2020-11-03
GoMutex
使用 Go Channel 及 Goroutine 時機
2020-01-31
Go
當 sendBeacon 遇上 Blob
2023-04-27
當 Rust 遇上 Fedora
2021-09-09
Rust
golang 中 channel 的詳細使用、使用注意事項及死鎖分析
2022-03-16
Golang
Go – Channel 原理
2019-02-16
Go
go channel ->同步
2024-05-11
Go
pthread_mutex 鎖問題
2024-03-21
threadMutex
當class properties遇上decorator
2018-11-30
當Shell遇上了NodeJS
2019-03-03
NodeJS
當元宇宙遇上梵高
2022-02-17
元宇宙
go : channel , queue , 程式管理 , 關閉channel ?
2022-07-15
Go
死鎖
2024-08-15
go併發 - channel
2023-11-19
Go
Go channel 介紹
2024-05-23
Go
Go channel 的妙用
2021-03-06
Go
Go 系列教程 —— 25. Mutex
2018-09-18
GoMutex
Go 語言併發程式設計之互斥鎖詳解 sync.Mutex
2024-09-29
Go程式設計Mutex
什麼是死鎖？如何解決死鎖？
2020-08-11
面試官：什麼是死鎖？怎麼排查死鎖？怎麼避免死鎖？
2021-04-01
面試
死鎖概述
2020-10-13
當程式設計師遇上極品客戶的時候
2018-06-11
程式設計師
[精選]當PHP遇上Go會怎樣？GO語言彌補了PHP的不足，然後。。。
2022-09-09
PHPGo
作業系統(5) 死鎖的概念死鎖產生的必要條件死鎖的處理策略預防死鎖避免死鎖死鎖的檢測和解除銀行家演算法
2020-12-27
作業系統演算法
檢視oracle死鎖程式並結束死鎖
2018-09-10
Oracle
例項詳解 Java 死鎖與破解死鎖
2022-02-28
Java
golang 執行時死鎖排查和檢測
2024-03-20
Golang
[譯] part25: golang Mutex互斥鎖
2019-04-04
GolangMutex
互斥鎖mutex的簡單實現
2019-05-12
Mutex
死鎖和可重入鎖
2018-05-25
MySQL 死鎖和鎖等待
2020-04-13
MySql
面試：什麼是死鎖，如何避免或解決死鎖；MySQL中的死鎖現象，MySQL死鎖如何解決
2024-11-10
面試MySql

Go死鎖——當Channel遇上Mutex時

背景

死鎖現象

啟發

分析

別人是如何解決的？

後記

總結

相關文章