怎樣實現一個非阻塞的超時重試任務佇列

李可樂Cola發表於2018-04-13

原文網址 : https://juejin.im/post/5ad01fda6fb9a028ca536085

佇列

起因

最近接手一個專案，要把其中的阻塞任務佇列，重構成非阻塞。在客戶端很少有機會直接處理任務佇列。專案完成需要總結經驗

阻塞的發生

我這裡先說明我遇到的阻塞問題，我這裡的阻塞不是多執行緒訪問的阻塞，概念上是任務執行的阻塞。具體是：

任務開始客戶端準備資料，通過socket向伺服器傳送資料。
阻塞等待伺服器socket的ack迴應。
得到伺服器的socket迴應完成任務，取出佇列的後續任務繼續執行。

這樣的阻塞佇列優點就是：

程式碼看起來非常簡潔且聚集，開始程式碼對應結束程式碼。
邏輯上可以保證任務的完成，因為如果沒有完成，就會阻塞直到任務的完成。

但是致命的缺點也是阻塞等待，因為直接的socket通訊使用是不保證送達，如果伺服器一直沒有迴應，客戶端的任務佇列就一直阻塞在隊頭。除非通過其他方式強制終止任務佇列。

非阻塞的佇列

確定了問題的發生的原因，就可以一步步的解決問題。首先阻塞就是因為在等待迴應，只有迴應後才能完成任務。任務以本地客戶端開啟，以伺服器迴應結束，期間阻塞。構成一個任務的概念。

拆任務

其實客戶端不必執著等待迴應，只要把任務拆分成

傳送任務
迴應任務

而期間不再阻塞，只要迴應任務能夠找到對應的傳送任務，客戶端就可以確定該任務的完成。

HandlerThread實現任務處理佇列

這裡socket的通訊肯定是發生在子執行緒的，而子執行緒想要維護任務處理佇列，最好的方式就是直接使用HandlerThread，它封裝在子執行緒中Handler的配置，而Handler本身就是的任務處理佇列。

package com.example.licola.myandroiddemo.java;

import android.os.Handler;
import android.os.HandlerThread;
import java.util.HashSet;

/**
 * Created by LiCola on 2018/4/10.
 * 簡化版非阻塞任務佇列
 */
public class Dispatcher {

  private static final String THREAD_NAME="dispatcher-worker";

  private Handler mHandler;
  private HandlerThread handlerThread;

  private HashSet<String> tasks = new HashSet<>();//任務集合

  public void run(){
    handlerThread = new HandlerThread(THREAD_NAME);
    handlerThread.start();
    mHandler = new Handler(handlerThread.getLooper());
  }

  public void postSendTask(String id,String data){
    mHandler.post(new Runnable() {
      @Override
      public void run() {
         //傳送任務的操作 如準備資料等

        tasks.add(id);
      }
    });
  }

  public void postAckTask(final String id){
    mHandler.post(new Runnable() {
      @Override
      public void run() {
        //迴應任務的操作 如解析迴應等

        tasks.remove(id);
      }
    });
  }
}

複製程式碼

上面的程式碼已經非常簡化，不涉及具體的任務處理，只有關鍵程式碼。實現了前文的拆任務的理念。

但是拆任務也帶來了一個很嚴重的問題，任務怎樣保證完成。因為不阻塞，傳送任務只管傳送，傳送完成迎來的可能是下一個傳送任務，而對應的迴應任務卻一直沒有到來。概念上這個任務始終沒有完成。程式碼上就是tasks堆積越來越多等待迴應的任務。

超時機制

為了應對可能堆積的tasks任務集合，就需要引入超時機制，就是給一個任務設定最長等待時間，如果超過這個時間還沒有完成就重試。有了前面的程式碼基礎加入超時檢測處理是很容易的。

首先想到的就是在執行過程中加入定期迴圈執行的檢測程式碼。
給傳送任務加入時間變數，用於檢測超時。
任務集合儲存任務id和對應的傳送資料，用於重試。

超時重試機制的任務佇列

package com.example.licola.myandroiddemo.java;

import android.os.Handler;
import android.os.HandlerThread;
import android.util.Pair;
import com.example.licola.myandroiddemo.utils.Logger;
import java.util.HashMap;
import java.util.Map.Entry;

/**
 * Created by LiCola on 2018/4/10.
 * 支援超時重試機制版非阻塞任務佇列
 */
public class Dispatcher {

  private static final String THREAD_NAME = "dispatcher-worker";

  //超時檢測時間
  private static final long CHECK_ACK_TIME_OUT = 10 * 1000;
  //任務限定等待時間，即任務超時時間
  private static final long ACK_TIME_OUT = 4 * 1000;

  private Handler mHandler;
  private HandlerThread handlerThread;

  private HashMap<String, Pair<Long, String>> tasks=new HashMap<>();//任務集合

  public void run() {
    handlerThread = new HandlerThread(THREAD_NAME);
    handlerThread.start();
    mHandler = new Handler(handlerThread.getLooper());

    //開啟迴圈檢測
    mHandler.postDelayed(checkTimeOutTask(), CHECK_ACK_TIME_OUT);
  }

  public void postSendTask(final String id, final String data) {
    mHandler.post(new Runnable() {
      @Override
      public void run() {
        //傳送任務的操作 如準備資料等

        Logger.d("開始傳送任務");
        tasks.put(id, new Pair<>(System.currentTimeMillis(), data));
      }
    });
  }

  public void postAckTask(final String id) {
    mHandler.post(new Runnable() {
      @Override
      public void run() {
        //迴應任務的操作 如解析迴應等

        Logger.d("開始迴應任務");
        tasks.remove(id);
      }
    });
  }

  public Runnable checkTimeOutTask() {
    return new Runnable() {
      @Override
      public void run() {
        int count = 0;
        long curTime = System.currentTimeMillis();

        if (!tasks.isEmpty()) {
          for (Entry<String, Pair<Long, String>> entry : tasks.entrySet()) {
            String id = entry.getKey();
            Pair<Long, String> pair = entry.getValue();
            Long time = pair.first;
            String data = pair.second;
            if (curTime - time >= ACK_TIME_OUT) {
              postSendTask(id, data);
              count++;
            }
          }
        }

        if (count > 0) {
          Logger.d(String.format("檢測到超時任務%d", count));
        }

        //迴圈檢測
        mHandler.postDelayed(checkTimeOutTask(), CHECK_ACK_TIME_OUT);

      }
    };
  }
}

複製程式碼

上面的程式碼已經實現超時重試機制。仔細想想這段程式碼的執行情況。還是問題和有優化空間的。

檢測時機

仔細想想定期檢測的時間和限定的超時時間，兩者的關係。

  //超時檢測時間
  private static final long CHECK_ACK_TIME_OUT = 10 * 1000;
  //任務限定等待時間，即任務超時時間
  private static final long ACK_TIME_OUT = 4 * 1000;
複製程式碼

為了檢測儘可能的高效，且不影響整個任務佇列處理效能。讓檢測時間間隔比較大，且大於任務超時時間。實際的執行情況很可能如下圖所示：

我們以時間點check為基準分析：

check-1時間點之前：開始任務task-1、task-2。
check-1時間點：檢測開始，發現任務集合中有2個等待任務，但是它們都沒有超時，沒有任何處理。
check-2時間點之前：task-1正常完成，任務集合中刪除它。
check-2時間定：檢測開始，發現任務集合中有1個等待任務，且已經超時。task-2任務重試，task-2的計時重置到當前時間點。

這是一種假設執行情況，但是還是暴露出了兩個問題：

不夠高效：雖然檢測時間間隔足夠大，一個間隔內能夠完成整個傳送迴應的正常任務，但是檢測並沒有很高效，還是在check-1時間點中觀察到了兩個不應該被觀察到的任務。其中task-1：它剛開始且可以正常完成的。
不精確的超時：在check-2之前任務task-2它已經超時了，但是在超時一段時間後才發現。

這兩個問題其實不嚴重，根據實際情況選擇。如果任務的超時小概率發生，且不要求精確的超時檢測。超時重試機制的任務處理佇列-非精確控制時間，還是足夠滿足開發需求的。

精確的控制超時時間

怎樣做到精確的控制超時時間，且讓檢測更高效。在Android開發中有沒有遇到精確控制任務時間的情況，而其他工程師們怎樣實現高效處理的。雖然我們日常開發中沒有感知，但是這個情況其實非常非常的普遍存在。把這個問題換個角度：

怎樣精確的控制任務時間？

再想想你開發的各種系統處理：

長按點選事件的監聽
ANR（Application Not Response）的檢測和發生

這兩個系統處理本質上就是精確控制任務時間的處理。

原始碼的智慧

確定了上面這兩個原始碼目標，我們來看看系統是怎樣實現的。

長按點選事件

一個點選的事件序列由ACTION_DOWN開始，後續的事件action不確定。

開始：

任務的開始就是在View.onTouchEvent(MotionEvent event)的action事件處理cast:MotionEvent.ACTION_DOWN中的方法checkForLongClick(0, x, y) 核心程式碼就一行：

private void checkForLongClick(int delayOffset, float x, float y) {
        if ((mViewFlags & LONG_CLICKABLE) == LONG_CLICKABLE || (mViewFlags & TOOLTIP) == TOOLTIP) {
		      
		      //傳送延遲任務
            postDelayed(mPendingCheckForLongPress,
                    ViewConfiguration.getLongPressTimeout() - delayOffset);
        }
    }
複製程式碼

結束：

點選任務處理已經開始，而典型點選任務結束就是ACTION_UP事件，同樣在程式碼中cast:MotionEvent.ACTION_UP中的方法removeLongPressCallback()

    private void removeLongPressCallback() {
        if (mPendingCheckForLongPress != null) {
            removeCallbacks(mPendingCheckForLongPress);
        }
    }
複製程式碼

超時：

因為在開始就已經確定固定時間點後執行超時處理，在這個時間點之前沒有其他action操作來及時remove掉超時處理。從而超時處理得到執行，具體就是執行長按事件。

private final class CheckForLongPress implements Runnable {
    
        @Override
        public void run() {
            if ((mOriginalPressedState == isPressed()) && (mParent != null)
                    && mOriginalWindowAttachCount == mWindowAttachCount) {
                if (performLongClick(mX, mY)) {
                    mHasPerformedLongPress = true;
                }
            }
        }
    }
複製程式碼

ANR的檢查與發生

總所周知ANR的發生有很多種，這裡就挑Service的建立超時來舉例說明

Service Timeout:比如前臺服務在20s內未執行完成。

這裡參考理解Android ANR的觸發原理的分析流程。作者很形象的總結整個ANR檢測的理念：

埋炸彈-拆炸彈

因為ANR的處理比較複雜，我們省略自動寫日誌和程式通訊等流程。

開始：埋炸彈

ActiveServices原始碼部分

private final void realStartServiceLocked(ServiceRecord r, ProcessRecord app, boolean execInFg) throws RemoteException {
    ...
    //傳送delay訊息(SERVICE_TIMEOUT_MSG)
    bumpServiceExecutingLocked(r, execInFg, "create");
    try {
        ...
        //最終執行服務的onCreate()方法
        app.thread.scheduleCreateService(r, r.serviceInfo,
                mAm.compatibilityInfoForPackageLocked(r.serviceInfo.applicationInfo),
                app.repProcState);
    } catch (DeadObjectException e) {
        mAm.appDiedLocked(app);
        throw e;
    } finally {
        ...
    }
}
複製程式碼

private final void bumpServiceExecutingLocked(ServiceRecord r, boolean fg, String why) {
    ... 
    scheduleServiceTimeoutLocked(r.app);
}

void scheduleServiceTimeoutLocked(ProcessRecord proc) {
    if (proc.executingServices.size() == 0 || proc.thread == null) {
        return;
    }
    long now = SystemClock.uptimeMillis();
    Message msg = mAm.mHandler.obtainMessage(
            ActivityManagerService.SERVICE_TIMEOUT_MSG);
    msg.obj = proc;
    
    //當超時後仍沒有remove該SERVICE_TIMEOUT_MSG訊息，則執行service Timeout流程
    mAm.mHandler.sendMessageAtTime(msg,
        proc.execServicesFg ? (now+SERVICE_TIMEOUT) : (now+ SERVICE_BACKGROUND_TIMEOUT));
}
複製程式碼

結束：拆炸彈

在Service的啟動前，已經埋下了炸彈，那就在啟動完成後拆掉炸彈。 ActiveServices原始碼部分

private void serviceDoneExecutingLocked(ServiceRecord r, boolean inDestroying, boolean finishing) {
    ...
    if (r.executeNesting <= 0) {
        if (r.app != null) {
            r.app.execServicesFg = false;
            r.app.executingServices.remove(r);
            if (r.app.executingServices.size() == 0) {
                //當前服務所在程式中沒有正在執行的service
                mAm.mHandler.removeMessages(ActivityManagerService.SERVICE_TIMEOUT_MSG, r.app);
        ...
    }
    ...
}
複製程式碼

超時：炸彈爆炸

如果Service沒有限定時間內完成啟動，拆掉炸彈，炸彈就會爆炸，就是超時任務執行。就是ActiveService的serviceTimeout方法執行，寫下日誌發出ANR彈框。

總結

我們從精確控制任務超時時間這角度，分析了長按事件和ANR的發生原理。最終發現他們都是基於同樣的設計方式：埋炸彈-拆炸彈在任務開始時設定定時任務，及時完成remove掉定時任務，否則任務超時就會執行超時處理，而定時任務精確的時間執行就保證了超時任務精確控制。這個方式完全不同於我前文實現的間隔檢測-非精確時間控制。

超時重試機制的任務佇列-精確控制時間

有對原始碼的理解和總結，稍微修改程式碼就可以得到如下

package com.example.licola.myandroiddemo.java;

import android.os.Handler;
import android.os.HandlerThread;
import com.example.licola.myandroiddemo.utils.Logger;
import java.util.HashMap;

/**
 * Created by LiCola on 2018/4/10.
 * 支援超時重試機制版非阻塞任務佇列
 */
public class DispatcherTime {

  private static final String THREAD_NAME = "dispatcher-worker";

  //任務限定等待時間，即任務超時時間
  private static final long ACK_TIME_OUT = 2 * 1000;

  private Handler mHandler;
  private HandlerThread handlerThread;

  private HashMap<String, Runnable> timeoutTask = new HashMap<>();//超時集合

  public void run() {
    handlerThread = new HandlerThread(THREAD_NAME);
    handlerThread.start();
    mHandler = new Handler(handlerThread.getLooper());
  }

  public void postSendTask(final String id, final String data) {
    mHandler.post(new Runnable() {
      @Override
      public void run() {
        //傳送任務的操作 如準備資料等

        Logger.d("開始傳送任務",data);
        Runnable checkTimeOutTask = checkTimeOutTask(id, data);
        timeoutTask.put(id, checkTimeOutTask);
        mHandler.postDelayed(checkTimeOutTask,ACK_TIME_OUT);
      }
    });
  }

  public void postAckTask(final String id) {
    mHandler.post(new Runnable() {
      @Override
      public void run() {
        //迴應任務的操作 如解析迴應等

        Logger.d("開始迴應任務",id);
        Runnable runnable = timeoutTask.remove(id);
        mHandler.removeCallbacks(runnable);
      }
    });
  }

  public Runnable checkTimeOutTask(final String id, final String data) {
    return new Runnable() {
      @Override
      public void run() {

        Logger.d("超時任務執行 ",id,data);
        postSendTask(id, data);
      }
    };
  }
}
複製程式碼

上面實現了每次任務傳送都會埋下一個延遲任務，如果沒有及時得到迴應就會重試。這個實現的缺點如果要說的就是：

每個傳送任務都會建立一個對應的延遲任務，如果傳送任務數量較大，且只有小概率任務超時，就會產生大量建立的任務而又短期存在且沒有機會執行的任務。

當然如果要優化就是使用Handler.handleMessage(Message msg)方法處理超時任務，而不是每次postDelayed都建立Runnable物件。這裡只留下思路就不用程式碼了。

總結

其實原始碼的理解不是很難，只要找到切入點，從你關心的點出發，就能夠理解原始碼並應用它。我們從超時任務的處理為切入點就很容易理解長按事件的原理和ANR的發生機制。
當我們瞭解到一個新的解決方案，不要急於去應用它，要分析新方案的利弊，和我們實際專案的匹配程度，才能很好的應用它和改造它。

參考

理解Android ANR的觸發原理

淺談JS阻塞方式怎麼實現非同步任務佇列？
2021-09-11
JS非同步佇列
封裝一個阻塞佇列，輕鬆實現排隊執行任務功能！
2019-01-03
封裝佇列
自己動手實現一個阻塞佇列
2021-04-21
佇列
Laravel 佇列重複執行同一個任務
2020-03-04
Laravel佇列
阻塞佇列一——java中的阻塞佇列
2020-06-11
佇列Java
如何寫一個任務佇列
2018-04-02
佇列
Kafka 延時佇列&重試佇列
2022-07-06
Kafka佇列
怎樣用一個佇列和一個棧實現求一個表示式的值？
2021-09-23
佇列
C#通過rabbitmq實現定時任務(延時佇列)
2021-04-26
C#MQ佇列
一個高效能無鎖非阻塞連結串列佇列
2018-11-05
佇列
js定時任務佇列
2018-05-24
JS佇列
coleifer/huey：python 的一個小任務佇列
2021-11-29
Python佇列
RabbitMQ釋出訂閱實戰-實現延時重試佇列
2018-05-14
MQ佇列
佇列、阻塞佇列
2018-05-08
佇列
linux實現一個定時任務
2018-12-10
Linux
BlockingQueue的作用以及實現的幾個常用阻塞佇列原理
2020-12-18
BloC佇列
Java 阻塞佇列(BlockingQueue)的內部實現原理
2018-10-23
Java佇列BloC
Node.js結合RabbitMQ延遲佇列實現定時任務
2021-09-09
Node.jsMQ佇列
使用SpringBoot實現微服務超時重試模式 - Vinsguru
2020-11-11
Spring Boot微服務模式
Celery任務佇列
2019-02-16
佇列
任務佇列,巨集任務與微任務
2020-04-05
佇列
一個Java基於阻塞的定時消費記憶體佇列
2024-05-16
Java記憶體佇列
從0到1實現自己的阻塞佇列(上)
2019-04-28
佇列
使用Go語言實現一個超級mini的訊息佇列，我是這樣做的
2022-01-20
Go佇列
什麼是阻塞佇列？如何使用阻塞佇列來實現生產者-消費者模型?
2018-03-14
佇列模型
基於訊息佇列（RabbitMQ）實現延遲任務
2022-03-08
佇列MQ
怎樣理解阻塞非阻塞與同步非同步的區別？
2019-02-16
非同步
用 RabbitMQ 的死信佇列來做定時任務
2018-10-06
MQ佇列
用 Golang 跑「佇列任務」，也可以像 Laravel 一樣簡單
2022-05-25
Golang佇列Laravel
佇列的一種實現：迴圈佇列
2020-06-01
佇列
RabbitMQ使用 prefetch_count優化佇列的消費，使用死信佇列和延遲佇列實現訊息的定時重試，golang版本
2022-01-07
MQ優化佇列Golang
阻塞佇列 BlockingQueue
2018-12-14
佇列BloC
阻塞佇列--LinkedBlockingQueue
2020-04-04
佇列BloC
Laravel 是怎樣防止你的定時任務重複執行的
2019-06-29
Laravel
大量佇列任務總是 MaxAttemptsExceededException，怎麼辦？
2019-08-08
佇列Exception
Java中的阻塞佇列
2022-02-03
Java佇列
你真的知道怎麼實現一個延遲佇列嗎？
2020-10-12
佇列
hyperf 實現延時佇列,處理超時未支付訂單
2020-05-13
佇列