使用Python和Java呼叫Shell指令碼時的死鎖陷阱

PerfectDay20發表於2019-02-16

最近有一項需求,要定時判斷任務執行條件是否滿足並觸發 Spark 任務,平時編寫 Spark 任務時都是封裝為一個 Jar 包,然後採用 Shell 指令碼形式傳入所需引數執行,考慮到本次判斷條件邏輯複雜,只用 Shell 指令碼完成不利於開發測試,所以調研使用了 Python 和 Java 分別呼叫 Spark 指令碼的方法。

使用版本為 Python 3.6.4 及 JDK 8

Python

主要使用 subprocess 庫。Python 的 API 變動比較頻繁,在 3.5 之後新增了 run 方法,這大大降低了使用難度和遇見 Bug 的概率。

subprocess.run(["ls", "-l"])
subprocess.run(["sh", "/path/to/your/script.sh", "arg1", "arg2"])

為什麼說使用 run 方法可以降低遇見 Bug 的概率呢?
在沒有 run 方法之前,我們一般呼叫其他的高階方法,即 Older high-level API,比如 callcheck_all,或者直接建立 Popen 物件。因為預設的輸出是 console,這時如果對 API 不熟悉或者沒有仔細看 doc,想要等待子程式執行完畢並獲取輸出,使用了 stdout = PIPE 再加上 wait 的話,當輸出內容很多時會導致 Buffer 寫滿,程式就一直等待讀取,形成死鎖。在一次將 Spark 的 log 輸出到 console 時,就遇到了這種奇怪的現象,下邊的指令碼可以模擬:

# a.sh
for i in {0..9999}; do
    echo `***************************************************`
done 
p = subprocess.Popen([`sh`, `a.sh`], stdout=subprocess.PIPE)
p.wait()

call 則在方法內部直接呼叫了 wait 產生相同的效果。
要避免死鎖,則必須在 wait 方法呼叫之前自行處理掉輸入輸出,或者使用推薦的 communicate 方法。 communicate 方法是在內部生成了讀取執行緒分別讀取 stdout stderr,從而避免了 Buffer 寫滿。而之前提到的新的 run 方法,就是在內部呼叫了 communicate

stdout, stderr = process.communicate(input, timeout=timeout)

Java

說完了 Python,Java 就簡單多了。
Java 一般使用 Runtime.getRuntime().exec() 或者 ProcessBuilder 呼叫外部指令碼:

Process p = Runtime.getRuntime().exec(new String[]{"ls", "-al"});
Scanner sc = new Scanner(p.getInputStream());
while (sc.hasNextLine()) {
    System.out.println(sc.nextLine());
}
// or
Process p = new ProcessBuilder("sh", "a.sh").start();  
p.waitFor(); // dead lock    

需要注意的是,這裡 stream 的方向是相對於主程式的,所以 getInputStream() 就是子程式的輸出,而 getOutputStream() 是子程式的輸入。

基於同樣的 Buffer 原因,假如呼叫了 waitFor 方法等待子程式執行完畢而沒有及時處理輸出的話,就會造成死鎖。
由於 Java API 很少變動,所以沒有像 Python 那樣提供新的 run 方法,但是開源社群也給出了自己的方案,如commons exec,或 http://www.baeldung.com/run-shell-command-in-java,或 alvin alexander 給出的方案(雖然不完整)。

// commons exec,要想獲取輸出的話,相比 python 來說要複雜一些
CommandLine commandLine = CommandLine.parse("sh a.sh");
        
ByteArrayOutputStream out = new ByteArrayOutputStream();
PumpStreamHandler streamHandler = new PumpStreamHandler(out);
        
Executor executor = new DefaultExecutor();
executor.setStreamHandler(streamHandler);
executor.execute(commandLine);
        
String output = new String(out.toByteArray());

但其中的思想和 Python 都是統一的,就是在後臺開啟新執行緒讀取子程式的輸出,防止 Buffer 寫滿。

另一個統一思想的地方就是,都推薦使用陣列或 list 將輸入的 shell 命令分隔成多段,這樣的話就由系統來處理空格等特殊字元問題。

Original article in my Blog

參考:
https://dcreager.net/2009/08/06/subprocess-communicate-drawbacks/
https://alvinalexander.com/java/java-exec-processbuilder-process-1
https://www.javaworld.com/article/2071275/core-java/when-runtime-exec—won-t.html

相關文章