精讀《如何利用 Nodejs 監聽資料夾》

黃子毅發表於2019-02-16

原文網址 : https://flycode.co/archives/84001

NodeJS

1 引言

本期精讀的文章是：How to Watch for Files Changes in Node.js，探討如何監聽檔案的變化。

如果想使用現成的庫，推薦 chokidar 或 node-watch，如果想了解實現原理，請往下閱讀。

2 概述

使用 fs.watchfile

使用 fs 內建函式 watchfile 似乎可以解決問題：

fs.watchFile(dir, (curr, prev) => {});

但你可能會發現這個回撥執行有一定延遲，因為 watchfile 是通過輪詢檢測檔案變化的，它並不能實時作出反饋，而且只能監聽一個檔案，存在效率問題。

使用 fs.watch

使用 fs 的另一個內建函式 watch 是更好的選擇：

fs.watch(dir, (event, filename) => {});

watch 通過作業系統提供的檔案更改通知機制，在 Linux 作業系統使用 inotify，在 macOS 系統使用 FSEvents,在 windows 系統使用 ReadDirectoryChangesW，而且可以用來監聽目錄的變化，在監聽資料夾的場景中，比建立 N 個 fs.watchfile 效率高出很多。

$ node file-watcher.js
[2018-05-21T00:55:52.588Z] Watching for file changes on ./button-presses.log
[2018-05-21T00:56:00.773Z] button-presses.log file Changed
[2018-05-21T00:56:00.793Z] button-presses.log file Changed
[2018-05-21T00:56:00.802Z] button-presses.log file Changed
[2018-05-21T00:56:00.813Z] button-presses.log file Changed

但當我們修改一個檔案時，回撥卻執行了 4 次！原因是檔案被寫入時，可能觸發多次寫操作，即使只儲存了一次。但我們不需要這麼敏感的回撥，因為通常認為一次儲存就是一次修改，系統底層寫了幾次檔案我們並不關心。

因而可以進一步判斷是否觸發狀態是 change:

fs.watch(dir, (event, filename) => {
  if (filename && event === "change") {
    console.log(`${filename} file Changed`);
  }
});

這樣做可以一定程度解決問題，但作者發現 Raspbian 系統不支援 rename 事件，如果歸類為 change，會導致這樣的判斷毫無意義。

作者要表達的意思是，在不同平臺下，fs.watch 的規則可能會不同，原因是 fs.watch 分別使用了各平臺提供的 api，所以無法保證這些 api 實現規則的統一性。

優化方案一：對比檔案修改時間

基於 fs.watch，增加了對修改時間的判斷：

let previousMTime = new Date(0);

fs.watch(dir, (event, filename) => {
  if (filename) {
    const stats = fs.statSync(filename);
    if (stats.mtime.valueOf() === previousMTime.valueOf()) {
      return;
    }
    previousMTime = stats.mtime;
    console.log(`${filename} file Changed`);
  }
});

log 由 4 個變成了 3 個，但依然存在問題。我們認為檔案內容變化才算有修改，但作業系統考慮的因素更多，所以我們再嘗試對比檔案內容是否變化。

筆者補充：另外一些開源編輯器可能先清空檔案再寫入，也會影響到觸發回撥的次數。

優化方案二：校驗檔案 md5

只有檔案內容變化了，才認為觸發了改動，這下總可以了吧：

let md5Previous = null;

fs.watch(dir, (event, filename) => {
  if (filename) {
    const md5Current = md5(fs.readFileSync(buttonPressesLogFile));
    if (md5Current === md5Previous) {
      return;
    }
    md5Previous = md5Current;
    console.log(`${filename} file Changed`);
  }
});

log 終於由 3 個變成了 2 個，為什麼多出一個？可能的原因是，在檔案儲存過程中，系統可能會觸發多個回撥事件，也許存在中間態。

優化方案三：加入延遲機制

我們嘗試延遲 100 毫秒進行判斷，也許能避開中間狀態：

let fsWait = false;
fs.watch(dir, (event, filename) => {
  if (filename) {
    if (fsWait) return;
    fsWait = setTimeout(() => {
      fsWait = false;
    }, 100);
    console.log(`${filename} file Changed`);
  }
});

這下 log 變成一個了。很多 npm 包在這裡使用了 debounce 函式控制觸發頻率，才將觸發頻率修正。

而且我們需要結合 md5 與延遲機制共同作用，才能得到相對精準的結果：

let md5Previous = null;
let fsWait = false;
fs.watch(dir, (event, filename) => {
  if (filename) {
    if (fsWait) return;
    fsWait = setTimeout(() => {
      fsWait = false;
    }, 100);
    const md5Current = md5(fs.readFileSync(dir));
    if (md5Current === md5Previous) {
      return;
    }
    md5Previous = md5Current;
    console.log(`${filename} file Changed`);
  }
});

3 精讀

作者討論了一些實現資料夾監聽的基本方式，可以看出，使用了各平臺原生 API 的 fs.watch 並不那麼靠譜，但這也我們監聽檔案的唯一手段，所以需要基於它進行一系列優化。

而實際場景中，還需要考慮區分資料夾與檔案、軟連線、讀寫許可權等情況。

另外用在生產環境的庫，也基本使用 50 到 100 毫秒解決重複觸發的問題。

所以無論 chokidar 或 node-watch，都大量使用了文中提及的技巧，再加上對邊界條件的處理，對軟連線、許可權等情況處理，將所有可能情況都考慮到，才能提供較為準確的回撥。

比如判斷檔案寫入操作是否完畢，也需要通過輪詢的方式：

function awaitWriteFinish() {
  // ...省略
  fs.stat(
    fullPath,
    function(err, curStat) {
      // ...省略

      if (prevStat && curStat.size != prevStat.size) {
        this._pendingWrites[path].lastChange = now;
      }

      if (now - this._pendingWrites[path].lastChange >= threshold) {
        delete this._pendingWrites[path];
        awfEmit(null, curStat);
      } else {
        timeoutHandler = setTimeout(
          awaitWriteFinish.bind(this, curStat),
          this.options.awaitWriteFinish.pollInterval
        );
      }
    }.bind(this)
  );
  // ...省略
}

可以看出，第三方 npm 庫都採取不信任作業系統回撥的方式，根據檔案資訊完全重寫了判斷邏輯。

可見，信任作業系統的回撥，就無法抹平所有作業系統間的差異，唯有統一重寫檔案的 “寫入”、“刪除”、“修改” 等邏輯，才能保證在全平臺的相容性。

4 總結

利用 nodejs 監聽資料夾變化很容易，但提供準確的回撥卻很難，主要難在兩點：

抹平作業系統間的差異，這需要在結合 fs.watch 的同時，增加一些額外校驗機制與延時機制。
分清楚作業系統預期與使用者預期，比如編輯器的額外操作、作業系統的多次讀寫都應該被忽略，使用者的預期不會那麼頻繁，會忽略極小時間段內的連續觸發。

另外還有相容性、許可權、軟連線等其他因素要考慮，fs.watch 並不是一個開箱可用的工程級別 api。

5 更多討論

討論地址是：精讀《如何利用 Nodejs 監聽資料夾》 · Issue #87 · dt-fe/weekly

如果你想參與討論，請點選這裡，每週都有新的主題，週末或週一釋出。

WPF 實現檔案/資料夾監聽工具
2024-03-11
好程式設計師前端教程-nodejs如何讀取資料夾目錄的內容
2019-03-20
程式設計師前端NodeJS
精讀《如何在 nodejs 使用環境變數》
2018-06-11
NodeJS變數
精讀《利用 GPT 解讀 PDF》
2023-04-17
GPT
啟動資料庫監聽
2019-11-18
資料庫
Mysql資料庫監聽binlog
2019-07-15
MySql資料庫
如何在元件中監聽Vuex的資料變化
2020-10-25
元件Vue
vue中如何監聽vuex中的資料變化
2021-09-11
Vue
vue3如何進行資料監聽watch/watchEffect
2023-03-26
Vue
NodeJs批量require資料夾中的所有檔案
2018-05-24
NodeJSUI
GO實現資料夾監控
2018-09-26
Go
讀取資料夾檔案
2024-05-31
利用java建立檔案或者資料夾
2020-12-12
Java
資料庫監聽夯故障分析
2023-12-25
資料庫
配置資料庫監聽白名單
2020-07-30
資料庫
自定義元件-資料監聽器
2024-10-22
元件
利用反射讀取資料庫資料
2020-04-04
反射資料庫
企業如何利用資料打造精準使用者畫像？
2024-10-07
nodejs遞迴資料夾獲取所有檔案路徑
2022-11-27
NodeJS遞迴
如何批次新建資料夾？
2024-08-14
精讀《React Hooks 資料流》
2020-04-07
ReactHook
Mac 系統如何利用軟連結在根目錄建立資料夾？
2021-10-28
Mac
如何移除事件監聽器
2023-03-16
事件
金融行業如何利用資料來源實現精準營銷？
2022-01-13
行業
vue 如何在迴圈中 "監聽" 的繫結v-model資料
2018-08-07
Vue
精讀《前端資料流哲學》
2018-07-10
前端
利用scp 遠端上傳下載檔案/資料夾
2019-02-01
監聽 watch props物件屬性監聽或深度監聽
2024-04-02
物件
[原創]如何利用雲安全運營中心監測資料洩露
2019-06-26
3天學寫mvvm框架[一]：資料監聽
2019-03-02
MVVM框架
Canal-監聽資料庫表的變化
2022-06-15
資料庫
C++讀取某個資料夾下面的子資料夾及其所有檔案
2020-04-06
C++
Centos上安裝配置NodeJs,並把全部檔案放入/usr/My-Application/nodejs資料夾中
2024-12-09
CentOSNodeJSAPP
如何監聽SAP CRM BOR事件
2020-09-03
事件
如何監聽URL的變化？
2018-12-29
如何監聽陣列變化?
2018-04-23
陣列
python 如何刪除資料夾下的所有檔案和子資料夾？
2024-03-22
Python
批量新建資料夾並命名的辦法如何批量新建很多資料夾
2021-10-30