✨War Of Resistance Live: 記錄14年抗戰的日日夜夜
前言
在目前浮躁的網際網路環境下,做一件好事不難,難的是連續8年做一件有意義的事。
在微博上有這樣一位博主,從2012年7月7日開始,截至到2020年9月2日,@抗戰直播 以圖文形式,記錄了從1937年7月7日至1945年8月15日中華民族全面抗戰的這段歷史。2980 天,從未間斷,平均每天 12 條,累計 35214 篇。
2020年9月18日7時零7分,沉寂了半個月的 @抗戰直播 恢復更新,他們將繼續以圖文的形式記錄1931年9月18日至1937年7月7日這六年的抗戰歷史。
下一個 6 年,他們已經在路上。
歷史是不能被遺忘的。
作為程式設計師的我,在歷史面前,我能做點什麼?
除了敬佩 @抗戰直播 這麼多年來的堅持,我更想做一點自己力所能及且有意義的事情。
在得到博主 @抗戰直播 的允許與支援後,於是就有了這個專案的誕生。
War Of Resistance Live
├── .github/workflows # 工作流配置檔案
├── resources # 微博資料
├── site # 部落格原始碼
└── spider # 微博爬蟲
WarOfResistanceLive 是一個主要由 Python
爬蟲 + Hexo
部落格 + Github Actions
持續整合服務組成的開源專案,開源在 GitHub
上,並且部署於 Github Pages
。目前包含以下功能:
- 每日定時自動同步更新資料
- 檢視博主目前所有的微博資料
- 支援
RSS
訂閱功能 - 基於
Github Actions
的持續整合服務 - ...
接下來,我將簡單的給大家介紹該專案的一些核心邏輯與實現。
Python 爬蟲
該專案使用的爬蟲是基於 weibo-crawler 專案的簡化及修改實現(僅供研究使用),感謝作者 dataabc。
實現原理
- 通過訪問手機版的微博繞過其登入驗證,可檢視某個博主的大部分微博資料,如:https://m.weibo.cn/u/2896390104
通過開發者工具檢視得知,通過
json
介面https://m.weibo.cn/api/container/getIndex
即可獲取微博資料列表:def get_json(self, params): """獲取網頁中json資料""" url = 'https://m.weibo.cn/api/container/getIndex?' r = requests.get(url, params=params, headers=self.headers, verify=False) return r.json()
如何使用
安裝依賴:
pip3 install -r requirements.txt
使用:
python weibo.py
注意事項
- 速度過快容易被系統限制:可通過加入隨機等待邏輯,可降低被系統限制的風險;
- 無法獲取全部微博資料:可通過新增
cookie
邏輯獲取全部資料;
更多內容可檢視 weibo-crawler。
Hexo
經過了一番的抉擇,最終選擇 Hexo + Next 主題作為本專案的部落格框架。
Hexo
是一款基於 Node.js
的靜態部落格框架,依賴少易於安裝使用,可以方便的生成靜態網頁託管在 GitHub Pages
上,還有豐富的主題可供挑選。關於如何安裝使用 Hexo
可詳細檢視官方文件:https://hexo.io/zh-cn/docs/。
那麼,如何實現 RSS
訂閱功能呢?
得益於 Hexo
豐富的外掛功能,hexo-generator-feed 可以很方便的幫我們實現。
首先,在部落格根目錄下安裝該外掛:
$ npm install hexo-generator-feed --save
接著,在部落格根目錄下的 _config.yml
檔案中新增相關配置:
feed:
enable: true # 是否啟用外掛
type: atom # Feed的型別,支援 atom 和 rss2,預設 atom
path: atom.xml # 生成檔案的路徑
limit: 30 # 生成最大文章數,如果為 0 或 false 則生成所有的文章
content: true # 如果為 true 則展示文章所有內容
content_limit: # 文章展示的內容長度,僅當 content 為 false 有效
order_by: -date # 按照日期排序
template: # 自定義模板路徑
最後,在主題根目錄下的 _config.yml
檔案中新增 RSS
訂閱入口:
menu:
RSS: /atom.xml || fa fa-rss # atom.xml檔案路徑地址和圖示設定
這樣,我們就可以為自己的部落格新增 RSS
訂閱功能。WarOfResistanceLive 的訂閱地址為:
https://kokohuang.github.io/WarOfResistanceLive/atom.xml
Github Actions 持續整合
Github Actions
是由 Github
於 2018年10月
推出的持續整合服務,在此之前,我們可能更多的使用 Travis CI
來實現持續整合服務。以我個人的感覺來看,Github Actions
功能非常強大,比 Travis CI
的可玩性更高,Github Actions
擁有豐富的 action
市場,將這些 action
組合起來,我們就可以很簡單的完成很多很有趣的事情。
我們先來看看Github Actions
的一些基本概念:
- workflow:工作流程。即持續整合一次執行的過程。該檔案存放於倉庫的
.github/workflows
目錄中,可包含多個; - job:任務。一個
workflow
可包含一個或多個jobs
,即代表一次整合的執行,可完成一個或多個任務; - step:步驟。一個
job
由多個step
組成,即代表完成一個任務需要哪些步驟; - action:動作。每個
step
裡面可包含一個或多個action
,即代表一個步驟內,可執行多個action
動作。
瞭解了 Github Actions
的這些基本概念後,我們來看看 WarOfResistanceLive 的持續整合服務是怎樣實現的,以下是本專案使用的 workflow
完整實現:
# workflow 的名稱
name: Spider Bot
# 設定時區
env:
TZ: Asia/Shanghai
# 設定工作流觸發方式.
on:
# 定時觸發,在 8:00-24:00 間每隔 2 小時更新一次(https://crontab.guru)
# 由於 cron 設定的時間為 UTC 時間,所以 +8 即為北京時間
schedule:
- cron: "0 0-16/2 * * *"
# 允許手動觸發 Actions
workflow_dispatch:
jobs:
build:
# 使用 ubuntu-latest 作為執行環境
runs-on: ubuntu-latest
# 將要執行的任務序列
steps:
# 檢出倉庫
- name: Checkout Repository
uses: actions/checkout@v2
# 設定 Python 環境
- name: Setup Python
uses: actions/setup-python@v2
with:
python-version: "3.x"
# 快取 pip 依賴
- name: Cache Pip Dependencies
id: pip-cache
uses: actions/cache@v2
with:
path: ~/.cache/pip
key: ${{ runner.os }}-pip-${{ hashFiles('./spider/requirements.txt') }}
restore-keys: |
${{ runner.os }}-pip-
# 安裝 pip 依賴
- name: Install Pip Dependencies
working-directory: ./spider
run: |
python -m pip install --upgrade pip
pip install flake8 pytest
if [ -f requirements.txt ]; then pip install -r requirements.txt; fi
# 執行爬蟲指令碼
- name: Run Spider Bot
working-directory: ./spider # 指定工作目錄,僅對 run 命令生效
run: python weibo.py
# 獲取系統當前時間
- name: Get Current Date
id: date
run: echo "::set-output name=date::$(date +'%Y-%m-%d %H:%M')"
# 提交修改
- name: Commit Changes
uses: EndBug/add-and-commit@v5
with:
author_name: Koko Huang
author_email: huangjianke@vip.163.com
message: "已同步最新資料(${{steps.date.outputs.date}})"
add: "./"
env:
GITHUB_TOKEN: ${{ secrets.GITHUB_TOKEN }}
# 推送遠端
- name: Push Changes
uses: ad-m/github-push-action@master
with:
branch: main
github_token: ${{ secrets.GITHUB_TOKEN }}
# 設定 Node.js 環境
- name: Use Node.js 12.x
uses: actions/setup-node@v1
with:
node-version: "12.x"
# 快取 NPM 依賴
- name: Cache NPM Dependencies
id: npm-cache
uses: actions/cache@v2
with:
path: ~/.npm
key: ${{ runner.os }}-node-${{ hashFiles('./site/package-lock.json') }}
restore-keys: |
${{ runner.os }}-node-
# 安裝 NPM 依賴
- name: Install NPM Dependencies
working-directory: ./site
run: npm install
# 構建 Hexo
- name: Build Hexo
working-directory: ./site # 指定工作目錄,僅對 run 命令生效
run: npm run build
# 釋出 Github Pages
- name: Deploy Github Pages
uses: peaceiris/actions-gh-pages@v3
with:
github_token: ${{ secrets.GITHUB_TOKEN }}
publish_dir: ./site/public # 指定待發布的路徑地址
publish_branch: gh-pages # 指定遠端分支名稱
workflow
檔案的配置欄位非常多,配置檔案中也給出了詳細的註釋。接下來,我們主要看下以下幾個比較重要的配置:
工作流的觸發方式
# 設定工作流觸發方式.
on:
# 定時觸發,在 8:00-24:00 間每隔 2 小時更新一次(https://crontab.guru)
# 由於 cron 設定的時間為 UTC 時間,所以 +8 即為北京時間
schedule:
- cron: "0 0-16/2 * * *"
# 允許手動觸發工作流程
workflow_dispatch:
我們可以使用 on
工作流程語法配置工作流程為一個或多個事件執行。支援自動與手動兩種方式觸發。schedule
事件允許我們在計劃的時間觸發工作流程,我們可以使用 POSIX cron 語法 來安排工作流程在特定的時間執行。
計劃任務語法有五個欄位,中間用空格分隔,每個欄位代表一個時間單位:
┌───────────── minute (0 - 59)
│ ┌───────────── hour (0 - 23)
│ │ ┌───────────── day of the month (1 - 31)
│ │ │ ┌───────────── month (1 - 12 or JAN-DEC)
│ │ │ │ ┌───────────── day of the week (0 - 6 or SUN-SAT)
│ │ │ │ │
│ │ │ │ │
│ │ │ │ │
* * * * *
我們可以使用 https://crontab.guru 來生成計劃任務語法,你也可以檢視更多的 crontab guru 示例。
另外,我們還可以通過配置 workflow_dispatch
和 repository_dispatch
欄位來實現手動觸發工作流程。
on
欄位也可以配置為 push
,即倉庫有 push
操作時則觸發工作流的執行,詳細的觸發工作流配置可以檢視 配置工作流程事件。
步驟序列
從配置檔案中我們可以看到,該專案的一次持續整合的執行包含了以下步驟:
檢出倉庫 --> 設定 Python
環境 --> 快取 pip
依賴 --> 安裝 pip
依賴 --> 執行爬蟲指令碼 --> 獲取當前時間 --> 提交修改 --> 推送遠端 --> 設定 Node.js
環境 --> 快取 NPM
依賴 --> 安裝 NPM
依賴 --> 構建 Hexo
--> 釋出 Github Pages
本專案的 workflow
主要有以下幾個要點:
- 執行環境:整個工作流執行在虛擬環境
ubuntu-latest
。還可以指定其他虛擬環境,如Windows Server
、macOS
等; - 快取依賴:通過對依賴的快取,可提升安裝相關依賴的速度。具體使用可檢視:快取依賴項以加快工作流程;
- 獲取當前時間:後續提交修改步驟中的
commit message
中使用到了該步驟中獲取到當前時間,這裡就使用到了 step 上下文 的相關概念,我們可以為step
指定一個id
,後續step
中我們就可以通過steps.<step id>.outputs
來獲取已經執行的步驟相關資訊; - 構建
Hexo
:即執行hexo generate
命令生成靜態網頁; - 工作流程中的身份驗證:提交推送及釋出步驟需要進行身份驗證。
GitHub
提供一個令牌,可用於代表GitHub Actions
進行身份驗證。我們所需要做的就是建立一個命名為GITHUB_TOKEN
的令牌。具體步驟如下:Settings
-->Developer settings
-->Personal access tokens
-->Generate new token
,命名為GITHUB_TOKEN
,並勾選中你所需要的的許可權,然後就可以在step
中通過使用${{ secrets.GITHUB_TOKEN }}
進行身份驗證。
更多 Action
可在 Github
官方市場 檢視。
結語
最後,引用博主 @抗戰直播 的一段話:
“我們直播抗戰,並非為了鼓動仇恨等負面的情緒,而是想適度喚起遺忘,當我們時刻牢記祖輩們蒙受的苦難、恐懼和屈辱時;當我們體味祖輩們是如何在國家民族危亡之際拋棄前嫌,實現民族和解時,當我們目睹著祖輩們是如何從容慷慨的走向死亡,以身體為這個國家獻祭之時,相信我們對於現實將有更加成熟和理性的思考。”
銘記歷史,砥礪奮進。
勿忘國恥,吾輩自強。