2017年9月24日,全國碩士研究生招生考試預報名的第一天,成都大學的一名大四女生,在網上報名時,竟出現了“別考”字樣的驗證碼,同時在驗證碼上邊顯示一行紅字:您輸入的使用者名稱或密碼有誤。專門負責全國研究生報名的“中國研究生招生資訊網”相關負責人回應說,驗證碼出現“別考”字樣純屬巧合。
據瞭解,研招網報名系統的驗證碼由漢字、字母+數字、數字計算三個類別組成,考生在輸入驗證碼時這三個類別都可能會遇到。“別考”字樣的驗證碼雖然只是隨機出現,卻讓人聯想到春運期間12306那些變態的驗證碼,似乎與“證明你媽是你媽”一樣無厘頭,驗證碼就是為了為難人類而存在的嗎?
驗證碼已成為大部分網站和應用程式必備的安全機制之一。雖然過程繁瑣,但卻起著重要的作用。在輸入驗證碼時,後臺系統能透過輸入時長來識別登入者是人,還是計算機程式,從而避免因惡意登入導致的密碼洩露、刷票、作弊等現象。
驗證碼誕生於20多年前
驗證碼的全名是“全自動區分計算機和人類的圖靈測試”,由卡內基梅隆大學的路易斯.馮.安於1997年提出,其初衷識別真人還是編寫的惡意程式。驗證碼主要體現方式:計算機會自動生成一個問題由使用者來解答,這個問題可以由計算機生成並評判,但必須只有人類才能解答,回答出問題的操作者就可以被認為是人類。
驗證碼之父:路易斯.馮.安
驗證碼就是利用“人類可以用肉眼輕易識別圖片裡的文字資訊,而機器不能”的原理來抵禦惡意登入,透過識別、輸入這些互動,區分出機器人和真正的人類,防止惡意攻擊或者刷號情況的產生,是一種利用意識區分使用者是計算機還是人的公共全自動程式,在註冊、登入、網購、交易等各類場景中都發揮著巨大作用,並且在不斷進化中成為網路中始終不可或缺的技術。另外,英國醫學專家還發現驗證碼或可用於儘早發現痴呆症風險。
驗證碼的進化:從圖文識別到無感驗證
早期的驗證碼就是網站提出一些問題,隨著安全防護與破解入侵兩方面的抗衡日益升級,驗證碼的難度在增加,形式也在多樣化。從簡單的字母數字、算術題,到扭曲的字元、模糊的圖片,這些被歸類為知識性驗證碼。
各式各樣的驗證碼
雖然驗證碼對網站平臺有很大的幫助作用,但並不是每個人都不喜歡驗證碼。路易斯.馮.安在2009年的報告中顯示:每天每個美國人要花費1.9秒的時間用來解決驗證碼難題。以美國當年人口3.09億計算,相當於每年要花去他們6795天的時間。
在國內驗證碼一直也是被吐槽的物件。不僅是全國碩士研究生招生考試預報名這樣令人啼笑皆非的驗證碼,還有被廣大網友吐槽的12306“變態”驗證碼。
Google的reCAPTCHA
為了節省網友時間,提升操作體驗, Google、頂象等新一代的驗證碼已經開始向無知識型進化,例如Google的reCAPTCHA、頂象的無感驗證等。具體在體現就是需要點選或拖動滑條,甚至不需要任何操作,就能夠完成網路登入身份驗證。這種全新的驗證方式良好解決網站安全和使用者體驗兩端的矛盾。
基於人工智慧的頂象無感驗證
作為新一代的驗證碼,頂象無感驗證都是基於人工智慧,基於使用者的行為以及環境資訊等等按資料資訊,結合模型和風控分析來區分人類還是機器,有效防控新型威脅。
頂象“無感驗證”
無感驗證基於機器學習模型平臺建立最佳化相關模型,用於驗證碼機器模擬軌跡防護。這裡麵包含軌跡耗時檢測、異常軌跡檢測(包括直線、勻速、聚合曲線等常規訊號發生器生成的軌跡和透過異常檢測演算法發現的離群行為)。
在使用者訪問方面,無感驗證透過人機互動行為進行防護。如滑鼠在頁面內的滑動軌跡、鍵盤的敲擊速率、滑動驗證碼的滑動軌跡、速率、按鈕點選等行為軌跡模型檢測來進行防護。
在異常檢測方面,無感驗證使用的其中一種異常檢測演算法為孤立森林(Isolation Forest),Isolation Forest 中提出Isolation概念,即將異常資料從既有資料分佈中孤立,用以實現異常檢測的目的,這種演算法較基於正常資料點建立profile進行異常檢測的演算法,如Replicator Neural Network、one-class SVM有更高的異常識別能力和準確度。
除此外,二分類器還可以根據既有的驗證碼資料進行訓練,對採集到的人機互動行為資料進行預測區分,進一步提升識別惡意行為的精確度。
此為了防止網路爬蟲對驗證碼的防暴力破解,無感驗證透過圖片亂序切條、圖片更新定時加工、圖片變異等技術,結合關聯性檢測進行防護,透過內建規則和策略,判斷相關關聯性,如同一裝置關聯性、同一IP關聯性、滑動失敗關聯性、驗證次數關聯性等,有效識別短時間內異常關聯性。
此外,在資料傳輸環節已內建“亂序切圖傳輸“功能,可將背景圖片進行亂序切割後傳播,大大提升破解難度。