我們需要選擇網際網路自動技術嗎

chhch86發表於2019-07-16

網際網路自動化程式已經滲透到我們生活的方方面面!對此鄭州達內特在網路中整理了一些知識點,分享如下,希望可以幫助大家認知網際網路!

網際網路目前已經滲透到我們生活的方方面面,但它依然只是現實的物理世界在虛擬的網路空間上按位元資訊編碼後的投射。

所以只要定製相應的自動化程式便可以模仿人的行為,同時,因為機器速度更快且不知疲倦,它會被用於批次在論壇、網站、app 中釋出營銷資訊。而且,在監管不足的情況下,利潤更高的行業往往底線更低,自動機器人釋出的垃圾資訊經常也和賭 博、詐騙、色 情等灰色產業有關。一些自動化程式還會嘗試以“撞庫”的方式竊取使用者帳號、密碼,給網站帶來巨大的安全隱患。

於是,驗證碼應運而生。作為同樣的自動化程式,二維碼存在目的是區分使用者到底是機器人還是真實的人。

最常見的驗證碼便是自動生成的扭曲的文字和圖案,雖然它可以有效地識別出很大一部分自動化程式,但它對真人使用者的體驗並不好。而且隨著機器學習的發展,要破解它也越來越容易。

▲驗證碼風格的設計圖案

Google的驗證碼團隊有著各種創新試驗,比如創造性地把驗證碼用於紙質典籍數字化。另外除了扭曲文字、圖片的主流路線之後,Google的團隊還嘗試了新的思路,利用追蹤使用者的點選行為等來識別是否真人操作。使用者只需要點選“我不是機器人”的核取方塊便可驗證。

在最新版本的Google驗證碼reCAPTCHA v3中,你甚至什麼都不用做,系統就在悄悄核驗當前的使用者是不是機器人。技術正在讓“驗證碼”越來越隱形,人類不必再為了自證身份去做“反向圖靈測試”,然而這種進步也帶來了不少新的問題。

初代驗證碼CAPTCHA:歪歪扭扭的文字

2000年,從杜克大學數學系畢業,來到卡內基梅隆大學讀電腦科學博士的路易斯·馮·安(Luis von Ahn)和導師一起提出了驗證碼的概念,全稱是全自動區分計算機和人類的公開圖靈測試(英語:Completely Automated Public Turing test to tell Computers and Humans Apart,簡稱 CAPTCHA)。

圖靈測試由計算機先驅人物,“人工智慧之父”阿蘭·圖靈提出,以一臺計算機能和人類對話而不被識別出是機器人為透過圖靈測試基準。驗證碼也是圖靈測試的一種,但它的目的不是為了創造AI,而只是為了識別真實的人類使用者。

一種最常見的驗證碼是由演算法生成的扭曲的文字,這麼做是為了防止被光學字元識別程式(OCR)自動識別出來。

有一些方法是在字母上加一條曲線或將不同的字母疊在一起,也有新增複雜背景的方式。

也有圖片驗證碼,要求使用者識別圖片的物體,以及把缺失的部分拖到正確的位置和拼圖等。

但不管形式如何,這些驗證碼有一個共同的原則:就是要讓人類很容易識別,卻對計算機來說非常困難。一些研究者認為,為避免 CAPTCHA過難而使網站損失使用者,通常要求人類使用者透過測試的時間小於30秒,使用者透過率大於90%。

還有一個不被普通人知道的點,驗證碼被稱為一種“圖靈測試”,所以它在設計之初就有促進人工智慧發展的初衷。

根據定義,驗證碼的演算法必須公開,這樣做的目的是為了讓破解驗證碼的過程是在解決對應的人工智慧問題,例如影像識別、準確度更高的OCR等,破解者不必花費心思透過逆向工程推演演算法。

利用驗證碼將紙質典籍數字化

目前驗證碼已經被廣泛用於各大網站、app中,有資料顯示,這項技術在推出後的短短五年內,每天就有2億個驗證碼在被使用。

很快,驗證碼發明者提出一個新的專案reCAPTCHA,主要用於把網際網路出現前的紙質典籍數字化。思路是這樣的:驗證碼系統會向使用者出示兩個單詞,第一個是正常的自動生成扭曲文字,另外一個則來自紙質典籍的掃描版,來自掃描版的文字通常因為年代久遠、或是紙上有汙點等原因而難以被OCR程式識別。

因此,當使用者輸入驗證碼時,只要第一個單詞輸入正確就可以被判別為人類,輸入的第二個單詞只是“義務勞動”。這是因為系統會預設第二個單詞輸入是正確的,輸入結果只是會與其他使用者的輸入結果進行對比,如果多名使用者的答案一致,這個詞的數字化就完成了。

也許你會認為這樣一個一個詞的識別與龐大的待數字化的典籍相比,根本起不了多大作用,然而在推出之初,reCAPTCHA便能錄入3000萬個字元。2011年,它已經完成了全部的《紐約時報》數字化的工作,這份從1851年開始出版的老報紙有大量純紙質版的內容。

2009 年,Google看上了這個專案的價值,並出手收購了reCAPTCHA,同時也被Facebook、Twitter、CNBC等使用。在幫助這些流量最大的網站抵禦自動化程式騷擾的同時,Google圖書中難以被自動識別的掃描版的古老典籍同樣藉助reCAPTCHA得以數字化。

另外,reCAPTCHA還被用於幫助機器學習系統提高影像識別率,運作原理和典籍數字化的方法是一樣,用機器難以辨別的門牌號、貓狗照片拿來當做驗證碼供人類識別。

與此同時,使用者實際上還在幫機器學習系統標註訓練集,所以,強大的AlphaGo背後的人工智慧技術,可能早就有你的功勞。

NoCAPTCHA:不用輸入字元的驗證方式

Google在收購reCAPTCHA後,對它進行了以Google的方式改進。

在2014年,Google推出了新的驗證碼系統——NoCAPTCHA reCAPTCHA,雖然名字有點拗口,但依然是個驗證系統,其核心是不需要輸入驗證碼,使用者只需要點選一個“我不是機器人”的核取方塊,Google就能判別你是不是真正的人類。

reCAPTCHA的口號也從“別發垃圾資訊了,讀點書吧”(Stop Spam. Read Books),變成了驗證碼最初的目的“對人類簡單,對機器人困難”(Easy on Humans, Hard on Bots)。

NoCAPTCHA跟蹤使用者點選驗證框之前、當時和之後的行為,比如在網頁上花費的時間,從而來判斷是否是人為操作。

假如你被誤判為機器人,還有一個“申訴”的機會,和圖片驗證一樣,從一堆圖片中選出正確的目標。

使用reCAPTCHA v3的網站會在網站的每個頁面放入reCAPTCHA v3程式碼,而不只是在登入頁面。reCAPTCHA系統會跟蹤使用者的所有瀏覽行為進行分析。

就這樣,Google 可以獲得幾乎使用者的所有行為。Google也確認,使用者使用的硬體資訊即裝置上的軟體會被髮送回 Google伺服器,但它表示,獲得的結果“只用於分析使用者行為,不用於個性化廣告推薦”。不過,隱私都被掌握了的事實就擺在這裡,你想更快捷被驗證還是以隱私換取快捷呢?


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69940009/viewspace-2650658/,如需轉載,請註明出處,否則將追究法律責任。

相關文章