昨天,烏雲漏洞報告平臺宣佈網易郵箱漏洞過億資料洩漏,我去,據說有億級別的使用者密碼流出…

現在網易官方還在和烏雲互掐,真相估計還要時間,但小編反問,你的密碼設計合理嗎?

2011 年起有一系列重大網站密碼洩露,csdn 社群、人人網、多玩網、微博的部分密碼資料都被掛到了網上(資料請自行 google,本文討論思路,展示結果,不洩露資訊)。

我們以當時微博的 3315156 條使用者名稱密碼資料,開始分析之旅。

工具(可以選擇略過這段!)

而我們下載到的檔案類似於 csv (逗號分隔) 或 tsv 格式(空格分隔)資料,如下:

你的密碼真的安全?看看當年三百萬樣本中的弱密碼規律

資料很大,需要的查詢可能很複雜,純指令碼處理很難勝任,我們需要資料庫, 本文用 mongoDB。

我們可以在命令列裡使用 mongoimport 命令匯入資料,也可以使用指令碼(我用 node.js)匯入,指令碼更靈活。導完後,可以直接在命令列(如 mac 的 terminal)查詢:

你的密碼真的安全?看看當年三百萬樣本中的弱密碼規律

以上,括號裡面的叫查詢條件,這在本文中很重要,我們可以在查詢條件裡插入正規表示式(網上資料大大的),讓查詢變得更復雜:

你的密碼真的安全?看看當年三百萬樣本中的弱密碼規律

最後,有時候我們要統計,比如密碼以 a、b、c、d..,各有多少,這時我們需要用 mapreduce 進行累加。

嘿嘿,工具只是手段,白貓黑貓,能抓老鼠的就是好貓。

讓我們啟程!

密碼 top 100

首先跑出重複率前 100 的密碼, 以下是前 20:

你的密碼真的安全?看看當年三百萬樣本中的弱密碼規律

很容易發現規律,俺將密碼主人分五大派系:

  • 極懶派
  • 手勢派
  • 規律派
  • 手機派
  • 生日派
  • 情感派

一、極懶派

這 3 萬多同學真是懶的令人髮指,也重新整理了哥的常識,喝喝…

你的密碼真的安全?看看當年三百萬樣本中的弱密碼規律

1. 那時候微博竟然能通過一個字的密碼。

2. password 也是老外的高頻詞,我不知道是不是某些網站輸入框裡 password 提示詞,或是很多裝置預設密碼是這個。

3. 單字重複型,如 11111,讓我們深入發掘下。

4. 最有意思的是 163.com 和 @qq.com 出現的頻率,而這 1000 多使用者,密碼=使用者名稱後半部分… 醉了

  • 極懶派之 一字重複 n 次

統計形如 ‘aa’, ‘11111’, ‘ssssssss’ 這類若干個相同單字的密碼總數:

你的密碼真的安全?看看當年三百萬樣本中的弱密碼規律

我統計了 1、2、3、4、5、6、7、8、9、0、q、a、z、w、s、d 的頻率分佈,其中用 11111 型的使用者最多,這些密碼總計 6w 多人,佔 2%。

你的密碼真的安全?看看當年三百萬樣本中的弱密碼規律

  • 極懶派之 使用者名稱=密碼

上述統計不包含使用者名稱和密碼相同的密碼,這部分密碼共有多少呢? 以 abcd@qq.com 為例,我們統計 abcd@qq.com / abcd / @qq.com 這 3 種模式的數量之和:

99671 個人,有點意外,整整佔了 3% 呢!

二、手勢派

密碼太長,能在鍵盤上排成一種形狀,記憶成本就大大壓縮,在密碼排行榜上,和圖形有關的密碼是哪些? 123456 云云者,勉強算吧,在數字鍵盤劃一字。同理 qwerty 開頭的也是這個原理。

你的密碼真的安全?看看當年三百萬樣本中的弱密碼規律

對此,我看到一位老外很牛逼地總結了 20 種模式:

你的密碼真的安全?看看當年三百萬樣本中的弱密碼規律

這個模式很牛逼,圖上是鍵盤密碼。但 11年 已經有很多人用手機上微博了。有不少這種手機鍵盤:

你的密碼真的安全?看看當年三百萬樣本中的弱密碼規律

因此很多密碼的原理就迎刃而解了:

你的密碼真的安全?看看當年三百萬樣本中的弱密碼規律

三、規律派

記住一串數字的規律,我們就可以把一串簡單的數字演繹成複雜密碼,而你記住規則就好。

很勉強,123456 就是個等差數列 fn = n 而 13579 是 fn = 2*n-1

很多人會用疊詞 如 123123,112233,或疊加後對稱 123321 。

高分密碼有這些:

你的密碼真的安全?看看當年三百萬樣本中的弱密碼規律

可以引申下,同樣是數列,用了中學知識就不一樣啦,假設我們讓 fn = n^2, 我們就可以構造一個數列了:

1 2 3 4 5 6 -> 1 4 9 16 25 36…

我查詢了含有 1491625 的所有密碼,共找到 30 幾個,真是海記憶體知己(因為曾經我也是這麼設計的)

同理 1 8 27 64 125 的只有 3 個人,高手啊

如果你拿 12345 開根號、取三角函式、取對數,忘記密碼,在手機計算機裡算一遍(別忘了公式)。

海內無知己,天涯只有你,你贏了!

四、手機派

使用自己和親人的生日、電話、手機做密碼,已是我對普通密碼的印象了,這部分人究竟多不多?

用手機做密碼,一開始我設定了 11 位的數字的條件,但是有很多錯誤的結果。好在網上有對手機號碼檢測的正規表示式,包含了 2013年 前所有的手機欄位:

  • 移動:139 138 137 136 135 134 147 150 151 152 157 158 159 178 182 183 184 187 188
  • 聯通: 130 131 132 155 156 185 186 145 176
  • 電信: 133 153 177 180 181 189
  • 虛擬運營商:170

因此大哥整理了一個可以查詢手機號的正規表示式:

你的密碼真的安全?看看當年三百萬樣本中的弱密碼規律

親測有效哦,出來的密碼幾乎都是手機號, 172418 個同學用手機號做密碼 佔比 5%。

五、生日 / 紀念日派

我們查詢所有包含年份的密碼,這些年份都以 19 和 20 開頭,且有 4 位連續數字, 考慮到 5201314 (我愛你一生一世) 也是高頻密碼,且密碼資料的時間為 2011年,此時 2013 不該出現,所以排除 2011年 以後的年份,我們得到如下結果:

你的密碼真的安全?看看當年三百萬樣本中的弱密碼規律

543559 個密碼使用了年份,佔總量的 18%。 真不是小數字,但資料還是很複雜,有大量年份和字母,符號混合的,也不一定就是年份。那我們縮小範圍,如果包含生日的有多少人?

月份比較複雜,1月1日 出生的,也許寫 11,也許寫 0101,也有 1.1、1-1 的。但後者其實比較少,且在在一篇分析人人和 csdn 密碼的文章裡看到 YYMMDD 型的生日是最多的:

你的密碼真的安全?看看當年三百萬樣本中的弱密碼規律

那我們的查詢如下:

你的密碼真的安全?看看當年三百萬樣本中的弱密碼規律

318022 個密碼符合條件 佔總量的 10%。

這批密碼還是頗為複雜,因為很多人在字母和其他數字後加入生日的,僅以生日作為密碼的人會有多少?

你的密碼真的安全?看看當年三百萬樣本中的弱密碼規律

答案是 137697, 4%的人用自己生日做密碼,而其中,也有些奇葩的答案,如好幾個 19190504。我去,這是 xx 團委的公眾號麼…

六、情感派

寫一句有含義的密碼,寫什麼重複率最高?

你的密碼真的安全?看看當年三百萬樣本中的弱密碼規律

現實裡壓抑的我們難得一說我愛你,不論國內國外,都有很多人對著伺服器許願,說出 wo ai xx,這些我愛你型密碼的總數讓我非常震驚。

這份密碼資料裡,woaini 以 2659 次重複榮居意義型密碼榜首,iloveyou 則不到 woaini 的一半。 但事實上文字版的都弱爆了,位居第五名的 5201314(我愛你一生一世)有 15000 個人同時使用,還有各種變體…其中第 13 名最缺愛 7758521(親親我吧愛我吧)

除了我愛你,我還愛誰? 讓我們查詢任何含有 woai(我愛)的密碼,還是基本都是在各種愛你… 偶爾有 woaiwojia woaishui woainima… 有意思的是我愛我家,這中介公司的名字取得真是合理。

你的密碼真的安全?看看當年三百萬樣本中的弱密碼規律

如果我們查詢含有 ‘wo’ 字的密碼,也會發現我最喜歡做的事情就是愛 xx… 除了愛你,我還愛誰呢,老公、老婆、媽媽、爸爸?…

woailaopo + laopowoai 的人數有 291 人 。

laogongwoai 和 woailaogong 的人數有 98 人。

這些都是少數派密碼了。

我們試試我愛媽媽 (201) 和我愛爸爸 (60) 的比例,竟然也是 3:1。

出於好奇,我又統計了密碼裡包含’ laopo’ 的和包含’ laogong’ 的比例:

老公: 454

老婆: 1118

包含老公的密碼基本都是形如: ‘zuiailaogong’、 ‘qinaidelaogong’、 ‘pplaogong’,我擦看不下去了,真是一部 show 恩愛寶典…

愛老婆的數量還是完勝,可惜,這是一組良莠不齊的密碼, 還是有不少形如 laopo38、 laoposhizhu choulaopo laopocaolei sblaopo777 的密碼…(總數還是不算多)

相反,罵人的人比例很少,fuck shit cao 說的人都不算多。而這其中,也有些有趣的點:

魯迅在雜文《論他媽的》中說他媽的是中國的國罵,但是時代變了,也許是受了上古十大神獸草泥馬(當年暴走漫畫王尼瑪還沒火吧),nima 的頻率 2714 次遠高於 tama 101 次。也完勝 ‘fuck’、 ‘shit’、 ‘wocao’ 這些 400-500 次之間的詞。

用什麼字做密碼最安全

我不是黑客,不知破解演算法是怎麼做的,但只要鍵入一個字,就讓你的密碼與眾不同,你會怎麼敲? 我們對密碼裡用到的所有字進行統計,得出下圖:

你的密碼真的安全?看看當年三百萬樣本中的弱密碼規律

1 是第一名,被 300 多萬使用者累計輸入 300 多萬次,1 是一個很有趣的數字,超過 60%的人密碼會用到 1,而 30%的人會以 1 作為密碼開頭, 可以看到’.’ ‘@’ 等特殊字元,在符號裡排名很靠前。曾經看到說用’_‘在密碼裡較為安全,因為比’-‘少,事實上也的確如此,但你何必按 shift 打_號呢,’,’的比例比前面所有的標點符號都少。

我們可以看到,資料下降非常快速,有規律可循嗎?將柱狀圖的大小全部取對數,那麼四大陣營的階梯形一覽無餘: 1-9 排在了所有的字母之前,幾乎所有的字母排在了大寫字母之前:

你的密碼真的安全?看看當年三百萬樣本中的弱密碼規律

最後,糾正一個資料錯誤,我們看到 ‘E’ 和 ‘+’ 的比例非常異常,他們理應沒有那麼多,為什麼?

你的密碼真的安全?看看當年三百萬樣本中的弱密碼規律

好,看到這裡,你應該覺得很熟悉, 5201314,123456, 都是熟悉的密碼,而 E+13 這種也很熟悉。excel 裡輸入一個長度超過 11 位的純數字,excel 會自動將數字轉化為這個樣子的。這份資料應該是被誰用 excel 開啟後又儲存了,所以,大寫字母最多的應該是 ‘A’,而 ‘+’的用量也排不到符號類的第二名。

你的密碼安全嗎

回到 2011年,我在微博上找一個郵箱,然後破解你的密碼,哥成功的概率有多大?

前 100 名的密碼,第一名的密碼 123456 共 165882 條,佔 5%。前 10 名的密碼有 316085 條,佔 10%,而前 100 條密碼共 442555 條,佔 15%

累計 15%的人能被這 100 個密碼破解。

使用者名稱和密碼匹配(包含之前提到的字首相同,字尾相同和 字尾 +@ 相同)共 99671 人。

累計計 18%的使用者都會在 103 次窮舉後被破解。

近 100年 的生日有 365*100 個,如果我遍歷那麼多次,總有一個是對的,這樣我可以破解 4%的密碼。

累計 22%的人已經被破解。

倘若我知道你的手機號碼,5%的人的密碼會被破解,累計 27%

如果我知道你的名字 (這份資料無法分析你的名字和密碼的關係) 這個比例會更高。

2011年,1/3 的人密碼是不安全的。

你覺得你的密碼設計的科學嗎?

出自數學的美學世界  轉自36kr