世界財富的分佈是一個倒金字塔形狀的,來自71個國家的2212人共同擁有9.1萬億美元的財富。他們中的大多數人是白手起家,在科技、金融、時尚和體育行業建立起了自己的“帝國”。有一些人事業剛起步時就處在領先位置上,因為他們從自己的家族企業繼承了一大筆財產。這個專案就是要通過資料視覺化,分析這些富豪們。

專案介紹

在資料來源方面我選擇了福布斯富豪榜(福布斯雜誌於1917年發起的富豪排名的榜單)的資料,我用Selenium工具進行了資料爬取。

至於為什麼是福布斯?因為它是一家聚焦商業、投資、科技、企業家、領導藝術以及生活方式的超過百年曆史的媒體。他現在有超過3800萬的社交網路粉絲。重要的是它維護著一個富豪資料庫,並且一直進行著及時更新。

專案目標

我的專案是為了回答下面的所有問題:

● 哪個國家的億萬富豪最多?

● 男女比例如何?

● 哪個國家的富豪擁有的財富比例最高?

● 他們的錢都是哪來的?

● 誰是最年輕和最老的億萬富翁?

● 目前他們的身價有何變化?

● 每個國家的首富分別是誰?

資料爬取

爬取資料的過程如下:

● 進入福布斯億萬富翁專題首頁

● 找到頁面的URL地址

● 爬取每個人的細節資訊(排名、姓名、身價、年齡、收入來源、國籍、性別)

● 在過程中尋找X path時遇到一些麻煩,因為有時候掃描全網頁會發現並沒有什麼獨特的X path

● 對於性別和最新身價的資訊,我單獨進行了爬取,因為它們和其他資訊不在同一頁面

資料清洗

在得到初步的資料後,新的挑戰是如何清洗資料並不丟失重要資訊。我使用了Python Numpy、Pandas、正規表示式以及其他方法。我利用我擁有的另一組資料框架,給我的資料增加了兩列。之後我增加了一列資料,它顯示的是年初的身價和最新身價相比的變化。

 

清洗後的資料長這樣:

資料清洗

在製作資料視覺化圖表時,我使用了Matplotlib和Seaborn文庫包。

● 哪個國家億萬富翁數最多?

從下圖可以看到,美國最多,有585名億萬富翁,其次是中國,有373名。之後是德國、印度和俄羅斯。

● 男女比例

男性1972人,佔比89.2%,女性240人,佔比10.8%。我自己是覺得有點吃驚,我本來以為女性佔比會更多一些。

● 哪個國家億萬富翁們的財富佔整體的比例最高?

如我們所期待的那樣,美國排名第一,而且由於資料和其他國家情況差別很大,所以沒有在圖中展示。第二是中國。第三到第五比較有意思,分別是巴西、加拿大和澳大利亞。

● 最主要的收入來源?

下圖可以看出人們的收入來源都很相似,地產收入是所有人的重要收入來源,投資排在第二。藥物、零售、對衝基金、銀行等也是很重要的收入來源。

● 最年輕和最老的富翁

在分析年齡方面我做了一個直方圖,我發現大多數人的年齡在50到75歲之間,平均年齡是63歲,中位數是64歲。

最年輕的億萬富翁是安德烈森,她是丹麥人,年齡22歲,身價達到14億美元。最老的是新加坡航運公司的創始人Chang Yun Chung,今年已經100歲了,身價為19億美元。

● 身價最新變化

下圖是前11位富豪在2018年1月和10月的身價變化。

● 各國首富

下圖是各國首富的身價以及具體的資訊。美國首富貝索斯,身價在1470億美元左右。

結論

這個專案只是一個開始,並沒有結束。未來,我希望對過去5年的情況進行分析,這樣可以更好地看到這些變數帶來的影響。此外我還希望解答下列問題:

● 哪些人加入或者離開了這個富豪榜?

● 富豪個人的排名等變化如何影響了他們的國家?

● 他們每年的財產增減幅度是怎樣的?

來自: 紐約資料科學