資料分析案例--USDA食品資料庫

本章節以及後續章節的原始碼，當然也可以從我的github下載，在原始碼中我自己加了一些中文註釋。

美國農業部（USDA）製作了一份有關食物營養資訊的資料庫。JSON版如下：

每種食物都帶有若干標識性屬性以及兩個有關營養成分和分量的列表。這種形式的資料不是很適合分析工作，因此我們需要做一些規整化以使其具有更好用的形式:

db中的每個條目都是一個含有某種食物全部資料的字典。nutrients欄位是一個字典列表，其中的每個字典對應一種營養成分：

在將字典列表轉換為DataFrame時，可以只抽取其中的一部分欄位。這裡，我們將取出食物的名稱、分類、編號以及製造商等資訊：

通過value_counts，可以檢視食物類別的分佈情況：

為了對全部營養資料做一些分析，最簡單的辦法是將所有食物的營養成分整合到一個大表中。我們分幾個步驟來實現該目的。首先，將各食物的營養成分列表轉換為一個DataFrame，並新增一個表示編號的列，然後將該DataFrame新增到一個列表中。最後通過concat將這些東西連線起來就可以了：

這個DataFrame中無論如何都會有一些重複項，所以直接丟棄就可以了：

由於兩個DataFrame物件中（info 和 nutrients）都有"group"和"description"，所以為了明確到底誰是誰，需要對它們進行重新命名：

將info跟nutrients合併起來：

根據食物分類和營養型別畫出一張中位值圖:

根據營養分類得出的鋅中位值

各營養成分最為豐富的食物是什麼，這裡只給出"Amino Acids"營養分組：

快速學習：

相關文章