資料分析案例--USDA食品資料庫
本章節以及後續章節的原始碼,當然也可以從我的github下載,在原始碼中我自己加了一些中文註釋。
美國農業部(USDA)製作了一份有關食物營養資訊的資料庫。JSON版如下:
![10053166-00e86fd98d90bad1.png](https://i.iter01.com/images/43db170ed9c2daec5cb0fb6bd113b0891d5dda7934bcaf5a6be57339d664eade.png)
每種食物都帶有若干標識性屬性以及兩個有關營養成分和分量的列表。這種形式的資料不是很適合分析工作,因此我們需要做一些規整化以使其具有更好用的形式:
![10053166-71a9472b63f75492.png](https://i.iter01.com/images/d93aca7447cd65874804b15f1cc718ef54795ae0a71d968000223e71ec0cdd6d.png)
db中的每個條目都是一個含有某種食物全部資料的字典。nutrients欄位是一個字典列表,其中的每個字典對應一種營養成分:
![10053166-9d015791212e8be0.png](https://i.iter01.com/images/2a6c38dbe39037779484515fef80892fc6456ac84324b8aff62d032175f0da0b.png)
在將字典列表轉換為DataFrame時,可以只抽取其中的一部分欄位。這裡,我們將取出食物的名稱、分類、編號以及製造商等資訊:
![10053166-f44673a76f8a5f31.png](https://i.iter01.com/images/1586b647b80b92073258dd22e9189710a56aea59ac75488ecc4b1b51682317a6.png)
通過value_counts,可以檢視食物類別的分佈情況:
![10053166-e51c8fffaab2c42a.png](https://i.iter01.com/images/c6d6fad04351677a219b907a67439fa4727b1e938557b4490025c21229a3b396.png)
為了對全部營養資料做一些分析,最簡單的辦法是將所有食物的營養成分整合到一個大表中。我們分幾個步驟來實現該目的。首先,將各食物的營養成分列表轉換為一個DataFrame,並新增一個表示編號的列,然後將該DataFrame新增到一個列表中。最後通過concat將這些東西連線起來就可以了:
![10053166-dfbb9721e86640d4.png](https://i.iter01.com/images/f8a55642fd4f80da65d6700b3770decac083af1b3175f9b207ab5147e3a8860f.png)
![10053166-62ab9362218aea0e.png](https://i.iter01.com/images/30c0c68063120db6d2b6fecd0be0cc5d930946bda1ce5be183b9c19139301a85.png)
這個DataFrame中無論如何都會有一些重複項,所以直接丟棄就可以了:
![10053166-e0bb6ffb63fb8c0c.png](https://i.iter01.com/images/72836a1ea95444b9b4a2cb9a8af72c36574f6b80a0f3f810fe889258325553bf.png)
由於兩個DataFrame物件中(info 和 nutrients)都有"group"和"description",所以為了明確到底誰是誰,需要對它們進行重新命名:
![10053166-59e7d7b6ff991f55.png](https://i.iter01.com/images/7e791bb09625eb30cb9e19a848addb5b66b7a966e16817f41add12ab7875f77f.png)
將info跟nutrients合併起來:
![10053166-3b7b8b5acb650f36.png](https://i.iter01.com/images/efc63c9d903992b9172c7be634e70b293626c894ec8c08dfd06bc522494b9225.png)
![10053166-6614544cd32c0e1a.png](https://i.iter01.com/images/92a91f41873edb56b4e577b840b98df8f8e8603cee003ef055ed7a01ad170df8.png)
根據食物分類和營養型別畫出一張中位值圖:
![10053166-94b75abdfd2a03bb.png](https://i.iter01.com/images/f55ad9b722cb38b7a056a4b235a4cd6c4daa9fc038f7fd802a28969a9b13753e.png)
![10053166-4ab1a5b53c17cbe9.png](https://i.iter01.com/images/f799c52223d6510403541a790f5112f60bd61394fd6d917c4fdf07bbfb4011b0.png)
根據營養分類得出的鋅中位值
各營養成分最為豐富的食物是什麼,這裡只給出"Amino Acids"營養分組:
![10053166-e17dc1b31c331c8b.png](https://i.iter01.com/images/2a2401f0dabbda62a5b659eb3768e0ceafa621c7e4fd64b78e80f417029c81f5.png)
快速學習:
相關文章
- Oracle資料庫壞塊典型案例分析Oracle資料庫
- 【資料庫資料恢復】SAP資料庫資料恢復案例資料庫資料恢復
- 【資料庫資料恢復】Sql Server資料庫資料恢復案例資料庫資料恢復SQLServer
- 分析型資料庫:分散式分析型資料庫資料庫分散式
- 【資料庫資料恢復】Oracle資料庫誤truncate table的資料恢復案例資料庫資料恢復Oracle
- 【資料庫資料恢復】linux系統下MYSQL資料庫資料恢復案例資料庫資料恢復LinuxMySql
- 【資料庫資料恢復】sql server資料庫連線失效的資料恢復案例資料庫資料恢復SQLServer
- 【資料庫資料恢復】SqlServer資料庫無法讀取的資料恢復案例資料庫資料恢復SQLServer
- 【資料庫資料恢復】MongoDB資料庫檔案損壞的資料恢復案例資料庫資料恢復MongoDB
- MongoDB資料庫報錯,資料庫檔案丟失資料恢復案例MongoDB資料庫資料恢復
- 【資料庫資料恢復】斷電導致Oracle資料庫資料丟失的資料恢復案例資料庫資料恢復Oracle
- 資料庫資料恢復—附加資料庫錯誤823的SQL Server資料恢復案例資料庫資料恢復SQLServer
- 【資料庫資料恢復】SQL Server資料庫磁碟空間不足的資料恢復案例資料庫資料恢復SQLServer
- 【資料庫資料恢復】ASM磁碟組掉線的Oracle資料庫資料恢復案例資料庫資料恢復ASMOracle
- Chroma向量資料庫使用案例資料庫
- 【資料庫資料恢復】ASM例項不能掛載的Oracle資料庫資料恢復案例資料庫資料恢復ASMOracle
- 【資料庫資料恢復】MongoDB資料庫服務啟動失敗的資料恢復案例資料庫資料恢復MongoDB
- 資料庫資料恢復—無備份,binlog未開啟的Mysql資料庫資料恢復案例資料庫資料恢復MySql
- 案例分析:700G SQL Server資料庫遷移HGSQLServer資料庫
- 伺服器資料恢復—透過拼接資料庫碎片恢復SqlServer資料庫資料的資料恢復案例伺服器資料恢復資料庫SQLServer
- 資料庫資料恢復—MongoDB資料庫檔案丟失,啟動報錯的資料恢復案例資料庫資料恢復MongoDB
- 【oracle資料庫資料恢復】誤操作導致的資料庫誤刪除的資料恢復案例Oracle資料庫資料恢復
- 【資料庫資料恢復】華為雲ECS網站伺服器mysql資料庫資料恢復案例資料庫資料恢復網站伺服器MySql
- 【資料庫資料恢復】突然斷電造成Syabse資料庫無法啟動的資料恢復案例資料庫資料恢復
- 【資料庫資料恢復】Oracle資料庫檔案出現壞塊報錯的資料恢復案例資料庫資料恢復Oracle
- 資料庫在資料分析中如何應用資料庫
- Javaweb-資料庫設計案例JavaWeb資料庫
- 《分散式資料庫HBase案例教程》分散式資料庫
- NoSQL 資料庫案例實戰 -- MongoDB資料備份、恢復SQL資料庫MongoDB
- 【資料庫資料恢復】EXT3檔案系統下MYSQL資料庫恢復案例資料庫資料恢復MySql
- 【北亞資料恢復】sqlserver資料庫被加密的資料恢復案例分享資料恢復SQLServer資料庫加密
- 榮譽 | 雙行業案例入選!萬里資料庫榮獲「2022愛分析·中國資料智慧實踐案例」行業資料庫
- 非常實用的Oracle資料庫資料恢復方法案例Oracle資料庫資料恢復
- MySQL資料庫優化分析MySql資料庫優化
- openGauss資料庫分析問題資料庫
- 【資料庫資料恢復】無法啟動MongoDB服務的資料恢復案例資料庫資料恢復MongoDB
- 資料庫圈周盤點:資本正湧向分析型資料庫公司資料庫
- 資料庫新兵:分散式實時分析記憶體資料庫eSight資料庫分散式記憶體