【機器學習PAI實踐三】霧霾成因分析
一、背景
如果要人們評選當今最受關注話題的top10榜單,霧霾一定能夠入選。如今走在北京街頭,隨處可見帶著厚厚口罩的人在埋頭前行,霧霾天氣不光影響了人們的出行和娛樂,對於人們的健康也有很大危害。本文通過爬取並分析北京一年來的真實天氣資料,挖掘出二氧化氮是跟霧霾天氣(這裡指的是PM2.5)相關性最強的汙染物,從而為您揭祕形成霧霾的罪魁禍首。
這裡我們是用阿里雲機器學習平臺來完成實驗:
https://data.aliyun.com/product/learn
登陸阿里雲機器學習平臺,即可在demo頁選擇實驗並且親手實現整個機器學習的預測分析,完全零門檻。
二、資料集介紹
資料來源:採集了2016全年的北京天氣指標。
採集的是從2016年1月1號以來每個小時的空氣指標,。具體欄位如下表:
欄位名 | 含義 | 型別 |
---|---|---|
time | 日期,精確到天 | string |
hour | 表示的是時間,第幾小時的資料 | string |
pm2 | pm2.5的指標 | string |
pm10 | pm10的指標 | string |
so2 | 二氧化硫的指標 | string |
co | 一氧化碳的指標 | string |
no2 | 二氧化氮的指標 | string |
三、資料探索流程
阿里雲機器學習平臺採用拖拉演算法元件拼接實驗的操作方式,先來看下整個實驗流程:
我們把整個實驗拆解成四個部分,分別是資料匯入及預處理、統計分析、隨機森林預測及分析、邏輯迴歸預測及分析。下面我們分別介紹一下這四個模組的邏輯。
1.資料匯入及預處理
(1)資料匯入
在“資料來源”中選擇“新建表”,可以把本地txt檔案上傳。
資料匯入後檢視:
(2)資料預處理
通過型別轉換把string型的資料轉double。把pm2這一列作為目標列,數值超過200的情況作為重度霧霾天氣打標為1,低於200標為0,實現的SQL語句如下。
select time,hour,(case when pm2>200 then 1 else 0 end),pm10,so2,co,no2 from ${t1};
(3)歸一化
歸一化主要是去除量綱的作用,把不同指標的汙染物單位統一。
2.統計分析
我們在統計分析的模組用了兩個元件:
(1)直方圖
通過直方圖可以視覺化的檢視不同資料在不同區間下的分佈。通過這組資料的視覺化展現,我們可以瞭解到每一個欄位資料的分佈情況,以PM2.5為例,數值區間出現最多的是11.74~15.61,一共出現了430次。
(2)資料檢視
通過資料檢視可以檢視不同指標的不同區間對於結果的影響。
以no2為例,在112.33~113.9這個區間產生了7個目標列為0的目標,產生了9個目標列為1的目標。也就是說當no2為112.33~113.9區間的情況下,出現重度霧霾的天氣的概率是非常大的。熵和基尼係數是表示這個特徵區間對於目標值的影響,數值越大影響越大,這個是從資訊量層面的影響。
3.隨機森林預測及分析
本案其實是採用了兩種不同的演算法對於結果進行預測,我們先來看看隨機森林這一分支。我們通過將資料集拆分,百分之八十的資料訓練模型,百分之二十的資料預測。最終模型的呈現可以視覺化的顯示出來,在左邊模型選單下檢視,隨機森林是樹狀模型。
通過這個模型預測結果的準確率:
我們看到AUC是0.99,也就是說如果我們有了本文用到的天氣指標資料,就可以預測天氣是否霧霾,而且準確率可以達到百分之九十以上。
4.邏輯迴歸預測及分析
再來看下邏輯迴歸這一分支的預測模型,邏輯迴歸是線性模型:
模型預測準確率:
邏輯迴歸的AUC為0.98,比用隨機森林計算得到的結果略低一點。如果排除調參對於結果的影響因素,可以說明針對這個資料集,隨機森林的訓練效果會更好一點。
四、結果評估
上面介紹瞭如何通過搭建實驗來搭建針對PM2.5的預測流程,準確率達到百分之九十以上。下面我們來分析一下哪種空氣指標對於PM2.5影響最大,首先來看下邏輯迴歸的生成模型:
因為經過歸一化計算的邏輯迴歸演算法有這樣的特點,模型係數越大表示對於結果的影響越大,係數符號為正號表示正相關,負號表示負相關。我們看一下正號係數裡pm10和no2最大。pm10和pm2只是顆粒尺寸大小不同,是一個包含關係,這裡不考慮。剩下的no2(二氧化氮)對於pm2.5的影響最大。我們只要查閱一下相關文件,瞭解下哪些因素會造成no2的大量排放即可找出影響pm2.5的主要因素。
下面網上是找到的關於no2排放的論述,文中說明了no2主要來自汽車尾氣。no2來源文章
五、其它
參與討論:雲棲社群公眾號
免費體驗:阿里雲數加機器學習平臺
相關文章
- 【機器學習PAI實踐五】機器學習眼中的《人民的名義》機器學習AI
- 【機器學習PAI實踐四】如何實現金融風控機器學習AI
- 【機器學習PAI實踐二】人口普查統計機器學習AI
- 【機器學習PAI實踐六】金融貸款發放預測機器學習AI
- 【機器學習PAI實踐七】文字分析演算法實現新聞自動分類機器學習AI演算法
- 【機器學習PAI實踐一】搭建心臟病預測案例機器學習AI
- 【機器學習PAI實踐九】如何通過機器學習實現雲端實時心臟狀況監測機器學習AI
- 機器學習PAI全新功效——實時新聞熱點OnlineLearning實踐機器學習AI
- 【機器學習PAI實踐八】用機器學習演算法評估學生考試成績機器學習AI演算法
- 【機器學習PAI實踐十二】機器學習實現雙十一購物清單的自動商品標籤歸類機器學習AI
- 小米釋出防霧霾口罩 售價69元
- 機器學習PAI快速入門與業務實戰機器學習AI
- 機器學習PAI快速入門機器學習AI
- 【機器學習PAI實踐十】深度學習Caffe框架實現影象分類的模型訓練機器學習AI深度學習框架模型
- 小米霧霾口罩產品預告:17日釋出
- 阿里健康:大資料下的北京霧霾經濟阿里大資料
- 【機器學習PAI實踐十一】機器學習PAI為你自動寫歌詞,媽媽再也不用擔心我的freestyle了(提供資料、程式碼機器學習AI
- 【機器學習PAI實踐十二】機器學習演算法基於信用卡消費記錄做信用評分機器學習AI演算法
- 智慧裝置幫你防霧霾?其實並沒有什麼卵用
- 【機器學習PAI實踐十二】機器學習實現男女聲音識別分類(含語音特徵提取資料和程式碼)機器學習AI特徵
- 日媒:霧霾啟示中國人學習日本提高修養
- 小米防霧霾口罩明天釋出 米家APP放出宣傳影片APP
- 世界首款空氣淨化無人機 對抗霧霾新思路無人機
- 小米airwear防霧霾口罩怎麼樣?小米airwear開箱體驗AI
- 穹頂之下 霧霾中央 空氣類App備受關注APP
- 【機器學習PAI實戰】—— 玩轉人工智慧之綜述機器學習AI人工智慧
- 快速玩轉 Mixtral 8x7B MOE大模型!阿里雲機器學習 PAI 推出實踐大模型阿里機器學習AI
- 資料解讀採暖季:冬季霧霾元凶:燒煤、沒風
- 霧霾經濟過後,IQAir給空淨行業的啟示AI行業
- 【機器學習PAI實戰】—— 玩轉人工智慧之美食推薦機器學習AI人工智慧
- 機器學習實踐指南機器學習
- 小課堂 | 你聽過霧計算?對了,還有霾計算
- 機器學習總結 (機器學習實踐筆記)機器學習筆記
- ML-機器學習實踐機器學習
- 資料解讀:一場霧霾將損失多少GDP?治理成本有多高?
- 評書:《美團機器學習實踐》機器學習
- 大規模機器學習在愛奇藝視訊分析理解中的實踐機器學習
- 機器學習落地遊戲實踐簡析機器學習遊戲