百分點資料科學實驗室:公眾環境滿意度與環境質量的關聯分析研究
編者按:生態環境部部長黃潤秋指出“良好的生態環境是最普惠的民生福祉”。生態環境好不好,關鍵還是要看質量,看百姓對藍天白雲、清水綠岸的滿意度和獲得感。通過大資料、人工智慧等先進技術,可深入挖掘公眾對生態環境的滿意度,保障公眾環境保護知情權、參與權、表達權和監督權。
針對當前公眾環境滿意度與環境質量的關聯分析需求,百分點資料科學實驗室基於機器學習、文字分析等建模技術,從環境質量公眾感受評價、敏感變化關聯分析、生態環境質量改善成效評估三個角度進行了深入分析,為加強生態環境公眾參與、提高生態環境管理決策能力提供技術支撐。
一、
專案背景
近年來,環境汙染事件對社會經濟可持續發展和公眾個人的生活產生的影響一直存在,而公眾的環境意識也在不斷提升。生態環境保護既需要政府治理,也需要公眾參與,從公眾實際感受和反饋中提取意見有助於改進和提高環境治理能力。
目前,環保部門僅通過環境監測裝置對能夠影響環境質量的一些因素進行測定,利用得到的具體數值,來評價環境質量(或汙染程度) 及其變化的趨勢,缺少了公眾參與。
為提升生態環境保護公眾參與程度,提高生態環境管理決策能力,重點關注生態環境質量與公眾感受“兩張皮”現象,2021年5月,百分點科技通過環境質量監測大資料,結合線上問卷調查及網際網路輿情資料,形成大小資料融合,分析公眾環境空氣質量滿意度、改善成效、政府治理措施等情況,為加強生態環境公眾參與、提高生態環境管理決策能力提供技術支撐。
二、
解決方案
1. 模型資料
(1)生態環境監測資料
中國環境監測總站(以下簡稱總站)提供的2020-2021年至今環境空氣質量監測資料,監測指標包括PM2.5、PM10、SO2、NO2、CO、O3等,共5000+個環境空氣質量監測站點。
(2)線上問卷調查資料
樣本來自全國400萬線上調研樣本庫隨機抽樣,面向全國339個地級以上城市,問卷調查結果共收集31個省的317個城市10,500個樣本,在物件選取上考慮了年齡性別、教育水平、行業職業等因素,儘量保證受訪物件的隨機性、均勻性。
(3)網路輿情資料
本次研究選取2021年5月的網路輿情資料,包括各地生態環境主管部門官網、中國環境報、中國環境新聞網和微博等主流媒體網站資料。研究重點覆蓋26個關鍵詞,包括7個空氣相關關鍵詞、8個水相關關鍵詞、7個改善措施相關關鍵詞和4個其他關鍵詞,涉及微博1,309,188條、相關新聞網站15,026條資料。
2. 模型選擇
通過環境監測資料與線上問卷調查資料、主流媒體相關輿情資料進行對比分析,利用文字分析技術分析挖掘公眾感受與環境空氣質量監測結果存在偏差的原因,分析公眾不同時期對環保關注的重點、環境關注的熱詞、環境狀況的情感。
文字分析是指對文字的表示及其特徵項的選取,它把從文字中抽取出的特徵詞進行量化來表示文字資訊,文字分類的流程:文字預處理、特徵提取、文字表示和分類器。
文字預處理:
(1)分詞
分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。
“結巴”(jieba)分詞是Python語言的一箇中文分詞包,它有如下三種模式:精確模式,試圖將句子最精確地切開,適合文字分析;全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義;搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。
LTP是哈工大開源的一套中文語言處理系統,提供包括中文分詞、詞性標註、命名實體識別、依存句法分析、語義角色標註等豐富、高效、精準的自然語言處理技術。LTP 已經成為國內外最具影響力的中文處理基礎平臺。
(2)去除停用詞
停用詞是指在資訊檢索中,為節省儲存空間和提高搜尋效率,在處理自然語言資料(或文字)之前或之後會自動過濾掉某些字或詞,這些字或詞即被稱為停用詞。停用詞主要包括一些副詞、形容詞及其一些連線詞。通過維護一個停用詞表,實際上是一個特徵提取的過程,本質上是特徵選擇的一部分。
特徵提取:
a. 詞袋模型
建立一個詞典庫,該詞典庫包含訓練語料庫的所有詞語,每個詞語對應一個唯一識別的編號,利用One-Hot文字表示。文件的詞向量維度與單詞向量的維度相同,每個位置的值是對應位置詞語在文件中出現的次數,即詞袋模型。通過Scikit-learn的CountVectorizer類來完成,這個類可以幫我們完成文字的詞頻統計與向量化。
CountVectorizer特徵提取
b. TF-IDF文字特徵提取
利用TF和IDF兩個引數來表示詞語在文字中的重要程度。TF指的是一個詞語在一個文件中出現的頻率,一般情況下,每一個文件中出現的詞語的次數越多詞語的重要性更大,IDF是體現詞語在文件間的重要性。即如果某個詞語出現在極少數的文件中,說明該詞語對於文件的區別性強,對應的特徵值高,IDF值高。
當計算出TF和IDF值後,兩數相乘即為TF-IDF:某詞的TF-IDF值越高,說明其在這篇文章中的重要性越高,越有可能是文章的關鍵詞。
TF-IDF文字特徵提取
(3)建模分析
利用先構建好的情感詞典,對預處理好的文字進行字串匹配,從而挖掘正面和負面資訊。情感詞典包含正面詞語詞典、負面詞語詞典、否定詞語詞典、程度副詞詞典等四部分。情感詞典在整個情感分析中至關重要,所幸現在有很多開源的情感詞典,如BosonNLP情感詞典,它是基於微博、新聞、論壇等資料來源構建的情感詞典,以及知網情感詞典等。
逐個遍歷分詞後的語句中的詞語,如果詞語命中詞典,則進行相應權重的處理。正面詞權重為加法,負面詞權重為減法,否定詞權重取相反數,程度副詞權重則和它修飾的詞語權重相乘。利用最終輸出的權重值,就可以區分是正面、負面還是中性情感了。
基於情感詞典的文字分類
三、
分析思路
1. 公眾環境質量滿意度評價
運用線上問卷調查結果,構建公眾環境質量滿意度評價體系,以空氣為重點、以城市為單位,分析公眾對於目前環境質量滿意度情況,並與環境質量狀況進行對比分析。
2. 敏感變化關聯分析
利用各城市環境監測資料,分析環境監測資料驟升/驟降的開始時間、維持天數及平均變化值,並利用線上問卷調查資料和主流媒體相關輿情資料進行關聯分析,通過挖掘監測資料和公眾感受存在顯著偏差的現象,研判各城市敏感變化的原因。
3. 輿情分析
運用線上問卷調查結果和政府官網、主流媒體相關輿情資訊,以空氣為重點、以城市為單位,分析公眾環保關注的重點領域,通過輿情資料收集環境不滿意的原因,提出針對性的改善建議。
四、
成果展示
1. 社會公眾感受評價總體概覽
在本次全國範圍公眾滿意度調查問卷中,近九成受訪者對環境空氣質量感到滿意。通過區域及省市層面對比發現,公眾感受與環境監測結果基本保持一致。
各省5月公眾環境空氣質量滿意度
各省5月AQI均值
2. 敏感變化分析
針對各地市AQI敏感變化,將該區域群眾的反饋資訊及網路輿情資訊進行關聯,就可以分析敏感變化原因。比如,對全國339個城市當月AQI進行分析,採集來自中國環境報、中國環境新聞網、微博的新聞,篩選出有關生態環境的新聞,並對應上述AQI驟升的城市,就可以從新聞報導中發現部分地區AQI敏感變化的原因與影響公眾感受的霧霾,沙塵有關。
3. 輿情分析助力政府環保措施完善
選取各地生態環境主管部門官網及中國環境報、中國環境新聞網、微博等主流媒體網站,採集了與環保相關資料,對資料進行處理分析後從中得到的主要關鍵詞雲如下:
輿情采集關鍵詞的詞雲圖
從上圖可以看出,當月公眾對環保比較關注的點為:霧霾、沙塵、惡臭、噪聲、水汙染等。生態環境主管部門可從公眾關注的方向入手,解決環保工作中較為突出的問題,由此來提高公眾的環保滿意度。
案例分析
空氣質量:A市5月份AQI在全國339個城市中排名305位,儘管排名靠後,但是和3月相比,在全國改善排名中上升至第13位,空氣質量有較為突出的改善。
滿意度得到提升:A市5月份公眾環境空氣質量滿意度77.8分,全國排名285名,3月份滿意度76.6分,全國排名310名,5月比3月提升1.2分,上升25名。
新聞輿情:5月份A市生態環境局對市各區揚塵汙染問題進行檢查,並對12起典型揚塵問題予以公開曝光。
五、
研究和現實意義
近些年政府環保投入和治理力度不斷增強,生態環境改善取得了明顯成效。然而政府環保監測資料不足以全面反映環境質量問題,需通過問卷、輿情資料探勘監測資料無法體現的問題。
與此同時,問卷及輿情資料也包含公眾對當地政府環境治理成果的評價,充分利用好問卷及輿情資料去了解公眾對環境的滿意度,能夠更好地捕捉他們的感受、需求、期待。
從公眾的角度反映環保工作的重點和難點,以及主要影響因素,為環境監測工作提供資料支撐、為生態文明建設提供決策依據,具有重要的理論和現實意義。
六、
未來研究方向
未來可以通過融合企業用電資料、汙染源資料、交通資料等更多維度的資料,進一步提升環境治理水平、改善環境質量、提高公眾滿意度。
(1)建立常態化環境與輿情關聯機制
探索建立業務化機制,及時發現環境治理工作落實滯後、治理效果不到位等問題,併發出預警訊號;直觀體現地方環境治理工作成效,並進一步加強環境治理經驗宣傳和推廣。建立生態環境質量公眾滿意調查問卷定期更新機制,圍繞生態環境重大政策行動設定專題,堅持小切口,不搞大而全,切實反映環境管理關心的問題與資訊。
(2)建立環境質量輿情應對機制
加強環保政策的正面宣傳和公眾輿情的正面引導。收集公眾意見反饋、個人訴求等,定期總結、及時反應,提高政府服務質量。當產生階段性環境治理成果等正面輿情時,及時展開環保政策宣傳、科普活動;當發現公眾感受與環境質量出現長期異常偏離的現象,將開展專項調查,及時查詢問題,避免對政府形象造成負面影響。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/30407209/viewspace-2850729/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Windows的Linux子系統搭建資料科學環境WindowsLinux資料科學
- 在 Fedora 上搭建 Jupyter 和資料科學環境資料科學
- 阿里雲體驗實驗室 教你如何《搭建Hadoop環境》阿里Hadoop
- 阿里雲體驗實驗室 教你《快速搭建Docker環境》阿里Docker
- 阿里雲體驗實驗室教程《快速搭建LAMP環境》阿里LAMP
- 搭建Ansible實驗環境
- 阿里雲體驗實驗室 教你如何《快速搭建LNMP環境》阿里LNMP
- 百分點資料科學實驗室:白酒零售行業商品搭售方案資料科學行業
- 深圳共享辦公,創造優質環境
- Linux 0.11 實驗環境搭建與除錯Linux除錯
- 阿里雲體驗實驗室 教程《搭建Java Web開發環境》阿里JavaWeb開發環境
- (一)Linux環境的學習環境的搭建Linux
- 聯合國環境規劃署:二手車與環境
- 關於“心流”與“環境”
- SEEDLab —— 環境變數與 Set-UID 實驗變數UI
- 聯合辦公室出租營造舒適環境,告別壓迫感
- 學習筆記:openstack實驗環境安裝筆記
- mit6.828 實驗環境配置MIT
- 阿里雲體驗實驗室 教你《搭建Node.js程式設計環境》阿里Node.js程式設計
- 人工智慧中的情景環境與順序環境人工智慧
- 百分點資料科學實驗室:零售行業新店品類配比測算方案資料科學行業
- 配置開發環境、生成環境、測試環境開發環境
- Anaconda建立環境、刪除環境、環境重新命名、檢視環境名
- Windows環境下的Nginx環境搭建WindowsNginx
- 理解event loop(瀏覽器環境與nodejs環境)OOP瀏覽器NodeJS
- DataSpell 2023:資料科學家的專業整合開發環境mac/win版資料科學開發環境Mac
- Win環境至Linux環境Oracle資料庫遷移全過程LinuxOracle資料庫
- webpack(1)安裝環境與解決環境問題Web
- 作業系統實驗 & bochs 環境配置作業系統
- 實驗01 Rose環境和用例圖ROS
- 資料庫應有與之匹配的基礎環境資料庫
- BMJ:研究發現環境與肥胖相關
- 運維相關環境與工具掃盲運維
- app自動化測試環境配置:adb環境配置、monkey環境配置、appium環境配置大全APP
- gym建立環境、自定義gym環境
- Windows 環境下 Python 環境安裝WindowsPython
- window環境下testlink環境搭建(xammp)
- 物聯網環境下資訊保安問題與對策