Task04:機器學習賽事:快來一起挖掘幸福感--阿里雲天池

Mystics_發表於2020-12-24

賽題背景

在社會科學領域,幸福感的研究佔有重要的位置。這個涉及了哲學、心理學、社會學、經濟學等多方學科的話題複雜而有趣;同時與大家生活息息相關,每個人對幸福感都有自己的衡量標準。如果能發現影響幸福感的共性,生活中是不是將多一些樂趣;如果能找到影響幸福感的政策因素,便能優化資源配置來提升國民的幸福感。目前社會科學研究注重變數的可解釋性和未來政策的落地,主要採用了線性迴歸和邏輯迴歸的方法,在收入、健康、職業、社交關係、休閒方式等經濟人口因素;以及政府公共服務、巨集觀經濟環境、稅負等巨集觀因素上有了一系列的推測和發現。

賽題嘗試了幸福感預測這一經典課題,希望在現有社會科學研究外有其他維度的演算法嘗試,結合多學科各自優勢,挖掘潛在的影響因素,發現更多可解釋、可理解的相關關係。
賽題說明

賽題使用公開資料的問卷調查結果,選取其中多組變數,包括個體變數(性別、年齡、地域、職業、健康、婚姻與政治面貌等等)、家庭變數(父母、配偶、子女、家庭資本等等)、社會態度(公平、信用、公共服務等等),來預測其對幸福感的評價。

幸福感預測的準確性不是賽題的唯一目的,更希望選手對變數間的關係、變數群的意義有所探索與收穫。
資料說明

考慮到變數個數較多,部分變數間關係複雜,資料分為完整版和精簡版兩類。可從精簡版入手熟悉賽題後,使用完整版挖掘更多資訊。complete檔案為變數完整版資料,abbr檔案為變數精簡版資料。

index檔案中包含每個變數對應的問卷題目,以及變數取值的含義。

survey檔案是資料來源的原版問卷,作為補充以方便理解問題背景。

資料來源:賽題使用的資料來自中國人民大學中國調查與資料中心主持之《中國綜合社會調查(CGSS)》專案。賽題感謝此機構及其人員提供資料協助。中國綜合社會調查為多階分層抽樣的截面面訪調查。

外部資料:賽題以資料探勘和分析為出發點,不限制外部資料的使用,比如巨集觀經濟指標、政府再分配政策等公開資料,歡迎選手交流分享。

相關文章