實驗指導(二):利用AI大模型輔助學生完成金融資料分析綜合實踐作業--零程式碼實現聚類分析任務
1、實驗目的
- 掌握透過上傳表格檔案,利用AI大模型輔助進行資料分析的方法
- 掌握完全利用AI大模型模型,零程式碼完成資料聚類任務的方法
2、實驗內容
在前序實驗指導中,已經介紹瞭如何利用AI大模型進行輔助程式設計的方法。前序的任務中,假定的場景為學生基於本地的資料進行分析,開發工具為本地的Anaconda環境,在開發的過程中,輔助利用AI大模型改正和完成自己的部分程式碼。本實驗更進一步地,將資料上傳到AI大模型平臺,透過提示詞,零程式碼(學生自己不寫任何程式碼)的完成資料聚類任務。本次作為背景內容的實驗案例為仍為《農村地區居民人均可支配收入水平綜合評價》綜合實踐任務,實驗給定一個表格(見附件7),表格檔名為: 農村居民人均可支配收入來源2016.xlsx ,表格的資料為2016年我國31個省、自治區和直轄市的農村地區居民的工資性收入、經營淨收入、財產淨收入、轉移淨收入,要求學生根據每個省份的這四個指標資料,使用聚類技術,將居民收入分佈比較類似的省份劃分到一起。AI大模型平臺為前序實驗指導中的智譜清言(ChatGLM),之前註冊的賬號可以繼續使用。
本次實驗的程式碼可以分為三個部分,分別為:
- (1) 上傳資料到智譜清言的“資料分析”智慧體中
- (2) 使用合適的提示詞,讓該智慧體自動完成描述型資料分析
- (3) 使用合適的提示詞,讓該智慧體自動完成聚類分析任務
3、實驗步驟
3.1 上傳表格檔案到"資料分析"智慧體中
AI大模型的智慧體(Agent)指的是一個能夠在特定環境中感知、決策和行動的自主系統。智譜清言的智慧體是基於其平臺的大語言模型GLM-4建立的,允許使用者無需程式設計經驗即可建立個性化的智慧體。這些智慧體能夠實現聊天、程式碼執行、資料分析等功能。由於資料分析功能的需求廣泛存在,所以智譜清言在其智慧體中心中預設已經配置好了“資料分析”智慧體。我們可以直接與這個智慧體進行互動。
步驟如下:
-
- 訪問 https://chatglm.cn/
-
- 在頁面中找到資料分析智慧體,點選進行該智慧體
-
- 將農村居民人均可支配收入來源2016.xlsx上傳到該智慧體中(在輸入框出有一個上傳按鈕,點選即可),並輸入下面的提示詞:
Student:請基於該檔案裡面的資料內容,根據我下面的指令,完成任務。
- 將農村居民人均可支配收入來源2016.xlsx上傳到該智慧體中(在輸入框出有一個上傳按鈕,點選即可),並輸入下面的提示詞:
不出意外的,“資料分析”智慧體會讀取我們上傳的表格,並自動的顯示錶格的前5行(這是“資料分析”智慧體的預設配置行為),並會給我們一些可以進行哪些任務的提示。
3.2 描述型資料分析:直接輸入下面的提示詞,讓ChatGLM完成下面的3個小任務
-
- 哪一個城市的工資性收入最高?
-
- 財產淨收入收入墊底的5個省份是哪些?
-
- 北京市農村居民的收入總和是多少?
-
- 自己再設計3個描述型資料分析的小任務,並設計對應的提示詞,和ChatGLM進行互動,將結果記錄在實驗手冊上
教師提示:在你和ChatGLM使用上面的提示詞進行互動的過程中,也許你未必能夠得到正確的結果。如果不正確,請修改提示詞,重新和ChatGLM進行互動,直到你獲得正確的結果。
3.3 零程式碼完成聚類分析任務
眾所周知,我國省份眾多,在經濟發展過程中,呈現明顯的區域性差異。在農村居民收入這一個指標上,也應該有類似的體現。為了驗證這一點結論,我們基於聚類分析的思想,利用ChatGLM完全零程式碼的完成任務,並讓ChatGLM幫助我們對聚類結果進行分析。輸入下面的提示詞。
Student: 基於該資料集,在農村居民收入這個指標上,哪些省份比較類似呢?
ChatGLM: 要確定哪些省份在農村居民收入方面比較相似,我們可以使用聚類分析。聚類分析可以幫助我們根據收入指標將省份分組,從而找出相似的省份群體。我們將使用以下步驟進行聚類分析:
- 資料預處理:標準化資料,使每個特徵具有相同的尺度。
- 選擇聚類演算法:在這裡,我們可以使用 K-means 聚類演算法。
- 確定聚類數:使用肘部法則來確定最佳的聚類數。
- 執行聚類:使用選定的聚類數執行 K-means 演算法。
- 分析結果:分析聚類結果以確定哪些省份在收入方面相似。
......
[ChatGLM回答完畢]
教師提示:下面的介紹基於教師與ChatGLM進行對話的結果,也許與你的不同,你需要結合自己與ChatGLM對話的結果進行分析
不出意外的話,ChatGLM可以幫助我們自動完成了聚類,預設的聚類數是3,將表格中的所有省份分成了3組,其中 群組1包括了“北京、天津、上海、浙江”,群組2包括了"河北、遼寧、江蘇、福建、山東、廣東",其餘省份被分在群組3。群組1包含了北京、天津、上海等經濟較發達的直轄市和浙江省,其工資性收入遠高於其他兩個群組,這可能反映了這些地區更高的經濟發展水平和工資水平。
假如你對這個聚類結果不滿意,想劃分為更多的類,比如4個,可以繼續和ChatGLM進行互動,使用下面的提示詞:
Student:設定聚類數量為4,重新完成上述過程。
教師提示:聚類本身屬於機器學習中的無監督學習方法,另外K均值聚類有一定的隨機性,聚類結果是否合理需要人手動來判斷
最終,透過你不停的設定提示詞和ChatGLM進行互動,將你認為合理的聚類結果記錄在實驗手冊上。
4. 實驗總結
- (1) 請回答:在實驗中你收穫哪些AI技巧?
- (2) 請回答:在實驗中你解決了哪些問題?
- (3) 請回答:在實驗中你還存在哪些問題沒有解決?
5.附件1:表格資料
地區 | 工資性收入 | 經營淨收入 | 財產淨收入 | 轉移淨收入 |
---|---|---|---|---|
北京 | 16637.5 | 2061.9 | 1350.1 | 2260 |
天津 | 12048.1 | 5309.4 | 893.7 | 1824.4 |
河北 | 6263.2 | 3970 | 257.5 | 1428.6 |
山西 | 5204.4 | 2729.9 | 149 | 1999.1 |
內蒙古 | 2448.9 | 6215.7 | 452.6 | 2491.7 |
遼寧 | 5071.2 | 5635.5 | 257.6 | 1916.4 |
吉林 | 2363.1 | 7558.9 | 231.8 | 1969.1 |
黑龍江 | 2430.5 | 6425.9 | 572.7 | 2402.6 |
上海 | 18947.9 | 1387.9 | 859.6 | 4325 |
江蘇 | 8731.7 | 5283.1 | 606 | 2984.8 |
浙江 | 14204.3 | 5621.9 | 661.8 | 2378.1 |
安徽 | 4291.4 | 4596.1 | 186.7 | 2646.2 |
福建 | 6785.2 | 5821.5 | 255.7 | 2136.9 |
江西 | 4954.7 | 4692.3 | 204.4 | 2286.4 |
山東 | 5569.1 | 6266.6 | 358.7 | 1759.7 |
河南 | 4228 | 4643.2 | 168 | 2657.6 |
湖北 | 4023 | 5534 | 158.6 | 3009.3 |
湖南 | 4946.2 | 4138.6 | 143.1 | 2702.5 |
廣東 | 7255.3 | 3883.6 | 365.8 | 3007.5 |
廣西 | 2848.1 | 4759.2 | 149.2 | 2603 |
海南 | 4764.9 | 5315.7 | 139.1 | 1623.1 |
重慶 | 3965.6 | 4150.1 | 295.8 | 3137.3 |
四川 | 3737.6 | 4525.2 | 268.5 | 2671.8 |
貴州 | 3211 | 3115.8 | 67.1 | 1696.3 |
雲南 | 2553.9 | 5043.7 | 152.2 | 1270.1 |
西藏 | 2204.9 | 5237.9 | 148.7 | 1502.3 |
陝西 | 3916 | 3057.9 | 159 | 2263.6 |
甘肅 | 2125 | 3261.4 | 128.4 | 1942 |
青海 | 2464.3 | 3197 | 325.2 | 2677.8 |
寧夏 | 3906.1 | 3937.5 | 291.8 | 1716.3 |
新疆 | 2527.1 | 5642 | 222.8 | 1791.3 |