哈爾濱金融學院--實驗指導(二):利用AI大模型輔助學生完成金融資料分析綜合實踐作業--零程式碼實現聚類分析任務

哈金融张春越老师發表於2024-07-13

實驗指導(二):利用AI大模型輔助學生完成金融資料分析綜合實踐作業--零程式碼實現聚類分析任務

1、實驗目的

  • 掌握透過上傳表格檔案,利用AI大模型輔助進行資料分析的方法
  • 掌握完全利用AI大模型模型,零程式碼完成資料聚類任務的方法

2、實驗內容

在前序實驗指導中,已經介紹瞭如何利用AI大模型進行輔助程式設計的方法。前序的任務中,假定的場景為學生基於本地的資料進行分析,開發工具為本地的Anaconda環境,在開發的過程中,輔助利用AI大模型改正和完成自己的部分程式碼。本實驗更進一步地,將資料上傳到AI大模型平臺,透過提示詞,零程式碼學生自己不寫任何程式碼)的完成資料聚類任務。本次作為背景內容的實驗案例為仍為《農村地區居民人均可支配收入水平綜合評價》綜合實踐任務,實驗給定一個表格(見附件7),表格檔名為: 農村居民人均可支配收入來源2016.xlsx ,表格的資料為2016年我國31個省、自治區和直轄市的農村地區居民的工資性收入、經營淨收入、財產淨收入、轉移淨收入,要求學生根據每個省份的這四個指標資料,使用聚類技術,將居民收入分佈比較類似的省份劃分到一起。AI大模型平臺為前序實驗指導中的智譜清言(ChatGLM),之前註冊的賬號可以繼續使用。

本次實驗的程式碼可以分為三個部分,分別為:

  • (1) 上傳資料到智譜清言的“資料分析”智慧體中
  • (2) 使用合適的提示詞,讓該智慧體自動完成描述型資料分析
  • (3) 使用合適的提示詞,讓該智慧體自動完成聚類分析任務

3、實驗步驟

3.1 上傳表格檔案到"資料分析"智慧體中

AI大模型的智慧體(Agent)指的是一個能夠在特定環境中感知、決策和行動的自主系統。智譜清言的智慧體是基於其平臺的大語言模型GLM-4建立的,允許使用者無需程式設計經驗即可建立個性化的智慧體。這些智慧體能夠實現聊天、程式碼執行、資料分析等功能。由於資料分析功能的需求廣泛存在,所以智譜清言在其智慧體中心中預設已經配置好了“資料分析”智慧體。我們可以直接與這個智慧體進行互動。
步驟如下:

    1. 訪問 https://chatglm.cn/
    1. 在頁面中找到資料分析智慧體,點選進行該智慧體
    1. 將農村居民人均可支配收入來源2016.xlsx上傳到該智慧體中(在輸入框出有一個上傳按鈕,點選即可),並輸入下面的提示詞:
      Student:請基於該檔案裡面的資料內容,根據我下面的指令,完成任務。

不出意外的,“資料分析”智慧體會讀取我們上傳的表格,並自動的顯示錶格的前5行(這是“資料分析”智慧體的預設配置行為),並會給我們一些可以進行哪些任務的提示。

3.2 描述型資料分析:直接輸入下面的提示詞,讓ChatGLM完成下面的3個小任務

    1. 哪一個城市的工資性收入最高?
    1. 財產淨收入收入墊底的5個省份是哪些?
    1. 北京市農村居民的收入總和是多少?
    1. 自己再設計3個描述型資料分析的小任務,並設計對應的提示詞,和ChatGLM進行互動,將結果記錄在實驗手冊上

教師提示:在你和ChatGLM使用上面的提示詞進行互動的過程中,也許你未必能夠得到正確的結果。如果不正確,請修改提示詞,重新和ChatGLM進行互動,直到你獲得正確的結果。

3.3 零程式碼完成聚類分析任務

眾所周知,我國省份眾多,在經濟發展過程中,呈現明顯的區域性差異。在農村居民收入這一個指標上,也應該有類似的體現。為了驗證這一點結論,我們基於聚類分析的思想,利用ChatGLM完全零程式碼的完成任務,並讓ChatGLM幫助我們對聚類結果進行分析。輸入下面的提示詞。

Student: 基於該資料集,在農村居民收入這個指標上,哪些省份比較類似呢?
ChatGLM: 要確定哪些省份在農村居民收入方面比較相似,我們可以使用聚類分析。聚類分析可以幫助我們根據收入指標將省份分組,從而找出相似的省份群體。我們將使用以下步驟進行聚類分析:

  • 資料預處理:標準化資料,使每個特徵具有相同的尺度。
  • 選擇聚類演算法:在這裡,我們可以使用 K-means 聚類演算法。
  • 確定聚類數:使用肘部法則來確定最佳的聚類數。
  • 執行聚類:使用選定的聚類數執行 K-means 演算法。
  • 分析結果:分析聚類結果以確定哪些省份在收入方面相似。
    ......
    [ChatGLM回答完畢]

教師提示:下面的介紹基於教師與ChatGLM進行對話的結果,也許與你的不同,你需要結合自己與ChatGLM對話的結果進行分析
不出意外的話,ChatGLM可以幫助我們自動完成了聚類,預設的聚類數是3,將表格中的所有省份分成了3組,其中 群組1包括了“北京、天津、上海、浙江”,群組2包括了"河北、遼寧、江蘇、福建、山東、廣東",其餘省份被分在群組3。群組1包含了北京、天津、上海等經濟較發達的直轄市和浙江省,其工資性收入遠高於其他兩個群組,這可能反映了這些地區更高的經濟發展水平和工資水平。

假如你對這個聚類結果不滿意,想劃分為更多的類,比如4個,可以繼續和ChatGLM進行互動,使用下面的提示詞:
Student:設定聚類數量為4,重新完成上述過程。

教師提示:聚類本身屬於機器學習中的無監督學習方法,另外K均值聚類有一定的隨機性,聚類結果是否合理需要人手動來判斷

最終,透過你不停的設定提示詞和ChatGLM進行互動,將你認為合理的聚類結果記錄在實驗手冊上。

4. 實驗總結

  • (1) 請回答:在實驗中你收穫哪些AI技巧?
  • (2) 請回答:在實驗中你解決了哪些問題?
  • (3) 請回答:在實驗中你還存在哪些問題沒有解決?

5.附件1:表格資料

地區 工資性收入 經營淨收入 財產淨收入 轉移淨收入
北京 16637.5 2061.9 1350.1 2260
天津 12048.1 5309.4 893.7 1824.4
河北 6263.2 3970 257.5 1428.6
山西 5204.4 2729.9 149 1999.1
內蒙古 2448.9 6215.7 452.6 2491.7
遼寧 5071.2 5635.5 257.6 1916.4
吉林 2363.1 7558.9 231.8 1969.1
黑龍江 2430.5 6425.9 572.7 2402.6
上海 18947.9 1387.9 859.6 4325
江蘇 8731.7 5283.1 606 2984.8
浙江 14204.3 5621.9 661.8 2378.1
安徽 4291.4 4596.1 186.7 2646.2
福建 6785.2 5821.5 255.7 2136.9
江西 4954.7 4692.3 204.4 2286.4
山東 5569.1 6266.6 358.7 1759.7
河南 4228 4643.2 168 2657.6
湖北 4023 5534 158.6 3009.3
湖南 4946.2 4138.6 143.1 2702.5
廣東 7255.3 3883.6 365.8 3007.5
廣西 2848.1 4759.2 149.2 2603
海南 4764.9 5315.7 139.1 1623.1
重慶 3965.6 4150.1 295.8 3137.3
四川 3737.6 4525.2 268.5 2671.8
貴州 3211 3115.8 67.1 1696.3
雲南 2553.9 5043.7 152.2 1270.1
西藏 2204.9 5237.9 148.7 1502.3
陝西 3916 3057.9 159 2263.6
甘肅 2125 3261.4 128.4 1942
青海 2464.3 3197 325.2 2677.8
寧夏 3906.1 3937.5 291.8 1716.3
新疆 2527.1 5642 222.8 1791.3

相關文章