CS 7280資料庫管理專題

jpbal66發表於2024-04-06

CS 7280資料庫管理專題2024春季專案3:大資料分析
目標:
1.瞭解Hadoop生態系統和資料分析
2.熟悉MapReduce程式設計和Spark
3.獲得大資料和資料分析研究經驗這將是一個為期一學期的小組專案(由兩名學生)。這樣做的主要目的專案是為了熟悉大資料平臺,包括Hadoop系統,MapReduce程式設計和基於雲的大資料解決方案(如谷歌大查詢)。你需要按照指示進行這個專案。
第一階段(15%):選擇資料集-截止日期:2024年3月27日(週三)
•每位學生研究您感興趣的任何資料,並收集有關資料的資訊。
•找到您選擇的資料的任何特徵,並描述您為什麼對感興趣
•如果可能,準備3~4個樣本資料,這些資料可以是真實資料,也可以是操縱資料一
•製作2-3頁的Powerpoint檔案作為報告
•將PPT檔案提交到Canvas
o僅PPT、PPTX或PDF檔案格式第二階段(15%):確定問題——截止日期:2024年4月3日(週三)
•在第二階段,您將根據您在階段1中選擇的資料:-您可以根據Hadoop HDFS使用所選資料分析什麼Spark和使用GCP的Google Big Query。
o 1個火花
o 1使用GCP的谷歌大查詢-如何收集至少1GB的資料。這意味著你的資料必須在第4-5階段使用VM上傳到HDFS。
•製作2-3頁的Powerpoint檔案作為報告
•將PPT檔案提交到Canvas
o僅PPT、PPTX或PDF檔案格式第三階段(20%):編制建議書——截止日期:2024年4月3日(週三)
•使用MS單詞模板準備提案:可以找到提案模板在Canvas
o僅限DOC、DOCX或PDF檔案格式
•準備並提交5~10頁的Powerpoint檔案用於演示
o僅PPT、PPTX或PDF檔案格式
•然後,向Canvas提交10分鐘的演示影片
o提交YouTube等連結,或使用Canvas錄製簡報
•在您的提案中,您需要考慮如何準備的最終交付成果
以下輸出
1.寫
2.原始碼
3.資料集
4.海報
**請注意,這是一個計劃,準備1~4以上。目前尚未實施。
•然後,將您的提案提交給Canvas
•準備5分鐘的提案演示(同時提交PPT檔案)
第4階段(25%):實施——截止日期:2024年4月10日(週三)
1.準備資料並上傳到HDFS。您可以使用多種方式來準備資料集包括:-使用每個網站提供的API,如Facebook API、Twitter API和Flickr API使用基準測試資料集,例如
o UCI資料集:http://archive.ics.uci.edu/ml/datasets.html
o維基百科資料庫:https://en.wikipedia.org/wiki/Database_testing政府資料庫
o美國人口普查資料:
http://factfinder.census.gov/faces/nav/jsf/pages/index.xhtml
o NOAA天氣資料:https://www.ncdc.noaa.gov/cdo-web/
-利用Web查詢實現資料採集程式
-合成資料集
-使用谷歌搜尋
2.您的資料集必須至少有100000個例項(或行)
3.將您的資料集上傳到HDFS(VM)
4.實現Spark或Big Query
-您可以將PySpark或任何Steaming與其他程式語言一起使用,例如
蟒蛇o 1個火花,或o 1大查詢
5.將原始碼提交到Canvas並下載資料集的連結-所有原始檔都應該使用TAR壓縮(例如,TAR cvf XXX.TAR)
VM(僅限JAR、TAR或ZIP檔案格式)-對於資料集,您可以將其上傳到Google Drive(或任何Web硬碟),然後提交原始碼時傳送連結
6.然後,向Canvas提交10分鐘的演示影片-提交一個連結,如YouTube,或使用Canvas錄製您的演示第5階段(25%):專案介紹——截止日期:2024年4月17日(週三)上課前。
1.寫作(至少4頁IEEE格式)。您必須使用IEEE格式。僅限DOC、DOCX或PDF檔案格式
2.海報(36 x 24英寸Powerpoint檔案)。您可以使用提供的模板之一畫布上。o僅PPT、PPTX或PDF檔案格式
3.將您的論文和海報提交到Canvas
4.製作8~10頁的Powerpoint檔案並提交給Canvas
o僅PPT、PPTX或PDF檔案格式
5.然後,在2022年4月27日(星期三)準備8分鐘的期末報告
屈服
您將使用Canvas提交您的程式。如果你在使用黑板方面有任何困難,您可以聯絡TA或講師。

相關文章