CS 7280資料庫管理專題2024春季專案3:大資料分析
目標:
1.瞭解Hadoop生態系統和資料分析
2.熟悉MapReduce程式設計和Spark
3.獲得大資料和資料分析研究經驗這將是一個為期一學期的小組專案(由兩名學生)。這樣做的主要目的專案是為了熟悉大資料平臺,包括Hadoop系統,MapReduce程式設計和基於雲的大資料解決方案(如谷歌大查詢)。你需要按照指示進行這個專案。
第一階段(15%):選擇資料集-截止日期:2024年3月27日(週三)
•每位學生研究您感興趣的任何資料,並收集有關資料的資訊。
•找到您選擇的資料的任何特徵,並描述您為什麼對感興趣
•如果可能,準備3~4個樣本資料,這些資料可以是真實資料,也可以是操縱資料一
•製作2-3頁的Powerpoint檔案作為報告
•將PPT檔案提交到Canvas
o僅PPT、PPTX或PDF檔案格式第二階段(15%):確定問題——截止日期:2024年4月3日(週三)
•在第二階段,您將根據您在階段1中選擇的資料:-您可以根據Hadoop HDFS使用所選資料分析什麼Spark和使用GCP的Google Big Query。
o 1個火花
o 1使用GCP的谷歌大查詢-如何收集至少1GB的資料。這意味著你的資料必須在第4-5階段使用VM上傳到HDFS。
•製作2-3頁的Powerpoint檔案作為報告
•將PPT檔案提交到Canvas
o僅PPT、PPTX或PDF檔案格式第三階段(20%):編制建議書——截止日期:2024年4月3日(週三)
•使用MS單詞模板準備提案:可以找到提案模板在Canvas
o僅限DOC、DOCX或PDF檔案格式
•準備並提交5~10頁的Powerpoint檔案用於演示
o僅PPT、PPTX或PDF檔案格式
•然後,向Canvas提交10分鐘的演示影片
o提交YouTube等連結,或使用Canvas錄製簡報
•在您的提案中,您需要考慮如何準備的最終交付成果
以下輸出
1.寫
2.原始碼
3.資料集
4.海報
**請注意,這是一個計劃,準備1~4以上。目前尚未實施。
•然後,將您的提案提交給Canvas
•準備5分鐘的提案演示(同時提交PPT檔案)
第4階段(25%):實施——截止日期:2024年4月10日(週三)
1.準備資料並上傳到HDFS。您可以使用多種方式來準備資料集包括:-使用每個網站提供的API,如Facebook API、Twitter API和Flickr API使用基準測試資料集,例如
o UCI資料集:http://archive.ics.uci.edu/ml/datasets.html
o維基百科資料庫:https://en.wikipedia.org/wiki/Database_testing政府資料庫
o美國人口普查資料:
http://factfinder.census.gov/faces/nav/jsf/pages/index.xhtml
o NOAA天氣資料:https://www.ncdc.noaa.gov/cdo-web/
-利用Web查詢實現資料採集程式
-合成資料集
-使用谷歌搜尋
2.您的資料集必須至少有100000個例項(或行)
3.將您的資料集上傳到HDFS(VM)
4.實現Spark或Big Query
-您可以將PySpark或任何Steaming與其他程式語言一起使用,例如
蟒蛇o 1個火花,或o 1大查詢
5.將原始碼提交到Canvas並下載資料集的連結-所有原始檔都應該使用TAR壓縮(例如,TAR cvf XXX.TAR)
VM(僅限JAR、TAR或ZIP檔案格式)-對於資料集,您可以將其上傳到Google Drive(或任何Web硬碟),然後提交原始碼時傳送連結
6.然後,向Canvas提交10分鐘的演示影片-提交一個連結,如YouTube,或使用Canvas錄製您的演示第5階段(25%):專案介紹——截止日期:2024年4月17日(週三)上課前。
1.寫作(至少4頁IEEE格式)。您必須使用IEEE格式。僅限DOC、DOCX或PDF檔案格式
2.海報(36 x 24英寸Powerpoint檔案)。您可以使用提供的模板之一畫布上。o僅PPT、PPTX或PDF檔案格式
3.將您的論文和海報提交到Canvas
4.製作8~10頁的Powerpoint檔案並提交給Canvas
o僅PPT、PPTX或PDF檔案格式
5.然後,在2022年4月27日(星期三)準備8分鐘的期末報告
屈服
您將使用Canvas提交您的程式。如果你在使用黑板方面有任何困難,您可以聯絡TA或講師。
CS 7280資料庫管理專題
相關文章
- IT專案管理 與 資料庫管理專案管理資料庫
- 主流NoSQL資料庫Redis專題SQL資料庫Redis
- MySql資料庫連線池專題MySql資料庫
- MySQL專題:資料庫垂直、水平拆分MySql資料庫
- 資料庫PostrageSQL-管理資料庫資料庫SQL
- 資料庫管理資料庫
- MySQL資料庫資料管理MySql資料庫
- Oracle___專題研究__資料庫壞塊Oracle資料庫
- 資料庫管理(ZT)資料庫
- Oracle資料庫管理Oracle資料庫
- 資料庫的管理資料庫
- 資料庫⽇志管理資料庫
- 資料庫歷史資料有效管理資料庫
- 資料庫雲容量管理資料庫
- 資料庫管理:DBeaverEE for Mac資料庫Mac
- linux 資料庫管理Linux資料庫
- MySQL資料庫管理4MySql資料庫
- DBA(資料庫管理員)資料庫
- 資料庫應用管理資料庫
- postgresql 資料庫基本管理SQL資料庫
- 資料庫管理丨10種不同的雲開發資料庫管理技巧資料庫
- 資料庫面試題資料庫面試題
- 資料庫試題資料庫
- 資料庫-刷題資料庫
- Oracle 資料庫 10g:自我管理資料庫Oracle資料庫
- 4 管理資料庫例項和叢集資料庫資料庫
- IT專家網 資料庫資料庫
- 【PG管理】postgresql資料庫管理相關SQL資料庫
- 使用OEM管理RAC資料庫——RAC管理資料庫
- 雲資料庫管理與資料遷移資料庫
- SpringBoot資料庫管理 - 用Liquibase對資料庫管理和遷移?Spring Boot資料庫UI
- 《資料資產》專題:什麼是《資料資產》?應該如何落地《資料資產管理與實施》?
- 1.1.1. 資料庫管理員資料庫
- 管理SQL Server資料庫安全SQLServer資料庫
- Navicat Premium 15 資料庫管理REM資料庫
- 資料庫的資訊保安管理資料庫
- 關於資料庫碎片管理資料庫
- phpAdmin資料庫管理套件PHP資料庫套件