CS 7280資料庫管理專題2024春季專案3:大資料分析
目標:
1.瞭解Hadoop生態系統和資料分析
2.熟悉MapReduce程式設計和Spark
3.獲得大資料和資料分析研究經驗這將是一個為期一學期的小組專案(由兩名學生)。這樣做的主要目的專案是為了熟悉大資料平臺,包括Hadoop系統,MapReduce程式設計和基於雲的大資料解決方案(如谷歌大查詢)。你需要按照指示進行這個專案。
第一階段(15%):選擇資料集-截止日期:2024年3月27日(週三)
•每位學生研究您感興趣的任何資料,並收集有關資料的資訊。
•找到您選擇的資料的任何特徵,並描述您為什麼對感興趣
•如果可能,準備3~4個樣本資料,這些資料可以是真實資料,也可以是操縱資料一
•製作2-3頁的Powerpoint檔案作為報告
•將PPT檔案提交到Canvas
o僅PPT、PPTX或PDF檔案格式第二階段(15%):確定問題——截止日期:2024年4月3日(週三)
•在第二階段,您將根據您在階段1中選擇的資料:-您可以根據Hadoop HDFS使用所選資料分析什麼Spark和使用GCP的Google Big Query。
o 1個火花
o 1使用GCP的谷歌大查詢-如何收集至少1GB的資料。這意味著你的資料必須在第4-5階段使用VM上傳到HDFS。
•製作2-3頁的Powerpoint檔案作為報告
•將PPT檔案提交到Canvas
o僅PPT、PPTX或PDF檔案格式第三階段(20%):編制建議書——截止日期:2024年4月3日(週三)
•使用MS單詞模板準備提案:可以找到提案模板在Canvas
o僅限DOC、DOCX或PDF檔案格式
•準備並提交5~10頁的Powerpoint檔案用於演示
o僅PPT、PPTX或PDF檔案格式
•然後,向Canvas提交10分鐘的演示影片
o提交YouTube等連結,或使用Canvas錄製簡報
•在您的提案中,您需要考慮如何準備的最終交付成果
以下輸出
1.寫
2.原始碼
3.資料集
4.海報
**請注意,這是一個計劃,準備1~4以上。目前尚未實施。
•然後,將您的提案提交給Canvas
•準備5分鐘的提案演示(同時提交PPT檔案)
第4階段(25%):實施——截止日期:2024年4月10日(週三)
1.準備資料並上傳到HDFS。您可以使用多種方式來準備資料集包括:-使用每個網站提供的API,如Facebook API、Twitter API和Flickr API使用基準測試資料集,例如
o UCI資料集:http://archive.ics.uci.edu/ml/datasets.html
o維基百科資料庫:https://en.wikipedia.org/wiki/Database_testing政府資料庫
o美國人口普查資料:
http://factfinder.census.gov/faces/nav/jsf/pages/index.xhtml
o NOAA天氣資料:https://www.ncdc.noaa.gov/cdo-web/
-利用Web查詢實現資料採集程式
-合成資料集
-使用谷歌搜尋
2.您的資料集必須至少有100000個例項(或行)
3.將您的資料集上傳到HDFS(VM)
4.實現Spark或Big Query
-您可以將PySpark或任何Steaming與其他程式語言一起使用,例如
蟒蛇o 1個火花,或o 1大查詢
5.將原始碼提交到Canvas並下載資料集的連結-所有原始檔都應該使用TAR壓縮(例如,TAR cvf XXX.TAR)
VM(僅限JAR、TAR或ZIP檔案格式)-對於資料集,您可以將其上傳到Google Drive(或任何Web硬碟),然後提交原始碼時傳送連結
6.然後,向Canvas提交10分鐘的演示影片-提交一個連結,如YouTube,或使用Canvas錄製您的演示第5階段(25%):專案介紹——截止日期:2024年4月17日(週三)上課前。
1.寫作(至少4頁IEEE格式)。您必須使用IEEE格式。僅限DOC、DOCX或PDF檔案格式
2.海報(36 x 24英寸Powerpoint檔案)。您可以使用提供的模板之一畫布上。o僅PPT、PPTX或PDF檔案格式
3.將您的論文和海報提交到Canvas
4.製作8~10頁的Powerpoint檔案並提交給Canvas
o僅PPT、PPTX或PDF檔案格式
5.然後,在2022年4月27日(星期三)準備8分鐘的期末報告
屈服
您將使用Canvas提交您的程式。如果你在使用黑板方面有任何困難,您可以聯絡TA或講師。
CS 7280資料庫管理專題
相關文章
- MySQL專題:資料庫垂直、水平拆分MySql資料庫
- MySql資料庫連線池專題MySql資料庫
- 資料庫PostrageSQL-管理資料庫資料庫SQL
- MySQL資料庫資料管理MySql資料庫
- 資料庫管理-第125期 融合vs專用(202301221)資料庫
- 資料庫的管理資料庫
- 資料庫⽇志管理資料庫
- 資料庫與資料庫管理系統概述資料庫
- SpringBoot資料庫管理 - 用Liquibase對資料庫管理和遷移?Spring Boot資料庫UI
- phpMyAdmin管理資料庫和資料表PHP資料庫
- 資料庫管理:DBeaverEE for Mac資料庫Mac
- postgresql 資料庫基本管理SQL資料庫
- 資料庫雲容量管理資料庫
- 資料庫管理丨10種不同的雲開發資料庫管理技巧資料庫
- 資料庫-刷題資料庫
- 資料庫試題資料庫
- 全平臺資料(資料庫)管理工具 DataCap 管理 Rainbond 上的所有資料庫資料庫AI
- 資料庫管理-第122期 配置Halo資料庫(202301204)資料庫
- 資料庫管理-第120期 初探Halo資料庫(202301201)資料庫
- 【PG管理】postgresql資料庫管理相關SQL資料庫
- 資料庫的資訊保安管理資料庫
- 雲資料庫管理與資料遷移資料庫
- Oracle資料庫管理——表資料庫高水位及shrink操作Oracle資料庫
- SQL資料庫備份管理SQL資料庫
- Navicat Premium 15 資料庫管理REM資料庫
- 資料庫管理Valentina Studio Pro資料庫
- 1.1.1. 資料庫管理員資料庫
- PolarDB資料庫LVM管理配置資料庫LVM
- 管理SQL Server資料庫安全SQLServer資料庫
- 專業資料庫管理工具:Navicat for Oracle for Mac 中文版資料庫OracleMac
- 資料庫面試題資料庫面試題
- 《資料資產》專題:什麼是《資料資產》?應該如何落地《資料資產管理與實施》
- VMware Data Services Manager 2.1 - 資料庫管理和資料服務管理資料庫
- 達夢資料庫日常管理之問題處理筆記1資料庫筆記
- Oracle DG管理資料庫屬性Oracle資料庫
- 1.2 資料庫管理員職責資料庫
- 使用Flyway來管理資料庫版本資料庫
- 資料庫運維管理規範資料庫運維