大資料尋求幫助！

一身柚子味發表於2019-04-02

急急急急！！！最近在做一個大資料的比賽，樣題求幫助呀！！！

**
根據專案背景及專案需求內容描述，Data Solution公司決定委派大資料應用研發部，以專案需求為基礎，充分利用你們掌握的大資料技術與應用專業知識及專業核心技能，與其他小組配合構建資料採集與分析環境，完成資料分析系統的研發，同時，高質量的完成招聘需求分析報告，向客戶交付。
為了能夠順利完成專案，公司委派的專案經理已經制定了專案整體計劃，完成了專案工作任務拆分。按照專案的整體工作任務安排，分配給你們小組的任務如下：
任務一：平臺運維（15分）
當前，平臺組已完成了資料分析叢集環境的初步部署，叢集採用完全分散式部署，包括1臺master、2臺slave，已完成HDFS、Hive、Yarn、Zookeeper四個基礎元件的部署工作，資料分析叢集可正常執行，要求你們小組完成資料採集元件Flume的部署及配置，確保安裝後的元件能夠正常執行。

在slave1主機安裝資料採集元件Flume並啟動，通過命令檢視程式，確認Flume程式已啟動，確定Flume命令是當前系統的合法命令。
配置Flume Agent，按照以下要求進行引數設定：
（1）設定Flume監聽5555網路埠；
（2）將從網路埠接收到的資料落地到hdfs以下目錄下：
/raw_data/receive/
（3）檔名稱格式以[YYYYMMDD]_為字首；
（4）每接收10M資料落地一個檔案，當接收資料不足10M時，每15分鐘落地一個檔案。
執行Flume配置驗證程式（由競賽平臺提供），生成Flume驗證程式執行結果檔案。
注：本部分僅考核參賽選手大資料平臺運維能力，為避免賽題錯誤傳遞，本部分完成的Flume配置結果不作為後續任務執行基礎，不影響後續任務執行，競賽平臺可為未完成配置的參賽隊伍提供可正確執行的平臺。
任務二：資料採集與資料預處理（20分）
使用競賽平臺提供的網路爬蟲伺服器，編寫、配置網路爬蟲程式碼，配置資料採集系統介面，完成從提供的資料來源中採集資料，提交到競賽平臺。
注：本部分僅考核參賽選手資料採集技能，為避免賽題錯誤傳遞，本部分結果資料不作為後續任務輸入，不影響後續任務執行，競賽平臺可為未完成採集的參賽隊提供文字資料。
由參賽選手分析專案需求，充分考慮後續競賽任務的延續性及可實施性，自行完成資料來源選擇、資料採集模式設計、工作步驟及流程設計，完成資料採集工作。
任務三：資料清洗與分析（25分）
使用Java語言編寫MapReduce程式對落地到HDFS的原始資料進行清洗（原始資料中已包含職位描述的分詞結果），組裝成指定的資料格式後將清洗後的資料載入到Hive資料倉儲中，使用HQL語句對資料進行聚類分析。
編寫MapReduce程式，讀取並解析落地到HDFS 上/raw/receive目錄下的檔案資料，清洗職位名稱為空、職位描述為空、詞列表為空的資料，將清洗後的資料儲存在HDFS上/clean/目錄下，清洗後的職位資料各欄位用|分割。
從清洗後的檔案將清洗後的資料載入到Hive表中。
執行HQL命令，完成以下資料的分析統計：
（1）統計各崗位資料總量
（2）以天為單位統計崗位名稱為大資料的資料總量
（3）統計崗位名稱為大資料的關鍵詞的數量
注：本部分僅考核參賽選手資料清洗及分析能力，為避免賽題錯誤傳遞，本部分資料清洗及分析結果不作為後續任務執行基礎，不影響後續任務執行，競賽平臺可為未完成資料清洗及分析的參賽隊伍提供資料統計結果。
任務四：資料視覺化（20分）
大資料平臺已將統計資料推送到資料視覺化系統資料庫中，且資料視覺化頁面HTML、CSS已編寫完成，後臺處理程式腳手架已搭建完成。要求使用Python語言基於Flask開源框架完成資料視覺化後臺處理邏輯，完成資料訪問及組織，基於Jinja2模板引擎完成前端資料處理，向前端ECharts元件傳輸資料，最終實現資料視覺化。
基於Flask-SQLAlchemy框架編寫資料庫對映模型，完成崗位數量統計資料庫表結構對映模型、以天為單位的崗位數量統計資料庫表結構對映模型、崗位關鍵詞數量統計資料庫表結構對映模型。
編寫視覺化後臺處理程式，按照三個資料統計圖表的資料格式進行資料封裝，並將封裝後的資料傳遞到Jinja2模板的自定義變數中。
在前端頁面中，使用Jinja2模板引擎獲取相關統計圖表資料並傳遞給前端頁面中相應的EChart元件。
執行程式，訪問本地視覺化網頁URL，檢視資料視覺化Web頁面。
任務五：編制分析報告（15分）
根據資料視覺化顯示內容，分別對職位數量統計結果、大資料崗位數量趨勢及大資料崗位技術技能關鍵詞進行分析，對大資料行業市場需求進行判斷，提出大資料技術與應用專業培養目標建議（包括人才規模建議及技術技能建議）。

華為雲大資料，幫助企業搭好資料底座
2022-11-28
大資料
建議收藏！大資料分析如何幫助企業成長
2022-03-08
大資料
網頁抓取如何幫助資料分析？
2022-02-11
網頁
大資料和 CRM系統：它們如何幫助中小企業？
2023-04-18
大資料
營銷大資料如何幫助企業深入瞭解客戶
2023-02-02
大資料
jwt-auth中介軟體失效，請求幫助
2021-12-24
JWT
NineData幫助開發者用好資料和雲
2023-11-03
合合資訊陳青山：AI+大資料幫助企業擴張數字領土
2020-07-10
AI大資料
資料發現和零信任如何幫助防禦資料洩露
2021-07-30
【轉載】SAP 選擇螢幕中的搜尋幫助
2018-10-24
華為雲大資料BI解決方案，如何幫助企業精準營銷
2022-10-23
大資料
高效採集資料，幫助應用業務增長
2021-11-26
收藏 | 一文告訴你大資料分析對企業有什麼幫助
2022-04-21
大資料
商業智慧如何幫助企業進行資料處理？
2023-03-30
NPOI幫助類
2018-09-09
Linux幫助文件
2018-07-26
Linux
jdk幫助文件
2024-10-04
JDK
requests庫幫助
2018-04-14
幫助文件（五）
2020-12-04
大資料如何幫助人工智慧？
2019-06-03
大資料人工智慧
Linux設定中文幫助文件、常見目錄、幫助命令
2020-11-27
Linux
Linux 獲取幫助
2018-10-25
Linux
Hadoop幫助命令一
2018-05-22
Hadoop
jQuery 幫助文件 api
2018-08-30
jQueryAPI
部落格幫助文件
2019-12-11
平臺幫助文件
2020-09-25
學院幫助文件
2020-04-04
論壇幫助文件
2020-04-04
kafka官方幫助文件
2024-08-07
Kafka
Pgsql幫助類 netcore
2024-07-04
SQLNetCore
世紀難題！搞了一個星期也沒弄成，請求大神幫助！
2022-03-16
NLPIR中文資料探勘幫助企業執行最佳商業決策
2019-09-24
《美國醫學會雜誌》：研究發現更多的人正在為性侵犯尋求緊急醫療幫助數字激增1400%
2022-12-04
elasticsearch支援大table格式資料的搜尋
2021-09-07
Elasticsearch
字元操作普通幫助類
2018-10-17
字元
ELK相關幫助文件
2019-01-08
Vim官方的中文幫助！！
2018-08-20
C# HTTP幫助類
2024-04-02
C#HTTP

大資料尋求幫助！

相關文章