大資料尋求幫助!
**
急急急急!!!最近在做一個大資料的比賽,樣題求幫助呀!!!
**
根據專案背景及專案需求內容描述,Data Solution公司決定委派大資料應用研發部,以專案需求為基礎,充分利用你們掌握的大資料技術與應用專業知識及專業核心技能,與其他小組配合構建資料採集與分析環境,完成資料分析系統的研發,同時,高質量的完成招聘需求分析報告,向客戶交付。
為了能夠順利完成專案,公司委派的專案經理已經制定了專案整體計劃,完成了專案工作任務拆分。按照專案的整體工作任務安排,分配給你們小組的任務如下:
任務一:平臺運維(15分)
當前,平臺組已完成了資料分析叢集環境的初步部署,叢集採用完全分散式部署,包括1臺master、2臺slave,已完成HDFS、Hive、Yarn、Zookeeper四個基礎元件的部署工作,資料分析叢集可正常執行,要求你們小組完成資料採集元件Flume的部署及配置,確保安裝後的元件能夠正常執行。
- 在slave1主機安裝資料採集元件Flume並啟動,通過命令檢視程式,確認Flume程式已啟動,確定Flume命令是當前系統的合法命令。
- 配置Flume Agent,按照以下要求進行引數設定:
(1)設定Flume監聽5555網路埠;
(2)將從網路埠接收到的資料落地到hdfs以下目錄下:
/raw_data/receive/
(3)檔名稱格式以[YYYYMMDD]_為字首;
(4)每接收10M資料落地一個檔案,當接收資料不足10M時,每15分鐘落地一個檔案。 - 執行Flume配置驗證程式(由競賽平臺提供),生成Flume驗證程式執行結果檔案。
注:本部分僅考核參賽選手大資料平臺運維能力,為避免賽題錯誤傳遞,本部分完成的Flume配置結果不作為後續任務執行基礎,不影響後續任務執行,競賽平臺可為未完成配置的參賽隊伍提供可正確執行的平臺。
任務二:資料採集與資料預處理(20分)
使用競賽平臺提供的網路爬蟲伺服器,編寫、配置網路爬蟲程式碼,配置資料採集系統介面,完成從提供的資料來源中採集資料,提交到競賽平臺。
注:本部分僅考核參賽選手資料採集技能,為避免賽題錯誤傳遞,本部分結果資料不作為後續任務輸入,不影響後續任務執行,競賽平臺可為未完成採集的參賽隊提供文字資料。
由參賽選手分析專案需求,充分考慮後續競賽任務的延續性及可實施性,自行完成資料來源選擇、資料採集模式設計、工作步驟及流程設計,完成資料採集工作。
任務三:資料清洗與分析(25分)
使用Java語言編寫MapReduce程式對落地到HDFS的原始資料進行清洗(原始資料中已包含職位描述的分詞結果),組裝成指定的資料格式後將清洗後的資料載入到Hive資料倉儲中,使用HQL語句對資料進行聚類分析。 - 編寫MapReduce程式,讀取並解析落地到HDFS 上/raw/receive目錄下的檔案資料,清洗職位名稱為空、職位描述為空、詞列表為空的資料,將清洗後的資料儲存在HDFS上/clean/目錄下,清洗後的職位資料各欄位用|分割。
- 從清洗後的檔案將清洗後的資料載入到Hive表中。
- 執行HQL命令,完成以下資料的分析統計:
(1)統計各崗位資料總量
(2)以天為單位統計崗位名稱為大資料的資料總量
(3)統計崗位名稱為大資料的關鍵詞的數量
注:本部分僅考核參賽選手資料清洗及分析能力,為避免賽題錯誤傳遞,本部分資料清洗及分析結果不作為後續任務執行基礎,不影響後續任務執行,競賽平臺可為未完成資料清洗及分析的參賽隊伍提供資料統計結果。
任務四:資料視覺化(20分)
大資料平臺已將統計資料推送到資料視覺化系統資料庫中,且資料視覺化頁面HTML、CSS已編寫完成,後臺處理程式腳手架已搭建完成。要求使用Python語言基於Flask開源框架完成資料視覺化後臺處理邏輯,完成資料訪問及組織,基於Jinja2模板引擎完成前端資料處理,向前端ECharts元件傳輸資料,最終實現資料視覺化。 - 基於Flask-SQLAlchemy框架編寫資料庫對映模型,完成崗位數量統計資料庫表結構對映模型、以天為單位的崗位數量統計資料庫表結構對映模型、崗位關鍵詞數量統計資料庫表結構對映模型。
- 編寫視覺化後臺處理程式,按照三個資料統計圖表的資料格式進行資料封裝,並將封裝後的資料傳遞到Jinja2模板的自定義變數中。
- 在前端頁面中,使用Jinja2模板引擎獲取相關統計圖表資料並傳遞給前端頁面中相應的EChart元件。
- 執行程式,訪問本地視覺化網頁URL,檢視資料視覺化Web頁面。
任務五:編制分析報告(15分)
根據資料視覺化顯示內容,分別對職位數量統計結果、大資料崗位數量趨勢及大資料崗位技術技能關鍵詞進行分析,對大資料行業市場需求進行判斷,提出大資料技術與應用專業培養目標建議(包括人才規模建議及技術技能建議)。
相關文章
- 華為雲大資料,幫助企業搭好資料底座大資料
- 建議收藏!大資料分析如何幫助企業成長大資料
- 網頁抓取如何幫助資料分析?網頁
- 大資料和 CRM系統:它們如何幫助中小企業?大資料
- 營銷大資料如何幫助企業深入瞭解客戶大資料
- jwt-auth中介軟體失效,請求幫助JWT
- NineData幫助開發者用好資料和雲
- 合合資訊陳青山:AI+大資料 幫助企業擴張數字領土AI大資料
- 資料發現和零信任如何幫助防禦資料洩露
- 【轉載】SAP 選擇螢幕中的搜尋幫助
- 華為雲大資料BI解決方案,如何幫助企業精準營銷大資料
- 高效採集資料,幫助應用業務增長
- 收藏 | 一文告訴你大資料分析對企業有什麼幫助大資料
- 商業智慧如何幫助企業進行資料處理?
- jdk幫助文件JDK
- 幫助文件(五)
- NPOI幫助類
- Linux幫助文件Linux
- requests庫幫助
- 大資料如何幫助人工智慧?大資料人工智慧
- Linux設定中文幫助文件、常見目錄、幫助命令Linux
- kafka官方幫助文件Kafka
- Pgsql幫助類 netcoreSQLNetCore
- 部落格幫助文件
- 平臺幫助文件
- 學院幫助文件
- 論壇幫助文件
- Linux 獲取幫助Linux
- Hadoop幫助命令一Hadoop
- jQuery 幫助文件 apijQueryAPI
- 世紀難題!搞了一個星期也沒弄成,請求大神幫助!
- NLPIR中文資料探勘幫助企業執行最佳商業決策
- 《美國醫學會雜誌》:研究發現更多的人正在為性侵犯尋求緊急醫療幫助 數字激增1400%
- elasticsearch支援大table格式資料的搜尋Elasticsearch
- api和api幫助文件API
- C# HTTP幫助類C#HTTP
- 字元操作普通幫助類字元
- ELK相關幫助文件